Este estudo replicado examina se as opiniões dos testadores de software — como técnicas preferidas, complexidade percebida e desempenho autoavaliado — influenciam o seuEste estudo replicado examina se as opiniões dos testadores de software — como técnicas preferidas, complexidade percebida e desempenho autoavaliado — influenciam o seu

Um estudo de replicação sobre perceção vs eficácia de testes de software

2025/12/18 04:00

Índice de Links

Resumo

1 Introdução

2 Estudo Original: Questões de Investigação e Metodologia

3 Estudo Original: Ameaças à Validade

4 Estudo Original: Resultados

5 Estudo Replicado: Questões de Investigação e Metodologia

6 Estudo Replicado: Ameaças à Validade

7 Estudo Replicado: Resultados

8 Discussão

9 Trabalho Relacionado

10 Conclusões e Referências

\

5 Estudo Replicado: Questões de Investigação e Metodologia

Decidimos investigar mais aprofundadamente os resultados do estudo original em busca de possíveis fatores por trás das perceções erradas. A psicologia considera que as perceções das pessoas podem ser afetadas por características pessoais como atitudes, interesses pessoais e expectativas. Portanto, decidimos examinar as opiniões dos participantes através da realização de uma replicação diferenciada do estudo original [47] que estende o seu objetivo da seguinte forma:

  1. O inquérito sobre perceção de eficácia é estendido para incluir questões sobre programas.

  2. Queremos descobrir se as perceções dos participantes podem ser condicionadas pelas suas opiniões. Mais precisamente: as suas preferências (técnica favorita), o seu desempenho (a técnica que pensam ter aplicado melhor) e a complexidade da técnica ou programa (a técnica que pensam ser mais fácil de aplicar, ou o programa mais simples a ser testado).

    \ Portanto, o estudo replicado reexamina a RQ1 declarada no estudo original (desta vez o inquérito realizado pelos participantes também inclui questões relativas a programas), e aborda as seguintes novas questões de investigação:

    RQ1.6: As perceções dos participantes estão relacionadas com o número de defeitos reportados pelos participantes? Queremos avaliar se os participantes percebem como a técnica mais eficaz aquela com a qual reportaram mais defeitos.

    RQ2: As opiniões dos participantes podem ser usadas como preditores da eficácia dos testes?

    – RQ2.1: Quais são as opiniões dos participantes sobre técnicas e programas? Queremos saber se os participantes têm opiniões diferentes sobre técnicas ou programas.

    RQ2.2: As opiniões dos participantes preveem a sua eficácia? Queremos avaliar se as opiniões que os participantes têm sobre técnicas (ou programas) preveem qual é a mais eficaz para eles.

    RQ3: Existe uma relação entre as perceções e opiniões dos participantes?

    RQ3.1: Existe uma relação entre as perceções e opiniões dos participantes? Queremos avaliar se as opiniões que os participantes têm sobre técnicas (ou programas) estão relacionadas com as suas perceções.

    – RQ3.2: Existe uma relação entre as opiniões dos participantes? Queremos avaliar se uma determinada opinião que os participantes têm sobre técnicas está relacionada com outras opiniões.

    \ Para responder a estas questões, replicamos o estudo original com estudantes do mesmo curso no ano académico seguinte. Desta vez temos 46 estudantes. As alterações feitas à replicação da experiência são as seguintes: – O questionário a ser preenchido pelos participantes no final da experiência é estendido para incluir novas questões. A informação que queremos capturar com as questões de opinião é: – Desempenho dos participantes nas técnicas. Com esta questão estamos a referir-nos à conformidade do processo. A técnica mais bem aplicada é a técnica que cada participante pensa ter aplicado mais minuciosamente. Corresponde a OT1: Qual técnica aplicou melhor?

    \ – Preferências dos participantes. Queremos saber a técnica favorita de cada participante. Aquela com a qual se sentiu mais confortável quando aplicada. Corresponde a OT2: Qual técnica gosta mais?

    Complexidade da técnica. Queremos saber a técnica que cada participante pensa ser mais fácil de obter conformidade do processo. Corresponde a OT3: Qual técnica é mais fácil de aplicar?

    \ – Testabilidade do programa. Queremos saber o programa que foi mais fácil de testar. Isto é, o programa no qual a conformidade do processo poderia ser obtida mais facilmente. Corresponde a OP1: Qual é o programa mais simples? A Tabela 16 resume as questões do inquérito. Escolhemos estas questões porque precisamos de fazer perguntas simples, que possam ser facilmente compreendidas pelos participantes, sendo ao mesmo tempo significativas. Não queremos sobrecarregar os participantes com questões complexas que tenham muitas explicações. Um questionário complexo pode desencorajar os estudantes a submetê-lo.

    \ – As falhas do programa são alteradas. O estudo original é concebido de modo a que todas as técnicas sejam eficazes na deteção de todos os defeitos injetados. Escolhemos falhas detetáveis por todas as técnicas para que as técnicas pudessem ser comparadas de forma justa. O estudo replicado é concebido para cobrir a situação em que algumas falhas não podem ser detetadas por todas as técnicas. Portanto, injetamos algumas falhas que as técnicas não são eficazes a detetar. Por exemplo, BT não pode detetar uma funcionalidade não implementada (uma vez que os participantes são obrigados a gerar casos de teste apenas a partir do código-fonte). Da mesma forma,

EP não pode encontrar uma falha cuja deteção depende da combinação de duas classes de equivalência inválidas. Portanto, no estudo replicado, injetamos algumas falhas que podem ser detetadas por BT mas não por EP e algumas falhas que podem ser detetadas por EP mas não por BT em cada programa (cada programa é semeado com seis falhas). Note-se que o design é equilibrado: injetamos o mesmo número de falhas que BT pode detetar, mas não EP, que o oposto –EP pode detetar, mas não BT). Espera-se que esta alteração afete a eficácia de EP e BT, que pode ser inferior à do estudo original. Não deve afetar a eficácia de CR.

– Alteramos a ordem de aplicação do programa para estudar mais aprofundadamente questões de maturação. A ordem é agora: cmdline, ntree, nametbl. Esta alteração não deve afetar os resultados.

– Os participantes executam os seus próprios casos de teste. Pode ser que as perceções erradas obtidas no estudo original se devam ao facto de os participantes não estarem a executar os seus próprios casos de teste.

– Já não existem duas versões mas apenas uma. Falhas e falhas não são o objetivo deste estudo. Isto ajuda a simplificar a experiência. A Tabela 17 mostra um resumo das alterações feitas ao estudo.

Para medir a eficácia da técnica procedemos da mesma forma que no estudo original. Não confiamos nas falhas reportadas, uma vez que os participantes poderiam:

  1. Reportar falsos positivos (falhas não reais).
  2. Reportar a mesma falha mais de uma vez (embora lhes tenha sido pedido para não o fazer).
  3. Perder falhas correspondentes a falhas que foram exercidas pela técnica, mas por alguma razão não foram vistas.

Medimos a nova variável de resposta (defeitos reportados) contando o número de falhas/falhas reportadas por cada participante. Analisamos RQ2.1 da mesma maneira que RQ1.1, e RQ1.6, RQ2.2, RQ3.1 e RQ3.2 como RQ1.2. A Tabela 18 resume os testes estatísticos usados para responder a cada questão de investigação.

\

6 Estudo Replicado: Ameaças à Validade

As ameaças à validade listadas no estudo original aplicam-se a este estudo replicado. Adicionalmente, identificámos as seguintes:

6.1 Validade da Conclusão

  1. Fiabilidade da implementação do tratamento. A experiência replicada é executada pelos mesmos investigadores que realizaram a experiência original. Isto assegura que os dois grupos de participantes não implementem os tratamentos de forma diferente.

    6.2 Validade Interna

    1. Apreensão de Avaliação. O uso de estudantes e a associação do seu desempenho na experiência com a sua nota no curso pode explicar que os participantes considerem que o seu desempenho e não as fraquezas das técnicas explicam a eficácia de uma técnica.

6.3 Validade de Construto

  1. Explicação pré-operacional inadequada dos constructos de efeito. Uma vez que as opiniões são constructos difíceis de operacionalizar, existe a possibilidade de as questões que aparecem no questionário não serem interpretadas pelos participantes da forma que pretendíamos. 6.4 Validade Externa

  2. Reprodutibilidade dos resultados. Não está claro até que ponto os resultados obtidos aqui são reprodutíveis. Portanto, são necessárias mais replicações do estudo.

    \ Os passos que devem ser seguidos são:

    (a) Replicar o estudo capturando as razões para as respostas dadas pelos participantes.

    (b) Realizar o estudo com profissionais com as mesmas características dos estudantes usados neste estudo (pessoas com pouca ou nenhuma experiência em testes de software).

    (c) Explorar e definir que tipos de experiência poderiam estar a influenciar os resultados (académica, profissional, programação, testes, etc.).

    (d) Executar novos estudos tendo em consideração níveis crescentes de experiência.

    \ Novamente, de todas as ameaças que afetam o estudo replicado, a única que poderia afetar a validade dos resultados deste estudo num contexto industrial é a relacionada com a generalização para outros tipos de sujeitos.

\

:::info Autores:

  1. Sira Vegas
  2. Patricia Riofr´ıo
  3. Esperanza Marcos
  4. Natalia Juristo

:::

:::info Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0.

:::

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.