Cette étude répliquée examine si les opinions des testeurs de logiciels—telles que les techniques préférées, la complexité perçue et la performance auto-évaluée—influencent leurCette étude répliquée examine si les opinions des testeurs de logiciels—telles que les techniques préférées, la complexité perçue et la performance auto-évaluée—influencent leur

Une étude de réplication sur la perception des tests logiciels vs l'efficacité

Table des liens

Abstrait

1 Introduction

2 Étude originale : Questions de recherche et méthodologie

3 Étude originale : Menaces à la validité

4 Étude originale : Résultats

5 Étude répliquée : Questions de recherche et méthodologie

6 Étude répliquée : Menaces à la validité

7 Étude répliquée : Résultats

8 Discussion

9 Travaux connexes

10 Conclusions et références

\

5 Étude répliquée : Questions de recherche et méthodologie

Nous décidons d'approfondir les résultats de l'étude originale à la recherche des facteurs possibles derrière les perceptions erronées. La psychologie considère que les perceptions des personnes peuvent être affectées par des caractéristiques personnelles telles que les attitudes, les intérêts personnels et les attentes. Par conséquent, nous décidons d'examiner les opinions des participants en menant une réplication différenciée de l'étude originale [47] qui étend son objectif comme suit :

  1. L'enquête sur la perception de l'efficacité est étendue pour inclure des questions sur les programmes.

  2. Nous voulons déterminer si les perceptions des participants pourraient être conditionnées par leurs opinions. Plus précisément : leurs préférences (technique préférée), leur performance (la technique qu'ils pensent avoir le mieux appliquée) et la complexité de la technique ou du programme (la technique qu'ils pensent être la plus facile à appliquer, ou le programme le plus simple à tester).

    \ Par conséquent, l'étude répliquée réexamine la RQ1 énoncée dans l'étude originale (cette fois, l'enquête réalisée par les participants inclut également des questions concernant les programmes), et aborde les nouvelles questions de recherche suivantes :

    RQ1.6 : Les perceptions des participants sont-elles liées au nombre de défauts signalés par les participants ? Nous voulons évaluer si les participants perçoivent comme la technique la plus efficace celle avec laquelle ils ont signalé le plus de défauts.

    RQ2 : Les opinions des participants peuvent-elles être utilisées comme prédicteurs de l'efficacité des tests ?

    – RQ2.1 : Quelles sont les opinions des participants sur les techniques et les programmes ? Nous voulons savoir si les participants ont des opinions différentes sur les techniques ou les programmes.

    RQ2.2 : Les opinions des participants prédisent-elles leur efficacité ? Nous voulons évaluer si les opinions que les participants ont sur les techniques (ou les programmes) prédisent laquelle est la plus efficace pour eux.

    RQ3 : Existe-t-il une relation entre les perceptions et les opinions des participants ?

    RQ3.1 : Existe-t-il une relation entre les perceptions et les opinions des participants ? Nous voulons évaluer si les opinions que les participants ont sur les techniques (ou les programmes) sont liées à leurs perceptions.

    – RQ3.2 : Existe-t-il une relation entre les opinions des participants ? Nous voulons évaluer si une certaine opinion que les participants ont sur les techniques est liée à d'autres opinions.

    \ Pour répondre à ces questions, nous répliquons l'étude originale avec des étudiants du même cours l'année académique suivante. Cette fois, nous avons 46 étudiants. Les modifications apportées à la réplication de l'expérience sont les suivantes : – Le questionnaire à compléter par les participants à la fin de l'expérience est étendu pour inclure de nouvelles questions. Les informations que nous voulons capturer avec les questions d'opinion sont : – La performance des participants sur les techniques. Avec cette question, nous faisons référence à la conformité du processus. La technique la mieux appliquée est la technique que chaque participant pense avoir appliquée le plus rigoureusement. Elle correspond à OT1 : Quelle technique avez-vous le mieux appliquée ?

    \ – Préférences des participants. Nous voulons connaître la technique préférée de chaque participant. Celle avec laquelle il/elle s'est senti(e) le plus à l'aise lors de l'application. Elle correspond à OT2 : Quelle technique préférez-vous ?

    Complexité de la technique. Nous voulons connaître la technique que chaque participant pense être la plus facile pour obtenir la conformité du processus. Elle correspond à OT3 : Quelle technique est la plus facile à appliquer ?

    \ – Testabilité du programme. Nous voulons connaître le programme qui était le plus facile à tester. C'est-à-dire, le programme dans lequel la conformité du processus pouvait être obtenue le plus facilement. Cela correspond à OP1 : Quel est le programme le plus simple ? Le tableau 16 résume les questions de l'enquête. Nous avons choisi ces questions parce que nous devons poser des questions simples, qui peuvent être facilement comprises par les participants, tout en étant significatives. Nous ne voulons pas submerger les participants avec des questions complexes qui ont beaucoup d'explications. Un questionnaire complexe pourrait décourager les étudiants de le soumettre.

    \ – Les défauts du programme sont modifiés. L'étude originale est conçue de sorte que toutes les techniques soient efficaces pour trouver tous les défauts injectés. Nous choisissons des défauts détectables par toutes les techniques afin que les techniques puissent être comparées équitablement. L'étude répliquée est conçue pour couvrir la situation dans laquelle certains défauts ne peuvent pas être détectés par toutes les techniques. Par conséquent, nous injectons certains défauts que les techniques ne sont pas efficaces à détecter. Par exemple, BT ne peut pas détecter une fonctionnalité non implémentée (car les participants sont tenus de générer des cas de test à partir du code source uniquement). De même,

EP ne peut pas trouver un défaut dont la détection dépend de la combinaison de deux classes d'équivalence invalides. Par conséquent, dans l'étude répliquée, nous injectons certains défauts qui peuvent être détectés par BT mais pas par EP et certains défauts qui peuvent être détectés par EP mais pas par BT dans chaque programme (chaque programme contient six défauts). Notez que la conception est équilibrée : nous injectons le même nombre de défauts que BT peut détecter, mais pas EP, que l'inverse – EP peut détecter, mais pas BT). Ce changement devrait affecter l'efficacité de EP et BT, qui pourrait être inférieure à celle de l'étude originale. Cela ne devrait pas affecter l'efficacité de CR.

– Nous modifions l'ordre d'application du programme pour étudier davantage les problèmes de maturation. L'ordre est maintenant : cmdline, ntree, nametbl. Ce changement ne devrait pas affecter les résultats.

– Les participants exécutent leurs propres cas de test. Il se pourrait que les perceptions erronées obtenues dans l'étude originale soient dues au fait que les participants n'exécutent pas leurs propres cas de test.

– Il n'y a plus deux versions mais une seule. Les défauts et les échecs ne sont pas l'objectif de cette étude. Cela aide à simplifier l'expérience. Le tableau 17 présente un résumé des modifications apportées à l'étude.

Pour mesurer l'efficacité de la technique, nous procédons de la même manière que dans l'étude originale. Nous ne nous fions pas aux échecs signalés, car les participants pourraient :

  1. Signaler des faux positifs (échecs non réels).
  2. Signaler le même échec plus d'une fois (bien qu'on leur ait demandé de ne pas le faire).
  3. Manquer des échecs correspondant à des défauts qui ont été exercés par la technique, mais qui pour une raison quelconque n'ont pas été vus.

Nous mesurons la nouvelle variable de réponse (défauts signalés) en comptant le nombre de défauts/échecs signalés par chaque participant. Nous analysons RQ2.1 de la même manière que RQ1.1, et RQ1.6, RQ2.2, RQ3.1 et RQ3.2 comme RQ1.2. Le tableau 18 résume les tests statistiques utilisés pour répondre à chaque question de recherche.

\

6 Étude répliquée : Menaces à la validité

Les menaces à la validité énumérées dans l'étude originale s'appliquent à cette étude répliquée. De plus, nous avons identifié les suivantes :

6.1 Validité des conclusions

  1. Fiabilité de la mise en œuvre du traitement. L'expérience répliquée est menée par les mêmes chercheurs qui ont réalisé l'expérience originale. Cela garantit que les deux groupes de participants ne mettent pas en œuvre les traitements différemment.

    6.2 Validité interne

    1. Appréhension de l'évaluation. L'utilisation d'étudiants et l'association de leur performance dans l'expérience avec leur note dans le cours pourraient expliquer que les participants considèrent que leur performance et non les faiblesses des techniques expliquent l'efficacité d'une technique.

6.3 Validité de construction

  1. Explication préopérationnelle inadéquate des constructions d'effet. Étant donné que les opinions sont des constructions difficiles à opérationnaliser, il existe la possibilité que les questions apparaissant dans le questionnaire ne soient pas interprétées par les participants de la manière que nous avions prévue. 6.4 Validité externe

  2. Reproductibilité des résultats. Il n'est pas clair dans quelle mesure les résultats obtenus ici sont reproductibles. Par conséquent, davantage de réplications de l'étude sont nécessaires.

    \ Les étapes à suivre sont :

    (a) Répéter l'étude en capturant les raisons des réponses données par les participants.

    (b) Réaliser l'étude avec des praticiens ayant les mêmes caractéristiques que les étudiants utilisés dans cette étude (personnes ayant peu ou pas d'expérience en test de logiciels).

    (c) Explorer et définir quels types d'expérience pourraient influencer les résultats (académique, professionnelle, programmation, tests, etc.).

    (d) Mener de nouvelles études en prenant en considération des niveaux d'expérience croissants.

    \ Encore une fois, de toutes les menaces affectant l'étude répliquée, la seule qui pourrait affecter la validité des résultats de cette étude dans un contexte industriel est celle liée à la généralisation à d'autres types de sujets.

\

:::info Auteurs :

  1. Sira Vegas
  2. Patricia Riofr´ıo
  3. Esperanza Marcos
  4. Natalia Juristo

:::

:::info Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0.

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.