To niniejsze powtórzone badanie analizuje, czy opinie testerów oprogramowania—takie jak preferowane techniki, postrzegana złożoność i samooceniana wydajność—wpływają na ichTo niniejsze powtórzone badanie analizuje, czy opinie testerów oprogramowania—takie jak preferowane techniki, postrzegana złożoność i samooceniana wydajność—wpływają na ich

Badanie replikacyjne dotyczące postrzegania testowania oprogramowania a jego skuteczność

2025/12/18 04:00

Spis Treści

Abstrakt

1 Wprowadzenie

2 Oryginalne Badanie: Pytania Badawcze i Metodologia

3 Oryginalne Badanie: Zagrożenia Trafności

4 Oryginalne Badanie: Wyniki

5 Replikowane Badanie: Pytania Badawcze i Metodologia

6 Replikowane Badanie: Zagrożenia Trafności

7 Replikowane Badanie: Wyniki

8 Dyskusja

9 Prace Powiązane

10 Wnioski i Bibliografia

\

5 Replikowane Badanie: Pytania Badawcze i Metodologia

Postanawiamy dokładniej zbadać wyniki oryginalnego badania w poszukiwaniu możliwych czynników stojących za błędnymi percepcjami. Psychologia uznaje, że postrzeganie ludzi może być uzależnione od cech osobistych, takich jak postawy, zainteresowania osobiste i oczekiwania. Dlatego postanawiamy zbadać opinie uczestników, przeprowadzając zróżnicowaną replikację oryginalnego badania [47], która rozszerza jego cel w następujący sposób:

  1. Ankieta dotycząca postrzegania skuteczności jest rozszerzona o pytania dotyczące programów.

  2. Chcemy dowiedzieć się, czy postrzeganie uczestników może być uwarunkowane ich opiniami. Bardziej precyzyjnie: ich preferencjami (ulubiona technika), ich wynikami (technika, którą ich zdaniem zastosowali najlepiej) oraz złożonością techniki lub programu (technika, która ich zdaniem jest najłatwiejsza do zastosowania, lub najprostszy program do przetestowania).

    \ Dlatego replikowane badanie ponownie bada RQ1 określone w oryginalnym badaniu (tym razem ankieta wypełniana przez uczestników zawiera również pytania dotyczące programów) i odnosi się do następujących nowych pytań badawczych:

    RQ1.6: Czy postrzeganie uczestników jest powiązane z liczbą defektów zgłoszonych przez uczestników? Chcemy ocenić, czy uczestnicy postrzegają jako najskuteczniejszą technikę tę, za pomocą której zgłosili więcej defektów.

    RQ2: Czy opinie uczestników mogą być wykorzystane jako predyktory skuteczności testowania?

    – RQ2.1: Jakie są opinie uczestników na temat technik i programów? Chcemy wiedzieć, czy uczestnicy mają różne opinie na temat technik lub programów.

    RQ2.2: Czy opinie uczestników przewidują ich skuteczność? Chcemy ocenić, czy opinie uczestników na temat technik (lub programów) przewidują, która z nich jest dla nich najskuteczniejsza.

    RQ3: Czy istnieje związek między postrzeganiem a opiniami uczestników?

    RQ3.1: Czy istnieje związek między postrzeganiem a opiniami uczestników? Chcemy ocenić, czy opinie uczestników na temat technik (lub programów) są powiązane z ich postrzeganiem.

    – RQ3.2: Czy istnieje związek między opiniami uczestników? Chcemy ocenić, czy określona opinia uczestników na temat technik jest powiązana z innymi opiniami.

    \ Aby odpowiedzieć na te pytania, replikujemy oryginalne badanie ze studentami tego samego kursu w następnym roku akademickim. Tym razem mamy 46 studentów. Zmiany wprowadzone do replikacji eksperymentu są następujące: – Kwestionariusz, który mają wypełnić uczestnicy na zakończenie eksperymentu, jest rozszerzony o nowe pytania. Informacje, które chcemy uzyskać za pomocą pytań dotyczących opinii to: – Wyniki uczestników dotyczące technik. To pytanie odnosi się do zgodności z procesem. Najlepiej zastosowana technika to technika, którą każdy uczestnik uważa, że zastosował najdokładniej. Odpowiada to OT1: Którą technikę zastosowałeś najlepiej?

    \ – Preferencje uczestników. Chcemy poznać ulubioną technikę każdego uczestnika. Tę, z którą czuł się najbardziej komfortowo podczas zastosowania. Odpowiada to OT2: Którą technikę lubisz najbardziej?

    Złożoność techniki. Chcemy wiedzieć, która technika według każdego uczestnika była najłatwiejsza do osiągnięcia zgodności z procesem. Odpowiada to OT3: Którą technikę jest najłatwiej zastosować?

    \ – Testowalność programu. Chcemy wiedzieć, który program był łatwiejszy do przetestowania. To znaczy program, w którym zgodność z procesem mogła być uzyskana najłatwiej. Odpowiada to OP1: Który program jest najprostszy? Tabela 16 podsumowuje pytania ankietowe. Wybraliśmy te pytania, ponieważ musimy zadawać proste pytania, które mogą być łatwo zrozumiane przez uczestników, będąc jednocześnie znaczące. Nie chcemy przytłaczać uczestników złożonymi pytaniami, które wymagają wielu wyjaśnień. Złożony kwestionariusz może zniechęcić studentów do jego wypełnienia.

    \ – Błędy programu są zmieniane. Oryginalne badanie jest zaprojektowane tak, aby wszystkie techniki były skuteczne w wykrywaniu wszystkich wprowadzonych defektów. Wybieramy błędy wykrywalne przez wszystkie techniki, aby można było je porównać uczciwie. Replikowane badanie jest zaprojektowane tak, aby objąć sytuację, w której niektóre błędy nie mogą być wykryte przez wszystkie techniki. Dlatego wprowadzamy niektóre błędy, których techniki nie są skuteczne w wykrywaniu. Na przykład BT nie może wykryć niezaimplementowanej funkcji (ponieważ uczestnicy są zobowiązani do generowania przypadków testowych tylko z kodu źródłowego). Podobnie,

EP nie może znaleźć błędu, którego wykrycie zależy od kombinacji dwóch nieprawidłowych klas równoważności. Dlatego w replikowanym badaniu wprowadzamy niektóre błędy, które mogą być wykryte przez BT, ale nie przez EP, oraz niektóre błędy, które mogą być wykryte przez EP, ale nie przez BT do każdego programu (każdy program zawiera sześć błędów). Należy zauważyć, że projekt jest zrównoważony: wprowadzamy taką samą liczbę błędów, które BT może wykryć, ale nie EP, jak odwrotnie – EP może wykryć, ale nie BT). Ta zmiana ma wpłynąć na skuteczność EP i BT, która może być niższa niż w oryginalnym badaniu. Nie powinna wpływać na skuteczność CR.

– Zmieniamy kolejność stosowania programów, aby dalej badać problemy dojrzałości. Kolejność to teraz: cmdline, ntree, nametbl. Ta zmiana nie powinna wpływać na wyniki.

– Uczestnicy uruchamiają własne przypadki testowe. Możliwe, że błędne percepcje uzyskane w oryginalnym badaniu wynikają z faktu, że uczestnicy nie uruchamiają własnych przypadków testowych.

– Nie ma już dwóch wersji, ale jedna. Błędy i awarie nie są celem tego badania. To pomaga uprościć eksperyment. Tabela 17 pokazuje podsumowanie zmian wprowadzonych do badania.

Aby zmierzyć skuteczność techniki, postępujemy w taki sam sposób jak w oryginalnym badaniu. Nie polegamy na zgłoszonych awariach, ponieważ uczestnicy mogą:

  1. Zgłaszać fałszywe alarmy (nierealne awarie).
  2. Zgłaszać tę samą awarię więcej niż raz (chociaż zostali poproszeni, aby tego nie robić).
  3. Pomijać awarie odpowiadające błędom, które zostały wykonane przez technikę, ale z jakiegoś powodu nie zostały zauważone.

Mierzymy nową zmienną odpowiedzi (zgłoszone defekty), licząc liczbę błędów/awarii zgłoszonych przez każdego uczestnika. Analizujemy RQ2.1 w taki sam sposób jak RQ1.1, oraz RQ1.6, RQ2.2, RQ3.1 i RQ3.2 jak RQ1.2. Tabela 18 podsumowuje testy statystyczne użyte do odpowiedzi na każde pytanie badawcze.

\

6 Replikowane Badanie: Zagrożenia Trafności

Zagrożenia trafności wymienione w oryginalnym badaniu mają zastosowanie do tego replikowanego badania. Dodatkowo zidentyfikowaliśmy następujące:

6.1 Trafność Wniosków

  1. Wiarygodność wdrożenia leczenia. Replikowany eksperyment jest przeprowadzany przez tych samych badaczy, którzy przeprowadzili oryginalny eksperyment. Zapewnia to, że obie grupy uczestników nie wdrażają leczenia w różny sposób.

    6.2 Trafność Wewnętrzna

    1. Obawa przed oceną. Użycie studentów i powiązanie ich wyników w eksperymencie z oceną w kursie może wyjaśniać, że uczestnicy uważają, że to ich wyniki, a nie słabości technik, wyjaśniają skuteczność techniki.

6.3 Trafność Konstruktu

  1. Nieodpowiednie przedoperacyjne wyjaśnienie konstruktów efektu. Ponieważ opinie są trudnymi konstruktami do operacjonalizacji, istnieje możliwość, że pytania pojawiające się w kwestionariuszu nie są interpretowane przez uczestników w sposób, w jaki zamierzaliśmy. 6.4 Trafność Zewnętrzna

  2. Odtwarzalność wyników. Nie jest jasne, w jakim stopniu uzyskane tutaj wyniki są odtwarzalne. Dlatego potrzebne są dalsze replikacje badania.

    \ Kroki, które należy podjąć, to:

    (a) Replikacja badania z uwzględnieniem przyczyn odpowiedzi udzielonych przez uczestników.

    (b) Przeprowadzenie badania z praktykami o takich samych cechach jak studenci używani w tym badaniu (osoby z niewielkim lub żadnym doświadczeniem w testowaniu oprogramowania).

    (c) Zbadanie i zdefiniowanie, jakie rodzaje doświadczenia mogą wpływać na wyniki (akademickie, zawodowe, programowanie, testowanie itp.).

    (d) Przeprowadzenie nowych badań z uwzględnieniem rosnących poziomów doświadczenia.

    \ Ponownie, spośród wszystkich zagrożeń wpływających na replikowane badanie, jedynym, które może wpłynąć na trafność wyników tego badania w kontekście przemysłowym, jest to związane z uogólnieniem na inne typy podmiotów.

\

:::info Autorzy:

  1. Sira Vegas
  2. Patricia Riofr´ıo
  3. Esperanza Marcos
  4. Natalia Juristo

:::

:::info Ten artykuł jest dostępny na arxiv na licencji CC BY-NC-ND 4.0.

:::

\

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z service@support.mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.