ChatGPT nie radzi sobie z pytaniami programistycznymi. Na co drugie odpowiada błędnie
ChatGPT a inżynieria oprogramowania – liczba błędów zaskakuje
Zasada ograniczonego zaufania powinna przyświecać każdemu, kto próbuje znaleźć w ChatGPT odpowiedzi na dowolne pytania, a zwłaszcza, jeśli są to pytania z dziedziny inżynierii oprogramowania. Jak bowiem wykazało nowe badanie naukowców z Purdue University, popularna aplikacja firmy OpenAI odpowiada niepoprawnie aż na 52% promptów z tego zakresu.
Badacze doszli do takich wniosków na podstawie analizy odpowiedzi udzielonych przez ChatGPT na 517 pytań zamieszczonych na platformie Stack Overflow. Pod uwagę brano jednak nie tylko ich poprawność, ale też spójność i zwięzłość. I tu programowi poszło jeszcze gorzej, ponieważ aż 77% odpowiedzi zakwalifikowano jako „niepotrzebnie rozwlekłe” i zbyt formalne.
– Mimo to odpowiedzi ChatGPT są nadal preferowane w 39,34% przypadków ze względu na ich wszechstronność i wyrazisty styl językowy. Jednak wśród zestawu preferowanych odpowiedzi ChatGPT, aż 77% było błędnych – czytamy w podsumowaniu wniosków z badania.
Co istotne, naukowcy odkryli, że 54% błędów aplikacji wynikało z niezrozumienia podstawowych koncepcji programistycznych zawartych w pytaniach, a z kolei w przypadkach, gdy to nie stanowiło problemu, ChatGPT nie pojmował mechanizmów rozwiązywania problemów.
– W wielu przypadkach widzieliśmy, jak ChatGPT daje rozwiązanie, kod lub formułę bez przewidywania lub myślenia o wyniku. Inżynieria promptów może być do pewnego stopnia pomocna w celu zrozumienia tych problemów, ale wciąż jest to niewystarczające, jeśli chodzi o wprowadzanie logicznego rozumowania do dużych modeli językowych. Dlatego tak istotne jest zrozumienie błędów koncepcyjnych takiego oprogramowania – dodali badacze.
Podkreślili też, że ich nowe odkrycia uwypuklają potrzebę regularnej i skrupulatnej korekty błędów w ChatGPT, a jednocześnie pomagają zwiększyć świadomość użytkowników na temat potencjalnego ryzyka związanego z pozornie dokładnymi odpowiedziami.