Aplikacje i oprogramowanie

ChatGPT nie radzi sobie z pytaniami programistycznymi. Na co drugie odpowiada błędnie

Według badań przeprowadzonych przez naukowców z Purdue University, ChatGPT od OpenAI generuje niepoprawne odpowiedzi na 52% pytań dotyczących inżynierii oprogramowania. Aplikacja ma mieć kłopoty ze zrozumieniem dużej części konceptów programistycznych.

Jakub Rusak

ChatGPT nie radzi sobie z pytaniami programistycznymi. Na co drugie odpowiada błędnie

ChatGPT a inżynieria oprogramowania – liczba błędów zaskakuje

Zasada ograniczonego zaufania powinna przyświecać każdemu, kto próbuje znaleźć w ChatGPT odpowiedzi na dowolne pytania, a zwłaszcza, jeśli są to pytania z dziedziny inżynierii oprogramowania. Jak bowiem wykazało nowe badanie naukowców z Purdue University, popularna aplikacja firmy OpenAI odpowiada niepoprawnie aż na 52% promptów z tego zakresu.

Badacze doszli do takich wniosków na podstawie analizy odpowiedzi udzielonych przez ChatGPT na 517 pytań zamieszczonych na platformie Stack Overflow. Pod uwagę brano jednak nie tylko ich poprawność, ale też spójność i zwięzłość. I tu programowi poszło jeszcze gorzej, ponieważ aż 77% odpowiedzi zakwalifikowano jako „niepotrzebnie rozwlekłe” i zbyt formalne.

– Mimo to odpowiedzi ChatGPT są nadal preferowane w 39,34% przypadków ze względu na ich wszechstronność i wyrazisty styl językowy. Jednak wśród zestawu preferowanych odpowiedzi ChatGPT, aż 77% było błędnych – czytamy w podsumowaniu wniosków z badania.

Co istotne, naukowcy odkryli, że 54% błędów aplikacji wynikało z niezrozumienia podstawowych koncepcji programistycznych zawartych w pytaniach, a z kolei w przypadkach, gdy to nie stanowiło problemu, ChatGPT nie pojmował mechanizmów rozwiązywania problemów.

– W wielu przypadkach widzieliśmy, jak ChatGPT daje rozwiązanie, kod lub formułę bez przewidywania lub myślenia o wyniku. Inżynieria promptów może być do pewnego stopnia pomocna w celu zrozumienia tych problemów, ale wciąż jest to niewystarczające, jeśli chodzi o wprowadzanie logicznego rozumowania do dużych modeli językowych. Dlatego tak istotne jest zrozumienie błędów koncepcyjnych takiego oprogramowania – dodali badacze.

Podkreślili też, że ich nowe odkrycia uwypuklają potrzebę regularnej i skrupulatnej korekty błędów w ChatGPT, a jednocześnie pomagają zwiększyć świadomość użytkowników na temat potencjalnego ryzyka związanego z pozornie dokładnymi odpowiedziami.

Kategorie i tagi:

Aplikacje i oprogramowanie Narzędzia IT AI Przyszłość jest teraz Technologia ChatGPT Wiadomości

Autor

Redaktor naczelny Digitized. Z dziennikarstwem związany prawie jedną trzecią swojego życia; pracował dla polskich wydań magazynów Playboy, CKM i Esquire oraz serwisów Well.pl i naTemat.pl. Prywatnie poszukiwacz sensu w bezsensie i ładu pośród entropii. Lubi mądre słowa.

Zobacz materiały

)

[[TAGS]]

[[TITLE]]

[[EXCERPT]]

[[TAGS]]

[[TITLE]]

[[EXCERPT]]

Zarejestruj się

[[TEMPLATE_EXCLUSIVE]] •

[[AUTHOR]]

[[TEMPLATE_ICON]] [[TAG1_NAME]] •

[[AUTHOR]]

Czytaj dalej

Przegląd tygodnia 27.02: Microsoft inwestuje w Mistral AI; powstanie polska fabryka półprzewodników?

Zarejestruj się •

Jakub Rusak

Przegląd tygodnia 27.02: Microsoft inwestuje w Mistral AI; powstanie polska fabryka półprzewodników?

Microsoft zainwestował we francuski startup Mistral AI, VIGO Photonics może zbudować polską fabrykę półprzewodników, a PFR Ventures zasiliło 150 mln zł cztery polskie fundusze VC. Czym jeszcze żyliśmy w minionym tygodniu?

Przegląd tygodnia 5.03: Le Chat – nowy konkurent ChatGPT; co z AI od Apple; Musk pozywa Altmana

Zarejestruj się •

Jakub Rusak

Przegląd tygodnia 5.03: Le Chat – nowy konkurent ChatGPT; co z AI od Apple; Musk pozywa Altmana

Francuski MistralAI wypuścił wersję beta swojego chatbota, Elon Musk pozwał OpenAI, a Google ma kolejne kłopoty. Czym jeszcze żyliśmy w minionym tygodniu?

Przegląd tygodnia 16.01: lęki i obawy polskich firm; MFW ostrzega przed AI

Zarejestruj się •

Jakub Rusak

Przegląd tygodnia 16.01: lęki i obawy polskich firm; MFW ostrzega przed AI

Obawy polskich małych i średnich przedsiębiorców w 2024 r., Międzynarodowy Fundusz Walutowy ostrzega przed AI, a Revolutowi grożą wielomilionowe kary za naruszenia prywatności. Czym jeszcze żyliśmy w minionym tygodniu?

Sora, Gemini 1.5, Chat with RTX – genAI weszła na kolejny poziom

Zarejestruj się •

Jakub Rusak

Przegląd tygodnia 20.02: Sora, Gemini 1.5, Chat with RTX; Akt o Usługach Cyfrowych (DSA)

NVIDIA zaprezentowała Chat with RTX, OpenAI – model Sora, a Google – Gemini 1.5. Tymczasem 17 lutego zaczął obowiązywać unijny Akt o Usługach Cyfrowych (DSA). Czym jeszcze żyliśmy w minionym tygodniu?