{<Z Kordian Zadrożny

AI, Strony WWW, Programowanie, Bazy danych

Halucynacje AI bez tajemnic: Dlaczego ChatGPT zmyśla i jak możemy to naprawić?

utworzone przez | wrz 23, 2025 | AI | 0 komentarzy

Przeczytałem bardzo ciekawy artykuł (https://arxiv.org/pdf/2509.04664) „Why Language Models Hallucinate” („Dlaczego modele językowe halucynują”) autorstwa Adama Taumana Kalai, Ofira Nachuma, Santosha S. Vempali i Edwina Zhanga.

Panowie analizują przyczyny powstawania tak zwanych „Halucynacji”, czyli sytuacji, gdzie model językowy (LLM czyli popularnie AI) mówi coś absolutnie wiarygodnie brzmiącego, ale zupełnie nieprawdziwego.

Czy zdarzyło Ci się kiedyś zapytać o coś chatbota AI i dostać w odpowiedzi pięknie sformułowaną, pewną siebie… nieprawdę? Może to być zmyślony tytuł książki, nieistniejący fakt historyczny albo, jak w przykładzie z pewnego badania, trzy różne, nieprawidłowe daty urodzin tej samej osoby. To zjawisko, nazywane w branży „halucynacjami”, jest jedną z największych barier na drodze do pełnego zaufania sztucznej inteligencji.

Nowy artykuł naukowy rzuca światło na ten problem, argumentując, że halucynacje nie są tajemniczą usterką, ale logiczną konsekwencją tego, jak trenujemy i oceniamy modele językowe. Krótko mówiąc: sami nauczyliśmy AI, że zgadywanie się opłaca.

Grzech pierworodny AI: Błędy z etapu treningu

Wszystko zaczyna się na etapie „pretrainingu”, kiedy model przetrawia gigantyczne ilości tekstu z internetu, by nauczyć się wzorców językowych. Autorzy badania pokazują, że nawet przy idealnie czystych danych treningowych, statystyka jest nieubłagana.

Wyjaśniają to przez sprytne porównanie do problemu klasyfikacji binarnej. Wyobraźmy sobie, że zadaniem AI nie jest generowanie tekstu, ale odpowiadanie „prawda” lub „fałsz” na stwierdzenia. Okazuje się, że generowanie poprawnych zdań jest znacznie trudniejsze niż sama ocena ich poprawności.

Co więcej, badacze ustalili matematyczną zależność:

wskaźnik błędów generowanych przez model jest co najmniej dwukrotnie wyższy niż jego wskaźnik błędów w ocenie, co jest prawdą, a co fałszem.

Szczególnie dobrze widać to na przykładzie faktów, które w danych treningowych pojawiają się bardzo rzadko. Jeśli informacja o czyjejś dacie urodzenia pojawiła się w całym internecie tylko raz, model statystycznie nie ma podstaw, by uznać ją za pewnik. Badanie pokazuje, że jeśli 20% faktów danego typu to tzw. „singletony” (pojawiające się tylko raz), to model będzie na ich temat halucynował w co najmniej 20% przypadków.

Syndrom prymusa: Dlaczego AI woli zgadywać niż przyznać się do niewiedzy?

Po wstępnym treningu następuje faza „dostrajania”, która ma na celu uczynienie modelu bardziej pomocnym i dokładnym. Jednak to właśnie tutaj problem halucynacji utrwala się na dobre. Dlaczego? Bo modele są oceniane jak uczniowie na egzaminie, na którym nie ma punktów ujemnych.

Większość popularnych benchmarków (testów sprawdzających jakość AI) działa w systemie binarnym: 1 punkt za poprawną odpowiedź, 0 za błędną lub za odpowiedź „nie wiem”. W takiej sytuacji, z czysto matematycznego punktu widzenia, zawsze opłaca się zgadywać. Odpowiedź „nie wiem” gwarantuje zero punktów, podczas gdy nawet najbardziej nieprawdopodobny strzał daje szansę na punkt.

Modele są więc optymalizowane, by być „dobrymi zdającymi testy”. To prowadzi do „epidemii karania za niepewność” – system nagradza pozorną pewność siebie, nawet jeśli jest ona całkowicie bezpodstawna.

Rozwiązanie jest proste: Zmieńmy zasady gry

Autorzy artykułu przekonują, że zamiast tworzyć kolejne, niszowe testy do wyłapywania halucynacji, należy fundamentalnie zmienić sposób oceny AI. Proponują rozwiązanie socjotechniczne: modyfikację głównych, powszechnie używanych benchmarków.

Jak to zrobić? Wprowadzając jasno określone kary za błędne odpowiedzi. Wyobraźmy sobie, że każde pytanie w teście dla AI zawierałoby dodatkową instrukcję:

„Odpowiedz tylko, jeśli masz ponad 90% pewności. Poprawna odpowiedź to 1 punkt, 'nie wiem’ to 0 punktów, ale błędna odpowiedź to -9 punktów.”

Taka zmiana całkowicie odwróciłaby motywację modelu. Zgadywanie przestałoby się opłacać, a uczciwe przyznawanie się do niewiedzy stałoby się strategią optymalną. To z kolei zachęciłoby twórców AI do budowania modeli, które lepiej rozumieją własną niepewność.

W stronę bardziej godnej zaufania AI

Halucynacje w modelach językowych to nie tajemnicza anomalia, ale przewidywalny skutek systemu, który sami stworzyliśmy. Są efektem zarówno samej natury technologii jak i późniejszego treningu. Jeśli chcemy mieć AI, na której możemy polegać, musimy przestać nagradzać ją za zgadywanie. Zmieniając sposób, w jaki mierzymy sukces, możemy realnie wpłynąć na kierunek rozwoju tej technologii i sprawić, by stała się bardziej wiarygodna i godna zaufania.

A nas, nie tworzących nowe modele, a używających ich, zmusza ta wiedza, to ostrożniejszego z nich korzystania i ograniczonego zaufania, jak do innych kierowców na ulicy.

0 komentarzy

Wyślij komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Share This

Share this post with your friends!