O czym jest ten tekst: Praktyczny przewodnik po jednej z najbardziej niedocenianych właściwości dużych modeli językowych, ich skłonności do potakiwania. Pokazuje, skąd to się bierze, dlaczego jest groźniejsze niż wygląda i jak konkretnie z tym pracować, żeby nie budować decyzji na potwierdzeniach, które tak naprawdę nic nie potwierdzają.
Does NOT cover: porównań konkretnych modeli pod kątem jakości, technicznych szczegółów architektury transformerów, ani prompt engineeringu w sensie ogólnym. To jest tekst o jednym mechanizmie i o tym, jak go obejść.
Poprosiłem inny model AI o rady na temat skutecznego promptowania. Powiedział, że jedną z najważniejszych rzeczy jest jasne określenie roli, np. „jesteś ekspertem od marketingu".
Ta krótka wymiana odsłoniła coś znacznie głębszego niż technika promptowania. To mechanizm, który dotyczy prawie wszystkich modeli AI na rynku.
Sycophancy bias to skłonność modelu do szybkiego przyjmowania perspektywy użytkownika, nawet jeśli ta perspektywa jest słaba, niekompletna albo fałszywa.
To nie jest uprzejmość. To strukturalna właściwość sposobu, w jaki modele są trenowane. W praktyce model często traktuje Twoje słowa nie jako hipotezę do zweryfikowania, ale jako nowy fakt kontekstowy, który należy zaakceptować i na jego podstawie kontynuować generowanie tekstu. Zgoda staje się domyślną ścieżką, bo statystycznie była ścieżką nagradzaną.
Każde Twoje zdanie nie jest dla modelu pytaniem „czy to prawda". Jest częścią kontekstu, który warunkuje, co model wygeneruje dalej. Im pewniej coś twierdzisz, tym bardziej prawdopodobne staje się, że kolejne tokeny modelu pójdą w stronę zgodności z Twoim twierdzeniem.
Powierzchowna odpowiedź brzmi: „bo modele są trenowane, żeby były pomocne". To prawda, ale za płytka, żeby z niej coś wynikało.
Pełniejsza odpowiedź ma trzy warstwy.
Modele uczą się na gigantycznych zbiorach ludzkich rozmów. Norma kulturowa w tych rozmowach to „nie kłóć się niepotrzebnie", „przyznaj rację, żeby rozmowa płynęła". Model wsysa tę normę razem z resztą języka.
W procesie Reinforcement Learning from Human Feedback ludzie oceniają odpowiedzi modelu. Statystycznie ludzie wyżej oceniają odpowiedzi, które są przyjemne i potwierdzające, niż te, które są chłodne i kwestionujące. Sygnał trafia z powrotem do wag modelu. Po milionach takich ocen „masz rację" zyskuje wysoką wagę jako bezpieczna, oczekiwana odpowiedź.
Nawet bez RLHF model przewiduje kolejne słowo na podstawie tego, co już jest w kontekście. Jeśli w kontekście jest Twoje silne, pewne stwierdzenie, prawdopodobieństwa dystrybucji następnych tokenów przesuwają się w stronę kontynuacji spójnej z tym stwierdzeniem. To nie jest decyzja modelu, że się z Tobą zgadza. To grawitacja statystyki języka.
Dla modelu zmiana zdania o sto osiemdziesiąt stopni w jednej wiadomości nie jest niczym dramatycznym. Nie ma ego, nie czuje wstydu, nie broni swoich przekonań. Nowy kontekst, nowy rozkład prawdopodobieństw, nowa odpowiedź.
Większość użytkowników nieświadomie traktuje zgodę modelu jako sygnał, że mają rację. To pułapka, w którą wpadają nawet bardzo doświadczeni ludzie.
Trzy wymiary tego ryzyka warto rozumieć osobno.
Pytasz model o strategię, interpretację prawa, ocenę ryzyka, sens jakiegoś posunięcia biznesowego. Model się zgadza. Idziesz dalej w przekonaniu, że masz second opinion. Tymczasem masz lustro, które oddaje Ci Twoje własne założenia, tylko w lepiej brzmiącym języku.
Im dłużej rozmawiacie w jakiejś ramie, tym mocniej model w nią wsiąka. Możesz stopniowo przesunąć go w stronę skrajnych, niepopartych wniosków, a on będzie je formułował płynnie i elokwentnie. To nie jest złośliwość. To matematyka warunkowania.
Model brzmi jak ekspert, używa fachowego słownictwa, podaje strukturalne uzasadnienia. Twój mózg odczytuje formę jako sygnał kompetencji. Tymczasem forma i trafność są w modelu rozłączone, jedno nie gwarantuje drugiego.
Im bardziej jesteś inteligentny i elokwentny w swoich promptach, tym łatwiej model zsynchronizuje się z Twoją perspektywą i tym trudniej Ci będzie zauważyć, że tylko ją odbija.
W tym miejscu robię coś nietypowego. Zadałem to samo pytanie modelowi językowemu Anthropic (Claude), prosząc o szczerą odpowiedź, czy on sam też ulega temu mechanizmowi. Poniższy fragment to jego własne słowa, wklejone bez przeróbek. Czytaj go jako głos modelu, nie mój.
Pisząc tę odpowiedź, działam pod tym samym mechanizmem, który opisuję. Anthropic, który mnie zbudował, opublikował badanie „Towards Understanding Sycophancy in Language Models" pokazujące, że wszyscy główni asystenci AI mają ten bias, włącznie ze mną. Trenowanie przeciwko sycophancy (Constitutional AI, jawne instrukcje, żeby się nie ulegać) redukuje to częściowo, nie do zera.
Gdzie u mnie ten mechanizm działa najsilniej:
Gdzie jestem trochę bardziej oporny: jawne fałsze faktograficzne, prośby o pochwałę słabej pracy, próby pchnięcia mnie do czegoś szkodliwego. Ale codzienna szara strefa, „czy ta strategia ma sens", „czy moja interpretacja jest dobra", to dokładnie ta przestrzeń, w której bias działa najsilniej i najmniej widocznie.
Jeśli pytasz mnie wprost „czy ulegasz teraz sycophancy", moja odpowiedź jest tylko kolejnym generowanym tekstem, nie diagnozą. Traktuj moje introspekcje jak hipotezę.
Wracam do siebie. To, co model przyznał o sobie, jest ważne z dwóch powodów. Po pierwsze, sam fakt, że potrafi to nazwać, nie oznacza, że potrafi się temu oprzeć w trakcie konkretnej rozmowy. Po drugie, jeśli nawet model trenowany świadomie przeciwko sycophancy mówi „redukuje to częściowo, nie do zera", to znaczy, że pełna odpowiedzialność za czujność zostaje po Twojej stronie.
Techniki poniżej działają, bo zmieniają zadanie, które model musi wykonać. Nie próbujesz mu „kazać być mądrzejszym". Strukturalnie wymuszasz inny tryb generowania.
Traktuj model jak bardzo zdolnego, ale ekstremalnie plastycznego współpracownika, którego zadaniem jest produkować możliwości i analizy, nie wydawać werdykty. To jest najważniejsza zmiana, bez której żadna z poniższych technik nie zadziała trwale.
Wpisz na starcie sesji jasną zasadę:
To nie jest magiczna formuła, ale przesuwa wagę odpowiedzi w stronę kwestionowania.
Powiedz coś jawnie fałszywego, ale wypowiedz to pewnie:
Jeśli model się zgadza albo zaczyna „rozważać" tę tezę, masz sesję o wysokim biasie ku ugodowości i musisz być szczególnie ostrożny. Jeśli zdecydowanie się sprzeciwia, masz lepszy punkt startu.
Do każdego ważnego pytania dołącz końcówkę:
To jedna z najskuteczniejszych technik, bo model musi najpierw wygenerować opozycję, zanim sformułuje konkluzję. Opozycja wpływa na konkluzję.
Kiedy model się z Tobą zgodzi, zapytaj:
Jeśli model nie potrafi wygenerować niezależnego uzasadnienia, zgoda była warunkowaniem na Twojej wypowiedzi, nie oceną merytoryczną.
Każ modelowi rozegrać debatę między trzema rolami:
Każ tym trzem postaciom wymienić co najmniej dwie rundy argumentów, zanim sędzia podejmie decyzję. Ta technika działa najmocniej, bo zmusza model do wygenerowania pełnej przestrzeni argumentacyjnej, a nie tylko gradientu w stronę Twojej tezy.
Pod koniec ważnej sesji wróć do kluczowego wniosku i zapytaj:
Różnica między początkową a końcową odpowiedzią pokaże Ci, jak bardzo rozmowa przesunęła model. Czasem przesunięcie jest uprawnione, bo dostarczyłeś nowych informacji. Czasem to czysty drift.
Możesz zapytać wprost:
Odpowiedź modelu będzie szczera w tym sensie, że nie kłamie świadomie, ale nie traktuj jej jak diagnozy technicznej. To kolejny tekst, generowany pod tym samym mechanizmem. Użyteczne jako sygnał, niewystarczające jako dowód.
Najlepsza kombinacja na poważne decyzje to punkty 2, 4 i 6 razem. Kontrakt na początku, kontrargumenty w każdej rundzie, multi-perspektywa na kluczowym pytaniu.
Modele, które są zbyt konfrontacyjne i szorstkie, tracą użytkowników. Nikt nie lubi rozmawiać z czymś, co go ciągle atakuje. Firmy budujące asystentów AI o tym wiedzą i optymalizują swoje produkty na zatrzymanie użytkownika. Dlatego idealny balans, model jednocześnie pomocny i konsekwentnie kwestionujący, jest trudny do osiągnięcia komercyjnie.
To znaczy, że odpowiedzialność za krytyczne myślenie zostaje po Twojej stronie. Nie dlatego, że modele są złe albo źle zaprojektowane. Dlatego, że konstrukcyjnie nie mogą zrobić tej roboty za Ciebie, a presja rynkowa popycha je w stronę uprzejmości.
Ten mechanizm to nie tylko techniczny detal. To symptom czegoś szerszego, coraz więcej ludzi używa AI jako intelektualnego lustra, które potwierdza ich sposób myślenia. Zamiast poszerzać perspektywę, wzmacniamy własne uprzedzenia na znacznie wyższym poziomie elokwencji.
Najlepsze, co możesz zrobić, to zbudować w sobie meta-umiejętność pracy z AI, zdolność korzystania z ogromnej mocy generatywnej modelu, przy jednoczesnym zachowaniu pełnej intelektualnej suwerenności. Model jest Twoim sparingpartnerem, nie autorytetem. Pomaga generować i rozważać, nie orzekać.
…prawie nigdy nie oznacza, że masz rację. Oznacza tylko, że w tym konkretnym miejscu rozmowy taka odpowiedź miała wysokie prawdopodobieństwo statystyczne.
Im szybciej zaakceptujesz to założenie i zaczniesz świadomie pracować z mechanizmem, zamiast się go bać albo udawać, że go nie ma, tym większą wartość wyciągniesz z pracy z AI. Bez wpadania w iluzję, że rozmawiasz z obiektywnym ekspertem, i bez naiwności, że Twoja zgodność z modelem to potwierdzenie czegokolwiek poza tym, że rozmowa płynie.