Prompting / co naprawdę działa
Samo nadanie modelowi persony eksperta nie poprawia jego faktycznej dokładności. Model nie staje się mądrzejszy dlatego, że napiszesz mu, że jest ekspertem. Może brzmieć profesjonalnie i odpowiadać pewniejszym tonem, ale to nie znaczy, że odpowiedź będzie bardziej poprawna.
Przez długi czas w promptingu funkcjonowała jedna zasada: zacznij od nadania modelowi roli. „Jesteś ekspertem od marketingu". „Jesteś menedżerem sprzedaży". „Jesteś prawnikiem". Podejście stało się popularne, bo jest łatwe, intuicyjne i daje poczucie, że dobrze ustawiamy model do zadania.
To rozróżnienie jest ważne dla każdego, kto używa AI w pracy. Prompting nie polega na nadawaniu modelowi atrakcyjnej etykiety. Polega na dobrym zdefiniowaniu zadania, które model ma wykonać. A żeby zrozumieć, dlaczego tak jest, warto przyjrzeć się temu, jak model w ogóle przetwarza prompt.
Dowody
Zespół Generative AI Labs przy Wharton School sprawdził, czy persona eksperta poprawia trafność odpowiedzi na trudne pytania. Raport nosi tytuł Prompting Science Report 4: Playing Pretend: Expert Personas Don't Improve Factual Accuracy. Autorzy to Savir Basil, Ina Shapiro, Dan Shapiro, Ethan Mollick, Lilach Mollick i Lennart Meincke.
Przetestowano sześć modeli AI na dwóch wymagających benchmarkach: GPQA Diamond i MMLU-Pro. To zestawy pytań wielokrotnego wyboru z fizyki, chemii, biologii, inżynierii i prawa. Celem nie było sprawdzenie, czy model brzmi lepiej, tylko czy częściej trafia w poprawną odpowiedź.
Porównano cztery warianty promptów. Bazowy bez persony. Persona eksperta dopasowana do domeny, na przykład „jesteś ekspertem od fizyki" przy pytaniach z fizyki. Persona eksperta niedopasowana do domeny. Oraz persony niskiej wiedzy, takie jak laik, dziecko czy małe dziecko.
Persony eksperckie nie poprawiały stabilnie trafności odpowiedzi w stosunku do promptu bez persony. W większości przypadków rezultaty były podobne. Persony niskiej wiedzy często pogarszały wyniki. Persony niedopasowane do domeny czasem powodowały, że model ograniczał odpowiedzi albo wręcz odmawiał, ponieważ zbyt sztywno trzymał się narzuconej roli.
Pod maską
Żeby zrozumieć, dlaczego persona nie poprawia dokładności, trzeba zajrzeć pod maskę. Duży model językowy, taki jak GPT, Claude czy Gemini, nie posiada wewnętrznego „trybu eksperta", który można odblokować odpowiednim hasłem. Model został wytrenowany na jednym fundamentalnym zadaniu: przewidywaniu kolejnego tokenu w sekwencji.
W praktyce wygląda to tak. Twój prompt jest dzielony na tokeny, czyli małe fragmenty tekstu, najczęściej pojedyncze słowa, części słów albo znaki interpunkcyjne. Model dostaje tę sekwencję i dla każdej kolejnej pozycji wylicza rozkład prawdopodobieństwa nad całym swoim słownikiem, który liczy kilkadziesiąt tysięcy tokenów. Wybiera jeden z najbardziej prawdopodobnych, dopisuje go do sekwencji i powtarza proces. Tak powstaje cała odpowiedź, token po tokenie.
Cała „wiedza" modelu siedzi w wagach sieci neuronowej, które są zamrożone po treningu. Prompt nie dodaje wiedzy. Prompt zmienia tylko warunki, na których model wylicza prawdopodobieństwa kolejnych tokenów. Inaczej mówiąc, kontekst, który wprowadzasz, decyduje o tym, które wzorce z danych treningowych zostaną aktywowane w generowanej odpowiedzi.
Mechanizm
Trening modelu składa się z kilku etapów: pretreningu na ogromnych zbiorach tekstu z internetu, instruction tuningu na parach instrukcja-odpowiedź oraz RLHF, czyli douczania na podstawie ludzkich preferencji. Na żadnym z tych etapów model nie uczy się, że „ekspert wie więcej niż laik". Uczy się tylko, jak wygląda tekst pisany w stylu eksperckim, jak wygląda tekst dla początkujących, jak brzmi profesjonalny ton, a jak casual.
Gdy piszesz „jesteś ekspertem od fizyki", przesuwasz rozkład prawdopodobieństwa kolejnych tokenów w kierunku tych, które statystycznie częściej pojawiały się w treningowych tekstach o charakterze eksperckim. Model będzie używał bardziej technicznego słownictwa, dłuższych zdań, większej liczby terminów branżowych. Brzmienie się zmieni.
Ale zawartość merytoryczna pozostaje taka sama. Model nie ma ukrytej puli faktów dostępnej tylko dla „eksperta". Jeżeli odpowiedź na pytanie z fizyki jest zakodowana w wagach modelu, dostaniesz ją również bez persony. Jeżeli jej tam nie ma, persona jej nie dostarczy. W skrajnych przypadkach persona może nawet pogorszyć wynik, bo model wygeneruje pewnie brzmiącą halucynację zamiast przyznać, że nie wie. Ton eksperta zwiększa prawdopodobieństwo tokenów wyrażających pewność, niezależnie od tego, czy fakty są poprawne.
Co działa zamiast tego
Funkcja, czyli czasownik operacyjny opisujący konkretne działanie, działa inaczej niż persona. Nie udaje statusu, tylko ustawia mechanizm generowania.
Gdy w promptcie znajduje się polecenie „Analizujesz proces sprzedaży i wskazujesz miejsca utraty klientów", model aktywuje wzorce kojarzone z analizą procesów. Z danych treningowych „wie", jak wygląda taki tekst: rozbicie na etapy, identyfikacja zmiennych, wskazanie przyczyn, propozycje korekt. Instrukcja jednoznacznie zawęża pole prawdopodobnych kontynuacji.
„Jesteś ekspertem od sprzedaży" otwiera setki możliwych kierunków. Model może zacząć od definicji sprzedaży, od jej historii, od ogólnych zasad albo od opowieści o doświadczeniu zawodowym. Każda z tych kontynuacji jest statystycznie sensowna jako „odpowiedź eksperta". Bez funkcji nie wiesz, którą dostaniesz, i nie masz nad tym kontroli.
Konkretna funkcja zmniejsza entropię w rozkładzie prawdopodobieństwa, którą model pokonuje przy każdym kolejnym tokenie. Mniej szumu, więcej kierunku.
Pozorna sprzeczność
Na pierwszy rzut oka wygląda na sprzeczność. Z jednej strony badanie pokazuje, że persona eksperta nie poprawia dokładności. Z drugiej w zalecanej strukturze promptu dla modeli takich jak GPT-5.5 pojawia się sekcja Role.
Sprzeczność jest pozorna. Wszystko zależy od tego, co rozumiemy przez „Role". W dobrej strukturze promptu rola nie oznacza „udawaj zawód", tylko: zdefiniuj funkcję modelu w konkretnym zadaniu.
Pełna struktura wygląda zwykle tak:
Role: [1-2 sentences defining the model's function, context, and job] # Personality [tone, demeanor, and collaboration style] # Goal [user-visible outcome] # Success criteria [what must be true before the final answer] # Constraints [policy, safety, business, evidence, and side-effect limits] # Output [sections, length, and tone] # Stop rules [when to retry, fallback, abstain, ask, or stop]
Każda sekcja niesie inną informację dla mechanizmu predykcji. Rola opisuje, jaką pracę model ma wykonać. Personality ustawia ton. Goal opisuje rezultat dla użytkownika. Success criteria i constraints wyznaczają granice, w których model porusza się przy generowaniu odpowiedzi. Sama nazwa zawodu nie pełni żadnej z tych funkcji.
Rozróżnienie
Największy błąd to wpisywanie w rolę nazwy zawodu. „Jesteś menedżerem marketingu". „Jesteś ekspertem od sprzedaży B2B". „Jesteś copywriterem". Brzmi profesjonalnie, ale jest zbyt ogólne, żeby zawęzić generowaną odpowiedź.
Zawód nie mówi modelowi wystarczająco dużo. Menedżer marketingu może tworzyć strategię, pisać brief, planować budżet, oceniać treści albo przygotowywać raport. Ekspert sprzedaży B2B może analizować lejek, pisać skrypt rozmowy, oceniać ofertę albo szkolić handlowców. Każda z tych funkcji wymaga innego rodzaju pracy, innego słownictwa i innej struktury odpowiedzi.
Dlatego zamiast zawodu wpisz funkcję, którą model ma wykonać. Liczy się nie to, kim model „jest", tylko co ma zrobić.
Do skopiowania
Każdy z poniższych przykładów pokazuje to samo: zamianę nazwy zawodu na konkretne działanie. Możesz wkleić każdy z nich jako początek własnego promptu i dopisać kontekst.
Zasada jest prosta. Zawód jest zbyt szeroki, funkcja jest konkretna. Model działa lepiej, gdy wie, co dokładnie ma zrobić.
Szkielet
Same czasowniki to dopiero punkt wyjścia. Jeżeli chcesz, żeby model dostarczył naprawdę użyteczną odpowiedź, dołóż cel, kryteria sukcesu, kontekst, format i ograniczenia. Poniższy template możesz potraktować jako szkielet i wypełnić własną treścią.
Funkcja: Analizujesz proces sprzedaży B2B i identyfikujesz miejsca, w których tracone są szanse na zamknięcie. Cel: Wskazać trzy konkretne etapy lejka z największą utratą oraz zaproponować dla każdego po jednej zmianie. Kontekst: - Firma: [opis branży, modelu sprzedaży] - Produkt: [krótki opis oferty] - Cykl sprzedaży: [średnia długość, kanały] - Dane wejściowe: [konwersje na każdym etapie] Kryteria sukcesu: - Każda zmiana możliwa do wdrożenia w 30 dni - Bez dodatkowego budżetu - Z jasną metryką weryfikacji efektu Format odpowiedzi: 1. Etap lejka 2. Diagnoza utraty (1-2 zdania) 3. Proponowana zmiana 4. Sposób weryfikacji Ograniczenia: Nie sugeruj zmian wymagających rekrutacji ani wdrożenia nowego oprogramowania.
Taki prompt aktywuje w modelu konkretne wzorce: analiza etapowa, diagnoza przyczyn, propozycja korekt, struktura raportowa. Każda sekcja zawęża rozkład prawdopodobieństwa kolejnych tokenów i prowadzi model do odpowiedzi, której rzeczywiście potrzebujesz.
Tę samą strukturę można zastosować do dowolnego zadania: analizy konkurencji, oceny umowy, przygotowania briefu, audytu kampanii. Zmienia się tylko treść każdej sekcji.
Sekcja Role w praktyce
Sekcja Role w dobrym promptcie odpowiada na pytanie, jaką funkcję model pełni w danym zadaniu. Nie musi brzmieć efektownie, ma być praktyczna. Dobra rola nie mówi „jesteś światowej klasy ekspertem", tylko używa czasowników operacyjnych:
Te czasowniki kierują pracą modelu znacznie precyzyjniej niż sama nazwa zawodu.
Dlatego badanie nie przeczy rekomendacjom OpenAI. Badanie pokazuje, że sama persona eksperta nie poprawia dokładności. Rekomendowana struktura każe zdefiniować rolę jako funkcję, cel, kryteria sukcesu, ograniczenia i format odpowiedzi. To zupełnie inna kategoria działania na rozkładzie prawdopodobieństwa, którym posługuje się model.
Kiedy persona ma sens
Z badania nie wynika, że persona jest zawsze bezużyteczna. Persona pomaga, gdy zależy nam na stylu, tonie albo perspektywie. Jeżeli chcesz, żeby model pisał bardziej formalnie, prościej, bardziej edukacyjnie albo bardziej krytycznie, persona zadziała, bo dokładnie tak działa mechanizm warunkowego prawdopodobieństwa: ton kontekstu wpływa na ton wyjścia.
Tylko to nie jest to samo, co poprawa dokładności. Jeżeli celem jest lepszy styl, persona pomoże. Jeżeli celem jest lepsze rozumowanie, lepsza analiza albo trafniejsza odpowiedź, ważniejsza będzie struktura zadania.
Najprostsza zmiana
Jeżeli zaczynasz prompt od „Jesteś...", zatrzymaj się i sprawdź, co wpisujesz dalej. Jeżeli to zawód, tworzysz prompt zbyt ogólny. Jeżeli to funkcja i działanie, zaczynasz budować lepszą instrukcję.
Zamiast pytać „Kim model ma być", zapytaj „Co model ma zrobić". To jedna z najprostszych i jednocześnie najważniejszych zmian w promptingu. Dobra instrukcja nie polega na tym, żeby model brzmiał jak ekspert. Polega na tym, że model dostaje jasne zadanie, dobry kontekst, kryteria sukcesu i oczekiwany format odpowiedzi. Każdy z tych elementów zawęża rozkład prawdopodobieństwa generowanych tokenów i prowadzi do bardziej użytecznego wyniku.
Wniosek
Badanie Playing Pretend pokazuje, że sama persona eksperta nie jest skutecznym sposobem poprawiania trafności odpowiedzi AI. To ważna informacja, bo wielu użytkowników wciąż traktuje personę jako podstawową technikę promptingu. Mechanizm, na którym działa model, tłumaczy dlaczego: persona zmienia rejestr, ale nie odblokowuje nowej wiedzy. Wagi są zamrożone, a „ekspert" to dla modelu po prostu styl wypowiedzi.
Rola w promptcie ma znaczenie, ale tylko wtedy, gdy rozumiemy ją jako funkcję modelu w zadaniu, a nie nazwę zawodu. „Jesteś ekspertem od sprzedaży" to za mało. „Analizujesz proces sprzedaży i wskazujesz miejsca utraty klientów" to już konkretna instrukcja, która ustawia generowanie odpowiedzi we właściwym kierunku.