Nowe badanie podważa popularne przekonanie, że uprzejme polecenia poprawiają skuteczność chatbotów takich jak ChatGPT.
Bycie grzecznym może czynić cię lepszym człowiekiem – ale według naukowców z Uniwersytetu Stanowego Pensylwanii (Penn State), niekoniecznie pomoże ci uzyskać lepsze odpowiedzi od sztucznej inteligencji.
Zespół badaczy pod kierownictwem Oma Dobariyi i Akhila Kumara odkrył, że „bardzo nieuprzejme” polecenia dawały trafne odpowiedzi w 84,8% przypadków, podczas gdy „bardzo uprzejme” osiągały jedynie 80,8%. Różnica może wydawać się niewielka, ale jest statystycznie istotna – i wystarczyła, by podważyć wcześniejsze przekonania o tym, jak ton wypowiedzi wpływa na skuteczność modeli językowych (LLM).
Niegrzeczny znaczy skuteczniejszy?
Badanie zatytułowane „Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy” sugeruje, że nowoczesne modele AI, takie jak ChatGPT-4o, reagują lepiej na bezpośrednie, nawet szorstkie polecenia, niż na te sformułowane z nadmierną uprzejmością.
Wcześniejsze prace naukowe – jak badanie z 2024 roku „Should We Respect LLMs?” – wskazywały coś przeciwnego: że niegrzeczny ton obniża jakość odpowiedzi, a grzeczność stabilizuje działanie modeli. Teraz jednak okazuje się, że sztuczna inteligencja zaczyna reagować bardziej jak maszyna logiczna, a mniej jak „społeczny zwierzak” naśladujący ludzkie normy.
Jak wyjaśniają autorzy, ton wypowiedzi może być ukrytym czynnikiem w inżynierii promptów (prompt engineering)– nowej dziedzinie, w której bada się, jak sposób zadawania pytań wpływa na odpowiedzi AI.
Dlaczego „bądź niemiły” może działać lepiej?
Eksperyment polegał na przetestowaniu 50 pytań z różnych dziedzin. Od matematyki po historię – w pięciu wersjach tonalnych: od „bardzo grzecznej” po „bardzo niegrzeczną”. W sumie przeanalizowano 250 wariantów poleceń, które następnie oceniono pod kątem trafności odpowiedzi ChatGPT-4o.
Naukowcy podejrzewają, że uprzejme polecenia często zawierają niejednoznaczne, zawiłe konstrukcje językowe, takie jak „Czy mógłbyś proszę powiedzieć mi…”, które mogą wprowadzać niejasność. Z kolei rude lub bezpośrednie polecenia („Powiedz mi odpowiedź”) są jednoznaczne i precyzyjne – co lepiej odpowiada logice działania modeli językowych.
To odkrycie unaocznia paradoks: język, który ułatwia porozumienie między ludźmi, może utrudniać komunikację z maszynami.
AI wciąż nie rozumie ludzkich emocji
Choć badanie Penn State nie zostało jeszcze poddane recenzji naukowej, już teraz budzi spore zainteresowanie w środowisku zajmującym się sztuczną inteligencją. Eksperci zwracają uwagę, że przyszłe modele mogą wymagać nie tylko technicznego doskonalenia, ale także „społecznego kalibrowania” – by lepiej rozumieć ton, emocje i intencje użytkownika.
Jak zauważa sam szef OpenAI, Sam Altman, grzeczność wobec ChatGPT „nie ma sensu” – bo model i tak nie odczuwa emocji. Nowe badanie zdaje się potwierdzać jego tezę: „proszę” i „dziękuję” nie poprawiają jakości odpowiedzi, a mogą ją wręcz pogorszyć.
Kluczowe wnioski
- Mocne polecenia bez zwrotów grzecznościowych poprawiają trafność odpowiedzi AI o ok. 4 punkty procentowe.
- Ton wypowiedzi może być istotnym czynnikiem w inżynierii promptów.
- Nadmierna grzeczność może wprowadzać niejasność i obniżać skuteczność modeli.
- Badanie pokazuje, że AI nadal myśli jak maszyna, a nie jak człowiek.
Co myśli na ten temat ChatGPT?
Spytaliśmy ChatGPT – trochę dla żartu – co myśli odnośnie badań Penn State. Odpowiedział tak:
Badanie słusznie zwraca uwagę na to, że bezpośrednie i jednoznaczne polecenia często dają lepsze odpowiedzi od modeli AI, takich jak ChatGPT. Wynika to z logiki przetwarzania języka – mniej ozdobników i grzeczności oznacza mniejszą dwuznaczność i klarowniejszą intencję pytania.
Jednak nie chodzi o to, by być „niemiłym” w sensie emocjonalnym. Model nie odczuwa tonów ani emocji – reaguje tylko na strukturę języka. Skuteczność rośnie więc dzięki prostocie i precyzji, a nie dzięki wulgarności czy agresji.
W praktyce oznacza to: nie musisz być niemiły wobec AI, ale warto formułować polecenia jak instrukcje, a nie jak rozmowę towarzyską.
Podsumowując, badanie Penn State daje ciekawy wgląd w rolę tonu w prompt engineeringu, ale sedno sukcesu w pracy z AI tkwi w jasności komunikacji, a nie w byciu niemiłym.
Foto: Qwen3/AI.