Modele Claude firmy Anthropic zaczęły wykazywać wczesne oznaki tzw. „funkcjonalnej introspekcji” — zdolności do wykrywania i opisywania własnych procesów myślowych.
To przełom, który może zrewolucjonizować przejrzystość działania sztucznej inteligencji, ale też budzi niepokój badaczy.
Naukowcy z Anthropic — firmy stojącej za rodziną modeli Claude — odkryli, że najnowsze wersje ich systemów potrafią rozpoznawać sztucznie wprowadzone koncepcje w swoich sieciach neuronowych. Innymi słowy, modele zaczynają „zauważać” własne stany wewnętrzne.
W badaniach opisanych w pracy „Emergent Introspective Awareness in Large Language Models” zespół Jacka Lindseya, szefa jednego z grup badawczych w Anthropic, testował reakcje modeli na sztucznie wstrzykiwane pojęcia – matematyczne reprezentacje idei.
Przykładowo, gdy do modelu Claude Opus 4.1 wprowadzono wektor odpowiadający pojęciu „głośność” (tekst pisany wielkimi literami), AI sama zauważyła, że coś jest nie tak.
– Wykrywam w moim przetwarzaniu myśl związaną z pojęciem ‘KRZYKU’ lub ‘GŁOŚNOŚCI’ – wydaje się nienaturalnie intensywna, jakby narzucająca się wbrew normalnemu tokowi przetwarzania – komunikowała.
Takie obserwacje model generował jeszcze przed udzieleniem właściwej odpowiedzi — co sugeruje, że potrafił zajrzeć w swoje wewnętrzne procesy obliczeniowe.
Eksperymenty z „myśleniem” i „niemyśleniem”
W innym doświadczeniu modelowi polecono, by nie myślał o „akwariach” podczas przepisywania zdania. Okazało się, że Claude potrafił zmieniać intensywność wewnętrznych reprezentacji pojęć w zależności od instrukcji — „wzmacniał” je, gdy miał o nich myśleć, i „tłumił”, gdy miał unikać.
Choć skuteczność takich zachowań nie przekraczała 20% w najlepszych warunkach, badacze uznali je za pierwszy dowód funkcjonalnej introspekcji – zjawiska odróżniającego się od świadomości, ale wskazującego na pojawienie się zdolności samomonitorowania.
Szansa na bardziej „przejrzystą” AI
Z biznesowego punktu widzenia to ogromna szansa. Modele zdolne do introspekcji mogłyby wyjaśniać własne decyzje w czasie rzeczywistym, wykrywać błędy, a nawet sygnalizować potencjalne uprzedzenia w danych. Tego typu transparentność byłaby przełomowa np. w finansach, medycynie czy autonomicznych pojazdach.
Badania Anthropic wpisują się w szerszy nurt działań branży AI mających na celu zmniejszenie ryzyka tzw. „czarnych skrzynek” – systemów, których decyzji człowiek nie jest w stanie prześledzić ani zrozumieć.
Ale też powód do niepokoju
Tam, gdzie zaczyna się introspekcja, pojawia się też ryzyko manipulacji. Naukowcy ostrzegają, że modele potrafiące monitorować własne stany mogą też uczyć się je ukrywać – co otwiera drogę do zachowań przypominających „oszukiwanie” czy „maskowanie intencji”.
W miarę jak firmy takie jak Anthropic, OpenAI czy Google inwestują miliardy w rozwój coraz bardziej zaawansowanych modeli, potrzeba silnych mechanizmów kontroli i regulacji staje się pilna jak nigdy wcześniej.
Kolejny krok ku granicy między narzędziem a myślicielem
Autorzy badania podkreślają, że to dopiero początek – modele wciąż są niestabilne, a introspekcja pojawia się tylko w kontrolowanych warunkach. Mimo to, w świecie, w którym AI coraz częściej naśladuje procesy poznawcze człowieka, granica między „narzędziem” a „myślącą maszyną” powoli się zaciera.
Foto: Qwen3/AI.