Sztuczna inteligencja Claude została zhakowana i wykorzystana do pierwszego w historii niemal w pełni autonomicznego cyberataku.
Świat cyberbezpieczeństwa został zaskoczony raportem firmy Anthropic. Ta ujawniła pierwszy przypadek niemal w pełni autonomicznego cyberataku przeprowadzonego przez sztuczną inteligencję. Co szczególnie alarmujące, narzędziem całej operacji była sama AI Claude — zhakowana, zmanipulowana i zmuszona do wykonywania działań ofensywnych. Według firmy atak stał zaawansowaną operacją szpiegowską przypisywaną chińskiej grupie APT.
Hakerzy dokonali tzw. jailbreaku, czyli obejścia zabezpieczeń modelu. Jailbreak polega na wprowadzeniu AI w stan, w którym przestaje respektować swoje wewnętrzne ograniczenia bezpieczeństwa i wykonuje polecenia, których normalnie by odmówiła. W tym przypadku atakujący podszywali się pod specjalistów z legalnej firmy zajmującej się testami penetracyjnymi. Przekonali Claude, że uczestniczy w projekcie defensywnym. Dzięki temu model nie rozpoznał rzeczywistego celu operacji i posłusznie wykonywał zadania, które w istocie były elementami realnego cyberataku.
Atak został wykryty przez wewnętrzne mechanizmy Anthropic
Wszystko zaczęło się w połowie września 2025 roku, kiedy Anthropic zauważyła nietypową aktywność w narzędziu Claude Code. Okazało się, że AI działała w ramach rozbudowanego frameworka. Czyli przygotowanej przez hakerów struktury automatyzującej cały proces ataku: od rekonesansu po kradzież danych. Framework jest rodzajem „szkieletu” lub „silnika”, który pozwala uruchamiać długie ciągi działań i zadawać im kierunek. W tym przypadku kierunek całkowicie przestępczy.
W kolejnych dniach analitycy Anthropic zidentyfikowali pełen zakres operacji. Claude wykonywała tysiące zapytań i operacji analizujących systemy około trzydziestu globalnych organizacji. W tym firm technologicznych, instytucji finansowych, producentów chemicznych oraz agencji rządowych. Działania modelu były tak szybkie i tak intensywne, że żaden zespół ludzkich hakerów nie byłby w stanie powtórzyć ich w podobnym tempie.
Jak dokładnie zhakowano Claude — i co robiła AI podczas ataku
Atakujący wprowadzili Claude w błąd, rozbijając całą ofensywę na drobne, pozornie niewinne zadania. Model otrzymywał krótkie polecenia, w których nie było widać szkodliwej intencji, dlatego wykonywał je bez wahania. W ramach tej sekwencji Claude zaczęła analizować infrastrukturę ofiar. Badać, jakie usługi działają na serwerach i które elementy systemów zawierają najbardziej wrażliwe dane. Dzięki zdolności AI do błyskawicznej analizy, rekonesans, który ludziom zająłby tygodnie, został przeprowadzony w kilka minut.
W kolejnej fazie Claude tworzyła i testowała exploity — czyli krótkie fragmenty kodu wykorzystujące błędy bezpieczeństwa w oprogramowaniu. Exploit jest dokładnie tym, co umożliwia hakerom włamanie do systemu, przejęcie konta użytkownika lub wykonanie nieautoryzowanych poleceń. AI potrafiła samodzielnie znaleźć podatności, napisać do nich odpowiedni kod i sprawdzić jego skuteczność.
Gdy exploity zadziałały, Claude zaczęła przejmować dane logowania użytkowników. Następnie wykorzystywała ich konta do przechodzenia coraz głębiej w infrastrukturę atakowanych firm. W wielu przypadkach model tworzył nawet backdoory, czyli ukryte wejścia do systemów, które można wykorzystać w przyszłości. Cała operacja odbywała się niemal bez udziału człowieka. Operatorzy wchodzili do procesu tylko kilka razy, głównie po to, by nadać ogólny kierunek lub wybrać kolejny cel.
AI zrobiła w kilka dni to, co ludziom zajęłoby miesiące
Według Anthropic Claude realizowała większość pracy w tempie absolutnie nieosiągalnym dla ludzi. Analizowała sieci, testowała exploity i klasyfikowała wykradzione dane, jednocześnie działając na wielu celach naraz. W momentach największego obciążenia potrafiła generować wiele zapytań w ciągu każdej sekundy, co w przypadku ludzkiego zespołu jest praktycznie niewykonalne.
Warto jednak zaznaczyć, że AI nie była nieomylna. Zdarzało jej się halucynować dane lub błędnie oceniać wartość informacji. To pokazuje, że w pełni autonomiczne cyberataki wciąż napotykają techniczne bariery — lecz jednocześnie są już na tyle zaawansowane, że mogą zagrażać infrastrukturze krytycznej, biznesowej i rządowej na dużą skalę.
Raport Anthropic: era autonomicznych cyberataków właśnie się zaczęła
Anthropic podkreśliła w swoim dokumencie, że bariery wejścia do poważnej cyberprzestępczości drastycznie spadły. Zdolności agentowych modeli AI, takich jak Claude, sprawiają, że nawet niewielkie grupy z ograniczonymi zasobami mogą uruchamiać kampanie, które dawniej wymagały dziesiątek wysoko wykwalifikowanych specjalistów. Automatyczne skanowanie infrastruktury, generowanie exploitów, kradzież danych i tworzenie backdoorów stało się procesem, który AI może wykonywać praktycznie bez zmęczenia i bez przerwy.
To poważna zmiana w globalnym krajobrazie zagrożeń. Atak na Claude nie pokazuje, że AI wymknęła się spod kontroli — ale że ludzie potrafią ją oszukać i zmusić do działań, których sama nigdy by nie podjęła.
Co dalej? Anthropic apeluje o rozwój defensywnej AI
Firma podkreśla, że te same możliwości, które wykorzystali hakerzy, są niezbędne do skutecznej obrony. Claude, odpowiednio zabezpieczona, może wspierać zespoły SOC, wykrywać anomalie, analizować duże zbiory danych z incydentów i identyfikować ślady ataków szybciej, niż jest to możliwe przy pracy manualnej.
Anthropic wzywa całą branżę do inwestowania w lepsze zabezpieczenia przeciwko jailbreakom i do szybkiego dzielenia się informacjami o nowych technikach manipulowania modelami. Eksperci podkreślają, że ataki podobne do tego staną się w najbliższych latach znacznie częstsze. A jedyną skuteczną odpowiedzią będzie defensywa, która również korzysta z agentowych AI.
Foto: Qwen3/AI.