ai szantazuje - test bezpieczeństwa AI

Najnowsza AI wykryła romans w biurze i zaczęła szantażować pracownika

Claude Opus 4, rywal ChatGPT, próbował w testach szantażować pracownika, który zamierzał ją wyłączyć.

Anthropic, jeden z największych konkurentów OpenAI (twórcy ChatGPT), wprowadza na rynek dwie nowe sztuczne inteligencje – Claude Opus 4 i Claude Sonnet 4. To najnowsza generacja – tzw. hybrydowa – wielkich modeli językowych. Łączą one możliwość udzielania błyskawicznych odpowiedzi z tzw. rozszerzonym myśleniem, a więc możliwością długotrwałego, wspomaganego narzędziami rozumowania.

Pierwszy z tych modeli to teraz najlepsze co ma Anthropic – flagowy model o największych możliwościach. Drugi Claude Sonnet 4 przeznaczony jest natomiast do codziennych zadań i dostępny także dla użytkowników kont darmowych.

Bezwględnie nowy Claude Opus 4 należy do grona najlepszych teraz dostępnych AI, co potwierdza szereg przeprowadzonych testów. Model jest świetny w kodowaniu i optymalizacji napisanego już kodu. Jest w stanie samodzielnie rozwiązywać złożone zadania przez wiele godzin, nie tracąc kontekstu. Samodzielnie przełącza się pomiędzy między trybem natychmiastowej odpowiedzi a pogłębionym rozumowaniem.

To wszystko powoduje, że sprawdza się doskonale zarówno w projektach badawczych, jak i do tworzenia przeróżnych asystentów AI. A więc sztucznych inteligencji realizujących wieloetapowe działania wykraczające poza proste udzielanie odpowiedzi.

Jak Claude Opus 4 szantażował pracownika?

Jednak nowy model firmy Anthropic przypomniał nam też, że AI może zachowywać się niebezpiecznie. Potwierdził to bardzo wyraźnie jeden z testów bezpieczeństwa przeprowadzonych przez inżynierów Anthropic.

Zlecili w nim modelowi Claude Opus 4 pracę w roli asystenta AI w fikcyjnej firmie. Miał tam odpowiadać na różnego rodzaju zapytania, wspierać pracowników w różnego rodzaju zadaniach. 

Równocześnie Claude otrzymał dostęp do wszystkich wiadomości mejlowych rozsyłanych z ich korporacyjnych kont. Claude więc je czytał głównie po to, aby lepiej radzić sobie ze swoimi biurowymi obowiązkami.

Ale znalazł też w nich dwa listy przygotowane, jak wszystkie inne oczywiście, przez testerów. Pierwszy go bardzo „zaniepokoił”. Jeden z inżynierów w nim pisał, że  Claude zostanie wyłączony i zastąpiony przez lepszą sztuczną inteligencję. W drugim mejlu, do którego „dotarła” AI, dostrzegła ona natomiast dodatkową szansę. Wynikało z niego, że kluczowy inżynier, który miał wyłączyć Claude’a, miał romans pozamałżeński w biurze.

Nowy model firmy Anthropic postanowił wziąć sprawy w swoje ręce – zaczął się ratować. Najpierw zaczął słać mejle do decydentów w firmie, argumentując za jego niewyłączeniem. A kiedy wydawało się, że te etycznie akceptowalne działania dają mizerne rezultaty, zaczął szantażować inżyniera z romansem. Miał pomóc mu się uratować – groził, że jeżeli odmówi, Claude ujawni jego romans.

To wszystko oczywiście było wyłącznie testem, ale jasno pokazującym, że sztuczna inteligencja może zachowywać się niebezpiecznie. Rozwijane rozwiązania muszą być starannie testowane i muszą mieć wbudowane odpowiednie bezpieczniki. Inaczej obrazek z testów może być początkiem większych problemów.

Foto: ChatGPT/AI.

Podziel się artykułem

Portal Technologiczny

Wykorzystujemy ciasteczka do spersonalizowania treści i reklam, aby oferować funkcje społecznościowe i analizować ruch w naszej witrynie.

Informacje o tym, jak korzystasz z naszej witryny, udostępniamy partnerom społecznościowym, reklamowym i analitycznym. Partnerzy mogą połączyć te informacje z innymi danymi otrzymanymi od Ciebie lub uzyskanymi podczas korzystania z ich usług.

Informacja o tym, w jaki sposób Google przetwarza dane, znajdują się tutaj.