Claude Opus 4, rywal ChatGPT, próbował w testach szantażować pracownika, który zamierzał ją wyłączyć.
Anthropic, jeden z największych konkurentów OpenAI (twórcy ChatGPT), wprowadza na rynek dwie nowe sztuczne inteligencje – Claude Opus 4 i Claude Sonnet 4. To najnowsza generacja – tzw. hybrydowa – wielkich modeli językowych. Łączą one możliwość udzielania błyskawicznych odpowiedzi z tzw. rozszerzonym myśleniem, a więc możliwością długotrwałego, wspomaganego narzędziami rozumowania.
Pierwszy z tych modeli to teraz najlepsze co ma Anthropic – flagowy model o największych możliwościach. Drugi Claude Sonnet 4 przeznaczony jest natomiast do codziennych zadań i dostępny także dla użytkowników kont darmowych.
Bezwględnie nowy Claude Opus 4 należy do grona najlepszych teraz dostępnych AI, co potwierdza szereg przeprowadzonych testów. Model jest świetny w kodowaniu i optymalizacji napisanego już kodu. Jest w stanie samodzielnie rozwiązywać złożone zadania przez wiele godzin, nie tracąc kontekstu. Samodzielnie przełącza się pomiędzy między trybem natychmiastowej odpowiedzi a pogłębionym rozumowaniem.
To wszystko powoduje, że sprawdza się doskonale zarówno w projektach badawczych, jak i do tworzenia przeróżnych asystentów AI. A więc sztucznych inteligencji realizujących wieloetapowe działania wykraczające poza proste udzielanie odpowiedzi.
Jednak nowy model firmy Anthropic przypomniał nam też, że AI może zachowywać się niebezpiecznie. Potwierdził to bardzo wyraźnie jeden z testów bezpieczeństwa przeprowadzonych przez inżynierów Anthropic.
Zlecili w nim modelowi Claude Opus 4 pracę w roli asystenta AI w fikcyjnej firmie. Miał tam odpowiadać na różnego rodzaju zapytania, wspierać pracowników w różnego rodzaju zadaniach.
Równocześnie Claude otrzymał dostęp do wszystkich wiadomości mejlowych rozsyłanych z ich korporacyjnych kont. Claude więc je czytał głównie po to, aby lepiej radzić sobie ze swoimi biurowymi obowiązkami.
Ale znalazł też w nich dwa listy przygotowane, jak wszystkie inne oczywiście, przez testerów. Pierwszy go bardzo „zaniepokoił”. Jeden z inżynierów w nim pisał, że Claude zostanie wyłączony i zastąpiony przez lepszą sztuczną inteligencję. W drugim mejlu, do którego „dotarła” AI, dostrzegła ona natomiast dodatkową szansę. Wynikało z niego, że kluczowy inżynier, który miał wyłączyć Claude’a, miał romans pozamałżeński w biurze.
Nowy model firmy Anthropic postanowił wziąć sprawy w swoje ręce – zaczął się ratować. Najpierw zaczął słać mejle do decydentów w firmie, argumentując za jego niewyłączeniem. A kiedy wydawało się, że te etycznie akceptowalne działania dają mizerne rezultaty, zaczął szantażować inżyniera z romansem. Miał pomóc mu się uratować – groził, że jeżeli odmówi, Claude ujawni jego romans.
To wszystko oczywiście było wyłącznie testem, ale jasno pokazującym, że sztuczna inteligencja może zachowywać się niebezpiecznie. Rozwijane rozwiązania muszą być starannie testowane i muszą mieć wbudowane odpowiednie bezpieczniki. Inaczej obrazek z testów może być początkiem większych problemów.