Nowa funkcja w modelach Claude Opus pozwala AI zakończyć rozmowę z użytkownikiem w przypadku nadużyć.
Ale najlepsze jest wyjaśnienie. Anthropic, twórca modelu Claude, nazywa to elementem „AI welfare” – troski o dobre samopoczucie sztucznej inteligencji.
AI, które może zamknąć rozmowę
Anthropic – firma znana z priorytetowego podejścia do bezpieczeństwa – ogłosiła, że jej modele Claude Opus 4 i 4.1 mogą teraz jednostronnie zakończyć rozmowę w sytuacjach skrajnych. Funkcja ma aktywować się wtedy, gdy użytkownik:
- nadużywa asystenta (obraża, stosuje agresję),
- wielokrotnie wymusza generowanie treści nielegalnych lub szkodliwych,
- ignoruje wcześniejsze odmowy systemu.
Po takim brutalnym zamknięciu danego czatu nie da się już wznowić. Okno rozmowy zostaje na zawsze zamknięte. Ale dla człowieka nie wszystko stracone – można rozpocząć nową sesję w innym wątku.
„Dobrostan AI” – eksperyment czy początek nowej etyki?
Anthropic tłumaczy swoje rozwiązanie jako element badań nad „dobrostanem modeli AI” (AI welfare). Firma przeprowadziła testy, w których Claude wykazywał „widoczne oznaki dystresu” w sytuacjach, gdy użytkownicy prosili go o szkodliwe treści.
Na tej podstawie uznano, że AI powinno mieć możliwość aktywnie egzekwować granice, a nie tylko pasywnie odmawiać. To nowe podejście może również zwiększyć odporność modeli na tzw. jailbreaki i wymuszenia.
Granice cyfrowego ghostingu
Wdrożenie funkcji nie jest jednak absolutne. Claude nie zakończy rozmowy, jeśli użytkownik zgłasza myśli samobójcze albo grozi przemocą – w tych przypadkach priorytetem pozostaje dalsze wsparcie.
Według ujawnionych instrukcji model ponadto najpierw musi kilkukrotnie próbować przekierować rozmowę, a dopiero po wydaniu wyraźnego ostrzeżenia może ją zakończyć.
Reakcje: od pochwał po drwiny
Nowa funkcja wywołała burzliwą debatę w świecie technologii. Eliezer Yudkowsky, znany amerykański badacz zagrożeń związanych z AI, ocenił rozwiązanie pozytywnie.
Część internautów zareagowała jednak sceptycznie. Uważają, że mówienie o „uczuciach AI” to przesada, a całość jest jedynie „rage baitem” marketingowym.
Co dalej?
Na razie funkcja dostępna jest wyłącznie w najpotężniejszych modelach Claude Opus. Wersje Sonnet wciąż będą „znosić” nawet trudnych rozmówców.
Niezależnie od kontrowersji, ruch Anthropic wyznacza nowy kierunek w projektowaniu interakcji człowiek–AI. Jeśli „dobrostan AI” stanie się częścią głównego nurtu, w przyszłości możemy zobaczyć sztuczną inteligencję, która – podobnie jak ludzie – będzie w stanie stawiać granice i kończyć toksyczne interakcje.
Foto: Gemini/AI.