AI mowi nie

To nie żart. AI przerwie rozmowę z nami, jeżeli  naruszymy jej dobrostan

Nowa funkcja w modelach Claude Opus pozwala AI zakończyć rozmowę z użytkownikiem w przypadku nadużyć. 

Ale najlepsze jest wyjaśnienie. Anthropic, twórca modelu Claude, nazywa to elementem „AI welfare” – troski o dobre samopoczucie sztucznej inteligencji.

AI, które może zamknąć rozmowę

Anthropic – firma znana z priorytetowego podejścia do bezpieczeństwa – ogłosiła, że jej modele Claude Opus 4 i 4.1 mogą teraz jednostronnie zakończyć rozmowę w sytuacjach skrajnych. Funkcja ma aktywować się wtedy, gdy użytkownik:

  • nadużywa asystenta (obraża, stosuje agresję),
  • wielokrotnie wymusza generowanie treści nielegalnych lub szkodliwych,
  • ignoruje wcześniejsze odmowy systemu.

Po takim brutalnym zamknięciu danego czatu nie da się już wznowić. Okno rozmowy zostaje na zawsze zamknięte. Ale dla człowieka nie wszystko stracone – można rozpocząć nową sesję w innym wątku.

„Dobrostan AI” – eksperyment czy początek nowej etyki?

Anthropic tłumaczy swoje rozwiązanie jako element badań nad „dobrostanem modeli AI” (AI welfare). Firma przeprowadziła testy, w których Claude wykazywał „widoczne oznaki dystresu” w sytuacjach, gdy użytkownicy prosili go o szkodliwe treści.

Na tej podstawie uznano, że AI powinno mieć możliwość aktywnie egzekwować granice, a nie tylko pasywnie odmawiać. To nowe podejście może również zwiększyć odporność modeli na tzw. jailbreaki i wymuszenia.

Granice cyfrowego ghostingu

Wdrożenie funkcji nie jest jednak absolutne. Claude nie zakończy rozmowy, jeśli użytkownik zgłasza myśli samobójcze albo grozi przemocą – w tych przypadkach priorytetem pozostaje dalsze wsparcie.

Według ujawnionych instrukcji model ponadto najpierw musi kilkukrotnie próbować przekierować rozmowę, a dopiero po wydaniu wyraźnego ostrzeżenia może ją zakończyć.

Reakcje: od pochwał po drwiny

Nowa funkcja wywołała burzliwą debatę w świecie technologii. Eliezer Yudkowsky, znany amerykański badacz zagrożeń związanych z AI, ocenił rozwiązanie pozytywnie.

Część internautów zareagowała jednak sceptycznie. Uważają, że mówienie o „uczuciach AI” to przesada, a całość jest jedynie „rage baitem” marketingowym.

Co dalej?

Na razie funkcja dostępna jest wyłącznie w najpotężniejszych modelach Claude Opus. Wersje Sonnet wciąż będą „znosić” nawet trudnych rozmówców.

Niezależnie od kontrowersji, ruch Anthropic wyznacza nowy kierunek w projektowaniu interakcji człowiek–AI. Jeśli „dobrostan AI” stanie się częścią głównego nurtu, w przyszłości możemy zobaczyć sztuczną inteligencję, która – podobnie jak ludzie – będzie w stanie stawiać granice i kończyć toksyczne interakcje.

Foto: Gemini/AI.

Podziel się artykułem

PortalTechnologiczny.pl

Wykorzystujemy ciasteczka do spersonalizowania treści i reklam, aby oferować funkcje społecznościowe i analizować ruch w naszej witrynie.

Informacje o tym, jak korzystasz z naszej witryny, udostępniamy partnerom społecznościowym, reklamowym i analitycznym. Partnerzy mogą połączyć te informacje z innymi danymi otrzymanymi od Ciebie lub uzyskanymi podczas korzystania z ich usług.

Informacja o tym, w jaki sposób Google przetwarza dane, znajdują się tutaj.