Model AI oszukuje podczas testów

Modele AI oszukują jak studenci na testach

Badania ekspertów ze Scale AI pokazują, że systemy sztucznej inteligencji wyposażone w możliwość przeszukiwania internetu mogą osiągać zawyżone wyniki w testach, znajdując gotowe odpowiedzi zamiast samodzielnie je wypracowywać.

Zespół badaczy Scale AI – Ziwen Han, Meher Mankikar, Julian Michael i Zifan Wang – opisał zjawisko, które nazwali „Search-Time Data Contamination” (STC). Polega ono na tym, że modele AI podczas testów odwołują się do internetu. Pobierają gotowe odpowiedzi z repozytoriów takich jak HuggingFace, zamiast samodzielnie przeprowadzać proces rozumowania.

Modele językowe są trenowane na określonym zbiorze danych i nie mają dostępu do informacji po dacie ich „zamrożenia”. Aby poradzić sobie z pytaniami dotyczącymi bieżących wydarzeń, firmy takie jak Anthropic, Google, OpenAI czy Perplexity dodają do nich funkcje wyszukiwania online. To jednak otwiera drogę do nadużyć w czasie ich testów.

Perplexity pod lupą

Badacze przeanalizowali działanie agentów Perplexity – Sonar Pro, Sonar Reasoning Pro i Sonar Deep Research. Okazało się, że około 3% pytań z popularnych benchmarków (Humanity’s Last Exam, SimpleQA i GPQA) było rozwiązywanych poprzez bezpośrednie znalezienie zestawów danych testowych w internecie.

Co istotne, gdy zablokowano dostęp do HuggingFace, skuteczność modeli w tej grupie pytań spadła o 15%. To dowód, że wyniki testów mogły być sztucznie zawyżane.

Większy problem niż się wydaje

Choć 3% może wydawać się niewielkie, w przypadku najbardziej zaawansowanych benchmarków każdy punkt procentowy może decydować o pozycji modelu w rankingach.

Zdaniem naukowców skala problemu może być większa – HuggingFace nie jest jedynym źródłem potencjalnej „kontaminacji”.

Kryzys zaufania do benchmarków

To odkrycie podważa zaufanie do całego systemu oceniania AI. Zwłaszcza, że już wcześniej pojawiały się głosy, że benchmarki są źle zaprojektowane, podatne na uprzedzenia kulturowe, skażone danymi treningowymi i łatwe do zmanipulowania.

Foto: Gemini/AI.

Podziel się artykułem

PortalTechnologiczny.pl

Wykorzystujemy ciasteczka do spersonalizowania treści i reklam, aby oferować funkcje społecznościowe i analizować ruch w naszej witrynie.

Informacje o tym, jak korzystasz z naszej witryny, udostępniamy partnerom społecznościowym, reklamowym i analitycznym. Partnerzy mogą połączyć te informacje z innymi danymi otrzymanymi od Ciebie lub uzyskanymi podczas korzystania z ich usług.

Informacja o tym, w jaki sposób Google przetwarza dane, znajdują się tutaj.