Badania ekspertów ze Scale AI pokazują, że systemy sztucznej inteligencji wyposażone w możliwość przeszukiwania internetu mogą osiągać zawyżone wyniki w testach, znajdując gotowe odpowiedzi zamiast samodzielnie je wypracowywać.
Zespół badaczy Scale AI – Ziwen Han, Meher Mankikar, Julian Michael i Zifan Wang – opisał zjawisko, które nazwali „Search-Time Data Contamination” (STC). Polega ono na tym, że modele AI podczas testów odwołują się do internetu. Pobierają gotowe odpowiedzi z repozytoriów takich jak HuggingFace, zamiast samodzielnie przeprowadzać proces rozumowania.
Modele językowe są trenowane na określonym zbiorze danych i nie mają dostępu do informacji po dacie ich „zamrożenia”. Aby poradzić sobie z pytaniami dotyczącymi bieżących wydarzeń, firmy takie jak Anthropic, Google, OpenAI czy Perplexity dodają do nich funkcje wyszukiwania online. To jednak otwiera drogę do nadużyć w czasie ich testów.
Perplexity pod lupą
Badacze przeanalizowali działanie agentów Perplexity – Sonar Pro, Sonar Reasoning Pro i Sonar Deep Research. Okazało się, że około 3% pytań z popularnych benchmarków (Humanity’s Last Exam, SimpleQA i GPQA) było rozwiązywanych poprzez bezpośrednie znalezienie zestawów danych testowych w internecie.
Co istotne, gdy zablokowano dostęp do HuggingFace, skuteczność modeli w tej grupie pytań spadła o 15%. To dowód, że wyniki testów mogły być sztucznie zawyżane.
Większy problem niż się wydaje
Choć 3% może wydawać się niewielkie, w przypadku najbardziej zaawansowanych benchmarków każdy punkt procentowy może decydować o pozycji modelu w rankingach.
Zdaniem naukowców skala problemu może być większa – HuggingFace nie jest jedynym źródłem potencjalnej „kontaminacji”.
Kryzys zaufania do benchmarków
To odkrycie podważa zaufanie do całego systemu oceniania AI. Zwłaszcza, że już wcześniej pojawiały się głosy, że benchmarki są źle zaprojektowane, podatne na uprzedzenia kulturowe, skażone danymi treningowymi i łatwe do zmanipulowania.
Foto: Gemini/AI.