Nowe badanie pokazuje, że nawet najbardziej zaawansowane modele AI od Google, OpenAI i xAI nie radzą sobie w realnym świecie. W symulacji sezonu Premier League wszystkie… straciły pieniądze.
Zaawansowane modele sztucznej inteligencji od takich gigantów jak OpenAI, Google, Anthropic czy xAI miały pokazać swoją wyższość nad ludźmi w analizie danych i podejmowaniu decyzji. Rzeczywistość okazała się jednak brutalna – w testach opartych o sezon Premier League… wszystkie systemy przegrały pieniądze.
Nowe badanie startupu General Reasoning pokazuje, że choć AI błyskawicznie rozwija się w niektórych dziedzinach, wciąż ma ogromne problemy z funkcjonowaniem w dynamicznym, nieprzewidywalnym świecie.
Symulacja sezonu i twardy test dla AI
Raport „KellyBench” przygotowany przez londyńską firmę General Reasoning polegał na odtworzeniu sezonu 2023/2024 Premier League. Modele AI otrzymały szczegółowe dane historyczne, statystyki drużyn oraz wyniki poprzednich spotkań.
Ich zadanie było jasne:
- stworzyć strategię obstawiania,
- maksymalizować zysk,
- zarządzać ryzykiem w czasie trwania sezonu.
Systemy działały jak autonomiczni „agenci”, którzy obstawiali wyniki meczów i liczbę strzelonych goli.
Co ważne – modele nie miały dostępu do internetu i musiały adaptować się wyłącznie na podstawie dostarczanych danych oraz aktualizacji w trakcie sezonu.
Wynik? AI systematycznie przegrywa
Rezultaty są zaskakujące – a dla wielu branż wręcz uspokajające.
Najlepiej poradził sobie model Claude Opus 4.6 od Anthropic, który stracił średnio „tylko” 11% kapitału i w jednej próbie niemal wyszedł na zero.
Z kolei:
- OpenAI GPT-5.4: średnia strata 13,6%,
- Google Gemini 3.1 Pro: duża zmienność – od +33,7% do bankructwa,
- xAI Grok 4.20: całkowita porażka – bankructwo i brak ukończonych prób.
Każdy model startował z wirtualnym budżetem 100 000 funtów. W wielu przypadkach kończyło się to całkowitą utratą środków.
Autorzy raportu nie pozostawiają złudzeń: AI „systematycznie radzi sobie gorzej niż ludzie” w tego typu zadaniach.
Dlaczego AI zawodzi w realnym świecie?
Według Ross Taylor, CEO General Reasoning i byłego badacza Meta, problem tkwi w sposobie testowania sztucznej inteligencji.
Większość benchmarków:
- działa w statycznych warunkach,
- nie uwzględnia chaosu i zmienności rzeczywistości,
- nie mierzy zdolności adaptacji w długim czasie.
A właśnie te cechy są kluczowe w takich dziedzinach jak rynki finansowe, sport, zarządzanie ryzykiem oraz w podejmowaniu decyzji strategicznych.
AI świetna w kodzie, słaba w życiu?
Ostatnie miesiące przyniosły ogromny hype wokół zdolności AI do programowania i automatyzacji pracy. Modele potrafią pisać kod, analizować dokumenty i wspierać biznes na niespotykaną skalę.
Jednak badanie General Reasoning pokazuje drugą stronę medalu. Im bardziej zadanie przypomina rzeczywistość, im więcej jest zmiennych i nieprzewidywalności, tym gorzej radzi sobie AI.
To ważny sygnał dla firm i pracowników obawiających się automatyzacji – przynajmniej na razie sztuczna inteligencja nie jest tak wszechmocna, jak sugerują nagłówki.
Co to oznacza dla przyszłości AI?
Wnioski są jasne: mimo ogromnego postępu, AI nadal:
- ma problemy z długoterminowym planowaniem,
- nie radzi sobie z niepewnością,
- łatwo „bankrutuje” w realistycznych scenariuszach.
To może oznaczać, że prawdziwa rewolucja AI dopiero przed nami – i będzie wymagała zupełnie nowych podejść do uczenia modeli.
Foto: ChatGPT/AI.