Choć najpopularniejsze modele językowe powstają głównie w USA i Chinach, korzystają z nich użytkownicy na całym świecie – również w Polsce. Problem w tym, że większość z nich trenowana jest przede wszystkim na danych anglojęzycznych. Efekt? Języki takie jak polski, z ich skomplikowaną gramatyką i bogatą fleksją, wciąż stanowią spore wyzwanie.
To, jak dobrze radzą sobie z tym wyzwaniem, sprawdził test przeprowadzony przez Marka Jeleśniańskiego, założyciela firmy Oxido. Wyniki pokazują, że choć AI robi ogromne postępy, to wciąż potrafi potknąć się na pozornie prostych detalach.
Jak testowano modele AI?
W analizie porównano kilkanaście popularnych modeli, w tym:
- GPT od OpenAI
- Gemini od Google
- Claude od Anthropic
- Llama od Meta
- Qwen od Alibaba
- oraz polski Bielik
Każdy model otrzymał identyczny zestaw zadań – od pytań o historię i literaturę, przez korektę językową, aż po tworzenie e-maili biznesowych i scenariuszy reklam. Oceniano nie tylko poprawność, ale też naturalność języka, spójność i styl.
„Pomoże” czy „pomorze”? AI nadal się myli
Jednym z ciekawszych testów była korekta tekstu zawierającego liczne błędy – od literówek po niepoprawną odmianę nazw własnych. To zadanie okazało się trudne dla wielu modeli.
Najlepiej poradziła sobie tu Llama od Meta, wyprzedzając m.in. europejski EuroLLM i polskiego Bielika.
Jeszcze ciekawsze wyniki przyniósł test rozróżniania słów „pomoże” i „pomorze”. W teorii proste zadanie, w praktyce – pułapka. Część modeli uznała błędne „pomorze” (z małej litery) za poprawne, „domyślając się” znaczenia zamiast analizować ortografię.
– Model skupia się na znaczeniu słowa i potrafi ‘dopowiedzieć’ kontekst, ignorując błąd ortograficzny – tłumaczy Marek Jeleśniański:
W tym zadaniu dobrze wypadł Bielik, wyprzedzając m.in. Groka, Gemini czy DeepSeek.
AI w biznesie: kto pisze najlepsze kampanie?
Modele sprawdzono także w praktycznych zastosowaniach biznesowych – np. w marketingu. Zadanie polegało na przygotowaniu koncepcji kampanii promocyjnej.
Najlepszy wynik uzyskał Qwen od Alibaba, a tuż za nim znalazły się modele Mistral, Gemini, GPT i Llama.
Polskie modele – Bielik i PLLuM – uplasowały się niżej. Często wynikało to nie z braku wiedzy, ale z błędnej interpretacji polecenia. Przykładowo Claude wygenerował pełną prezentację zamiast samej treści slajdów.
Wyniki ogólne na bazie średnich ze wszystkich zadań

Podatki? Tu AI radzi sobie zaskakująco dobrze
W zadaniu dotyczącym polskich przepisów podatkowych większość modeli poradziła sobie bardzo dobrze. Najwyższe wyniki osiągnęły:
- Qwen 3.5 Plus
- ChatGPT od OpenAI
Wysoko uplasował się również Bielik. Problemy pojawiły się natomiast w przypadku DeepSeek i Mistrala, a EuroLLM „wymyślił” nieistniejące ulgi podatkowe – klasyczny przykład tzw. halucynacji AI.
Najlepsi są najwięksi… ale to nie cała prawda
Ogólne wyniki testu pokazują wyraźny trend – dominują modele tworzone przez największe firmy technologiczne z USA i Chin. Wysokie miejsca zajęły m.in. Qwen i Llama, które dodatkowo można wdrażać lokalnie we własnej infrastrukturze.
To ważne dla firm dbających o bezpieczeństwo danych.
Jednocześnie – jak zauważa Marek Jeleśniański – liczy się nie tylko model, ale całe środowisko:
ChatGPT wyróżnia się funkcjonalnością i personalizacją, a Gemini i Copilot integracją z narzędziami biurowymi.
Europa ma ambicje, ale wciąż goni liderów
Test pokazuje też szerszy problem: europejskie modele AI – w tym polskie – wciąż mają trudności z konkurowaniem z gigantami.
Powody są dość oczywiste:
- mniejsze zasoby danych,
- niższe inwestycje,
- ograniczona skala projektów.
Mimo to rozwój trwa, a eksperci liczą na dalsze wsparcie dla europejskiej AI.
Wnioski: AI coraz lepsza, ale polski nadal wymagający
Choć nowoczesne modele językowe osiągają imponujące wyniki, język polski wciąż pozostaje dla nich wyzwaniem. Największe problemy pojawiają się tam, gdzie liczą się niuanse – ortografia, fleksja czy kontekst kulturowy.
Jedno jest pewne: AI będzie coraz lepsza, ale na razie… warto ją jeszcze sprawdzać.
Foto: Grok/AI.