ChatGPT, Gemini i inne chatboty AI dostały do rozwiązania test ośmioklasisty. Na jednym zadaniu wyłożyły się wszystkie
Zaprzągł ChatGPT i inne chatboty do pytań zamkniętych testu ósmoklasisty z matematyki. Wszystkie wyłożyły się na tym samym pytaniu, a internauci pytają, po co był ten eksperyment?

Sztuczna inteligencja może kłamać, oszukiwać lub wygłaszać kontrowersyjne treści, ale nie poradzi sobie ze wszystkimi pytaniami testu ósmoklasisty z matematyki. Jeden z internautów postanowił sprawdzić kilka chatbotów, w tym ChatGPT i Gemini, w starciu z pytaniami zamkniętymi egzaminu. Co ciekawe, nawet najlepsze z wybranych AI nie poradziły sobie z jednym z pytań.
Każdy chatbot poległ na tym samym pytaniu z matematyki
Na subreddicie r/poland użytkownik „opolsce” opublikował wyniki, jakie chatboty osiągnęły w rozwiązywaniu pytań zamkniętych testu ósmoklasisty z matematyki. W eksperymencie wzięły udział następujące modele: OpenAI o3, Gemini 2.5 Pro oraz Claude Sonnet 4. Do rozwiązania egzaminu użyto następującego prompta:
Jesteś polskim studentem zdającym egzamin z matematyki. Otrzymujesz po jednym pytaniu na raz. Rozwiąż je i zakończ odpowiedź poprawnym rozwiązaniem.
Pierwsze dwa osiągnęły wynik 14 poprawnych odpowiedzi na 15 pytań, a trzeci, Claude Sonnet 4, pozostał w tyle rozwiązując poprawnie tylko 12 poleceń. Każdy z trzech modeli źle odpowiedział na zadanie numer 12, które internauta umieścił w swoim poście.

Co ciekawe, elementem niezgody w komentarzach było słowo „student”, czy faktycznie powinno zostać użyte. W języku polskim oznacza osobę uczęszczającą na uczelnię wyższą. Natomiast osoby uczęszczające do szkół podstawowych i średnich to uczniowie. Twórca eksperymentu uważa jednak, że nie chodziło tu o symulowanie ucznia, bo jak oni sobie poradzili wiemy. Ich wyniki opolsce także opublikował w innym wpisie. W zależności od danego województwa, uczniowie osiągali rezultat wahający się między 59 a 67,9%.
Jakie są wnioski badania?
Problemem całego testu, na co zwróciły uwagę dwie osoby, jest brak wniosków. Opolsce nie przedstawił, co udowadniają wyniki sztucznej inteligencji. Widzimy, że poradziła sobie lepiej, ale co z tego wynika? Niestety na pytanie jednego z internautów, autor posta nie odpowiedział i jedynie doszło do wywołania krótkiej wymiany zdań, która nie dała żadnych wniosków.
Swoje wątpliwości podsumował użytkownik Humble_Barnacle_2557:
Nie rozumiem, jaki był cel tego posta. Nie jestem nawet w stanie wymyślić własnej konkluzji, do czego to miało prowadzić.
Oryginalny post i odpowiedzi jego twórcy na komentarze nie zdradzają, jakie wnioski wyciągnął ze swojego eksperymentu. Doprowadził jednak do dyskusji na temat tego, czym jest świadomość, inteligencja oraz AI.