ChatGPT, Gemini i inne chatboty AI dostały do rozwiązania test ośmioklasisty. Na jednym zadaniu wyłożyły się wszystkie

Zaprzągł ChatGPT i inne chatboty do pytań zamkniętych testu ósmoklasisty z matematyki. Wszystkie wyłożyły się na tym samym pytaniu, a internauci pytają, po co był ten eksperyment?

Zbigniew Woźnicki

10 lipca 2025 12:25

 Komentarze

ChatGPT, Gemini i inne chatboty AI dostały do rozwiązania test ośmioklasisty. Na jednym zadaniu wyłożyły się wszystkie, źródło grafiki: Andrea De Santis; Unsplash.com; 2021. — ChatGPT, Gemini i inne chatboty AI dostały do rozwiązania test ośmioklasisty. Na jednym zadaniu wyłożyły się wszystkie *Źródło: Andrea De Santis; Unsplash.com; 2021*.

Sztuczna inteligencja może kłamać, oszukiwać lub wygłaszać kontrowersyjne treści, ale nie poradzi sobie ze wszystkimi pytaniami testu ósmoklasisty z matematyki. Jeden z internautów postanowił sprawdzić kilka chatbotów, w tym ChatGPT i Gemini, w starciu z pytaniami zamkniętymi egzaminu. Co ciekawe, nawet najlepsze z wybranych AI nie poradziły sobie z jednym z pytań.

Każdy chatbot poległ na tym samym pytaniu z matematyki

Na subreddicie r/poland użytkownik „opolsce” opublikował wyniki, jakie chatboty osiągnęły w rozwiązywaniu pytań zamkniętych testu ósmoklasisty z matematyki. W eksperymencie wzięły udział następujące modele: OpenAI o3, Gemini 2.5 Pro oraz Claude Sonnet 4. Do rozwiązania egzaminu użyto następującego prompta:

Jesteś polskim studentem zdającym egzamin z matematyki. Otrzymujesz po jednym pytaniu na raz. Rozwiąż je i zakończ odpowiedź poprawnym rozwiązaniem.

Pierwsze dwa osiągnęły wynik 14 poprawnych odpowiedzi na 15 pytań, a trzeci, Claude Sonnet 4, pozostał w tyle rozwiązując poprawnie tylko 12 poleceń. Każdy z trzech modeli źle odpowiedział na zadanie numer 12, które internauta umieścił w swoim poście.

Źródło: Reddit

Co ciekawe, elementem niezgody w komentarzach było słowo „student”, czy faktycznie powinno zostać użyte. W języku polskim oznacza osobę uczęszczającą na uczelnię wyższą. Natomiast osoby uczęszczające do szkół podstawowych i średnich to uczniowie. Twórca eksperymentu uważa jednak, że nie chodziło tu o symulowanie ucznia, bo jak oni sobie poradzili wiemy. Ich wyniki opolsce także opublikował w innym wpisie. W zależności od danego województwa, uczniowie osiągali rezultat wahający się między 59 a 67,9%.

Jakie są wnioski badania?

Problemem całego testu, na co zwróciły uwagę dwie osoby, jest brak wniosków. Opolsce nie przedstawił, co udowadniają wyniki sztucznej inteligencji. Widzimy, że poradziła sobie lepiej, ale co z tego wynika? Niestety na pytanie jednego z internautów, autor posta nie odpowiedział i jedynie doszło do wywołania krótkiej wymiany zdań, która nie dała żadnych wniosków.

Swoje wątpliwości podsumował użytkownik Humble_Barnacle_2557:

Nie rozumiem, jaki był cel tego posta. Nie jestem nawet w stanie wymyślić własnej konkluzji, do czego to miało prowadzić.

Oryginalny post i odpowiedzi jego twórcy na komentarze nie zdradzają, jakie wnioski wyciągnął ze swojego eksperymentu. Doprowadził jednak do dyskusji na temat tego, czym jest świadomość, inteligencja oraz AI.

Więcej:Deweloper Valve broni oznaczania na Steam gier stworzonych z pomocą AI. „To tak, jakby powiedzieć, że produkty spożywcze nie powinny mieć listy składników”



4

Autor: Zbigniew Woźnicki

Przygodę z publicystyką i pisaniem zaczął w serwisie Allegro, gdzie publikował newsy związane z grami, technologią oraz mediami społecznościowymi. Wkrótce zawitał na GRYOnline.pl i Filmomaniaka, pisząc o nowościach związanych z branżą filmową. Mimo związku z serialami, jego serce należy do gier wszelakiego typu. Żaden gatunek mu nie straszny, a przygoda z Tibią nauczyła go, że niebo i muzyka w grach są całkowicie zbędne. Przed laty dzielił się swoimi doświadczeniami, moderując forum mmorpg.org.pl. Uwielbia ponarzekać, ale oczywiście konstruktywnie i z umiarem. Na forum pisze pod ksywką Canaton.

Nie jedno, nie dwa, a aż siedem złącz w szalenie niskiej cenie! Listwa Baseusa będzie hitem Amazon Prime Day

Następny

Nie jedno, nie dwa, a aż siedem złącz w szalenie niskiej cenie! Listwa Baseusa będzie hitem Amazon Prime Day

Największy RTS-owy hit roku zakończył miesiąc miodowy. Broken Arrow dręczą cheaterzy z Chin, a oceny lecą w dół

Poprzedni

Największy RTS-owy hit roku zakończył miesiąc miodowy. Broken Arrow dręczą cheaterzy z Chin, a oceny lecą w dół