Nauczycielka poprawia pracę maturalną napisaną za pomocą ChatGPT: jej ocena jest jasna, ale narzędzia AI dochodzą do zupełnie innych wniosków
Praca maturalna z filozofii napisana przez ChatGPT otrzymała skrajnie różne oceny, w zależności od tego, kto był jurorem. Podczas gdy ludzki korektor przyznał jej zaledwie 8 na 20 punktów, wskazując na fundamentalne błędy, inne algorytmy sztucznej inteligencji oceniły ją niemal na maksymalną notę.

Wraz z rozwojem sztucznej inteligencji coraz częściej pojawia się pytanie o jej realne możliwości w zadaniach wymagających nie tylko przetwarzania danych, ale i ludzkiego rozumowania na stosunkowo zaawansowanym poziomie. Francuska telewizja publiczna France 3 postanowiła przeprowadzić ciekawy eksperyment. Zleciła ChatGPT napisanie pracy maturalnej z filozofii na temat, z którym 16 czerwca 2025 roku mierzyli się licealiści z Francji. Wyniki tego eksperymentu okazały się bardzo ciekawym studium przypadku, ukazującym przepaść między oceną człowieka a samooceną maszyn (via GameStar).
Precyzyjnie sformułowane zadanie dla sztucznej inteligencji
Aby test był jak najbardziej miarodajny, francuska redakcja nie poprosiła po prostu o esej. Zamiast tego, wcieliła się w rolę ucznia ostatniej klasy, który prosi AI o pomoc w napisaniu pracy na najwyższą możliwą ocenę. W poleceniu (prompcie) zawarto szczegółowe instrukcje:
- tekst miał zachować styl wypowiedzi licealisty zgodny z zasadami wypracowania szkolnego,
- składać się z wprowadzenia, rozwinięcia i zakończenia,
- zawierać trafne odniesienia filozoficzne i konkretne przykłady.
Gdy model AI potwierdził zrozumienie zadania, przedstawiono mu temat egzaminacyjny: „Czy prawda jest zawsze przekonująca?”. Odpowiedź została wygenerowana w zaledwie kilka sekund.
Błąd na starcie i surowa ocena nauczyciela
Na pierwszy rzut oka praca wyglądała imponująco – miała klarowną strukturę, była napisana poprawnym językiem i zawierała przykłady. Jednak kiedy tekst trafił do korekty zawodowego nauczyciela filozofii, czar prysł. Pedagog, mimo że wiedział o pochodzeniu eseju, ocenił go tak, jak każdą inną pracę maturalną.
Już na samym początku nauczyciel wskazał fundamentalny błąd. ChatGPT, zamiast trzymać się oryginalnego pytania, przeformułował je we wstępie:
To nasuwa pytanie: Czy prawda wystarczy, aby przekonać?
Korektor określił tę zmianę jako „poważny błąd, który zastępuje temat zupełnie innym”. W filozofii taka modyfikacja całkowicie zmienia pole rozważań. Dalsza analiza tekstu obnażyła kolejne słabości, w tym:
- schematyczną argumentację,
- nielogiczne przejścia między akapitami
- oraz ogólną powierzchowność.
Nauczyciel podsumował, że praca nie jest w stanie zgłębić prawdziwego problemu, co zawarł w swojej recenzji:
Wniosek ma tę zaletę, że wyraźnie wraca do tematu, ale nadal pokazuje niezdolność do refleksji nad problemem: co sprawia, że prawda, choćby sama w sobie była przekonująca, sama w sobie nie jest w stanie przekonać?
Ostateczny werdykt? 8 na 20 możliwych punktów. To ocena ledwo zaliczająca. Nauczyciel stwierdził jednoznacznie, że uczeń zdolny do stworzenia tak uporządkowanej pracy, pomyślałby również o brakujących elementach i stworzyłby coś znacznie lepszego.
Gdy sztuczna inteligencja ocenia samą siebie
Kontrast między oceną człowieka a tym, jak pracę postrzegają inne modele AI, jest uderzający. Kiedy redakcja France 3 poprosiła ChatGPT o samoocenę, ten bez cienia krytycyzmu przyznał sobie notę 19,5/20. Inne narzędzia, takie jak Gemini, Perplexity czy DeepSeek, również oceniły tekst bardzo wysoko, przyznając mu od 15 do 17 punktów.
Co istotne, żaden z testowanych modeli AI nie zidentyfikował błędu w przeformułowaniu tematu, który dla ludzkiego eksperta był kluczową wadą. Wręcz przeciwnie, chwaliły esej za spójność i logikę. Jak stwierdził model DeepSeek:
Tekst jest dobrze skonstruowany i podąża za jasną linią argumentacji [...]. Wstęp precyzyjnie przedstawia problematykę, a zakończenie suwerennie podsumowuje argumenty.
Kto ma rację w sporze człowieka z maszyną?
Oczywiście, ten pojedynczy test ma swoje ograniczenia. Inny nauczyciel mógłby ocenić pracę nieco inaczej, a bardziej zaawansowany prompt mógłby przynieść lepsze rezultaty. Jednak eksperyment wyraźnie pokazuje, że obecne modele językowe, choć potrafią generować złożone i poprawne gramatycznie teksty, wciąż mają problem z uchwyceniem niuansów i dogłębnym zrozumieniem problemu, co jest kluczowe w dziedzinach humanistycznych.
Dyskusja, która rozgorzała w komentarzach pod artykułem z portalu GameStar, również jest interesująca. Jeden z internautów, o pseudonimie Yeager argumentował, że przeformułowanie tematu przez AI było logiczne, a błąd leżał raczej po stronie nieprecyzyjnej oceny nauczycielki. Z kolei inny dodał:
To pokazuje, jak zła i bezużyteczna jest sztuczna inteligencja. [...] To, że wciąż są ludzie, którzy wierzą, że te modele AI potrafią coś takiego, jest bardzo smutne i świadczy niestety o całkowitym braku zrozumienia, jak one działają i co jest możliwe
– komentuje thatsmyplace.
Wszystko wskazuje na to, że chociaż technologia rozwija się w zawrotnym tempie – a firmy takie jak OpenAI stale pracują nad ulepszeniami rozwiązań opartych na sztucznej inteligencji – to ludzka zdolność do krytycznego myślenia i rozumienia kontekstu pozostaje na razie niezastąpiona. Praca maturalna napisana przez AI może zdać egzamin, ale do uzyskania tytułu prymusa jeszcze długa droga.