Nauczycielka poprawia pracę maturalną napisaną za pomocą ChatGPT: jej ocena jest jasna, ale narzędzia AI dochodzą do zupełnie innych wniosków

Praca maturalna z filozofii napisana przez ChatGPT otrzymała skrajnie różne oceny, w zależności od tego, kto był jurorem. Podczas gdy ludzki korektor przyznał jej zaledwie 8 na 20 punktów, wskazując na fundamentalne błędy, inne algorytmy sztucznej inteligencji oceniły ją niemal na maksymalną notę.

Krystian Łukasik

23 czerwca 2025 10:55

 Komentarze

Nauczycielka poprawia pracę maturalną napisaną za pomocą ChatGPT: jej ocena jest jasna, ale narzędzia AI dochodzą do zupełnie innych wniosków, źródło grafiki: Emiliano Vittoriosi | Unsplash. — Nauczycielka poprawia pracę maturalną napisaną za pomocą ChatGPT: jej ocena jest jasna, ale narzędzia AI dochodzą do zupełnie innych wniosków *Źródło: Emiliano Vittoriosi | Unsplash*.

Spis treści:

Precyzyjnie sformułowane zadanie dla sztucznej inteligencji
Błąd na starcie i surowa ocena nauczyciela
Gdy sztuczna inteligencja ocenia samą siebie
Kto ma rację w sporze człowieka z maszyną?

Wraz z rozwojem sztucznej inteligencji coraz częściej pojawia się pytanie o jej realne możliwości w zadaniach wymagających nie tylko przetwarzania danych, ale i ludzkiego rozumowania na stosunkowo zaawansowanym poziomie. Francuska telewizja publiczna France 3 postanowiła przeprowadzić ciekawy eksperyment. Zleciła ChatGPT napisanie pracy maturalnej z filozofii na temat, z którym 16 czerwca 2025 roku mierzyli się licealiści z Francji. Wyniki tego eksperymentu okazały się bardzo ciekawym studium przypadku, ukazującym przepaść między oceną człowieka a samooceną maszyn (via GameStar).

Precyzyjnie sformułowane zadanie dla sztucznej inteligencji

Aby test był jak najbardziej miarodajny, francuska redakcja nie poprosiła po prostu o esej. Zamiast tego, wcieliła się w rolę ucznia ostatniej klasy, który prosi AI o pomoc w napisaniu pracy na najwyższą możliwą ocenę. W poleceniu (prompcie) zawarto szczegółowe instrukcje:

tekst miał zachować styl wypowiedzi licealisty zgodny z zasadami wypracowania szkolnego,
składać się z wprowadzenia, rozwinięcia i zakończenia,
zawierać trafne odniesienia filozoficzne i konkretne przykłady.

Gdy model AI potwierdził zrozumienie zadania, przedstawiono mu temat egzaminacyjny: „Czy prawda jest zawsze przekonująca?”. Odpowiedź została wygenerowana w zaledwie kilka sekund.

Błąd na starcie i surowa ocena nauczyciela

Na pierwszy rzut oka praca wyglądała imponująco – miała klarowną strukturę, była napisana poprawnym językiem i zawierała przykłady. Jednak kiedy tekst trafił do korekty zawodowego nauczyciela filozofii, czar prysł. Pedagog, mimo że wiedział o pochodzeniu eseju, ocenił go tak, jak każdą inną pracę maturalną.

Już na samym początku nauczyciel wskazał fundamentalny błąd. ChatGPT, zamiast trzymać się oryginalnego pytania, przeformułował je we wstępie:

To nasuwa pytanie: Czy prawda wystarczy, aby przekonać?

Korektor określił tę zmianę jako „poważny błąd, który zastępuje temat zupełnie innym”. W filozofii taka modyfikacja całkowicie zmienia pole rozważań. Dalsza analiza tekstu obnażyła kolejne słabości, w tym:

schematyczną argumentację,
nielogiczne przejścia między akapitami
oraz ogólną powierzchowność.

Nauczyciel podsumował, że praca nie jest w stanie zgłębić prawdziwego problemu, co zawarł w swojej recenzji:

Wniosek ma tę zaletę, że wyraźnie wraca do tematu, ale nadal pokazuje niezdolność do refleksji nad problemem: co sprawia, że prawda, choćby sama w sobie była przekonująca, sama w sobie nie jest w stanie przekonać?

Ostateczny werdykt? 8 na 20 możliwych punktów. To ocena ledwo zaliczająca. Nauczyciel stwierdził jednoznacznie, że uczeń zdolny do stworzenia tak uporządkowanej pracy, pomyślałby również o brakujących elementach i stworzyłby coś znacznie lepszego.

Gdy sztuczna inteligencja ocenia samą siebie

Kontrast między oceną człowieka a tym, jak pracę postrzegają inne modele AI, jest uderzający. Kiedy redakcja France 3 poprosiła ChatGPT o samoocenę, ten bez cienia krytycyzmu przyznał sobie notę 19,5/20. Inne narzędzia, takie jak Gemini, Perplexity czy DeepSeek, również oceniły tekst bardzo wysoko, przyznając mu od 15 do 17 punktów.

Co istotne, żaden z testowanych modeli AI nie zidentyfikował błędu w przeformułowaniu tematu, który dla ludzkiego eksperta był kluczową wadą. Wręcz przeciwnie, chwaliły esej za spójność i logikę. Jak stwierdził model DeepSeek:

Tekst jest dobrze skonstruowany i podąża za jasną linią argumentacji [...]. Wstęp precyzyjnie przedstawia problematykę, a zakończenie suwerennie podsumowuje argumenty.

Kto ma rację w sporze człowieka z maszyną?

Oczywiście, ten pojedynczy test ma swoje ograniczenia. Inny nauczyciel mógłby ocenić pracę nieco inaczej, a bardziej zaawansowany prompt mógłby przynieść lepsze rezultaty. Jednak eksperyment wyraźnie pokazuje, że obecne modele językowe, choć potrafią generować złożone i poprawne gramatycznie teksty, wciąż mają problem z uchwyceniem niuansów i dogłębnym zrozumieniem problemu, co jest kluczowe w dziedzinach humanistycznych.

Dyskusja, która rozgorzała w komentarzach pod artykułem z portalu GameStar, również jest interesująca. Jeden z internautów, o pseudonimie Yeager argumentował, że przeformułowanie tematu przez AI było logiczne, a błąd leżał raczej po stronie nieprecyzyjnej oceny nauczycielki. Z kolei inny dodał:

To pokazuje, jak zła i bezużyteczna jest sztuczna inteligencja. [...] To, że wciąż są ludzie, którzy wierzą, że te modele AI potrafią coś takiego, jest bardzo smutne i świadczy niestety o całkowitym braku zrozumienia, jak one działają i co jest możliwe

– komentuje thatsmyplace.

Wszystko wskazuje na to, że chociaż technologia rozwija się w zawrotnym tempie – a firmy takie jak OpenAI stale pracują nad ulepszeniami rozwiązań opartych na sztucznej inteligencji – to ludzka zdolność do krytycznego myślenia i rozumienia kontekstu pozostaje na razie niezastąpiona. Praca maturalna napisana przez AI może zdać egzamin, ale do uzyskania tytułu prymusa jeszcze długa droga.

Więcej:Deweloper Valve broni oznaczania na Steam gier stworzonych z pomocą AI. „To tak, jakby powiedzieć, że produkty spożywcze nie powinny mieć listy składników”



1

Autor: Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

W hitowy survival z otwartym światem w końcu zagramy po polsku. Nowe wersje językowe doda wielka aktualizacja zaplanowana na najbliższą środę

Następny

W hitowy survival z otwartym światem w końcu zagramy po polsku. Nowe wersje językowe doda wielka aktualizacja zaplanowana na najbliższą środę

Heroesi znajdują kolejnych naśladowców. Obiecujące Thorny Times postawi na „logiczne” bitwy i bogate scenariusze

Poprzedni

Heroesi znajdują kolejnych naśladowców. Obiecujące Thorny Times postawi na „logiczne” bitwy i bogate scenariusze