Via Tenor
Ło Panie ten maluch od GPT Image 1.5, to chyba spawany z 2 albo nawet 3 innych samochodów. Może GPT uwzględnił po prostu innowacyjność naszych blacharzy?
A może autor zagłębiłby się w temat i napisał czemu jest taka różnica? Rozumiem, że tego nie było w kopiowanym artykule, ale warto znać różnice.
Do tej pory generatory obrazów czy to MDJ czy też GPT, generowały obrazy na zasadzie dyfuzji pikseli. Obliczały prawdopodobieństwo pojawienia się danego koloru w danym pikselu. Dlatego słabo sobie radzą w np. generowaniu tekstu na obrazku. Dla nich słowo, to zbiór pikseli, nie ogarniają co to tekst.
Nano Banana korzysta z nowej technologi, jeżeli chodzi o obrazy, czyli modelu językowym opartym na rozumieniu kontekstu.
Nie stosowano wcześniej typowego językowego AI do obrazów.
Dlatego Nano Banana ogarnia tekst na obrazkach, dokładnie odwzorowuje obiekty czy je podmienia, bo rozumie koncepcje danego obiektu. Chcesz Malucha, to wie, co to jest, wie, jak to narysować. Nie bazuje na pikselach.
Dlatego bardzo dobrze radzi sobie z np. generowanie nieistniejących pozycji obiektów.
Można fajny eksperyment zrobić. Stworzyć jakiś model 3D - unikalny dla świata, taki którego nie ma w necie. Wrzucić np. obraz z przodu tego obrazu i poprosić Nano Banano o wygenerowanie tego obiektu w innym rzucie. Zrobi to niemal idealnie, bo właśnie działa na zasadzie kontekstu. Rozumie czym ten obiekt jest, jego poszczególne elementy.
Dlatego Banan wygrywa z każdym obecnie modelem.