ChatGPT teraz cię widzi i słyszy; nowe funkcje ułatwiają interakcję z czatbotem OpenAI
OpenAI poinformowało o najnowszej aktualizacji ChatGPT, która znacznie zwiększa możliwości popularnego narzędzia. Czatbot może nie tylko słyszeć użytkownika, ale także zobaczyć, co ten chce mu pokazać.

Inżynierowie firmy OpenAI wciąż pracują nad rozszerzaniem możliwości ChatGPT i właśnie poinformowali na swoim blogu o kolejnej znaczącej aktualizacji, która wzbogaca go o nowe funkcje. Tym razem popularny czatbot otrzymał rozpoznawanie głosu oraz obrazów, a więc zyskał wzrok i słuch.
ChatGPT potrafi widzieć i słyszeć
Wspomniana aktualizacja dostarcza zupełnie nowe możliwości interakcji z popularnym narzędziem, gdyż możemy nie tylko prowadzić z nim rozmowę głosową, ale również pokazywać o czyn mówimy. Jeżeli nie mamy żadnego pomysłu na obiad dla naszej rodziny, możemy zrobić zdjęcie lodówki lub spiżarni, a następnie pokazać je czatbotowi i poprosić o przepis, w którym można wykorzystać posiadane produkty. Jeśli natomiast nasze dziecko ma kłopot z odrobieniem pracy domowej z matematyki, możemy poprosić o pomoc w rozwiązaniu zadania, robiąc zdjęcie i zaznaczając na nim obszar, o który nam chodzi.
Nowa funkcja dostępna jest w ustawieniach aplikacji mobilnej, gdzie należy włączyć rozmowy głosowe. Następnie trzeba dotknąć przycisku słuchawek znajdującego się w prawym górnym rogu ekranu i wybrać preferowany głos, spośród pięciu dostępnych tam propozycji.
Funkcja działa w oparciu o nowy model zamiany tekstu na mowę, który umożliwia generowanie dźwięku zbliżonego do ludzkiego, wykorzystując jedynie sam tekst oraz kilka sekund próbek mowy. Firma zapewnia, że aby głosy brzmiały jak najbardziej naturalnie, do współpracy przy ich tworzeniu zaproszono aktorów głosowych. Dodatkowo wykorzystano system rozpoznawania mowy Whisper, który odpowiada za zamianę wypowiadanych na tekst.
Funkcja rozpoznawania obrazu bazuje na modelach GPT-3.5 oraz GPT-4. Wykorzystują one umiejętności rozumowania językowego, obsługując szeroką gamę obrazów, takich jak fotografie, zrzuty ekranu i dokumenty zawierające zarówno tekst, jak i zdjęcia.
Nowa funkcja ChatGPT, w ciągu najbliższych dwóch tygodni zostanie udostępniona wszystkim użytkownikom Plus i Enterprise, korzystającym z mobilnych platform Android oraz iOS. Firma zapewnia, że niebawem będą mogli z nich korzystać również pozostałe grupy użytkowników, w tym także programiści.