Hvis du ventet spent på den siste våroppdateringen fra OpenAI for ChatGPT og håpet at selskapet ville gi ut GPT-5, ville du bli skuffet i så måte. Men det OpenAI har gitt ut i stedet ville mer enn veie opp for det.
Selskapet avduket nylig sin nyeste flaggskipmodell – GPT-4o – og det er et mesterverk innen menneskelig innovasjon. «o» i GPT-4o står for «omni», og det er et passende nikk til ChatGPTs nyeste allestedsnærværende evner. Selv om det ikke er mye forbedring i intelligens- og resonnementdelen i forhold til GPT-4-modellen, har den nye modellen drastiske forbedringer i hastighet og multimodalitet.
Hva betyr det? GPT-4o har forbedrede funksjoner på tvers av tekst, tale og syn. Den kan forstå og diskutere bilder bedre. Men den mest spennende delen med oppdateringen er dens evne til å snakke med deg i sanntid over lyd og video, og føre oss inn i fremtiden for menneske-maskin-interaksjon. De fleste av oss forestilte oss bare denne sci-fi-aktige interaksjonen med en AI langt nede i banen. Men det er her, og det er spennende.
Mira Murati, CTO for OpenAI, sammen med to forskningsledere, viste frem de nye egenskapene til GPT-40.
Stemmemodellen har en utrolig personlighet og tonalitet, som kan få deg til å glemme (en stund) at du samhandler med en AI. Det er skremmende spennende. Svarene er mye mer naturlige, og den ler til og med og later til å rødme som et menneske.
Demoen fremhevet også spekteret av følelser ChatGPT kan vise når det blir eksplisitt spurt: Mens han fortalte en historie, tilførte ChatGPT stemmen sin med flere følelser og drama, byttet til en robotlyd og sang til og med som om den var i en musikal, og den gjorde det alt sømløst.
Mange brukere sier at stemmen minner dem om Scarlett Johanssons AI fra filmen «Her», men spesielt er det den samme stemmen ChatGPT hadde tidligere. Hele forskjellen kommer fra endringene i tonalitet og noen velplasserte latter.
Når du kobler den sammen med dens evner til å se og svare på innholdet på skjermen, er det direkte tankevekkende. Med sine nye visningsmuligheter kunne ChatGPT ikke bare forstå ting som lineære ligninger, men det gjorde en ganske bra jobb med å tolke omgivelsene så vel som følelsene i ansiktet til en person som ble vist til den ved hjelp av kameraet. Du kan nå til og med spille stein-papir-saks og be ChatGPT om å være dommeren eller ta intervjuforberedelsen med ChatGPT ett skritt videre ved å be den om å kritisere antrekket ditt, og det vil ikke skylle over eventuelle dårlige valg du gjør.
Totalt sett er effekten bemerkelsesverdig og får deg nesten til å tro at du samhandler med en ekte person over en videosamtale (hvis den andre personen holdt kameraet sitt av hele tiden, altså).
https://www.youtube.com/watch?v=DQacCB9tDaw
Stemmemodellen er også totalt sett bedre enn den som er tilgjengelig for øyeblikket. Dialogen flyter mer som en naturlig samtale, hvor du kan avbryte den på midten, den kan forstå og skille flere stemmer og bakgrunnsstøy, og tonen i stemmen.
På et teknisk nivå er det fordi GPT-4o kan gjøre alt naturlig som til nå har krevd tre forskjellige modeller: transkripsjon, intelligens og tekst-til-tale. Disse forbedringene gir brukeren en mer oppslukende, samarbeidsopplevelse i stedet for ventetiden til de tidligere modellene.
Mens tilgang til GPT-4o allerede begynner å rulle ut til både gratis- og Plus-brukere i nettappen, vil den nye Voice Mode med GPT-4o bli lansert i alfa-kun for ChatGPT Plus-brukere i løpet av de kommende ukene. En ny macOS ChatGPT-app blir også utgitt, med tilgang som rulles ut iterativt, fra ChatGPT Plus-brukere.
Selv om demoen var ganske imponerende, må vi vente å se om den virkelige applikasjonen vil være like jevn når modellen endelig slippes.
Legg att eit svar