I mai fengslet demonstrasjonen av OpenAIs Advanced Voice Mode publikum, og genererte en bølge av spenning. Imidlertid ble den innledende spenningen raskt til skuffelse da det ble avslørt at funksjonen ikke ville være tilgjengelig før senere i år.
Spol frem noen måneder, og OpenAI har rullet ut Advanced Voice Mode til alle brukere av ChatGPT, inkludert både gratis og betalte abonnenter. Med teknologien som nå er tilgjengelig for bredere bruk, er det på tide å evaluere ytelsen og se om den oppfyller de høye forventningene som ble satt av den første presentasjonen.
Vurdere evner og begrensninger
En påtakelig følelse av skuffelse oppsto fra brukere som forventet at Advanced Voice Mode skulle gjenspeile de imponerende funksjonalitetene som ble vist i den tidligere demoen. Nøkkelfunksjoner som multimodalitet, internett-tilkobling og filopplastingsmuligheter er merkbart fraværende. Til tross for utrullingen av ChatGPT Search, mangler talemodusen fortsatt sanntids internettilgang og oppdateringer.
Dessuten begrenser manglende evne til å fortsette stemmesamtaler fra tidligere tekstbaserte interaksjoner dens praktiske funksjon. Denne mangelen står i sterk kontrast til de lovende egenskapene som ble fremhevet under demoen, og får brukere til å ønske seg funksjoner som forblir urealiserte.
Forbedringer i samtaleflyt
Til tross for sine begrensninger, viser Advanced Voice Mode markerte forbedringer i forhold til forgjengeren. Samtaler føles mer organiske, og brukere kan avbryte uten å vente på at AI skal «tenke», og skape en mer engasjerende opplevelse.
Mens noen spekulerer om backend-prosessene til den nye stemmemodusen, tyder min erfaring på at det er minimal forsinkelse mellom å snakke og motta et svar. Denne umiddelbarheten fremmer en følelse av dialog som ligner på menneskelig samtale.
Evnen til å bytte mellom språk, inkludert hindi, punjabi, engelsk og fransk, er også prisverdig. Noen ganger sliter det imidlertid med å skille mellom hindi og punjabi, og stemmemodusen kan dra nytte av en direkte transkripsjonsfunksjon for språklæring.
Varierte og engasjerende stemmealternativer
ChatGPTs utvalg av stemmer forbedrer brukeropplevelsen. For øyeblikket tilbyr den følgende stemmer:
- Arbor (M) – Enkel og allsidig
- Vale (F) – Lyst og nysgjerrig
- Breeze (M) – Animert og seriøst
- Sol (F) – Erfaren og avslappet
- Maple (F) – Glad og ærlig
- Cove (M) – Komponert og direkte
- Ember (M) – Selvsikker og optimistisk
- Juniper (F) – Åpen og optimistisk
- Gran (M) – Rolig og bekreftende
Den livlige naturen til disse stemmene gjør interaksjoner langt morsommere sammenlignet med de som tilbys av konkurrenter som Gemini Live og Copilot, som mangler en lignende flytende samtale.
Utfordringer med begrensninger
Mens stemmemodusen effektivt kan formidle emosjonelle nyanser for historiefortelling, kommer den til kort på grunn av altfor strenge begrensninger. I den tidligere demoen opplevde brukerne et bredere spekter av funksjoner, inkludert muligheten til å synge, som er fjernet for å unngå potensielle brudd på opphavsretten.
Dessverre forringer disse begrensningene den generelle opplevelsen. Brukere kan støte på avslag på rimelige forespørsler, for eksempel å generere dialoger for å handle praksis, skape frustrasjon. Avansert stemmemodus kan av og til oppfylle noen kreative spørsmål med litt spørsmål, men føler ofte at inkonsekvens hindrer brukervennligheten.
Minneevner og kontekstbevissthet
En bemerkelsesverdig funksjon i Advanced Voice Mode er dens evne til å huske informasjon. Det tillater imidlertid ikke oppfølging av talesamtaler i eksisterende chatter som inneholder tekst eller bilder, en betydelig begrensning.
Til sammenligning støtter Gemini Live løpende dialog uavhengig av tidligere chat-kontekster, og fremhever et område der OpenAI kan trenge å forbedre seg for å konkurrere effektivt.
Raske responstider
Mens raske svar forbedrer samtaledynamikken, kan de noen ganger forstyrre dialogflyten. AI har en tendens til å feiltolke pauser som en invitasjon til å svare, noe som fører til avbrudd som kan avspore brukerens tankerekke.
En funksjon som lar brukere signalisere lengre pauser, lik en «Hold»-knapp, vil i stor grad forbedre naturligheten til disse interaksjonene.
Enkelte mindre feil
De fleste interaksjoner med Advanced Voice Mode er jevne, men brukere kan av og til støte på mindre feil, for eksempel korte statiske eller uventede stemmeendringer. Selv om disse problemene generelt er små, kan de av og til forstyrre brukeropplevelsen.
Kostnads- og tilgjengelighetshensyn
Avansert stemmemodus er tilgjengelig på den gratis ChatGPT-planen i omtrent 15 minutter per måned, men full tilgang krever et abonnement. Dette står i kontrast til konkurrenter som Copilot og Gemini Live, som tilbyr sine stemmefunksjoner uten kostnad for brukerne.
Abonnementsgebyret, sammen med fraværet av funksjoner som internettilgang som finnes i andre modeller, reiser spørsmål om verdien av tjenesten, spesielt for brukere som utelukkende er interessert i talefunksjoner.
Sluttvurdering
Mens Advanced Voice Mode unektelig kan skryte av imponerende teknologiske fremskritt, lever den for øyeblikket ikke alt som lovet i demoen. Dens praktiske bruksområder er begrenset, og uten betydelige forbedringer fungerer den mer som en nyhet enn et nødvendig verktøy.
For de som allerede abonnerer på ChatGPT for funksjoner som Canvas, Søk eller resonneringsmodellen, kan Advanced Voice Mode tjene som et herlig tillegg. Det kan imidlertid ikke rettferdiggjøre et abonnement alene.
Legg att eit svar