Google lanserer Gemini Live, selskapets svar på ChatGPTs Advanced Voice Mode

Googles Made by Google-arrangement er offisielt avsluttet der selskapet lanserte det siste utvalget for deres flaggskip Pixel-serie-smarttelefoner. Ryktebørsen har jobbet hardt de siste ukene om at en og flere rykter endelig er blitt omgjort til virkelighet. Dessuten, som forventet, hadde arrangementet også mer enn noen få – vel ganske mange faktisk – omtaler av AI.

Blant annet AI, den ene viktige kunngjøringen har vært lanseringen av Gemini Live. Google annonserte Gemini Live på deres I/O-konferanse tidligere i år. Det ruller endelig til Gemini Advanced-abonnenter på Android på engelsk, med utrulling til flere språk og iOS (via Google-appen) kommer snart.

Med Gemini Live er Gemini nå i stand til å holde mer naturlige, toveis samtaler. Du kan også avbryte det midt i et svar, akkurat som i enhver naturlig samtale. Du kan gå inn i Gemini-appen på Android for å snakke med chatboten.

Dette ligner på Advanced Voice Mode-opplevelsen i ChatGPT-appen som nå ruller inn en begrenset alfa til ChatGPT Plus-brukere. For en gangs skyld har Google satt seg foran OpenAI i utgivelsestidslinjen ved å sette i gang en bredere utrulling.

Gemini Live er også tilgjengelig handsfree, slik at du kan snakke med Gemini i bakgrunnen eller til og med når telefonen er låst. Du kan også legge igjen samtaler i midten og komme tilbake til dem senere.

Google ruller ut Gemini Live i 10 nye stemmer slik at samtalene dine med AI kan føles enda mer autentiske for deg; du kan velge stemmen og tonen som gir gjenklang med deg.

Spesielt kan ikke Gemini Live simulere noen annen stemme enn de 10 stemmene som er tilgjengelige i appen, muligens for å unngå opphavsrettsproblemer. ChatGPT-4o følger de samme retningslinjene. Det er ett område hvor Gemini Live ikke er det samme som ChatGPT-4o sin stemmemodus. Førstnevnte kan ikke forstå følelsene dine fra tonen din, noe OpenAI demonstrerte deres chatbot kunne gjøre.

Dessuten er det også en funksjon til Gemini Live som Google demonstrerte på I/O-konferansen som ikke kommer til å være tilgjengelig ved lansering. Ja, vi snakker om multimodale innganger. Hvis du ikke vet hva det var, ingen bekymringer. Her er en oppsummering: Med multimodale innganger kan Gemini Live ta innspill fra telefonens kamera (både bilder og videoer) i sanntid og svare på spørsmål eller hjelpe deg med å identifisere objekter du peker på. Du kan for eksempel peke det på noe DJ-utstyr og be det identifisere navnet på en del, eller du kan peke det på skjermen og spørre hva en bestemt del av en kode gjør.

Men multimodale funksjoner er forsinket foreløpig, og Google har bare sagt at de kommer senere i år, uten noen spesifikasjoner. Interessant nok skal ChatGPT-4os Advanced Voice Mode også ha lignende funksjoner, men de har heller ikke blitt lansert med den begrensede alfa-utrullingen.

Spesielt er Gemini Live et skritt på veien til at Google kan bringe Project Astra til realisering.

Å snakke med en chatbot er noen ganger mye mer praktisk enn å skrive noe ut, spesielt når du vil brainstorme noe. Og med Gemini Live kan samtalen være mye mer sømløs. Eller om live-demoene fra Made by Google-arrangementet skal være noen indikasjon, sømløst nok. (Chatboten hallusinerte tilsynelatende under live-demoen, og det er litt friksjon når du setter «avbryt Gemini i midten»-funksjonen for å teste). La oss se hvordan det går i den virkelige verden, ikke sant? Gjør deg klar til å teste Gemini Live på Pixel-, Samsung- eller andre Android-enheter i løpet av de kommende ukene, fra og med i dag.