Da den første AI-genererte videoen ble utgitt, kunne ingen ha gjettet at videogenererende AI-verktøy ville komme så langt på så kort tid. Imidlertid har vi i dag utallige plattformer som lar brukere generere høykvalitets, utrolig detaljerte videoer, som Synthesia og Luma AIs Dream Machine. Når det er sagt, er det fortsatt noen få utfordringer som hindrer disse verktøyene i å bli mainstream.
Og den største er kanskje lydgenereringsprosessen. Mens de fleste videogenererende plattformer kan produsere videoer av god kvalitet, er de stort sett lydløse videoer uten lyd. Selv om det er lyd, legges den vanligvis til separat og lever ikke opp til brukerens forventninger.
For eksempel, hvis du besøker Luma AIs Dream Machine-side, kan du se noen veldig imponerende videoer, men lyden som følger med dem er ganske generisk og av lav kvalitet. Men det kan være i ferd med å endre seg med Googles nye video-til-lyd-teknologi (V2A).
Dette lover å bringe lydgenerering av god kvalitet for videoer til massene, noe som betyr at det endelig kan tillate deg å produsere AI-genererte filmer med riktige lydspor og lyd, og overgå alle AI-genererte videoer som for øyeblikket produseres.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
Hva er Google DeepMinds video-til-lyd-forskning?
Video-to-Audio (V2A)-teknologi utviklet av Googles DeepMind er designet for å lage lydspor for AI-genererte videoer. Denne teknologien gjør det mulig å generere videoer og lyd samtidig ved å kombinere naturlig språkmeldinger med videopiksler for å generere lyder for de handlingene som skjer i videoen.
Denne teknologien kan kobles sammen med AI-modeller som brukes til å generere videoer, som Veo, og kan bidra til å skape realistiske dialoger og lydeffekter sammen med dramatiske partitur som matcher videoen. Enda viktigere, den nye V2A-teknologien er ikke bare begrenset til videoer generert ved hjelp av AI, men kan også brukes til å generere lydspor for videoer produsert på tradisjonell måte. Dermed kan du bruke den til stumfilmer, arkivmateriale og mer.
V2A-teknologien lar brukere generere ubegrensede lydspor for videoer og til og med bruke positive og negative meldinger for å veilede lydgenereringsprosessen og enkelt få de nødvendige lydene. Dette gir også mer fleksibilitet, slik at du kan eksperimentere med ulike utganger og finne det som er best for en bestemt video.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Hvordan fungerer V2A-teknologien?
Ifølge Google eksperimenterte selskapet med diffusjonsbaserte og autoregressive teknikker og fant førstnevnte som best egnet for lydproduksjon. Det resulterer i svært realistiske lyder og fungerer ved å kode videoen til et komprimert format.
Etter det brukes diffusjonsmodellen til å skille tilfeldig støy fra videoen ved å stole på naturlig språkoppfordringer og videoen. Forespørslene bidrar til å generere realistisk lyd som er perfekt synkronisert med videoen. Dette etterfølges av dekoding av lyden, hvoretter den konverteres til en lydbølgeform og smeltes sammen med videoen.
Googles DeepMind ga mer informasjon for å trene opp AI på grunn av hvilken brukere kan lede lydgenereringsprosessen mot de nødvendige lydene og lar plattformen produsere lyd av høyere kvalitet. Slik informasjon inkluderte talte dialogutskrifter og detaljerte lydbeskrivelser med AI-genererte merknader.
V2A-teknologien er trent på slik informasjon, og kan assosiere forskjellige visuelle scener med spesifikke lydhendelser.
Hva er i horisonten?
DeepMinds V2A-teknologi yter mye bedre enn andre V2A-løsninger siden den ikke alltid krever en tekstmelding og kan forstå videopiksler. Lydutgangen trenger heller ikke å justeres manuelt med videoen. Imidlertid er det fortsatt visse begrensninger ved teknologien, som Google har som mål å overvinne med videre forskning.
For eksempel avhenger kvaliteten på lyden som genereres av kvaliteten på videoen som brukes som inngang. Hvis det er forvrengninger eller artefakter i videoen, klarer ikke AI-modellen å forstå disse siden de ikke er inkludert i opplæringen, noe som til slutt resulterer i redusert lydkvalitet.
I tillegg, for videoer som har menneskelig tale, jobber selskapet med å forbedre leppesynkronisering. V2A-teknologien prøver å generere tale ved å bruke inndatatranskripsjonene og deretter justere den etter leppebevegelsene til karakterene i videoen. Men hvis videoen ikke er avhengig av transkripsjoner, er det et misforhold mellom lyden og leppebevegelsene.
Med bedre lydgenereringsmuligheter vil AI-modeller kunne generere videoer som ikke bare ser imponerende ut, men som også høres bra ut. Google integrerer også sin V2A-teknologi med SynthID, som vannmerker alt innhold generert ved hjelp av AI. Dette kan bidra til å forhindre at den blir misbrukt, og sikrer full sikkerhet.
I tillegg sier selskapet at det vil teste V2A-teknologien sin grundig før den frigis til publikum. Så langt, fra det Google har vist frem og lovet for fremtiden, er denne teknologien i ferd med å bli et stort fremskritt innen lydgenerering for AI-genererte videoer.
Legg att eit svar