Image Video en Phenaki, de Google AI's die fantastische video's van tekst maken

Google lanza dos IA que crean video's partiendo de texto

We gaan verder met het nieuws over kunstmatige intelligenties die audiovisuele content creëren vanuit een tekstuele beschrijving. Gisteren bespraken we het bestaan van AudioGen, een tekst-naar-audio AI, en dagen daarvoor hadden we het over Make-a-Video, Meta's AI die video's genereert uit tekst.

Over welke kunstmatige intelligentie is het vandaag tijd om te praten? Niet één, maar twee AI-modellen die rechtstreeks zouden kunnen concurreren met de Meta-app . Ze heten Image Video en Phenaki, ze werden gepresenteerd door Google en het zijn twee AI's die tekst naar video converteren.

Afbeelding Video geeft prioriteit aan de kwaliteit van de video's die met de AI zijn gemaakt, zelfs als ze korter zijn

Als wij technologie-enthousiastelingen iets weten, is het dat: De ervaring van Google op het gebied van kunstmatige intelligentie is zeer uitgebreid . Het feit dat ze twee op tekst gebaseerde videogeneratoren hebben gepresenteerd, is dus niet iets dat ons verrast. Maar waarom twee? Omdat ieders aanpak anders is en omdat het kan.

Het eerste model is Image Video, een AI die zich richt op het maken van video's van hoge kwaliteit . De basis begint met dezelfde broncode als Afbeelding, de tekst-naar-afbeelding AI van Google dat is een paar weken geleden geïntroduceerd. Image Video is echter een verfijnde versie die veel nieuwe elementen bevat die in staat zijn om statische beelden om te zetten in bewegende beelden.

Net als het Meta-model levert de AI van Google resultaten die niet perfect zijn, maar zeker geweldig . Sommige video's kunnen verontrustend zijn, vooral als er gezichten of mensen in beweging zijn, maar het is nog steeds een grote stap voorwaarts.

Het beste? Het werkt net als elke andere AI van deze stijl (het vereist alleen een tekstbeschrijving), maar de beeldkwaliteit is beter dan Make-A-Video . Volgens Google-ontwikkelaars begint Image Video met een bestand van slechts 16 frames met een snelheid van 3 fps en een resolutie van 24 x 48 pixels.

Zodra de basisvideo met lage resolutie gereed is, worden verschillende AI-modellen met superresolutie uitgevoerd, waardoor het eindresultaat op het volgende neerkomt: een video met 128 frames, 24 fps en een resolutie van 1280 x 768 pixels. Met andere woorden, een video in HD-kwaliteit van iets meer dan 5 seconden . In het geval van de Metra AI is de uitvoerresolutie 768×768 pixels.

Phenaki zet in op lange video's, maar offert beeldkwaliteit op

De andere tekst-naar-video-AI van Google doet het tegenovergestelde: het genereert veel langere video's, maar om dit te doen moet het de uiteindelijke kwaliteit opofferen van het uitvoerbeeld.

Het andere verschil? Aangezien het doel is om veel langere video's te maken, Phenaki vereist veel meer gedetailleerde instructies . In feite doet Image Video zijn werk met een simpele zin, maar je kunt Phenaki vragen om een hele alinea te animeren met verschillende reeksen en het zal het doen.

Zoals je zou verwachten, de consistentie van de resulterende afbeeldingen is niet zo geweldig . Maar het feit dat we verschillende scènes en scenario's kunnen verwerken (alsof het een film is) is iets dat ons sprakeloos maakt.

Bovendien onthulde het ontwikkelingsteam van Phenaki nog een ander feit: het AI-model genereert video's van willekeurige lengte. Er is geen maximale tijdslimiet , hoewel dezelfde tekst twee video's van zeer verschillende duur kan genereren.

Volgens Google toekomstige versies van deze twee kunstmatige intelligenties "zal deel uitmaken van een groeiende reeks tools die artiesten en gewone gebruikers helpen spannende manieren te creëren om hun creativiteit te uiten."

Is dit de toekomst van film? We weten het niet, maar de tijd zal het leren. Hoe kunt u deze toepassingen testen? Helaas, deze twee AI-modellen zijn nog niet beschikbaar voor gebruikers, hoewel u enkele door hen gemaakte video's kunt zien op hun officiële portals.

Ontdek beeldvideo .
Ontdek Phenaki .