Image Video und Phenaki, die Google AIs, die fantastische Videos aus Text erstellen

Google-Link für IA, das teilweise Textvideos erstellt

Wir fahren fort mit den Nachrichten über künstliche Intelligenzen, die ausgehend von einer Textbeschreibung audiovisuelle Inhalte erstellen. Gestern haben wir die Existenz von AudioGen überprüft, einer Text-zu-Audio-KI, und Tage zuvor haben wir über Make-a-Video gesprochen, Metas KI, die Videos aus Text generiert.

Über welche künstliche Intelligenz sollte heute gesprochen werden? Nicht einer, aber zwei KI-Modelle, die direkt mit der Meta-App konkurrieren könnten . Sie heißen Image Video und Phenaki, wurden von Google vorgestellt und sind zwei KIs, die Text in Video umwandeln.

Image Video priorisiert die Qualität der mit seiner KI erstellten Videos, auch wenn sie kürzer sind

Wenn wir Technikbegeisterte etwas wissen, dann das Die Erfahrung von Google im Bereich Künstliche Intelligenz ist sehr umfangreich . Dass sie zwei textbasierte Videogeneratoren vorgestellt haben, überrascht uns daher nicht. Aber warum zwei? Weil jeder Ansatz anders ist und weil sie es können.

Das erste Modell ist Image Video, eine KI, die sich auf Erstellen hochwertiger Videos . Seine Basis beginnt mit dem gleichen Quellcode wie Image, die Text-zu-Bild-KI von Google das wurde vor ein paar Wochen eingeführt. Image Video ist jedoch eine verfeinerte Version, die viele neue Elemente enthält, die statische Bilder in bewegte Bilder umwandeln können.

Wie das Meta-Modell liefert Googles KI Ergebnisse, die nicht perfekt sind, aber sicherlich erstaunlich sind . Einige Videos können beunruhigend sein, besonders wenn sich Gesichter oder Personen bewegen, aber es ist immer noch ein großer Schritt nach vorne.

Das beste? Es funktioniert wie jede andere KI dieses Stils (es erfordert nur eine Textbeschreibung), aber die Bildqualität ist besser als Make-A-Video . Laut Google-Entwicklern startet Image Video ab einer Datei von nur 16 Frames bei einer Geschwindigkeit von 3 fps und einer Auflösung von 24 x 48 Pixel.

Sobald das Basisvideo mit niedriger Auflösung fertig ist, werden verschiedene KI-Modelle mit Superauflösung ausgeführt, wodurch das Endergebnis auf Folgendes reduziert wird: ein Video mit 128 Frames, 24 fps und einer Auflösung von 1280 x 768 Pixel. Mit anderen Worten, ein Video in HD-Qualität von knapp über 5 Sekunden . Beim Metra AI beträgt die Ausgabeauflösung 768×768 Pixel.

Phenaki setzt auf lange Videos, opfert aber Bildqualität

Die andere Text-zu-Video-KI von Google macht das Gegenteil: sie erzeugt viel längere Videos, muss dafür aber Abstriche bei der Endqualität machen des Ausgabebildes.

Der andere Unterschied? Da sein Ziel darin besteht, viel längere Videos zu erstellen, Phenaki erfordert viel detailliertere Anweisungen . Tatsächlich erledigt Image Video seine Arbeit mit einem einfachen Satz, aber Sie können Phenaki bitten, einen ganzen Absatz mit verschiedenen Sequenzen zu animieren, und es wird es tun.

Wie zu erwarten war, die Konsistenz der resultierenden Bilder ist nicht so toll . Aber die Tatsache, verschiedene Szenen und Szenarien (wie in einem Film) handhaben zu können, macht uns sprachlos.

Darüber hinaus enthüllte das Phenaki-Entwicklungsteam eine weitere Tatsache: Sein KI-Modell generiert Videos beliebiger Länge. Es gibt keine maximale Zeitbegrenzung , obwohl derselbe Text zwei Videos mit sehr unterschiedlicher Dauer erzeugen kann.

Laut Google, zukünftige Versionen dieser beiden künstlichen Intelligenzen „wird Teil einer wachsenden Reihe von Tools sein, die Künstlern und normalen Benutzern dabei helfen, aufregende Möglichkeiten zu schaffen, ihre Kreativität auszudrücken.“

Ist das die Zukunft des Kinos? Wir wissen es nicht, aber die Zeit wird es zeigen. Wie können Sie diese Anwendungen testen? Unglücklicherweise, diese beiden KI-Modelle sind noch nicht verfügbar für Benutzer, obwohl Sie einige von ihnen produzierte Videos auf ihren offiziellen Portalen sehen können.