Image Video et Phenaki, les IA de Google qui créent des vidéos fantastiques à partir de texte

Google lance dos IA pour créer des vidéos en partie de texte

Nous continuons avec l'actualité des intelligences artificielles qui créent du contenu audiovisuel à partir d'une description textuelle. Hier, nous avons passé en revue l'existence d'AudioGen, une IA text-to-audio, et quelques jours auparavant, nous avons parlé de Make-a-Video, l'IA de Meta qui génère des vidéos à partir de texte.

De quelle intelligence artificielle est-il temps de parler aujourd'hui ? Pas un, mais deux modèles d'IA qui pourraient concurrencer directement l'application Meta . Ils s'appellent Image Video et Phenaki, ils ont été présentés par Google et ce sont deux IA qui convertissent du texte en vidéo.

Image Video privilégie la qualité des vidéos créées avec son IA, même si elles sont plus courtes

Si nous, passionnés de technologie, savons quelque chose, c'est que L'expérience de Google dans l'intelligence artificielle est très étendue . Ainsi, le fait qu'ils aient présenté deux générateurs de vidéo textuels ne nous surprend pas. Mais pourquoi deux ? Parce que l'approche de chacun est différente et parce qu'ils le peuvent.

Le premier modèle est Image Video, une IA qui se concentre sur créer des vidéos de haute qualité . Sa base part du même code source que Image, l'IA text-to-image de Google qui a été présenté il y a quelques semaines. Cependant, Image Video est une version raffinée qui intègre de nombreux nouveaux éléments capables de convertir des images statiques en images animées.

Comme le modèle Meta, l'IA de Google offre des résultats qui ne sont pas parfaits, mais qui sont certainement étonnants . Certaines vidéos peuvent être troublantes, surtout s'il y a des visages ou des personnes qui bougent, mais c'est quand même un grand pas en avant.

Le meilleur? Cela fonctionne comme n'importe quelle autre IA de ce style (il ne nécessite qu'une description textuelle), mais la qualité d'image est meilleure que Make-A-Video . Selon les développeurs de Google, Image Video démarre à partir d'un fichier de seulement 16 images à une vitesse de 3 ips et une résolution de 24 x 48 pixels.

Une fois que la vidéo de base basse résolution est prête, divers modèles d'IA super-résolution sont exécutés, ramenant le résultat final à ce qui suit : une vidéo de 128 images, à 24 ips, et une résolution de 1280 x 768 pixels. Autrement dit, une vidéo en qualité HD d'un peu plus de 5 secondes . Dans le cas du Metra AI, la résolution de sortie est de 768×768 pixels.

Phenaki parie sur de longues vidéos, mais sacrifie la qualité d'image

L'autre intelligence artificielle texte-vidéo de Google fait le contraire : elle génère des vidéos beaucoup plus longues, mais pour ce faire, il doit sacrifier la qualité finale de l'image de sortie.

L'autre différence ? Puisque son but est de faire des vidéos beaucoup plus longues, Phenaki nécessite des instructions beaucoup plus détaillées . En fait, Image Video fait son travail avec une simple phrase, mais vous pouvez demander à Phenaki d'animer un paragraphe entier avec différentes séquences et il le fera.

Comme on pouvait s'y attendre, la cohérence des images résultantes n'est pas si grande . Mais le fait de pouvoir gérer diverses scènes et scénarios (comme s'il s'agissait d'un film) est quelque chose qui nous laisse sans voix.

De plus, l'équipe de développement de Phenaki a révélé un autre fait : son modèle d'IA génère des vidéos de longueur arbitraire. Il n'y a pas de limite de temps maximum , bien que le même texte puisse générer deux vidéos de durées très différentes.

Selon Google, futures versions de ces deux intelligences artificielles "fera partie d'un ensemble croissant d'outils qui aident les artistes et les utilisateurs ordinaires à créer des moyens passionnants d'exprimer leur créativité."

Est-ce l'avenir du cinéma ? Nous ne savons pas, mais le temps nous le dira. Comment tester ces applications ? Malheureusement, ces deux modèles d'IA ne sont pas encore disponibles aux utilisateurs, bien que vous puissiez voir certaines vidéos produites par eux sur leurs portails officiels.