Image Video e Phenaki, as IAs do Google que criam vídeos fantásticos a partir de texto

Google lanza dos IA que cria vídeos partindo de texto

Continuamos com as novidades sobre inteligências artificiais que criam conteúdo audiovisual a partir de uma descrição textual. Ontem analisamos a existência do AudioGen, uma IA de texto para áudio, e dias antes falamos sobre o Make-a-Video, a IA da Meta que gera vídeos a partir de texto.

De que inteligência artificial é hora de falar hoje? Não um, mas dois modelos de IA que poderiam competir diretamente com o aplicativo Meta . Eles são chamados de Image Video e Phenaki, foram apresentados pelo Google e são duas IAs que convertem texto em vídeo.

O Image Video prioriza a qualidade dos vídeos criados com sua IA, mesmo que sejam mais curtos

Se nós, entusiastas da tecnologia, sabemos alguma coisa, é que A experiência do Google em Inteligência Artificial é muito extensa . Assim, o fato de terem apresentado dois geradores de vídeo baseados em texto não é algo que nos surpreenda. Mas por que dois? Porque a abordagem de todos é diferente e porque eles podem.

O primeiro modelo é o Image Video, uma IA que se concentra em criando vídeos de alta qualidade . Sua base começa a partir do mesmo código-fonte que Imagem, a IA de conversão de texto em imagem do Google que foi introduzido há algumas semanas. No entanto, Image Video é uma versão refinada que incorpora muitos novos elementos capazes de converter imagens estáticas em imagens em movimento.

Assim como o modelo Meta, a IA do Google oferece resultados que não são perfeitos, mas certamente são incríveis . Alguns vídeos podem ser perturbadores, especialmente se houver rostos ou pessoas se movendo, mas ainda é um grande passo à frente.

Ao melhor? Funciona como qualquer outra IA deste estilo (requer apenas uma descrição de texto), mas a qualidade da imagem é melhor do que Make-A-Video . Segundo os desenvolvedores do Google, o Image Video começa a partir de um arquivo de apenas 16 frames a uma velocidade de 3 fps e resolução de 24 x 48 pixels.

Uma vez que o vídeo base de baixa resolução está pronto, vários modelos de IA de super-resolução são executados, trazendo o resultado final para o seguinte: um vídeo de 128 quadros, a 24 fps e uma resolução de 1280 x 768 pixels. Em outras palavras, um vídeo em qualidade HD de pouco mais de 5 segundos . No caso do Metra AI, a resolução de saída é de 768×768 pixels.

Phenaki aposta em vídeos longos, mas sacrifica qualidade de imagem

A outra IA de texto para vídeo do Google faz o oposto: gera vídeos muito mais longos, mas para isso tem que sacrificar a qualidade final da imagem de saída.

A outra diferença? Como seu objetivo é fazer vídeos muito mais longos, Phenaki requer instruções muito mais detalhadas . Na verdade, o Image Video faz seu trabalho com uma frase simples, mas você pode pedir ao Phenaki para animar um parágrafo inteiro com sequências diferentes e ele o fará.

Como se poderia esperar, a consistência das imagens resultantes não é tão grande . Mas o fato de poder lidar com várias cenas e cenários (como se fosse um filme) é algo que nos deixa sem palavras.

Além disso, a equipe de desenvolvimento da Phenaki revelou outro fato: seu modelo de IA gera vídeos de duração arbitrária. Não há limite de tempo máximo , embora o mesmo texto possa gerar dois vídeos de durações muito diferentes.

Segundo o Google, versões futuras dessas duas inteligências artificiais “Fará parte de um conjunto crescente de ferramentas que ajudam artistas e usuários comuns a criar maneiras emocionantes de expressar sua criatividade”.

Será este o futuro do cinema? Não sabemos, mas o tempo dirá. Como você pode testar esses aplicativos? Infelizmente, esses dois modelos de IA ainda não estão disponíveis aos usuários, embora você possa ver alguns vídeos produzidos por eles em seus portais oficiais.