イメージ ビデオと Phenaki、テキストから素晴らしいビデオを作成する Google AI

Google は、IA のクリーンなビデオをテキストで表示します

テキストの説明から始まる視聴覚コンテンツを作成する人工知能に関するニュースを続けます。 昨日、テキストからオーディオへの AI である AudioGen の存在を確認し、数日前に、テキストからビデオを生成する Meta の AI である Make-a-Video について話しました。

今日はどのような人工知能について話す時が来ましたか? 一つではありませんが、 Meta アプリと直接競合できる XNUMX つの AI モデル . それらはイメージ ビデオとフェナキと呼ばれ、Google によって提示され、テキストをビデオに変換する XNUMX つの AI です。

イメージビデオは、AIで作成されたビデオの品質を優先します, たとえ短くても.

私たち技術愛好家が何か知っているとすれば、それは 人工知能における Google の経験は非常に豊富です . したがって、彼らが XNUMX つのテキストベースのビデオ ジェネレーターを提示したという事実は、私たちを驚かせるものではありません。 しかし なぜXNUMXつ? アプローチは人それぞれで、できるからです。

最初のモデルは Image Video で、 高品質のビデオを作成する . そのベースは、 画像、Google のテキストから画像への AI それは数週間前に導入されました。 しかし、イメージビデオは、静止画を動画に変換できる新しい要素を多く取り入れた洗練版です。

メタモデルと同様に、Google の AI が提供します 完璧ではありませんが、確かに素晴らしい結果です . 特に顔や人が動いている場合、一部のビデオは不安定になる可能性がありますが、それでも大きな前進です.

最高の? このスタイルの他の AI と同じように機能します (テキストの説明のみが必要です)。 画質はメイク・ア・ビデオより良い . Google の開発者によると、Image Video は 16 fps の速度と 3 x 24 ピクセルの解像度でわずか 48 フレームのファイルから始まります。

低解像度のベース ビデオの準備ができると、さまざまな超解像度 AI モデルが実行され、最終結果は次のようになります: 128 フレームのビデオ、24 fps、解像度 1280 x 768 ピクセル。 言い換えると、 5 秒強の HD 品質のビデオ . Metra AI の場合、出力解像度は 768×768 ピクセルです。

Phenaki は長い動画に賭けますが、画質は犠牲にします

Google の他のテキストからビデオへの AI は逆のことを行います。 はるかに長いビデオを生成しますが、そのためには最終的な品質を犠牲にする必要があります 出力画像の。

他の違いは? その目標は、より長いビデオを作成することであるため、 Phenaki にはより詳細な手順が必要です . 実際、Image Video は単純な文でその仕事をしますが、Phenaki にパラグラフ全体をさまざまなシーケンスでアニメーション化するように依頼することができます。

予想通り、 結果の画像の一貫性はそれほど高くありません . しかし、さまざまなシーンやシナリオを(まるで映画のように)扱えることには言葉を失います。

さらに、Phenaki の開発チームは別の事実を明らかにしました。それは、その AI モデルが任意の長さのビデオを生成することです。 最大時間制限はありません 、ただし、同じテキストから、長さが大きく異なる XNUMX つの動画が生成される場合があります。

Googleによると、 これら XNUMX つの人工知能の将来のバージョン 「アーティストや一般のユーザーが創造性を表現するためのエキサイティングな方法を作成するのに役立つツールのセットの一部になります。」

これは映画の未来ですか? わかりませんが、時間が教えてくれます。 これらのアプリケーションをどのようにテストできますか? 残念ながら、 これら XNUMX つの AI モデルはまだ利用できません ただし、公式ポータルで作成されたビデオを見ることができます。