タテよこ斜め縦横無尽

田舎の年金暮らしのたわごと

昨今の画像処理

 今朝の情報番組で、ゴジラ-1.0の映像の作り方を紹介していた。スタッフが手で持って動かすゴジラのミニチュア模型、それとは別に逃げ惑う演技をする俳優たち、そして背景は昭和20年代の銀座の街並みの映像、これらがコンピュータのVFX技術で融合し迫力ある映像になるわけである。
 先日、同じ番組で、動画生成AIの紹介をしていた。この生成AIは、文章を入力するとその文脈に相応しい動画を作ってくれる。このAIソフトを作ったオープンAI社のホームページには、「雪の中で遊ぶゴールデンレトリバーの子犬 雪まみれで頭を出す」と入力して生成される動画が掲載されている。雪の中でたわむれる子犬たちの自然な動きを見ると、『こんな映像がどうしてAIで生成できるのだろうか?』と驚嘆してしまう。
 さて、VFXも動画生成AIも、根源となるオリジナル映像は人間が作る。以下の図には生成AIの概要が書いてあるが、「人間が生成したコンテンツを模倣した新しいコンテンツを作成」という点(模倣という点)が重要である。コンピュータはオリジナルを模倣しながら一部を変更し、複数のコンテンツを合成しながら新しいコンテンツを作っているのである。

 この図を見ると、ニューラルネットワークという仕組みが実に単純に書いてある。こんな単純な仕組みで、どうしてこんな色々なことができるのであろうか? 不思議に思ってChatGPTに質問したら以下のような答えが返ってきた。

 いやはやびっくりである。上図には、たったの4階層にてニューラルネットワークが模式的に書いてあるが、ChatGPTの言うことが本当なら、GPT-3の大規模言語モデルでは、1750階層もあるとのこと。また、パラメータ数 1750億は、人間の大脳の神経細胞の数(160億)の10倍ほどであり、従ってこのパラメータ数は、人間の各神経細胞が10本のシナプスを介して他の10個の神経細胞と接続するぐらいのネットワーク規模であることを示している。
 これで謎は解けた。私は、Deep Learning(深層学習)とも言われているこの仕組みの層の深さが高々数十層ぐらいだと思っていたのだが、桁が2桁違っていた。すなわち、この桁違いの層数とパラメータ数の多さが、生成AIの能力の高さと適用範囲の広さの源泉になっているのである。