昨今の画像処理 - タテよこ斜め縦横無尽

　今朝の情報番組で、ゴジラ-1.0の映像の作り方を紹介していた。スタッフが手で持って動かすゴジラのミニチュア模型、それとは別に逃げ惑う演技をする俳優たち、そして背景は昭和２０年代の銀座の街並みの映像、これらがコンピュータのVFX技術で融合し迫力ある映像になるわけである。
　先日、同じ番組で、動画生成ＡＩの紹介をしていた。この生成ＡＩは、文章を入力するとその文脈に相応しい動画を作ってくれる。このＡＩソフトを作ったオープンＡＩ社のホームページには、「雪の中で遊ぶゴールデンレトリバーの子犬　雪まみれで頭を出す」と入力して生成される動画が掲載されている。雪の中でたわむれる子犬たちの自然な動きを見ると、『こんな映像がどうしてＡＩで生成できるのだろうか？』と驚嘆してしまう。
　さて、ＶＦＸも動画生成ＡＩも、根源となるオリジナル映像は人間が作る。以下の図には生成ＡＩの概要が書いてあるが、「人間が生成したコンテンツを模倣した新しいコンテンツを作成」という点（模倣という点）が重要である。コンピュータはオリジナルを模倣しながら一部を変更し、複数のコンテンツを合成しながら新しいコンテンツを作っているのである。

　この図を見ると、ニューラルネットワークという仕組みが実に単純に書いてある。こんな単純な仕組みで、どうしてこんな色々なことができるのであろうか？　不思議に思ってＣｈａｔＧＰＴに質問したら以下のような答えが返ってきた。

　いやはやびっくりである。上図には、たったの４階層にてニューラルネットワークが模式的に書いてあるが、ＣｈａｔＧＰＴの言うことが本当なら、GPT-3の大規模言語モデルでは、1750階層もあるとのこと。また、パラメータ数 1750億は、人間の大脳の神経細胞の数（160億）の１０倍ほどであり、従ってこのパラメータ数は、人間の各神経細胞が１０本のシナプスを介して他の１０個の神経細胞と接続するぐらいのネットワーク規模であることを示している。
　これで謎は解けた。私は、Deep Learning（深層学習）とも言われているこの仕組みの層の深さが高々数十層ぐらいだと思っていたのだが、桁が２桁違っていた。すなわち、この桁違いの層数とパラメータ数の多さが、生成ＡＩの能力の高さと適用範囲の広さの源泉になっているのである。