私が作れないものは、私が理解していないものだ。
— リチャード・P・ファインマン
深層生成モデル(Deep Generative Models, DGMs)は、高次元データ(例:画像、テキスト、音声)上の確率分布を学習するニューラルネットワークであり、それによりデータセットに似た新しい例(サンプル)を生成することができます。我々はモデル分布を 、データ分布を
と表記します。有限のデータセットが与えられたとき、
が
からどれだけ離れているかを測る損失(ロス)を最小化することによって、
を適合(学習)させます。学習後の「生成」とは、モデルのサンプリング手順を実行して
を抽出することに相当します(密度関数
は、モデルのクラスによっては直接計算可能な場合もあれば、そうでない場合もあります)。モデルの品質は、生成されたサンプルとその要約統計量が
のそれらとどれだけ一致しているかによって、タスク固有の指標や知覚的な指標と合わせて判断されます。
本章では、これらのアイデアの背後にある数学的および概念的な基礎を構築します。第1.1節で問題を定式化し、第1.2節で代表的なモデルクラスを提示し、第1.3節で実用的な分類法(タクソノミー)を要約します。