
TECHNICAL NOTE
チャネルアテンションを導入した量子ニューラルネットワークによる拡散モデル
生成AIは世界に変革をもたらし、その中でも特に魅力的な応用の一つが、拡散モデルによる画像やビデオ生成である。この記事では、拡散モデルに量子コンピューティングを活用する刺激的な可能性を探る。従来の古典的なニューラルネットワークを量子ニューラルネットワークに置き換えることで、より大規模な画像や動画を生成できるようになる可能性がある。
まず、拡散モデルの背後にある重要な概念を復習し、次に量子ニューラルネットワークをこのフレームワークにどのように統合できるかを述べる。最後に、チャネルアテンションの概念について掘り下げ、量子ニューラルネットワークが拡散モデルのノイズ除去を実行できるようにする方法を説明する。
INTRODUCTION
DIFFUSION MODELS
生成AIは世界に変革をもたらし、その中でも特に魅力的な応用の一つが、拡散モデルによる画像やビデオ生成である。この記事では、拡散モデルに量子コンピューティングを活用する刺激的な可能性を探る。従来の古典的なニューラルネットワークを量子ニューラルネットワークに置き換えることで、より大規模な画像や動画を生成できるようになる可能性がある。
まず、拡散モデルの背後にある重要な概念を復習し、次に量子ニューラルネットワークをこのフレームワークにどのように統合できるかを述べる。最後に、チャネルアテンションの概念について掘り下げ、量子ニューラルネットワークが拡散モデルのノイズ除去を実行できるようにする方法を説明する。

拡散モデルの仕組みを理解するには、コンピュータが画像をどのように解釈するかを把握することが重要である。コンピュータビジョンでは、画像は数字の二次元行列として表現され、各数字は画面上のピクセルに対応している。白黒画像の場合、行列の各セルの値はそのピクセルの明るさを示している。

例えば、ランダムノイズの画像と手書きの「ゼロ」の画像は、コンピュータによって次のように表現される。

したがって、AIに手書きの「ゼロ」の絵を生成するように依頼すると、そのタスクは本質的に、ランダムノイズのピクセル値を、手書きのゼロに似た特定のピクセル値に変換することになる。

上記で見たように、8x8ピクセルの画像には64ピクセルを表すベクトルが必要である。この2次関数的なスケーリングは、4K解像度以上の高解像度画像では困難になる。そのような場合、ノイズ除去拡散プロセス中に、約800万要素の長さのベクトルを同時に処理する必要がある。この課題は、現代のビデオ制作に必要な1秒あたり60~120枚の画像を扱うビデオではさらに深刻化する。
ここで、拡散モデルに量子コンピュータを使用することが有利になる可能性がある。例えば、量子コンピュータを使用すれば、4K画像を生成するために必要な800万個の要素を、わずか23量子ビットで処理できる。
QUANTUM
量子ニューラルネットワークを用いた拡散モデル
ニューラルネットワークモデルは多くの機械学習タスクに成功を収めており、拡散モデルのノイズ除去に最も広く使用されている。近年、古典的なニューラルネットワークの量子版である量子ニューラルネットワーク(QNN)が有望な代替手段として提案されているM. Schuld et al., Quantum Inf Process 13, 2567–2586 (2014).。QNNは、データセットからパターンを学習できるパラメータ化された量子回路であり、量子ビット状態を操作できることや、さまざまなタスクで高い堅牢性を示している。8x8ピクセルの手書きの「0」または「1」を生成するために設計された一般的なQNN回路を以下に示している。

この一般的なQNNモデルを用いた、拡散モデルの出力は以下になる。

上に示したように、一般的なQNNモデルは、手書きの「0」または「1」を生成するという一見単純なタスクでもうまくいかなかった。これは、拡散モデルにおけるノイズ注入プロセスが本質的に非ユニタリであり、量子コンピューティングで許容されるユニタリ演算では逆転できないためである。この制約により、一般的なQNNモデルは、拡散モデルに必要なノイズ除去タスクを効果的に実行することができない。
FINALLY
チャネルアテンションを導入した量子ニューラルネットワークによる拡散モデル
この制限を克服するため、QuemixはQNNにチャネルアテンションの概念を導入した解説記事008:チャネルアテンションの量子機械学習への導入。チャネルアテンションは、QNNが計算を完了した後、古典コンピュータによって非ユニタリ演算を実行できるようにする効果的な後処理方法である。重要なアイデアは、計算量の多いタスクはQNNに処理させ、その後、簡単な古典処理で結果を微調整することである。このわずかな「後処理」は、非ユニタリ演算を効果的に実行するのに十分であり、一般的なQNNとは異なり、チャネルアテンションを導入したQNNはユニタリ演算と非ユニタリ演算の両方を処理できる。

このQNNモデルを用いた、拡散モデルの出力は以下になる。

上記に述べたように、チャネルアテンションを導入したQNNは、入力データに対してユニタリ演算と非ユニタリ演算の両方を行うことを可能にし、効果的な画像ノイズ除去を可能にする。このハイブリッドアプローチは、量子コンピュータが大量のデータを効率的に処理できる能力を活用しつつ、非ユニタリ演算を可能にする古典的な処理を最後に加えることによる追加の計算コストを最小限に抑える。
QNN
QNNsのチャネルアテンション

提案されたQNNのチャネルアテンションは、計算に補助量子ビット(アンシラ量子ビット)を追加して測定することで実装される。この追加された補助量子ビットは、「アテンション量子ビット」と呼ぶ。アテンション量子ビットの測定結果は、複数の出力状態チャネルを作成するために使用し、それぞれのチャネルには相対的な重要度を反映した重みを割り当てる。これらの重み付けされた出力は合計され、ソフトマックス関数を通過することで、チャネルアテンションを導入したQNNの出力を得る。
チャネルアテンションについて、
・出版された論文:G.Budiutama et al., Phys. Rev. A 110, 012447 (2024).