日本電信電話(以下、NTT)は4月24日、ウェーブレット変換を応用してLLM(Large Language Models:大規模言語モデル)の追加学習なしで決められた長さを超えるテキストを生成できる技術を開発したことを発表した。将来的には同技術を改善し、「tsuzumi」への導入を目指す。
位置符号化はLLM内部における各単語の位置を表現する機構で、従来のLLMではRoPE(Rotary Position Embedding)が採用されていた。今回同社はこのRoPEがウェーブレット変換の一種であることを証明し、その他の位置符号化手法もウェーブレット変換のような特徴を持つことを示した。
また、ウェーブレット変換を応用した位置符号化を開発し、LLMの追加学習なしで決められた長さ以上のテキストを生成する可能としている。これにより従来行っていたLLMの最大系列長拡張が不必要となり、学習コストの低減を実現するという。
技術開発の背景
従来のLLMでは、事前学習時の計算資源の制約からテキストの最大系列長を事前に決める必要がある。このテキストの最大系列長よりも長いテキストを生成しようとすると、生成性能が低下するため、長いテキストで構成されたデータセットを使って追加で再学習を行うことが一般的とされる。しかしこの手法は計算資源を多く必要とする学習のコストが、再度かかってしまうという課題がある。
このような課題を解決するために、LLM内部で単語の位置を表現する「位置符号化」と呼ばれる仕組みを活用し、最大系列長を超える長文を生成する試みが行われる。位置符号化には「絶対位置」と「相対位置」という位置表現手法がある。「絶対位置」は文の先頭からの各単語の位置を表現しており、「相対位置」は文内の各単語同士の相対的な位置を表現している。
現在多くのLLMでは「絶対位置」を使い「二次元回転行列」を使って位置を表現する位置符号化RoPEが採用されている。RoPEでは「クエリベクトル」を2次元ごとに分割し、二次元回転行列と分割したクエリベクトルとの内積を計算することで位置を表現する。「キーベクトル」に対しても同じ処理を行う。RoPEは計算が高速である一方、「絶対位置」を採用しているため最大系列長より長い文を生成すると性能が下がってしまう。
一方で「相対位置」では、各単語が他の単語とどの程度関連しているかを示す「注意スコア」に相対位置の値を足し合わせることで位置を表現するAliBi(Attention with Linear Biases)という手法が提案されており、最大系列長より長い文を生成しても性能が下がりにくい。
しかし、ALiBiをLLMに採用すると、モデルが遠い依存関係にある単語の情報を取得できない、さらに最大系列長より短い文の生成性能はRoPEより低いという課題が生じる。また、「相対位置」の別手法としてRPE(Relative Position Representation)という手法も提案されているが、これは学習可能なパラメータで相対的な位置を表現し、クエリと内積を取ることで位置を表現するため、ある一定の範囲(例えば前後16トークンほど)の決められた範囲でしか相対位置を表現しないことからALiBiほど外挿性能は高くない。
開発した技術のポイント
回転行列を使って位置を表現する位置符号化RoPEなど従来の位置符号化は、正弦波関数または余弦波関数によって位置を表現していたことから、サイン関数またはコサイン関数が位置表現に有効であると考えられてきた。
しかし今回の研究で、RoPEは信号処理における時間周波数解析の一種であるウェーブレット変換の一種と解釈できることが明らかになった。さらに、相対位置の一種であるALiBiはさまざまな分解能を組み合わせて位置を表現していることを発見した。分解能を組み合わせている点はウェーブレット変換の特徴も一致していることから、従来の位置符号化とウェーブレット変換に共通点があることも明らかに。
研究チームはこれらの発見から、ウェーブレット変換が位置符号化に有効であると考え、ウェーブレット変換を応用した位置表現技術「ウェーブレット位置符号化」を開発した。提案手法は、相対位置をウェーブレット関数に基づいて計算を行い、各単語を表現するクエリベクトルとの内積を計算することでモデル内の単語の位置を表現するというもの。
すなわち、RPEの手法において学習可能パラメータで表現されていた位置をウェーブレット関数で計算する。このとき、分解能が異なる複数の波形を組み合わせることで、ALiBiのようにさまざまな分解能で位置の表現が可能となるため、従来の位置符号化よりも生成性能が改善し、最大系列長を超える長文も性能を維持したまま生成可能となる。さらに、RPEに基づいたこの技術を用いることで、モデルは遠い場所にある単語の情報も取得可能だ。