押さえておきたいLLM用語の基礎解説(2) トランスフォーマー・エンコーダー・デコーダー・パラメータ・トークン・コーパス

AI技術の急速な発展により、日常生活やビジネスに大きな変化を体験した人も多いだろう。特に近年では生成AIや、その中心となるLLM（Large Language Models：大規模言語モデル）の発展が目覚ましい。マイナビニュース TECH+でも、多くの活用事例や最新技術を紹介している。だがしかし、その仕組みや専門用語を理解するのは、意外と難しい。

そこで本連載では、生成AIやLLMに関連する用語について解説する。日々のビジネスや資格取得に向けた勉強、弊誌をはじめニュース記事を読む際の補足として活用してほしい。用語解説は、ソフトバンク子会社で日本語に特化したLLMの開発を進めるSB Intuitionsのエンジニアリングチーム。

トランスフォーマー

トランスフォーマー（Transformer）[1]は、2017年にGoogleの研究者らによって提案された深層学習モデル。アテンション（Attention：注意機構）と呼ばれる、文中の単語間の関係をうまく捉えることができる仕組みを利用し、アテンションをもつニューラルネットワークを複数重ねた構造を持つ。

トランスフォーマーはGPT（Generative Pretrained Transformer）[2]やBERT（Bidirectional Encoder Representations from Transformers）[3]といった言語モデルの他、画像認識や音声認識モデルにも組み込まれるなど大きな影響を与えた、広く利用されているモデル構造の一つ。ちなみに、SB Intuitionsが自社開発している言語モデル「Sarashina」もモデル構造としてトランスフォーマーを利用している。（黒澤）

参考

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention Is All You Need. In the Proceedings of the 31st Annual Conference on Neural Information Processing Systems.
[2] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving Language Understanding by Generative Pre-Training. OpenAI.
https://openai.com/index/language-unsupervised/
[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers).
[4] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2020. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In the Proceedings of the 2021 Conference of the International Conference on Learning Representations.
[5]https://www.sbintuitions.co.jp/blog/entry/2024/06/26/115641

エンコーダー

エンコーダーはデータをある形式から別の形式に変換するもので、データの圧縮や、次元削減、特徴量の抽出などのために使用される。特に自然言語処理の分野では、テキストなどの言語データに含まれる各トークン（トークンについては後述）のベクトル表現からなる系列から、テキストや単語の意味などを捉えたベクトル表現を得るために使われる。

上記のBERT[1]は代表的なエンコーダーモデルであり、入力されたテキストが持つ意味を抽出したベクトル表現を出力して、テキスト分類などのタスクを解くことに利用される。また、発表された当時の翻訳タスクに用いられるトランスフォーマー[2]は、エンコーダーと、後述するデコーダーを組み合わせたアーキテクチャを持つ。エンコーダーは翻訳対象となる言語のテキストから翻訳に有用なベクトル表現を得る役割を担う。（泉）

参考

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers).
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention Is All You Need. In the Proceedings of the 31st Annual Conference on Neural Information Processing Systems.
[3] Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. 2014. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1724–1734, Doha, Qatar. Association for Computational Linguistics.

デコーダー

デコーダーは、エンコーダーが抽出・圧縮した情報を利用して、元の情報を再構築したり、他の意味のある形式へ復元したりすることに使用されるほか、入力されたデータ系列から次のデータを予測し生成するためなどに使用される。

特に自然言語処理の分野では、エンコーダーなどによって得られたテキストなどの言語データのベクトル表現を利用して、テキストなどを生成する場合に使用されることが多い。翻訳タスクに用いられるトランスフォーマー[1]では、エンコーダーが抽出した翻訳対象となる言語のテキストから得たベクトル表現などを利用し翻訳先の言語のテキストを出力する役割を担っているほか、GPT[2]では入力されたテキストの各トークンのベクトル表現からなる系列から次のトークンのベクトル表現を予測していくことで、テキストを生成する。（泉）

参考

パラメータ

ニューラルネットワークモデルにおいては、ニューロンから送られるシグナルの変換関数の設定など、学習において調整可能な値のことを指す。学習の過程でパラメータが変更されることで、モデルの出力がより正確になる。言語モデルにおけるパラメータにも同様の意味があるが、学習率など特に学習で重要なパラメータを「ハイパーパラメータ」と呼ぶ。

パラメータの総数（パラメータ数）は言語モデルの能力に関する一つの指標として扱われる。パラメータ数が大きいモデルほどより高度な予測や推論ができる一方で、学習や推論に必要な計算リソースも増大する。（黒澤）

トークン

LLMにおいては、自然言語を処理する際の最小単位をトークンと呼ぶ。LLMでは入力文字列をトークン列に変換し、出力時にはトークン列から文字列に変換する。この変換処理を行うのがトークナイザーである。

LLMで使用できるトークンの種類の数は有限であり、現在のLLMでは数万種類程度のトークンを使用する。単語単位や文字単位の言語モデルも存在するが、未知語の処理や多言語への拡張が難しいという問題がある。また、出現頻度の低い単語や文字にトークンを割り当てるのは非効率的である。

そこで、頻出の文字列にトークンを積極的に割り当て、効率的なトークン分割を行うようにトークナイザーを作成することで、限られた数のトークンで効率的に言語を表現できるようになる。近年のLLMのトークナイザーは文字をバイト単位まで分割することで多数の言語を扱えるようになっている。（新里）

コーパス

自然言語処理の分野において、コーパスとは大規模に集められたテキストデータのことを指す。LLMの構築において、コーパスはモデルの学習データとして使用される。

LLMの性能は学習データ量の対数に比例するという経験則がある。つまり、モデルの性能を少し上昇させるだけでも、コーパスの量を指数的な規模で増やす必要があるということ。そのため、高性能なLLMを構築するには膨大な量のコーパスが不可欠とされる。

近年のLLMでは、数十テラバイト規模のコーパスが使用されている。これは、新聞記事に換算すると数万年分のテキストデータ量である。このような膨大な規模のデータを収集するために、主にインターネット上から収集されたデータが利用されている。

コーパスの量と質はLLMの性能に直接的な影響を与える重要な要素である。大規模かつ高品質なコーパスを確保することが、高性能なLLMを開発する上での鍵となっている。（新里）

泉健太
SB Intuitions R&D本部 Foundation dev部 LLMコア構築チーム / LLMチューニングチーム

2022年3月東北大学工学部電気情報物理工学科卒業、2024年4月奈良先端科学技術大学院大学先端科学技術研究科情報科学領域修士課程修了。ソフトバンクに新卒入社した後、SB Intuitionsへ出向。現在はLLMに長文入力を行う手法や、既存の学習済みモデルをより大きなモデルの学習に使い回す手法の試行、マルチモーダル対話システムの開発などに従事。

新里顕大
SB Intuitions Foundation dev部 LLMコア構築チーム

2022年京都大学工学部情報学科卒業、2024年京都大学情報学研究科修士課程修了。LINEヤフーに新卒入社した後、SB Intuitionsに転籍入社。専門は理論神経科学。社内では大規模言語モデルの構築を行うチームに所属し、学習データの構築基盤の開発などを担当。

黒澤友哉
SB Intuitions R&D本部 Responsible AIチーム

2022年東京大学理学部情報科学科卒業、2024年東京大学大学院情報理工学系研究科修士課程修了。LINEヤフーに新卒入社した後、SB Intuitionsに転籍入社。専門は自然言語処理。社内では大規模モデルの安全性に関する研究を行うチームに所属しており、現在は自社製言語モデルの安全性を高めるプロジェクトを担当。

トランスフォーマー・エンコーダー・デコーダー・パラメータ・トークン・コーパス

目次

トランスフォーマー

参考

エンコーダー

参考

デコーダー

参考

パラメータ

トークン

コーパス

この連載の前後回

AIが勧める、あなたのための会員限定記事

トランプ政権はなぜ中国へのAI半導体輸出を許可したのか　その背景を考える

Windows 11 25H2でショートカットの動作が変わる可能性、不具合との指摘も

Androidに2件の緊急脆弱性、アップデートを

Anthropic、日本法人の代表執行役社長に元Snowflakeの東條英俊氏

日本語入力高速化第3回ユーザー辞書を積極的に活用して文字入力を高速化!

日本企業の約40%がAIエージェント導入済、92％が1年以内に導入予定 - UiPath

編集部が選ぶ関連記事

SB IntuitionsとAiHUB、バーチャルヒューマンの高度化に向け共同研究を開始

生成AIの開発・利用リスクにどう立ち向かうのか？ - SB intuitionsの挑戦

【2024年6月度】Members+人気記事ベスト10

なぜ大学の先生から民間企業へ？LLM研究者の生活スタイルやキャリアの差とは - SB Intuitions

関連リンク

Google「Jules」が正式版に、クラウド上で自律動作するAIコーディングエージェント

Windows 11 25H2でショートカットの動作が変わる可能性、不具合との指摘も

OpenAI、無償でオープンな軽量言語モデル「gpt-oss」を発表

LLMに限界? 生成AIはAGI汎用人工知能に至る技術ではないとの指摘

サイバーセキュリティ最前線第43回 7月28日～8月3日の最新サイバーセキュリティ情報 - TP-Linkルーターに致命的脆弱性、今すぐ使用中止を

OpenAIが商用可能なオープンウエイトモデル「gpt‑oss」公開、6年ぶりオープン回帰

このカテゴリーについて

トランスフォーマー・エンコーダー・デコーダー・パラメータ・トークン・コーパス

目次

トランスフォーマー

参考

エンコーダー

参考

デコーダー

参考

パラメータ

トークン

コーパス

この連載の前後回

AIが勧める、あなたのための会員限定記事

トランプ政権はなぜ中国へのAI半導体輸出を許可したのか その背景を考える

Windows 11 25H2でショートカットの動作が変わる可能性、不具合との指摘も

Androidに2件の緊急脆弱性、アップデートを

Anthropic、日本法人の代表執行役社長に元Snowflakeの東條英俊氏

日本語入力高速化 第3回 ユーザー辞書を積極的に活用して文字入力を高速化!

日本企業の約40%がAIエージェント導入済、92％が1年以内に導入予定 - UiPath

編集部が選ぶ関連記事

SB IntuitionsとAiHUB、バーチャルヒューマンの高度化に向け共同研究を開始

生成AIの開発・利用リスクにどう立ち向かうのか？ - SB intuitionsの挑戦

【2024年6月度】Members+人気記事ベスト10

なぜ大学の先生から民間企業へ？LLM研究者の生活スタイルやキャリアの差とは - SB Intuitions

関連リンク

Google「Jules」が正式版に、クラウド上で自律動作するAIコーディングエージェント

Windows 11 25H2でショートカットの動作が変わる可能性、不具合との指摘も

OpenAI、無償でオープンな軽量言語モデル「gpt-oss」を発表

LLMに限界? 生成AIはAGI汎用人工知能に至る技術ではないとの指摘

サイバーセキュリティ最前線 第43回 7月28日～8月3日の最新サイバーセキュリティ情報 - TP-Linkルーターに致命的脆弱性、今すぐ使用中止を

OpenAIが商用可能なオープンウエイトモデル「gpt‑oss」公開、6年ぶりオープン回帰

このカテゴリーについて

トランプ政権はなぜ中国へのAI半導体輸出を許可したのか　その背景を考える

日本語入力高速化第3回ユーザー辞書を積極的に活用して文字入力を高速化!

サイバーセキュリティ最前線第43回 7月28日～8月3日の最新サイバーセキュリティ情報 - TP-Linkルーターに致命的脆弱性、今すぐ使用中止を