NVIDIAは9月24日、日本の実社会における人口統計、地理的分布、文化的分布に沿ったペルソナを含む初のオープン合成データセット「Nemotron-Personas-Japan」をHugging Face上に公開した。

データセットの特徴と構成

同社では、高性能かつオープンなモデルファミリーの1つとしてNemotronを構築しており、Nemotron-Personas-Japanはすでに利用されているUS Personasデータセットを基盤としている。オープンソースのLLM(大規模言語モデル)とシームレスに連携できるため、企業向けチャットボットから各種ドメインのコパイロットに至るまで、日本語AIアプリケーション向けのファインチューニングを容易に行えるという。透明性が高く、文化的に整合したソブリンAI構築のための基盤として提供する。

  • 実世界の分布にもとづいたペルソナ生成のための複合AIアプローチ

    実世界の分布にもとづいたペルソナ生成のための複合AIアプローチ

また、CC BY 4.0 ライセンスのもと提供されるデータセットは、機微な個人データに依存することなく、日本社会を反映したAIシステム構築のための、プライバシー保護と規制対応を両立した基盤を提供するとのこと。

データセットは、合計600万件(各レコードにつき6ペルソナ、100万レコード)の自然な日本語で記述されたペルソナとなり、1レコードあたり22項目(6つのペルソナ関連項目と公式の人口統計・労働統計に基づいた16の属性項目)、総トークン数は約14億で、うち約8億5000万がペルソナ関連トークンとなる。

さらに、約95万の固有の名前、日本の労働力を反映した1500以上の職種カテゴリー、人口・地域・性格特性軸を網羅的にカバーし、ビジネス、スポーツ、芸術、旅行、料理など多様なペルソナタイプを揃えた。加えて、文化的背景、技能・専門性、目標・志、趣味・関心をはじめとしたペルソナ属性、CC BY 4.0 ライセンスにもとづき商用・非商用を問わず利用を可能としている。

カバーする領域と文化的配慮

Nemotron-Personas-Japanは、NVIDIAの合成データ生成用マイクロサービス「NeMo Data Designer」を用いて構築し、Pythonで記述されたテンプレートエンジン「Jinja」、Pythonの型アノテーションを利用してデータの構造化、バリデーション、設定管理を容易にするライブラリ「Pydantic」による検証、構造化出力、自動リトライ、複数の生成バックエンドのサポートを可能にする。

加えて、統計に基づいた生成を実現するための確率的グラフィカルモデル、日本語でのナラティブ生成のために「GPT-OSS-120B」などのモデルも活用。Nemotron-Personas-Japan は、日本の公式統計に基づき、教育・職業・ライフステージ・文化的特性・デジタルデバイドを反映するよう設計されている。

  • Hugging Face上に公開した「Nemotron-Personas-Japan」

    Hugging Face上に公開した「Nemotron-Personas-Japan」

教育では学位レベルが国家統計で一括分類されている場合、モデルが異なる教育経路を反映できるよう細かい区分を導入したほか、職業ではトレーニングに使用する職業の幅を広げるため、追加カテゴリー(事業主や専門職など)を組み込んだ。

また、ライフステージは統計表では通常表現されない学生、退職者、失業状態などのシナリオをモデル化し、現実的なペルソナ構築に不可欠な要素とし、文化的特性では信頼性を確保するため、AIシステムが地域の規範をより適切に反映するため日本の社会的、文化的特徴を取り入れた。デジタルデバイドについては、日本の現実的な技術利用パターンを反映するため、年齢層ごとのデジタルリテラシーの差異を考慮した。

ユースケースと今後の可能性

データセットには個人を特定できる情報(PII)は含まれておらず、年齢、名前、職業などは公的な公式データの分布にもとづくが、存命・故人問わず実在の人物と結びつくことはないとのこと。すべてのペルソナは合成されているため、実際の文化的パターンを保ちつつ、個人のプライバシーを損なうことなくトレーニングに利用できるという。

Nemotron-Personas-Japan は、日本のソブリンAIシステム開発を支援するために設計されたデータセットだ。LLM開発者が使用するトレーニングデータの大半は英語であり、Nemotron-Personas の取り組みはこうした課題を解決することを目的としている。地域固有のニュアンスを捉えつつ、開発者がリージョン固有の言語で多様かつ複雑なデータを生成できるようサポートする。

ユースケースとしては、ユースケースには、ペルソナを『種』として対話データセットを生成すること、文化的配慮を持つAIアシスタントの構築、地方・都市や年齢層・教育水準など多様な条件でのモデル評価、日本社会全体に公平に機能するAIの実現などが含まれる。

;;link:;;

https://news.mynavi.jp/techplus/article/20250903-3430698/

https://news.mynavi.jp/techplus/article/20250924-3481861/

https://news.mynavi.jp/techplus/article/20250924-3481644/

https://news.mynavi.jp/techplus/article/20250922-3477565/