11月18日、エンタメ業界に特化したデータエンジニアリングのイベント「エンタメ業界のデータエンジニアリング最前線」(共催:データ横丁、マイナビ)が開催された。最終回となった今回のテーマは、ホビー・CGMだ。フリューとピクシブの担当者が登壇し、自社の取り組みを明かした。

ものづくり企業ならではの課題とは

フリューはオムロン発祥の総合エンタテインメント企業だ。プリントシール機の企画・開発やプリントシール機専門店「girls mignon」の展開、プリ画の取得閲覧Webサービス「ピクトリンク」の運営といった「ガールズトレンドビジネス」と、キャラクター等のIPをぬいぐるみやフィギュアとしてクレーンゲーム景品・ECサイト・コンビニくじで展開したり、コンシューマー向けゲームやアニメ製作などを行う「世界観ビジネス」の2つを主業とする。“かわいい”をプロデュースできる強みを生かしながら、幅広いエンタメ事業を展開するうえでデータ分析にどのように取り組んでいるのか。

「データに関しては後追い」と言うのは、フリュー プリントシール機事業部 技術推進部 部長/シニアプロフェッショナルの盛岡尚記氏だ。ものづくりを得意とする企業文化ゆえに、データ活用には大きな課題があったと振り返る。

  • 人物写真

    フリュー プリントシール機事業部 技術推進部 部長/シニアプロフェッショナルの盛岡尚記氏

「ハードやソフトをつくってはリリースすることを繰り返すうちに、データ収集やデータ設計は後付けになっていました」(盛岡氏)

さらに、各事業体でデータ保存形式も分析手法もバラバラで、データ管理者が不在の部署も存在するという状況だった。

転機となったのは、プリントシール機事業でGoogle BigQueryを採用したことだ。筐体の稼働データやWebサービスのデータをBigQueryに投入していくうちに、その利便性を感じ、BigQueryへの全面移行を決断。他の事業体も徐々にBigQueryへのデータ集約を進め、ECサイトやウェブ広告などさまざまなデータを統合していった。

データ基盤の変遷を見ると、2000年代初頭はExcelでの集計やログデータのSQL分析が主だった。そこからRedashやTableauといったBIツールの導入、Google Analyticsの本格活用、Amazon RedShiftでのデータ分析データベース構築を経て、2020年頃にGoogle BigQueryでの全社統一という流れが生まれた。その後、Lookerを導入し、全社のBIツールも拡充している。

現在の分析基盤ツールは多岐にわたる。RedashやTableauに加え、DigdagやEmbulkを使い、最近ではTROCCOも導入した。全社ではJava製のツールであるDataSpiderを採用し、エンジニアがいなくてもExcelやスプレッドシートのデータをBigQueryに投入できる体制を整えた。基盤はBigQuery、データ管理にはDataPlexでメタデータのタグ付けを進め、BIとしてはMotionBoardなども活用している。このように多様なツールを用いられる状況である反面、ライセンス費用の増大が全社的な課題になっているそうだ。

分散するデータに対するBigQuery導入の効果と残る課題

プリントシール機事業は、フリューの中でも「特殊な事業体系を持つ」と盛岡氏は説明する。同社はアミューズメント施設などに筐体を販売し、撮影後に出力されるシールを消耗品ビジネスとして提供、さらにデジタルデータをアプリやサイトで取得できるピクトリンクという会員制ビジネスも展開している。全国に約5700台(2025年3月末時点)のプリントシール機があり、女子高生の約98%が生涯で一度は撮影経験を持つといわれている(マクロミル2020年6月調査)。「1秒に1回レベルの頻度でプレイされ、そのたびに十数枚がサーバに送られる」(盛岡氏)規模のデータ量の規模だ。

プリントシール機のビジネスモデルは、フリューから店舗を運営するオペレーター、オペレーターからユーザーというBtoBtoCである。各タッチポイントでデータ収集が必要となり、店舗でのプレイ数、筐体でのプレイ人数や出荷数、ピクトリンクでのサービスユニークユーザー数、有料会員への転換率など、多様なデータを収集・分析している。

同氏によると、プリントシール機のデータ収集には独特の課題があるという。機器は一度出荷すると変更が困難で、数年かけて緩やかに移行するしかない。新機種と旧機種が全国で並行稼働し、リリースサイクルは短いが保守期間は5年程度と長い。さらに、設置店舗の通信環境も多様で、モバイル通信、店舗内Wi-Fi、光回線などさまざまな接続形態があり、データ量やプロトコルに制限がかかる。

このため、システム構成は筐体から直接BigQueryに入れるのではなく、独自の「プリクラウド」に一旦収容する方式を採用した。プリクラウドを腐敗防止層として機能させ、多様な機種のデータ欠損を吸収・整形してからデータレイクに投入するかたちだ。海外展開も視野に入れ、海外版プリクラウドの構築も構想している。一方、ピクトリンクなどのWeb系サービスに関するデータ収集はマルチクラウド構成で、AWSやOracle CloudからBigQueryにデータを集約している。

分析面では「1ゲーム」を基準としたデータ設計にしているという。ユーザーがコインを投入した1ゲームに基づく筐体ログベースというファクトデータに各種情報を結合したテーブルで分析を行う。特徴的なのは、年齢属性を学年単位で細かく取得している点だ。「中学3年生と高校1年生では行動が全く違い、放課後の動き方やイベントへの反応が異なる」(盛岡氏)ことから、4月2日始まりの学年年齢で集計して各種アクティビティとひもづけ、ヒートマップ化することも多いそうだ。

また、Webサービスの行動ログと連動させ、プリントシール撮影後にピクトリンクでデジタルデータを取得することでユーザー特定も行っている。ユーザー推測の手法として、画像から年齢を推定する試みや、行動データから年齢を推測する方法も検討したが、プリ画は加工されており、ゲームシークエンスも一定のため難しいと判断した。そこで現在は、プリントシール機とピクトリンクをつなげる方向で考えているという。例えば、ユーザーがプレイ前にQRコードを読み込んでサービスと連携することで、会員情報とひもづき、ユーザーの特定が行える仕組みの採用だ。

全社的な取り組みとしては、プリントシール関連事業の他にも、高品質ホビーブランド「F:NEX」等をEC販売する「FURYU HOBBY MALL」やアミューズメント景品の特設サイト「キャラ広場」といった世界観ビジネスのサイト、会員サイトのデータ、広告データ、コンテンツ関連、店舗POSデータなど、全てをBigQueryに集約する方向で進めている。データエンジニアはBigQueryへの集約を前提に、EmbulkやTROCCO、DataSpiderで接続するという進め方が浸透しつつあるそうだ。

「(この取り組みにより)データフローが明確になりました。分析や可視化の際に保存場所を探し回る必要がなくなり、データはBigQueryにあるという知見が育成されています」(盛岡氏)

WebサービスやECサイトの基盤構築もテンプレート化できるようになったものの、課題も山積している。例えば、Excelやローカルツールで管理されているデータが事業体に残っている点や、複数のBIツールが並立している点がある。また、全社向けのデータエンジニアやアナリストが不足しており、データ収集と分析を1名で担当するケースも少なくない。そのため、「全ての技術選定は運用コストの低さが最優先される」と同氏は話した。

データ活用にも課題はある。その1つが、「同じ名称だけど別のデータを指している事例」(盛岡氏)の多発だ。同氏はその例として、「プレイ数」という言葉を「お金を入れてプレイすること」だと認識している人と、その他の意味で使用している人がいることを挙げた。そこで用語集やデータ活用ナレッジの整備、データの一元化(Single Source of Truth化)などに取り組んでいるそうだ。

今後は定性データの活用も視野に入れている。女子高生や女子大生へのグループインタビューで集まるテキストや音声データを分析するために、Geminiを活用する試みにも着手。Slack BotにRAGを組み込んだ質問応答システムや、BigQuery+Dataplexを使った自然言語でのデータ集計にも挑戦している。

盛岡氏は最後に「ものづくりの会社からデータドリブンの会社へ変革できるよう、データの意味付けやAI活用を全社で推進していきたい」と今後の決意を語った。

20プロダクトを支える非中央集権データ組織

後半に登壇したのは、ピクシブ Platform Division/Platform Section/Data Unit データマネジメントエンジニアの武本和久氏だ。1.5億作品を扱う同社のマルチプロダクト次世代データ戦略をテーマに、いかにしてスケーラブルなデータ組織を構築し、さらにLLMを活用した次世代基盤へと進化させようとしているのか、その3段階の取り組みを紹介した。

  • 人物写真

    ピクシブ Platform Division/Platform Section/Data Unit データマネジメントエンジニアの武本和久氏

ピクシブはイラスト・マンガ・小説作品の投稿プラットフォーム「pixiv」を中心に、クリエイタープラットフォーム、コンテンツプラットフォームなどクリエイターを支援するさまざまなサービスを提供している。

データチームは「データがあたりまえの力となり、あらたな価値を生み出す文化を創る」をビジョンとミッションに掲げ、「ユーザー起点で考え抜く」「よりそい頼れるパートナーになる」「専門性を磨き、データ領域を牽引する」をバリューおよびクレドに据えている。

最初のステップは非中央集権データ組織とデータの民主化だ。

ピクシブは非中央集権データ組織を持つ。その背景は次のようなものだ。従来、データの整備や分析は横断組織であるデータチームが担当するのが一般的だが、この構造ではコミュニケーションがボトルネックとなる。ドメインチーム(プロダクトを担当する各チーム)は、データの整備や分析を毎回依頼しなければならず、20ものプロダクトを抱える同社では、データチームだけでデータ基盤を構築していくことは現実的ではなかった。

そこで、ドメインチーム主体のデータ組織を組成。データの整備、加工、分析は全てドメインチームが担当し、データチームは相談に乗って協力していくかたちを採った。

「データを民主化し、速くてスケールしやすいデータ組織を実現しました」(武本氏)

この体制から生まれた成果が、ユーザーへのデータ還元施策である。「myBESTpixiv」は年末年始に実施される施策で、クリエイターは自身の作品の1年間の動向を、閲覧ユーザーはよく見ているタグを特設サイトで確認し、SNSでシェアできる仕組みだ。また、オウンドメディアでは「BOOTH 3D モデルカテゴリ取引白書」として、どの価格帯の3Dモデルが売れているかなどが分かる取引データの推移をグラフとして公開している。

ただし、この体制を実現するには課題があった。ドメインチームは環境構築に手が回らないことが多く、作成者がデータの専門家ではない場合も多い。Web開発をしている人がデータ基盤の構築までするという体制をどう整えるかが問題だった。

そこでステップ2として、データ管理の自律化を進めた。

具体的な策として、まず相談しやすい環境を構築。Slackに相談窓口を設け、手軽に相談できるようにした。チームのバリュー&クレドである「よりそい頼れるパートナーになる」を意識し、データに関することなら何でも受け付ける体制とした。20プロダクトもあるため、「あくまで相談先としてベストエフォートで対応する運用にしている」と同氏は説明する。

さらに「データエンジニアリング互助会」という仕組みも導入している。データに興味がある人たちで運営し、社内でデータ利活用に関わる仲間の知見を集約する場となっている。こうして助け合う文化を醸成していった。

データ管理自律化の事例として、武本氏はコース連携をしている京都芸術大学の教育事業の事例を紹介した。この事業を主管する事業部はもともとエンジニアが0名だった。そこに2名がジョインしたが、データの専門家ではなかった。そこでデータの専門家が相談役として入り、サポートしながらデータ基盤を構築していった。ドメイン知識については、ステークホルダーに理想のダッシュボードを作成してもらい、「なぜこのグラフなのか」「この指標は何のためにあるのか」をやり取りする中で身に付けていくという手法を採った。データ基盤完成と同時にドメイン知識も習得できる一石二鳥のアプローチである。

LLM-Ready基盤で目指す次世代データ戦略

ステップ1、ステップ2を踏まえて、ステップ3は次世代へ向けた新たな価値提供だ。

武本氏によると、「データがあたり前の力」になってきた一方で、新たな課題も浮上した。エンジニアがいないとデータ利活用が進まない、チームによってデータの利活用にばらつきがある、ドメインチーム主体であるがゆえにマルチプロダクトの連携が弱いといった点である。

そこで目指したのが「データを武器に成長するプロダクト文化」の創出だ。具体的には、業務の効率化を進めてクリエイティブな時間を増やし、LLMでマルチプロダクト分析を加速するという方針を採る。

その核となるのが「LLM-Ready基盤×マルチプロダクト横断データ」である。エンジニア目線でのLLM-Ready基盤の最大のポイントは、データマートが不要になる点だ。データウェアハウス層をディメンショナルモデリングで整備すれば、レポート用のデータはLLMが生成してくれる仕組みを構想している。

その実現に向けて、プロダクト横断データウェアハウスを構築し、そこに対してLLMがアクセスするかたちを考えている。各プロダクトから情報を集約し、1つのデータウェアハウスをつくる計画だ。

ここで問題となるのが、ステップ1の非中央集権データ組織との整合性である。そこで、同社は「LLM-Ready基盤を民主化する」という方向を選んだ。例えば、pixivの施策データがあれば、プロダクト横断データウェアハウスから他部署のプロダクトデータと紐付けてLLMを使うといった活用を想定している。

武本氏は「LLM-Readyなデータ基盤の民主化を進め、マルチプロダクト分析によって新たなインサイトを発見していきたい」と今後を展望した。

  • 人物写真

    司会進行を務めた吉村武氏