「ダークパターン」をご存知だろうか?ダークパターンと欺瞞的デザイン(DP: Dark pattern or deceptive design)は、スマートフォンのアプリやECサイトなどのUI(ユーザーインタフェース)で消費者を騙したり、勘違いさせたりするものだ。このようなデザインは広く展開されており、日本では特別なバリエーションが見られるという。
本稿では、東京科学大学(東京工業大学と東京医科歯科大学の統合で設立) 工学院 シーボーン・ケイティー(SEABORN Katie)准教授が行った研究をもとに、昨年に公開した論文『Deceptive, Disruptive, No Big Deal: Japanese People React to Simulated Dark Commercial Patterns』からダークパターンを紹介する。
ほとんど実施されないダークパターンのユーザー研究
研究では、30人の日本人を対象にDPの要素を散りばめたデモンストレーション環境のECサイトを体験してもらうユーザー研究を実施。これによると、アルファベットスープ(混乱を招く、型破りまたは一見ランダムな文字の使用)と誤解を招く参照価格設定が最も欺瞞的であり、最も気づかれにくいことが判明した。
ダークパターンDPはUIの一部であり、ユーザーの行動や選択を操作するように特別に設計されている。これまでに多くの研究が、DPの記述や発見、規制に取り組んできた。しかし、欺瞞的なUIに対するユーザー側の視点、つまり日常の消費者、エンドユーザーが遭遇するDPについての感情を探る研究は比較的少ないという。特に実際のデジタル製品を人間が使用した研究はほとんど実施されていない。
今回、研究対象としたのは日本の消費者だ。商業UIにおける欺瞞は日本で重要なトピックとなっている。オンラインショッピングを利用する家庭が増加し、2022年には家庭の約53%がオンラインショッピングを行い、2018年の34.3%から急増している。
昨年のHuman Computer Interaction (HCI)分野の国際的なカンファレンス「CHI」では、日本のモバイルアプリ市場におけるDPのヒューリスティック分析(UI・UXの専門家がWebサイトの使い勝手について自らの経験則をもとに評価し、課題を特定する手法)が報告された。
これによると、Google Playストアのトップ200アプリの93.5%に平均3.9のDPが含まれていたほか、外国企業の影響力などに関連した日本のDPの存在も発見された。すでに日本では2022年にDPに対する法的措置を開始し、消費者庁も2023年のOECD(経済協力開発機構)において脆弱性と消費者政策に関するフォローアップ報告書を主導している。
設定した2つのテーマに沿ったユーザー研究
日本のインターネット利用者がDPについてどの程度認識しているか、DPの欺瞞的な特性についてどう感じているか、そして典型的な使用ケースにおける影響は依然として不明となっている。そのため、多様な日本人を対象にDPに関して初となるユーザー研究を2023年12月に実施した。
研究では2つのテーマを設定。1つは「DPは平均的な日本人にとってどの程度欺瞞的か?」、もう1つは「平均的な日本人は各形式のDPについてどう感じるか?」だ。シミュレーション環境の使用中に考えを声に出してもらったことに加え、アンケート、半構造化インタビューを行った。
参加者はNHKの協力を得て30人の日本人を募集し、女性14人、男性16人、年齢は18歳~75歳以上。大半の参加者はダークパターンについて把握していない。参加者には、新しいECサイトのインタラクティブ機能を評価するよう依頼し、ダークパターンに関する目的は伏せられた。
事前アンケートに記入したうえでECサイトを体験した。研究者がショッピングの流れを説明し、特定の方法や順序でタスクを実行することは強制していない。観察者が観察チェックリストに記入し、終了後も事後アンケートを実施。
その後、体験についてインタビューし、その際に観察者からダークパターンについて説明を受け、ECサイトの各ページのスクリーンショットを含むPDFを示して注目すべき部分を指摘し、説明するよう求めた。
観察者は、参加者が2回目にダークパターンに気づいたかどうかを記録した。最後に、ホスト研究者が研究の真の目的を明らかにし、各セッションは約50~60分をかけた。
研究の流れ
研究では、ECサイトをモデルにダークパターンを組み込んだ架空の電子機器小売業者「CyberStore」を作成。OECDが2022年にまとめた7つのダークパターンのカテゴリ(テレビ&スクリーン、ワイヤレス機器、ビデオ撮影用カメラ、スピーカー&ヘッドフォン、ゲーム&エンターテイメント、携帯機器、パソコン&ノートPC、家具・アクセサリー)のうち、いくつかを使用したほか、日本特有のダークパターンも含まれている。
30人の日本の消費者(すべての年齢層や背景、教育レベル、女性と男性が半数ずつ)を代表する参加者が募集され、研究の本当の目的は伝えられなかった。これは、参加者の行動や反応に偏りが出ないようにするためだ。
カテゴリには、強制行動、インタフェース干渉、しつこさ、妨害、気づかれないように追加する、社会的証明、緊急性、言語の壁が含まれ、それぞれのカテゴリに対してダークパターンのサブタイプ(DPクラス)と、1つ以上のダークパターンを体験できるインタラクションポイント(DPケース)を作成した。
ECサイト環境での典型的なタスクを表すユーザーフローを開発し、参加者はサイト内のすべてのダークパターンを体験することができる。
参加者には「ホームページを閲覧する」「商品を探す」「チェックアウトしてサインアップする」「会員登録をキャンセルする」の順序でタスクを実行するよう依頼したが、各タスクを完了することやサイトを探索することを強制していない。
すべてのダークパターンに遭遇するように厳密に開発され、日本の研究室メンバーによるパイロットテストで時間を計測し、最後のタスクには3分の制限時間を設けられた。
タスク前後のアンケートでは、感情状態を評価するためにSAM(Self-Assessment Manikin:自己評価マネキン)の感情のバレンス(valence)と覚醒度(arousal)を使用。SAMは、1が低いバランス/覚醒度、9が高いバレンス/覚醒度を示す9ポイントの尺度を使用した。
タスク後のアンケートでは、10項目のシステムSUS(System Usability Scale:使用性尺度)の日本語訳を使用して、5ポイントのリッカート尺度(1は強く反対、5は強く賛成)で受容性を評価した。
SUSのスコアは0から100の範囲で計算され、一般的に「51.6以下:受け入れられない」、「51.7-71:限定的」、「71.1以上:受け入れられる」となり、システムや製品のユーザビリティを簡単かつ迅速に評価するために広く使用されている。
計算方法は、各質問に対する回答を1から5のリッカート尺度で評価し、奇数番号の質問(1,3,5,7,9)は回答のスコアから1を引き、偶数番号の質問(2,4,6,8,10)は5から回答のスコアを引く。奇数番号の質問の調整後のスコアの合計(X)と偶数番号の質問の調整後のスコアを合計(Y)を出し、XとYを合計してその合計に2.5を掛けてスコアを算出する。
欺瞞は3つの段階で測定
欺瞞は3つの段階で慎重に測定した。まず、研究者がチェックリストに記録した観察を通じて間接的に測定し、次いで2段階のインタビューを実施。参加者は最初にデザインの中で気になる部分を指摘し、その後にDPについて説明された後で、欺瞞を感じた具体例を挙げた。
観察者は各参加者が各ダークパターン(DP)に気づいたかどうか、その反応を記録するためのチェックリストを3段階で作成する。(1)参加者が最初にサイトを体験したとき、(2)ページについてコメントするよう促された後、(3)半構造化インタビュー中(DPとユーザーフローの焦点を明らかにする)の3つだ。また、参加者が特定のDPに騙されなかったり、サイトを別の方法で進んだりして、特定のDPを見逃す可能性も考慮した。
気づいたかどうかのオプションは「自分で気づいた」「促された後に気づいた」「明らかにされた後に気づいた」「見逃した」「気づかなかった」の5つ。反応のオプションは「操作されたと感じた、選択肢がないと感じた(欺瞞的)」「邪魔された、避けたいと感じた(妨害的)」「受け入れた(大したことない)」「反応なし、つまり騙された」の4つ。
気づいたデータを使用して欺瞞性メトリックを作成し、オプションの比率に重みを加えた。自分で気づいた場合は0.7、促された後は0.25、DPについて学んだ後は0.05。この合計を10/7で割り、その結果を反転させて0から1の範囲の測定値を得た。0は騙されていない、1は完全に騙されたことを示す。
上記のように半構造化インタビューは先入観の影響を避けながら、DPに対する事前の認識と理解を捉えるために、ファネルアプローチを用いた。
参加者にはユーザーフローおよび、Webサイトのすべての画面についてPDFが示され、デザインの特定の側面を指摘し、それに対する感情や印象を説明するよう求めた。観察者はチェックリストに回答を記録した。
質問は「ダークパターンという言葉を聞いたことがありますか?」「以前にダークパターンを体験したことがありますか?」「操作中にデザインのどの部分が欺瞞的だと感じましたか?」「デザインについて他にどんな感情や印象を持っていますか?」の4つ。
そして、データ分析として、参加者、各DPごとに記述統計を生成。体験前後の感情状態を評価するために探索的推論統計(対応のあるt検定)を実施し、欺瞞性と他の変数との関係を評価(データの種類とShapiro-Wilk検定による正規性の結果に応じて、パラメトリックまたはノンパラメトリック)。
なお、いくつかのデータは除外する必要があった。以上が研究の概要と具体的な実施内容となる。次回は研究結果について紹介する。