Excelデータ分析の基本ワザ (61) Yes/Noで答えるアンケートの信頼性

今回は、「Yes」または「No」の二択で答えるアンケート調査の信頼性を検証する方法を紹介していこう。こういった二択調査を集計し、「Yesと答えた人の割合」を求める計算は簡単に実行できるだろう。ただし、その数字に「どれくらいの信頼性があるのか？」を検証しておく必要がある。

二択調査の95％信頼区間

今回も具体的な例を使って解説していこう。たとえば、社内食堂の利用者の減少に悩んでいる企業が、「もっと美味しい食事を提供するのでランチを100円値上げしてもよいか？」というアンケート調査を行ったとしよう。

とりあえず近場にいる社員10名にアンケートしてみたところ、「賛成（Yes）は7人、反対（No）は3人」という回答を得ることができた。この回答を単純に集計すると、「Yesと答えた人の割合は70％」という結果になる。

では、この数字はどれくらいの信頼性があるといえるだろうか？　もしかすると、10人の中にたまたま「Yes」と答えた人が多かっただけで、社内全体では「No」という意見の方が多いかもしれない。

このような場合は、Yesのデータを「1」、Noのデータを「0」として統計処理を行うと、信頼性を検証することができる。今回の例では「Yesが7人、Noが3人」であるため、1のデータが7個、0のデータが3個あると考えればよい。

Yes=1、No=0として用意したデータ

この10個のデータについて関数AVERAGE()で「平均値」（標本平均）を算出すると、0.7（70％）という結果が得られる。この値は「Yesと答えた人の割合70％」と同じ意味になる。

標本平均の算出

つまり、「標本平均」を「Yesと答えた人の割合」と考えられる訳だ。であれば、「平均値の95％信頼区間」を求めることで、その信頼性を検証することも可能となる。この計算方法は前々回の連載で紹介した通り。よくわからない方は、第59回と第60回の連載を先に読んでおくとよいだろう。

「平均値の95%信頼区間」の算出

この計算結果は0.354～1.046という範囲になる。つまり、「Yesと回答した人の割合」の95%信頼区間は、35.4～104.6%になると考えられる訳だ。

ただし、「区間の最大値」が100%を超えているのが理屈に合わない。仮に最大値を100％と考えたとしても、35.4～100.0%という数値はあまりにも範囲が広く、意味のある数値とはいえない。よって、この調査結果だけで結論を下すのは早計といえる。

調査数を増やした場合

では、同様のアンケート調査を社員100人に対して行い、「賛成（Yes）は70人、反対（No）は30人」という回答を得た場合はどうであろうか？　この場合、1のデータが70個、0のデータが30個あると考えて計算を進めていくことになる。

100人に調査した場合

その標本平均は0.7となり、前述した例と同じく「Yesと答えた人の割合は70％」になる。

標本平均の算出

続いては、このデータについて「平均値の95％信頼区間」を求めていこう。計算を進めていくと、「平均値の95％信頼区間」は0.609～0.791になる、という結果が得られた。

「平均値の95%信頼区間」の算出

つまり、「Yesと回答した人の割合」の95%信頼区間は、60.9～79.1%になると考えられる。冒頭で示した例（10人から回答を得た場合）と比べると、かなり信頼性の高い数字になったといえるだろう。信頼区間に多少の幅はあるものの、過半数（50％）を下回ることはないと考えられるので、「ランチを100円値上げすることに賛同を得られた」と判断を下すことも不可能ではない。

このようにYes／Noで答える二択調査では、「ある程度の回答数」を得ないと95%信頼区間が意味のある数値にならない。10人程度のアンケート調査では、とても信頼性のある調査結果にはならないのが普通だ。

もちろん、「どの程度の回答数を集めれば十分か？」は状況に応じて変化する。できるだけ多くの回答数を集めることを基本とし、その後、「平均値の95%信頼区間」で信頼性を確認する、という対応をとるべきであろう。