今回は、「Yes」または「No」の二択で答えるアンケート調査の信頼性を検証する方法を紹介していこう。こういった二択調査を集計し、「Yesと答えた人の割合」を求める計算は簡単に実行できるだろう。ただし、その数字に「どれくらいの信頼性があるのか?」を検証しておく必要がある。
二択調査の95%信頼区間
今回も具体的な例を使って解説していこう。たとえば、社内食堂の利用者の減少に悩んでいる企業が、「もっと美味しい食事を提供するのでランチを100円値上げしてもよいか?」というアンケート調査を行ったとしよう。
とりあえず近場にいる社員10名にアンケートしてみたところ、「賛成(Yes)は7人、反対(No)は3人」という回答を得ることができた。この回答を単純に集計すると、「Yesと答えた人の割合は70%」という結果になる。
では、この数字はどれくらいの信頼性があるといえるだろうか? もしかすると、10人の中にたまたま「Yes」と答えた人が多かっただけで、社内全体では「No」という意見の方が多いかもしれない。
このような場合は、Yesのデータを「1」、Noのデータを「0」として統計処理を行うと、信頼性を検証することができる。今回の例では「Yesが7人、Noが3人」であるため、1のデータが7個、0のデータが3個あると考えればよい。
この10個のデータについて関数AVERAGE()で「平均値」(標本平均)を算出すると、0.7(70%)という結果が得られる。この値は「Yesと答えた人の割合70%」と同じ意味になる。
つまり、「標本平均」を「Yesと答えた人の割合」と考えられる訳だ。であれば、「平均値の95%信頼区間」を求めることで、その信頼性を検証することも可能となる。この計算方法は前々回の連載で紹介した通り。よくわからない方は、第59回と第60回の連載を先に読んでおくとよいだろう。
この計算結果は0.354~1.046という範囲になる。つまり、「Yesと回答した人の割合」の95%信頼区間は、35.4~104.6%になると考えられる訳だ。
ただし、「区間の最大値」が100%を超えているのが理屈に合わない。仮に最大値を100%と考えたとしても、35.4~100.0%という数値はあまりにも範囲が広く、意味のある数値とはいえない。よって、この調査結果だけで結論を下すのは早計といえる。
調査数を増やした場合
では、同様のアンケート調査を社員100人に対して行い、「賛成(Yes)は70人、反対(No)は30人」という回答を得た場合はどうであろうか? この場合、1のデータが70個、0のデータが30個あると考えて計算を進めていくことになる。
その標本平均は0.7となり、前述した例と同じく「Yesと答えた人の割合は70%」になる。
続いては、このデータについて「平均値の95%信頼区間」を求めていこう。計算を進めていくと、「平均値の95%信頼区間」は0.609~0.791になる、という結果が得られた。
つまり、「Yesと回答した人の割合」の95%信頼区間は、60.9~79.1%になると考えられる。冒頭で示した例(10人から回答を得た場合)と比べると、かなり信頼性の高い数字になったといえるだろう。信頼区間に多少の幅はあるものの、過半数(50%)を下回ることはないと考えられるので、「ランチを100円値上げすることに賛同を得られた」と判断を下すことも不可能ではない。
このようにYes/Noで答える二択調査では、「ある程度の回答数」を得ないと95%信頼区間が意味のある数値にならない。10人程度のアンケート調査では、とても信頼性のある調査結果にはならないのが普通だ。
もちろん、「どの程度の回答数を集めれば十分か?」は状況に応じて変化する。できるだけ多くの回答数を集めることを基本とし、その後、「平均値の95%信頼区間」で信頼性を確認する、という対応をとるべきであろう。
95%信頼区間を簡易的に計算する方法
これで二択調査の95%信頼区間を求める方法を理解できたと思う。とはいえ、回答数が多くなると「1」や「0」のデータを作成するのが面倒な作業となる。そこで、簡易的な計算方法も覚えておくとよい。
ある程度の回答数を得られた場合は、以下の計算式で「簡易的な95%信頼区間」を算出することも可能だ。
先ほどと同じく、100人にアンケート調査した場合の例を使って解説していこう。まずは、「Yes」と「No」の回答数を表にまとめ、その合計を算出する。
続いて、「Yesの割合」を算出する。この数式は以下の図のようになる。数式をコピーできるように、分母の部分は絶対参照で指定しておくとよい。
この数式をオートフィルでコピーすると、「Noの割合」などを算出できる。
あとは、先ほど示した計算式に従って計算を進めていくだけだ。平方根は関数SQRT()で算出できるので、「平均値の誤差」は以下のように数式を入力すると求められる。
この数値を「Yesの割合」にプラスマイナスすると、「95%信頼区間」を求められる。
今回の例では、「Yesと回答した人の割合」の95%信頼区間は61.0~79.0%という数値になった。
前述した計算結果(60.9~79.1%)とは少し異なる値になるが、ほぼ同様の結果を得られたといえるだろう。もちろん、回答数が多くなるほど両者の差は小さくなり、より正確な95%信頼区間を算出できるようになる。
なお、簡易版の計算方法を利用できるのは、「回答数が十分にある場合」に限定されることに注意しなければならいない。回答数が少ない場合は、前述した方法で信頼区間を求める必要がある。
いずれにしても、回答数が少ない場合は「意味のある信頼区間」を得られないのが普通だ。よって、「できるだけ多くの回答を集めること」が基本となることに変わりはない。Yes/Noの二択調査を行うときは、今回の連載で説明した内容を踏まえて調査を実施するようにすると、より正確な分析を行えるだろう。