Twitterのアンケートと世論調査について~Twitterアンケートは正確性があるか?

情報管理LOGの@yoshinonです。
よくTwitter上でアンケートしているのを見かけますよね?
でも、アレって正確なのでしょうか?最近、新聞社とかの世論調査と(正確性が)変わらないのでは?みたいなことを言う人がいるみたいなので、他でも書いている人がいますが、情報管理LOGでも取り上げたいと思います。
【 Twitterのアンケートと世論調査について 】 1.Twitter上のアンケートとは 2.世論調査(RDD方式)について 3.Twitterアンケートの無意味さについて 4.世論調査の問題点について |
Twitter上で様々なアンケートをよく見かけますよね?
特に最近は、色々と政治的にもセンシティブな話題が多いので、そういう傾向のアンケートを目にすることが増えてきました。
Twitterアンケートってこういうの。
ものすごく無難なのをセレクトしてみました。
味噌汁の具、この四択なら?#寒いから好きな味噌汁の具つぶやく
— ツイッター投票箱@アンケート専用 (@temjincat) 2018年3月21日
しかし、いつもセンシティブな話題に関してのアンケートについては、何だかもやっとした違和感を感じています。自分たちに都合の良い結果が出ていることに自信をもって、(右も左の方々も←こうやって書かないと、ものすごく粘着されるから!!)「大勝利!」とか言っているのを見ると、とても残念な気持ちになってしまうのです。しかも、それをもって、「世論調査は、意味ない!自分たちの結果の方が正しい」という言説を見ていると、そうではないのだけどなと思ってしまうのです。
それはなぜかというと、Twitterアンケートは、内輪で面白おかしく楽しむだけであるならば良いのですが、
基本的には意味が無い
からです。
なぜ、意味が無いのかについては後ほど解説しますが、まずは世論調査(RDD方式)についての基礎知識についての解説をします。
世論調査ってありますよね?
様々な社会的な傾向を掴むために行われ、よくニュースなどで見るはずです。
ワイドショーなどでよく見る「街の人100人に聞いてみました!」というのは、世論調査でも何でも無く、単なるアンケートと言います。
世論調査というのは、「標本調査」の一種です。
標本調査というのは、
標本調査(ひょうほんちょうさ)とは、母集団をすべて調査対象とする全数調査(悉皆調査)に対して、母集団から標本を抽出して調査し、それから母集団の性質を統計学的に推定する方法
標本調査 - Wikipedia
です。
本当だったら、日本国民全員に調査(全数調査)をすれば、精度の高い結果を得られます。そりゃ、10人しか国民がいなければ、その10人に聞けば、全体の傾向はつかめますよね。でも、日本は1億2000万人ぐらいいるので、その全てに聞いて回るのは、(正確かもしれないけれど)、コストがかかりすぎてしまうし、そんなことを毎回やることは非常に難しいですよね?
でも、選挙に関しては、国民の意思を問うという大事な機能なので、お金をかけて、基本的には、全数調査を実施しているわけです(有権者に対して)。とはいえ、実際は投票率などを見ると、全数とは全くほど遠い状態ではあるわけですけど。
とはいえ、選挙レベルの調査をテレビでも新聞でもやっていたら破産してしまいます。
10人や100人だったら全数調査は可能だけど…

ものすごいたくさんの人に対しては、難しい。

そこで、標本調査という手法がとられるわけです。
でも、その調査すべき標本というのが、とても大事なポイントで、そもそもの標本に偏りがあったら、偏った結果が出てしまうのです。
そこで、よく偏った標本の例として引き合いに出されることが多いのが、1936年に行われたアメリカ大統領選挙です。
実際、世論調査において当時最も信頼に足ると思われていた「リテラリー・ダイジェスト」(The Literary Digest)という総合週刊誌は、200万人以上を対象から回収した調査結果を基に共和党のランドン候補が57%の得票を得て当選することを予想していました。 これに対して、前年に世論調査の業界に参入したばかりのジョージ・ギャラップが率いる「アメリカ世論研究所」(the American Institute of Public Opinion)は、わずか3000という少ない対象者からの回答を基にルーズベルト候補が54%の得票を得て当選することを予想したのです。
アメリカ大統領選挙の番狂わせ(前編)~ 標本調査における偏り①|統計学習の指導のために(先生向け)
結果としては、少ない対象者からの回答を元にした「アメリカ世論研究所」の方が、正確に予想を当てました。
これは、リテラシー・ダイジェストが、標本の偏りを見抜けなかったからです。

画像引用:アメリカ大統領選挙の番狂わせ(前編)~ 標本調査における偏り①|統計学習の指導のために(先生向け)
どういうことかというと、このリテラリー・ダイジェストは、自身の読者にアンケートを実施していました。この購読者層自体が、大恐慌時代に雑誌購読を続けることができるという、非常に偏りのある標本になっていたのです(車所有率が高い、年収が高いなど)。
どんなに多くのサンプルを集めても、標本として偏りが生じているならば、それは意味をなさないという好例です。
では、標本調査は完璧に全体の傾向を表すことができるか?
というと、100%正しいとは言えません。
しかし、標本の偏りをできるだけ排除すれば、全体の傾向をできる限り正しく掴むことができるのではないか?というのが、統計学が行っていることです。つまり、全数調査ではないので100%の正確性は担保しないが、許容範囲の誤差であれば問題ないであろうというのが、標本調査の基本の考え方です。
そこで、標本の偏りを排除するために行われるのが、「無作為抽出」というものです。全数に対して、ランダムに選択することによって、標本の偏りを排除しようという試みのことを指します。
やっと、世論調査(RDD方式)に話が戻って来るのですが、そこで調査対象の抽出でよく行われる手法が、層化二段階抽出法というものです。
例えば、NHKでは、このようにやっています。
世論調査の手順 - 調査相手の抽出 | NHK放送文化研究所
第1段階:調査地点の抽出
世論調査の手順 - 調査相手の抽出 | NHK放送文化研究所
全国を「道北(北海道北部)」から「沖縄」までの18ブロックに分け、18のブロックそれぞれで、市区町村を都市規模と産業別就業人口構成比によって並べ替えます(層化)。 各ブロックの人口数の大きさに比例して300地点を系統抽出します。実際の調査では1調査地点を1人の調査員が担当します。
第2段階:調査相手の抽出
該当する調査地点の市区町村の住民基本台帳から、1地点につき12人の調査相手を等間隔で抽出します。 このように統計理論にのっとって調査相手を抽出した場合は、回答結果の誤差範囲を推定することができます。
層化というのは、例えば「男女」や「年齢」や「職業」などを、回答に影響があると考えられる要素ごとに個別の母集団として扱うことで、回答への影響を小さくするという方法のことです。
画像引用:https://ja.wikipedia.org/wiki/%E6%A8%99%E6%9C%AC%E8%AA%BF%E6%9F%BB#/media/File:Stratified_sampling.PNG
こうすることによって、偶然であっても母数の偏りが生じづらくするようにしているのです。
例えば、貧困に関する世論調査があったときに、無作為抽出法によって偶然
「裕福」「裕福」「裕福」「裕福」「貧困」
みたいな標本になることを、極力防ぐということです。
このように世論調査というのは、かなり丁寧にそういう調査上の偏りが生じないような配慮をしていることがわかるはずです。
とはいえ、正確性や問題が無いかと言われれば実はあるのですが、それは4で説明します。
さて、翻ってTwitterアンケートについて考えてみます。
Twitterでのアンケートは、まず標本の偏りがあります。なぜ、そのように断言できるのかというと、
標本の偏りを排除するための仕組みがない
からです。
前述のRDD方式のような、全数に対する無作為抽出法も行われることもなく、層化による層化二段階抽出法も行われていません。まあ、そりゃそうですよね。あったら、逆にコワイ。
Twitterではフォロー&フォロワーとその関連ツィートによってタイムラインが構成されていますよね。そうすると、どうしても似た傾向を持つ者同士が、強い結びつきを獲得していくという傾向があります(嫌いなツィートを流す人をフォローはしないはずです)。
これは、前述のアメリカ大統領選挙において行われたリテラリー・ダイジェストによる調査と変わりがありません。
偏った傾向を持つ標本に対するアンケートでしかないのです。
それどころか、TwitterやFacebookなどは、アルゴリズムによるタイムラインの編集を行っています。
Never miss important Tweets from people you follow
どのツイートを表示するかは、ツイッター(のアルゴリズム)が決めるのか
米ツイッター、嫌がらせツイート対策でアルゴリズムの利用拡大
そうすると、興味関心や反応したことがあるアカウントが、さらに優先的に表示されるので、より一層偏った傾向に拍車をかける仕組みになっているというわけです。
さらに言うならば、そもそもTwitterをやっており、さらにそういうアンケートに積極的に答える層というのは、さらに偏った傾向を持つと考えられるのです。
もっと悪意のある捉え方をするならば、Twitterは個人による複数アカウントによるアンケートを排除することはできないので、自分の思い描く回答結果の方に大量回答することも原理的には可能だということです。ちなみにRDD方式は、完全に個人を対象としており、家族が代理で回答するなども認めていません。
したがって、アンケート対象のパイをいくら大きくしても、そもそもの標本自体の偏りを排除できていないアンケートというのは、趣味の範囲を出ないと言わざるを得ません。
Bookmarklet: instantly generate a Card for any web page. | Embedly
さて、Twitter上でのアンケートには、意味が無いということはお分かりいただけたでしょうか?
それでは、世論調査自体には、問題が無いかと言われれば、全くないわけではありません。以下は、現状の世論調査において、排除し切れていない問題についてです。
1.RDD方式による限界
RDD方式は、電話による調査を実施しています。2016年からは、(調査内容によっては)携帯電話にもかけて実施しています。この電話番号自体は、層化二段階抽出法によって、なるべく無作為性を保つ工夫がされています。
しかし、
知らない番号からかかってきた電話でますか?
たぶん、私は出ないです。
しかも、携帯電話ならば、なおさら出ない可能性が高いです(そもそも我が家には固定電話無い)。そうすると、「知らない電話番号からかかってきても、電話に出てしまうという層」という偏りが生じる可能性が出てきます。さらに、働いている人にとって、なかなか電話に出づらい時間帯(たいていは、朝9:00~夜9:00)というのも、偏りを生じさせる原因になっている可能性があります。
とはいえ、RDD方式は単に集まったデータをそのまま使うのではなく、さらに標本の偏りによって生じたデータも分析段階で均一になるようにしています。ただし、これも標本の数が、少なくなってしまうと正確性が担保できなくなってしまうという問題点が指摘されています。
2.質問の仕方の問題
質問の仕方によって回答が左右されるということが指摘されています。
例えば、極端な例として
「○○という問題点が指摘されています。△△を支持しますか?」
という質問であるならば、△△の支持は極端に減るはずです。
また、
「○○を支持しますか? 支持する、支持しない」
というのと、
「○○を支持しますか? 支持する、支持しない、どちらとも言えない、分からない」
という選択肢が示されるのでは、結果は違ってきますよね?
3.回収率による信頼度の低下
上でも書きましたが、回答数が少なくなると、誤差の範囲が大きくなりがちになってしまいます。通常想定されている誤差は、数%ですが、これが有効回答数が減ってしまうと、誤差がどんどん大きくなり、10%以上になることも考えられます。
残念ながら、RDD方式による有効回答数は、年々低下傾向にあるとされています。そう考えると、誤差の範囲が徐々に大きくなってきている可能性は否定できません。
とはいえ、だからといって、
Twitterでのアンケートの信頼度が上がるというわけでは一切ありません。
また、世論調査の信頼度に関する記事をいくつか読ませていただきましたが、「固定電話しかやっていない」とか、そもそものRDD方式自体の不理解からの記述など、かなり偏った考えで書かれている記事が多かったことも付記しておきます。
そういう記事を信じて、確証バイアスを高めるのは、あまり良いことではありませんね。
世論調査を実施している各社を丁寧に比較し、その中間ぐらいが概ね正しいと考えるのが、比較的穏当な見方なのかもしれないと考えています。

デマは流すのは簡単だけど、否定するのは難しい
Twitterでのアンケートで(マッチポンプ的に)自らの確信を深めるのは、個人の勝手で好きにやってくださいとしか言えませんが、センシティブな問題について、それが結果だと思い込み流布するのは、社会的な影響としては悪だと言わざるを得ません。
さらに一種のデマであるということに無自覚というのが、頭の痛いところです。
こういうデマに関しては、一度流布したものが信用されやすいというデータもあり、それを打ち消すのは、難しいという研究も出てきています。今後、社会問題として考えていかなくてはいけない問題だなと思っています。
- 関連記事
-
- そんなに電気代安いの!?という電化製品を挙げてみる
- Twitterのアンケートと世論調査について~Twitterアンケートは正確性があるか?
- コミュニケーションコストと密度と質と