葉家興/瀕臨絕種的民調 大數據纔是王道

民調仍是許多人的參考依據,但隨着科技日新月異傳統調查方式是否可信值得存疑。(圖/視覺中國CFP)

總統就職週年民調慘兮兮,各機構所做的電話民調不約而同皆顯示:民衆對她的不滿意度創新高,滿意度卻創新低。換言之,總統念茲在茲的各項改革,得罪的人不說,竟也沒讓受益者滿意。更慘的是,比起前三任民選總統李登輝陳水扁馬英九就職一週年的民調錶現,她的淨滿意度居然是史上最低。如果歷史紀錄可以參考,那蔡總統極可能挑戰馬前總統的9.2%低標,直逼韓國前總統朴槿惠法國前總統歐蘭德的4.0%世界紀錄。不過對此,蔡總統則豪氣干雲的說:「我不是爲民調做事,我是爲臺灣做事!」事實上蔡總統的理直氣壯有其道理。首先,傳統民調在2016年的英國公投與美國大選連兩次「槓龜」,重創其公信力。雖然最近在法國總統大選扳回一城,不過這主要是因競爭雙方的差距太大,各種「沉默螺旋」、「樣本偏誤」都影響不了調查結果。其次,可能也更重要的是,傳統電話民調號稱基於嚴謹的統計抽樣過程,由具代表性的抽樣樣本來推論整體民衆的意見。可問題是,以住宅電話爲母體的隨機抽樣,依舊可靠嗎?根據政治大學朱斌妤教授等多位學者所做的學術研究顯示,臺灣20歲以上的民衆約有27~29%無法被傳統市話調查所觸及。如果這種遺漏屬「完全隨機遺漏」(Missing Completely at Random)也罷,那統計推論的結果不會受太大影響。然而,研究無情的顯示恰恰相反的結果。更驚人的是,對於20~39歲的民衆來說,傳統市話涵蓋率不及55%,幾乎一半的青壯年人口由於旅居在外、放棄市話,或僅倚賴行動網路與外界溝通,但他們的意見卻完全被市話民調所忽略!許多民調最後往往強調數據已針對受訪者性別年齡地區,進行樣本代表性檢定後加權處理。然而,對「非隨機遺漏」的樣本,如果以抽到的樣本爲基礎來加權,可能使統計偏差更加擴大,調查結論更加失真。

▲當科技把傳統民調方式打入夕陽產業,或許大數據將成爲可提供真實訊息的重要來源。(圖/視覺中國CFP)

爲了矯正這種可能缺陷,某民調公司針對「客家人口暨語言基礎資料調查」所公佈的調查報告中,除了來自傳統市話的6萬多份有效樣本外,也利用行動網路完成2千5百多份唯手機族的樣本進行比較,雖兩份都針對地區、年齡及性別加權,但兩者推估的客家人口比例竟出現4%的差距!換句話說,唯手機族樣本的「自我選擇偏差」(Self-selection Bias)不可小覷,而以市話調查推估整體民意,僅能代表71~73%可被市話觸及的民衆,其人口組成及對公共事務的態度,可能與另外1/4以上的唯手機族存在差異。更糟的是,隨着時間一天一天的過去,行動網路更加快速、成本更加低廉,放棄市話選擇成爲「唯手機族」的人數還在逐日增加!如果進步的科技把傳統民調行業打入夕陽產業,那麼有取而代之的方法,能快速掌握全體民意嗎?可能還沒有!因爲現代人也許正處於馬車與汽車並存的年代。若干年後,等到網路覆蓋率接近百分之百時,真正有效率且有代表性的抽樣調查或將誕生。而在那之前,傳統的民調會像溫水青蛙一樣,慢慢死亡。甚至如即將在英國出版的新書《每個人都說謊:大數據、新數據、網路揭露我們的真面目》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)所言,就像顯微鏡與望遠鏡改變了自然科學一樣,網路也將革命性的改變社會科學的方法論。曾在Google擔任數據科學家的作者Seth Stephens-Davidowitz相信,大數據擁有4項獨特的威力,其中最重要之一,就是可以提供真實的信息來源(例如對色情、政治、減肥、醫療等資訊的主動搜尋),捕捉人們真實所知所想,而不是他們選擇告訴民調機構的訊息。因此,蔡總統說的也沒錯:「我不是爲民調做事,我是爲臺灣做事!」只是希望她比競選失利的美國民主黨候選人希拉蕊,擁有更強大的數據科學武器,能比現有民調更精準得知臺灣人民要的是什麼、想的是什麼,否則,比民調更早消失於歷史舞臺的,擔心會是蔡總統自己。

好文推薦

葉家興/誰在縱容狼師

葉家興/囤積有罪,囤房無罪?

葉家興/補習像場核武競賽

►►►隨時加入觀點與討論,給雲論粉絲團按個贊!

●葉家興,在香港吐露港灣生活與任教的臺灣客家人,出生在《鼕鼕的假期》電影裡的小鎮苗栗銅鑼臺大電機系學士、經濟所碩士、美國威斯康辛大學精算、風險管理與保險博士。1996年離臺前金門太武山麓服役兩年。譯有《經濟學與社會的對話》、《世代風暴》、《助人爲獲利之本》、《當經濟指標統治我們》等。着有《理財與保險--迷思與反思》、《陸生元年》、《未來事件交易簿》。以上爲個人言論,不代表本網立場。