圖片來源: 

UN Global Pulse

政府真的能聽見人民的聲音嗎?一直以來,民眾對政策、經濟的批評似乎也只在社群好友圈裡發酵,要將憤怒傳進政府的高牆是件不容易的事。但是,現在你在社群網站上的抱怨發言,也許會被聽見,甚至影響政府決策。

2009年開始,聯合國啟動全球脈動計畫(UN Global Pulse),目標在利用大數據來協助人類發展以及預測行為,在美國紐約、印尼雅加達以及非洲坎帕拉等三地設立了專門實驗室,利用新聞媒體、社群媒體、小眾社群所蒐集來的大數據,進行即時的分析,幫助當地政府了解民眾需求以及社會發展狀況。實際參與全球脈動計畫,在美國、愛爾蘭及印尼等地分析工作的SAS北亞區資訊管理及分析產品經理Jason Loh解釋,例如用社群媒體、新聞網站以及論壇的數據找出影響失業率的關鍵因子,供當地政府參考。「聯合國全球脈動計畫就是要利用大數據分析達成數位治國的目標。」他說。聯合國藉著各國政府所提供的數據以及數據分析公司,來進行重要公共議題的民意監控,達到即時且反映真實的結果。

舉例來說,Jason Loh進一步解釋,聯合國蒐集了美國及愛爾蘭地區民眾在新聞媒體與社群上的討論,從討論主題中找出了三個,可以用來預測失業略的關鍵前導指標(Leading indicators):人們開始將大車換小車、消費能力降低以及搭乘大眾運輸工具的比例增加,就可以預測到幾個月內失業率提升。

失業率提升後,就會出現落後型的指標(Lagging indicators),像是失屋率的討論度提升、減少醫療保健的支出以及減少出遊渡假,意即奢侈消費減少的討論聲浪,這都是失業人口大增後才會浮現的討論主題。

一般政府傳統的決策分析作法,多半是進行事後統計結果,往往是發現失業率已經確定上升了,才開始分析和決策。「這種作法的速度太慢,無法真正解決問題。」Jason Loh表示,第一時間直接監測社群媒體,當前導指標的討論度提升時,就代表著失業率的提升。「將這些從社群媒體上聽到的聲音,提供給政府,就可以提前採取對策。」

失業率上升前,社群媒體上關於換車、購物降低以及搭大眾運輸工具的討論都會提升。失業率上升後,則是會出現失屋率、醫療保健支出的減少以及取消度假等言論。 圖片來源:SAS

除此之外,也因為每個國家國情不同、經濟富裕狀況不一,分析的結果也不盡相同。例如,愛爾蘭在失業率提升後8個月,失屋率的討論度才上升,美國則是2個月後就出現失屋率的討論了。

不過,每個國家用來輔助施政的指標也很不一樣,美國跟愛爾蘭地區重視失業率分析,而印尼政府則擔心貧窮人家沒錢去買日常用品、醫療用品。因此,當數據顯現出印尼人民無法維繫基本的生活水平時,政府就應該制定一些專案給貧窮家庭。所以,Jason在印尼進行社群分析時,「主要是看:辣椒、米價、油價這三大重點KPI。」

 

社群媒體語意分析大挑戰:各地方言

分析全球各地的社群媒體內容,最大挑戰就是得理解自然語言的使用方式,以及各地的方言。「以中文為例,中國、臺灣、新加坡等地雖然都講中文,但所用的中文截然不同。」全球第二多人使用的西班牙語,也會因區域而不同的使用習性。因此,「這類跨國性的社群分析行動,得結合當地文化情境和所用語言,大型企業要鎖定全球規模市場時也需如此,能精確支援各國語言是非常重要的關鍵。」

Jason解釋,SAS在進行社群的語意分析時,第一步就先用當地的大型語料庫進行掃描,透過機器來進行斷詞斷句,將一句話自動分類。要支援臺灣的正體中文語系,不只是將簡體版翻成繁體就好,還要有一個大型的語料庫做為參照基礎,所以,SAS也跟中研院合作,結合了中研院的平衡語料庫。

此外,各個領域都有不同的專業術語,醫療、法律、科技等各類專有名詞,此時就需要一個產業資料庫 (Business Domain Knowledge),進行專有名詞的掃描。

為了達到更加精準的分析語意,Jason表示,光靠機器判讀絕對不可能,「因為沒有絕對的機器判讀跟不變的規則模型,混合的方式才會最接近真正的語意結果。」機器判讀後,一定要在佐以人工修改與確認模型 (Pattern)。當新的語意出現,就要人工進行辨識,調整,然後再交給機器繼續進行大量的分析工作,「通常人工是進行確認的工作。」Jason說,機器與人工兩者結合,才是對多元內容分析的最佳方式。

SAS北亞區資訊管理及分析產品經理Jason Loh表示,分析全球各地的社群媒體內容,最大挑戰就是得理解自然語言的使用方式,以及各地的方言。  攝影:洪政偉


熱門新聞

Advertisement