2017年6月27日

知識發掘與資料探勘— 自願性地理資訊的價值

作者/鄧東波,荷蘭屯特大學地球觀測及地理資訊科學學院(ITC)博士,開放街圖臺灣社群理事長、開放資料聯盟副會長。

「 自願性地理資訊」是集結群眾的地理資料,記錄一般人對於週遭環境的經驗、感受與喜好,而知識發掘與資料探勘則是綜合各種處理資料的技術和方法,以便從資料中擷取出有用的知識,如何善用知識發掘與資料探勘,由自願性地理資訊挖掘出有用的知識,成為新世代地理資料科學家課題。讓我們用幾個實際的案例,說明知識發掘與資料探勘帶來解決問題的潛力,以及自願性地理資訊帶來的新的研究視野。

知識發掘與資料探勘
由於網路科技的發展,資料在網路中持續地快速增長,如何有效去蕪存菁,找出資料有用的知識,以解決問題,成為一項挑戰,知識發掘與資料探勘(Knowledge Discovery and Data Mining, KDD)即是一個跨領域的科學,著重於利用各種方法由資料中擷取出有用的知識,這些方法包含統計學、資料庫、圖形辨識、機器學習、資料視覺化、最適化分析和高效能運算等研究。傳統的地理資料處理方法不足應付當今巨量且多樣化地理資料,知識發掘與資料探勘在地理資訊科學逐漸被重視,近年來常被應用於了解複雜的地理現象,例如,人與環境交互影響和社會經濟動態,同時也著重在於真實世界的危急問題,例如全球氣候變遷和流行性疾病散播。

自願性地理資訊
資通訊科技的革新、Web 2.0 世代的來臨,改變了網路使用者的角色,從傳統上的資訊消費者,轉變成提供網頁內容的資訊生產者,同時,這個轉變也帶動了地理資訊的改變。傳統上地理資訊的生產是需要透過專業訓練的人員來製作,這些地理資料生產的工作也多數集中在測繪製圖單位、學研機構,然而,上述網路環境的轉變,也帶動地理資料生產方式的改變,新興的資通訊技術,開創了網路上開放性協同合作架構,帶動了網路地圖技術的革新,加上全球定位系統(Global Position System, GPS)裝置的普及,使得一般人很容易地就可以在網路上共同地生產出地理資料,例如,開放街圖(OpenStreetMap,OSM),即是一個協同合作的線上地圖,參與者並非都是地理資訊專家,透過網路共同地繪製且編修地圖,這個地圖的產生不是專家學者的規劃,再由訓練有素的人員來繪製,相對地,這是透過一般人以協同合作的方式來產生,他們自願地貢獻時間精力來參與地圖繪製,產生地理資料,這類的地理資料通常被稱為「自願性地理資訊(Volunteered Geographic Information, VGI)」。



群眾外包 集體智慧
自願性地理資訊其實就是一種「群眾外包(Crowdsourcing)」的地理資料,在群眾集體協同合作的完成工作,在同儕相互檢視與競爭下,在生產的資料中產生集體智慧。 由群眾參與的製圖而成的開放街圖,縱然在一些區域的完整度和正確性仍有不足,但讓人驚艷的地方是,有許多地區已經達到商用水準,如西歐、美國、日本和臺灣(圖一),且與專業地理資訊的品質亦相去不遠,而包含於開放街圖中的知識,常成為補充專業性地理資訊不足的資源,以香港大學為主的研究團隊,他們利用開放街圖資料擷取土地坵塊的特性與類別,以便進行都市規劃;而芬蘭國家土地測量局的一項研究也利用開放街圖擷取自行車道的資料,進而分析自行車道受歡迎的程度。


社群媒體的地理資料
除了開放街圖,事實上,有更多的自願性地理資訊是來自於社群媒體的使用,使用者為了分享訊息於社交網絡中,常常附帶一組地理座標於照片或文字中,使得這些分享的內容成為地理資料,這樣的地理資料,在多數情況下,不是事前的規劃才去產生的資料,而是一般民眾在日常生活中對週遭環境的觀察與感想,藉由社群媒體中分享予親朋好友,進而逐漸累積成有意義的資料。舉例而言,Flickr 是知名的照片分享平台,提供使用者以標籤(tag)分類照片,當一地名被當成標籤而使用於帶有地理座標的照片時,這些照片所形成空間範圍,則可以表示一般人對於該地名所認知的空間範圍,圖二中所顯示的是以「公館」為標籤且帶有地理座標的照片所群聚出之區域,從圖上可以明顯看出,臺北市的公館是以新生南路到基隆路間的羅斯福路為基礎,並往北方的新生南路、東北方臺灣大學校園、西南方的寶藏巖擴展,也就是說,當一般人提到臺灣大學附近的公館時,其心裡所認知的空間範圍有可能不只有水源市場附近,而是更大的範圍。

文字訊息是社群媒體中主要的內容,目前己經有許多研究和應用利用文字探礦(text mining)的方法,由社群媒體的文字訊息來獲取有用的資訊或知識,例如預測群眾運動的發生、輿論的發展趨勢、商品的網路口碑、災情分析等,同樣的,文字探礦應用於社群媒體也為地理資訊研究帶來不同視野。仇恨的地理(The Geography of Hate)是洪堡德州立大學(Humboldt State University)史蒂芬斯博士(Monica Stephens)團隊所執行的計畫,這個計畫的動機和剛卸任美國總統歐巴馬(B. Obama)有極大關係。 他在第二任當選時,不滿他當選的人在推特(Twitter)中大量用歧視性字眼攻擊他,如黑鬼(nigger)和猴子(monkey),歧視性字眼的使用代表著仇恨、忿怒的負面情緒,而這些推特文(tweets)帶有地理座標,可標示於地圖,因此可以呈現出這些「仇恨」的地理空間分佈。該研究團隊收集2012 年6 月~2013 年4 月間,超過15 萬筆的推特文,利用情感分析(sentiment analysis) 將推特文分類,並依照情緒字眼所設計的量表,來區分出正面、中立和負面,研究團隊不僅處理了對於種族仇視情緒,也處理了同性戀和身障者的仇視程度,當負面的仇恨情緒愈高時,在地圖上顯示的就愈紅、反之則愈藍,圖三所顯示的是黑鬼(nigger)的仇恨情緒的空間分佈,呈現出美國東西二岸相當不同的結果。......【更多內容請閱讀科學月刊第571期】

沒有留言: