大數據:看密西根大學(xué)如何化解數據科研中的倫理和不確定性問(wèn)題-智醫療網(wǎng)近年來(lái),大數據已然成為強大的工具,密西根大學(xué)緊隨這一科技大趨勢,努力學(xué)習并開(kāi)展大數據研究。
大學(xué)研究院副院長(cháng)Jack Hu在2015年一次聲明中表示,大數據,即通過(guò)大量分析表明趨勢和關(guān)聯(lián)的數據,正在“對各學(xué)科研究進(jìn)行大規模改革。”
密西根大學(xué)證實(shí),該校在數據科學(xué)領(lǐng)域上的投資物有所值。學(xué)校在過(guò)去五年間對該項目(Data Science Initiative – DSI)資助了100萬(wàn)美元,一些多學(xué)科和交叉學(xué)科領(lǐng)域的教研人員也參與到數據計算分析和管理研究中心的建設中。“我們的目標是在校園點(diǎn)燃創(chuàng )新研究,并取得數據科學(xué)本身的進(jìn)步。”
Hu在2015年說(shuō)道。大數據已成為醫學(xué)項目和疾病研究的核心,諸如巴拿馬文件泄密事件等國際貪腐丑聞的曝光和世界性的經(jīng)濟技術(shù)發(fā)展也離不開(kāi)大數據。例如,田徑運動(dòng)相關(guān)的大量數據可以預測運動(dòng)員受傷情況;授課分析可以開(kāi)發(fā)更好的教學(xué)模式;還有大量患者信息可以用于診斷預測并分析健康情況。
密西根大學(xué)數據研究中心作為DSI項目的一部分,自成立兩年間得到了快速發(fā)展,已成為多學(xué)科、跨學(xué)院的數據研究。DSI項目下的另兩個(gè)子項目分別是先進(jìn)研究算法(統計咨詢(xún)和技術(shù)服務(wù))和計算分析研究。醫學(xué)和生物信息算法領(lǐng)域的教授Brian Athey稱(chēng),大數據的創(chuàng )新使用需求還在持續增長(cháng)。
在大數據浪潮到來(lái)之前,密西根大學(xué)的研究人員就已經(jīng)利用大量數據分析并預測引發(fā)疾病的病因、加強計算機科學(xué)的研究。先進(jìn)研究算法負責人大學(xué)副校長(cháng)Eric Michielssen說(shuō),要解決現實(shí)具體問(wèn)題,首先需要‘海量’的數據,基于此他與Athey重申了大數據四個(gè)‘V’重要概念。
除了數據量(the volume of data)之外,研究人員還考慮到數據速度(velocity),即接收前所未有的大量數據的能力。接收的數據中還需要考慮到數據格式的多樣性(variety),數據格式不僅僅是常見(jiàn)的工作簿數據,最后一個(gè)‘v’是數據準確性(veracity),即數據的不確定性和有效性。
Michielssen稱(chēng),高效的日常數據收集和匯總– 尤其社交網(wǎng)絡(luò )和商業(yè)交易產(chǎn)生的大量數據通過(guò)無(wú)線(xiàn)技術(shù)、傳感器和復雜的網(wǎng)絡(luò )系統快速傳播 – 這要求研究人員重新考慮如何利用數據惠及社會(huì )和科學(xué)發(fā)展,這就是大數據的創(chuàng )新應用。
Michielssen說(shuō),“社會(huì )方方面面,各個(gè)領(lǐng)域的科研和教學(xué)都會(huì )受此影響,即大數據現象的影響。” 在A(yíng)they看來(lái),數據科學(xué)的重要性在大學(xué)層面上– 尤其對擁有優(yōu)秀科研資源的大學(xué)而言 – 可以從該校的科研史上可見(jiàn)一斑,看看大學(xué)是否在機器學(xué)習、數據分析、統計計算等學(xué)科發(fā)展方面已為今天的方法論做好研究準備。
“密西根大學(xué)提供一個(gè)理想環(huán)境”,根據摩爾定律,隨時(shí)間計算能力提高同時(shí)成本降低,Athey說(shuō),“大科學(xué)和大數據正重塑社會(huì )和高等教育。”MIDAS行政總監Kevin Smith博士稱(chēng),現在的數據科學(xué)家不必受過(guò)時(shí)的計算機規律的約束。相反,現代的數據管理需要MIDAS三層合作 –即一所大學(xué)作為學(xué)術(shù)中心、CSCAR咨詢(xún)等數據科學(xué)服務(wù)以及高性能計算平臺。“這是一個(gè)數據整合與有效應用的全局思考,你可以對任何待解決的科學(xué)問(wèn)題或商業(yè)問(wèn)題進(jìn)行數據探索,通過(guò)分析、可視化,驗證你的做法是否正確。”
交通運輸與科技
Michielssen說(shuō),在數據科學(xué)研究上,大學(xué)側重實(shí)際結果,因此必然更注重應用而不是理論方法,尤其對政策、教育和基建方面的應用更是如此。“從方法論上,我們把這種大數據在其他領(lǐng)域中的應用當作發(fā)展大數據的絕佳機會(huì )。”Smith補充道。例如,MIDAS的數據運輸研究中心(Data-Driven Transportation Research)和數據密集性學(xué)習分析中心(Data-Intensive Learning Analytics)的研究人員利用大數據改善車(chē)輛使用模式、提高交通效率,并開(kāi)發(fā)檢驗學(xué)習過(guò)程的新工具。
密西根大學(xué)交通研究院的副研究員Carol Flannagan說(shuō),他的團隊利用大數據分析司機行為,仿真交通規則、交通系統下的司機行為。“交通數據變化快,對現辦法的創(chuàng )新應用,甚至擴展現辦法或研發(fā)新方法,在交通運輸領(lǐng)域都大有用武之地。”
除了為交通分析提供大量數據外,Flannagan團隊在車(chē)禍調研方面也取得了成果,已開(kāi)發(fā)了躲避車(chē)禍的技術(shù)應用。這些技術(shù)應用可以轉化為乘車(chē)人保護措施,而不是避免車(chē)禍。
團隊通過(guò)可視化工具和交通事故數據分析,提出了一系列車(chē)輛在車(chē)禍中抵御自身?yè)p害的措施,尤其在車(chē)輛設計、乘車(chē)人行為措施、道路設計等方面,為政策制定部門(mén)和基建設計單位提供新的可能性,通過(guò)優(yōu)化設計、制定更好的制度避免不必要的傷亡。
從安全的全局出發(fā),做出預測、制定交規,這需要研究者、政府其他機構共同努力。Flannagan說(shuō),一個(gè)阻礙就是數據共享性和數據快速訪(fǎng)問(wèn)。他指出,“我們必須遵守數據分析中三思而后行的要求,只是,這個(gè)要求是極為苛刻的。”因為,大科學(xué)研究必定伴隨著(zhù)大量挑戰,尤其對大數據需求還不斷變化的情況下更具挑戰。
社會(huì )科學(xué)與挑戰
2014年5月份,前總統奧巴馬公布了白宮官方報告,陳述了在數字時(shí)代個(gè)人信息安全、負責任的教育制度、以及公共來(lái)源的數據使用的重要性。“如果處理妥善,大數據將成為社會(huì )進(jìn)步的重要推動(dòng)力量,讓我們國家長(cháng)治久安、經(jīng)濟繁榮。”報告稱(chēng)。此后,大數據在國家范圍內的使用一直飽受爭議,最近圍繞著(zhù)2016年總統選舉中的大數據應用更是鬧得沸沸揚揚。起初,大數據被視為總統選舉結果的整體預測,盡管一些人認為現任總統特朗普起初否認大數據僅僅是為了掩蓋農村的投票信息。
Michael Traugott教授就可以還原未受社交和新聞媒體影響的公眾意愿。Traugott教授團隊聯(lián)合民意調查機構(Gallup)和喬治城大學(xué)(Georgetown University)收集數據驗證2016年總統競選期間政治話(huà)題。利用計算機軟件檢索成千上萬(wàn)投票者對選舉的關(guān)鍵話(huà)題,研究人員可以得出公眾對媒體宣傳后產(chǎn)生的主流觀(guān)點(diǎn)。
公眾的主流觀(guān)點(diǎn)與9家主流報紙進(jìn)行內容對比分析,與記者微博的內容對比分析,另一個(gè)指標是媒體報道對公眾情感的影響。Traugott說(shuō),“競選初期媒體對參選人的性格分析報道讓我驚訝不已,特朗普受到了不成比例的關(guān)注度。我們希望追蹤一些對候選人好感度不產(chǎn)生影響的媒體新聞以及公眾提及的話(huà)題。”Traugott利用數據判斷傳統的預設主題的報告方法是否在社交媒體環(huán)境下依然適用。
由于大數據可以影響政治,產(chǎn)生對抗性社會(huì )氛圍,華盛頓郵報呼吁:利用大數據代表各種可能性時(shí),需要更深層的私人思考和技術(shù)政策。另外,由于數據收集階段就會(huì )存在內在偏倚– 無(wú)論大小 – 都會(huì )對結果產(chǎn)生影響,導致危險或者負面的結果。
研究人員每天面對公眾對隱私性和保密性的擔憂(yōu),這是意料外的阻礙。數據傳遞、醫療記錄以及社交信息是需要保障信息安全的三大領(lǐng)域。Michielssen說(shuō),“研究人員用軟件在聯(lián)網(wǎng)環(huán)境中進(jìn)行研發(fā),因此需要同時(shí)保障研究人員自身的信息安全。”Athey稱(chēng),人們對未知領(lǐng)域的態(tài)度既害怕又復雜,就像人們用大數據研究死亡的態(tài)度既恐懼又搖擺不定。
“大數據可以促進(jìn)社會(huì )進(jìn)步,或者直白的說(shuō),可以為不同社會(huì )團體所利用。”Athey接著(zhù)說(shuō),“那些知道方法、有計算能力、可以獲取數據的人相比一般人擁有特殊優(yōu)勢,可以做好事也可以做壞事。”他解釋道,‘數據文盲’就會(huì )處于不利地位。“如果你對數據科學(xué)缺乏知識,不會(huì )實(shí)踐,就有可能成為一個(gè)受害者。這就是我們生活的社會(huì ) – 谷歌和其他數據時(shí)代產(chǎn)物都不會(huì )消失。”Smith也注意到全球云數據倫理問(wèn)題。“一個(gè)公司或許可以利用大數據獲取某種競爭優(yōu)勢,我想這就是我們的社會(huì )演變和進(jìn)化的過(guò)程。”
電子工程和計算機科學(xué)教授H.V. Jagadish開(kāi)設了許多在線(xiàn)公開(kāi)課程來(lái)檢驗數據科學(xué)的倫理問(wèn)題。Jagadish教授的目的就是在線(xiàn)公開(kāi)課程融入到數據科學(xué)培訓的課程之中,希望可以教數據科學(xué)家們‘恰當的數據科學(xué)。
Jagadish說(shuō),除了隱私性之外,數據科學(xué)還面臨其他的問(wèn)題,比如算法的不精確、算法鑒別與偏倚。算法根據代入的數據會(huì )發(fā)生意外得出不需要的結果。然而,Jagadish也相信,盡管有諸多問(wèn)題,人們會(huì )逐步控制、解決這些問(wèn)題,最終達到數據科學(xué)規則方面的共識。“我們利用數據科學(xué)為我們自己做決策,或者利用多種來(lái)源的數據侵犯他人隱私,但我想說(shuō),雖不是所有人,但大多數人都愿意做有益的事情。我們所要做的就是充分探討并對正確的事情上取得共識。”
對未來(lái)數據的誤解
大數據可以預測社會(huì )變化或預測疾病發(fā)展。然而無(wú)奈的是,這門(mén)科學(xué)本身的發(fā)展卻是不可預測的。“因為這個(gè)學(xué)科發(fā)展太快,變化太快。”Michielssen說(shuō)。分析工具的計算平臺的升級、分析技術(shù)的改進(jìn)、方法論的變化依然是主要創(chuàng )新領(lǐng)域。這些創(chuàng )新并沒(méi)有在最近的互聯(lián)網(wǎng)大數據浪潮之中停滯不前。“一個(gè)誤區可能是所有老科學(xué)將會(huì )過(guò)時(shí),數據科學(xué)將會(huì )取代所有過(guò)去十年間研發(fā)改良的成熟科技。”Michielssen認為這種觀(guān)點(diǎn)大錯特錯。“數據科學(xué)將強化現有技術(shù),它是一個(gè)工具,只是科學(xué)家和工程師必備的重要工具,與其他工業(yè)分支一樣。但不會(huì )取代現有技術(shù)。”