“數據治理”如何打造升級版
徐鵬飛 繪
2013年3月德國漢諾威IT展戴爾公司展臺,工作人員向參觀者介紹大型服務器。新華社發
在大數據時代,對原有規范的修修補補已經滿足不了需要,也不足以抑制大數據帶來的風險。法律需要界定數據的權益,需要界定數據的類型(哪些是隱私,哪些涉及國家安全等),這樣數據的流通就有法可依。作為個人,要明白“有行動就可能產生數據”,當有些行為涉及隱私時需要謹慎。
杜小勇(中國人民大學信息學院院長)
肯尼思·丘基爾(《經濟學家》雜志數據編輯)
黃智生(荷蘭阿姆斯特丹自由大學計算機系高級研究員)
朱揚勇(復旦大學數據科學研究中心主任)
維克托·邁爾·舍恩伯格(《大數據時代》作者)
法迪·謝哈德(互聯網名稱與數字地址分配機構總裁)
斯蒂夫·帕爾默(美國IT咨詢公司Avanade商業情報部副總裁)
問題一:
大數據屬于誰?
杜小勇:獲取、記錄數據需要耗費資源,因此,數據也就具有了資產的屬性。在大數據出現以前,數據依附于具體業務而存在,人們更多的關注在使用數據的軟件系統上。沒有軟件的使用,就沒有數據的價值。當時有關數據的歸屬問題并不那么突出。在大數據時代,數據可以作為一種獨立的存在,其“資產”性價值越來越引起人們的重視。
數據是物理世界客觀事物性質、狀態的反映,這是客觀存在。你去收集了,有特定的表達形式,自然特定格式的數據就是你的。個人、企業、政府、組織都可以合法地去收集數據。如果違反了現有法律收集了數據,自然也是非法擁有,數據財產也是非法的了。
肯尼思·丘基爾:個人、企業、政府等都可能是數據的擁有者。比如,移動運營商收集個人使用全球定位系統的定位數據。這種情況下,個人成為大數據的來源,移動通信公司投資并收集大數據,以向用戶提供更好的服務。類似地,政府可擁有特定的數據,如人口普查數據、天氣信息、郵政編碼等。不過,我們會對大數據如何使用或者是否應該被收集施加一些限制。
黃智生:隨著智能手機、網絡和衛星定位系統的普及,每個人的一舉一動都會產生很多數據。個體在購買手機、簽署手機合同之時可能就同意手機網絡公司有權獲得個人位置之類的信息了。
今后的數據歸屬權與個人隱私的概念可能越來越無關,而且隨著時間的推移,人們對于隱私的看法也在發生改變。以個人位置數據信息為例,以前,人們肯定很不樂意自己的行蹤被別人獲知。如今,似乎沒有人為了不讓別人知道自己的行蹤而不使用手機。
歐洲民眾要求政府公開信息的訴求越來越強烈,歐盟和歐洲各國的立法也在向這個方向推進。以荷蘭為例,除了涉及國家安全和個人隱私的公共信息外,大部分信息都已經實現了公開。民眾也有權向政府申請信息公開。
朱揚勇:關于數據財產,目前法律上存在空白,套用目前的物權法或著作權法等相關法律可能都有些問題。所以,我們只能來談談數據權益歸屬的合理性問題。因為數據不是天然存在的,所以,“數據應該屬于數據的生產者”的說法比較合情合理。但是,很多時候數據擁有者很難主張權利,這需要將來制定相應的法律來解決。現在面臨的問題主要有兩個:一是當數據有多個生產者時如何界定;二是當生產的數據涉及秘密和隱私時如何界定。
對于第一個問題,可以通過協商解決。例如,某人在電子商務網站購物,購物行為生產的數據是可以由購物者和電商(可能還有第三方支付平臺)共同擁有。一般情況下,個人購物數據對個人幾乎無用,目前被電商無償占有了。再比如,微博數據現在幾乎已經作為個人資產來看待了,因而微博運營商就不能無償占有使用微博數據,需要協商處理。對于第二個問題, 就需要法律來界定了。例如,病歷數據是病人和醫生及醫院共同生產的,醫院銷售病歷數據就一定會遇到麻煩,這里不是數據權益的主張問題,而是涉及病人的隱私問題。
問題二:
大數據誰掌控?
肯尼思·丘基爾:沒有哪個機構或者哪個人會擁有大數據的最終控制權。這取決于具體情況,即什么類型的數據、用于何種目的。例如,我們的智能手機傳感器可能會識別我們周邊的人。這是否意味著我侵犯了別人的隱私呢?也許是的。但這不同于上世紀20年代中期大眾攝影時代發生的情形。那個年代,如果有人在大街上對你拍照或者錄像,你會覺得受到了干擾。但是,今天,當人們在巴黎盧浮宮前被數百臺智能手機拍攝時,大部分人是不會在乎的。
維克托·邁爾·舍恩伯格:我們仍處在大數據時代的初始階段,誰來掌控大數據或者誰來使用,在何種條件下又受到何種規范,大數據未來的儲存和流動方式等,都還處于未知的狀態,我們無法給出準確的答案。但是社會的各個領域已經有很多這方面的嘗試,未來在這方面也一定會出現更多的創新。
未來對大數據規范管理的重點仍舊需要集中在個人信息的使用方面,而不是數據的采集和交易過程。采集數據的過程并不會帶來太多的麻煩,關鍵問題在于有可能產生數據濫用。因為互聯網公司可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯網公司順理成章地成了最新處理技術的帶頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。但事實上,政府才是大規模信息的原始采集者,并且還在與私營企業競爭他們所控制的大量數據。
黃智生:目前網絡上的數據龐大,但絕大部分數據都是由公司進行管理的。比如個人的郵件系統,無論個人使用哪一家公司的郵件系統,提供商都可以看到這些郵件。但是這些公司的員工必須遵守職業道德,而且有嚴格的調閱規章制度,法律中對私自查看或泄露別人網絡隱私的行為也會進行嚴厲打擊。
公共數據可以由政府進行管理,但必須嚴格遵守法律。在歐洲,個人、公司和組織有權拒絕向政府或執法機關提供數據。比如,我在阿姆斯特丹留學期間,荷蘭警方要求我們學校提供所有華人留學生的住址,但學校表示,荷蘭法律沒有規定我們有義務向警方提供此類信息。但如果涉及國家安全,又有法律可循,那么歐洲的政府是有權管理相關數據的。
問題三:
大數據存多久?
維克托·邁爾·舍恩伯格:我們所處的時代之所以與眾不同,是因為數據的收集不再存在固有的局限性。技術已經發展到一定程度,大量信息可以被廉價地捕捉和記錄。數據收集往往是被動的,人們無須投入太多精力,甚至不需要認識這些數據。而且,由于存儲成本的大幅下降,保存數據比丟棄數據更加容易。這使得以較低成本獲得更多數據的可能性比以往任何時候都大。在過去50年中,數字存儲成本大約每兩年削減一半,而存儲密度則增加了5000萬倍。大部分數據的直接價值對收集者而言是顯而易見的。數據的基本用途為信息的收集和處理提供了依據。
隨著時間的推移,大多數數據都會失去一部分基本用途。在這種情況下,繼續依賴于舊的數據不僅不能增加價值,實際上還會破壞新數據的價值。然而,并非所有的數據都會貶值。有些公司提倡盡可能長時間地保存數據,即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。這就解釋了為什么一直以來,谷歌都拒絕將互聯網協議地址從舊的搜索查詢中完全刪除。谷歌希望得到每年的同比數據,如假日購物搜索等。
黃智生:目前似乎沒有法規要求在一定的時限后銷毀數據。如銀行的個人財務信息等內容,反而要求一定期限內不準銷毀。而且現在存儲數據的成本很低,所以各公司都盡量將各自產生的數據儲存下來。雖然世界主要技術公司的總部大多在美國,但并非所有的數據都儲存在美國,世界各地都會有這些公司的服務器和存儲系統。不過這些技術公司的高級管理人員可以很容易地查閱到世界各地的數據。從這個方面來講,存放在哪里并不重要,只要網絡能連接就可以了。如美國政府搜集的所謂“事關國家安全”的信息,政府更不會將其銷毀,只會越積越多。相對于較低的儲存成本,真正耗資的是篩選和運算成本。從山一樣的數據中挑選砂一樣的有用信息,實在很困難。
雖然目前WEB3.0系統已經能夠做到低智能、大數據量的篩選工作,但依然達不到實戰需要,代替不了人的作用。這如山一樣的數據,是政府的一種負擔,也是一個雞肋。但不能說這些數據就沒有用,比如警方確定了一個犯罪分子身份,就可以依法向網路服務商、手機服務商索取這個犯罪分子之前的所有信息,并通過這些積累的信息進行分析篩選。
法迪·謝哈德:互聯網名稱與數字地址分配機構(ICANN)成立之時完全由美國政府主導,招致許多非英語國家,特別是發展中國家人士的不滿。互聯網域名相當于網絡空間的門牌號,本來是一個全球性系統。ICANN在2009年與美國商務部簽署協議,此后不再對該部門負責,并使國際利益相關方在ICANN監管全球域名系統時擁有更多發言權。我們應該增加互聯網領域的透明度,而不讓某個國家或地區把互聯網控制起來,各國、各地區應該更加平等地分享網絡數據資源。
杜小勇:擁有數據的組織可以決定數據放在哪、如何存、存多久等。如果數據是企業的生命線,他自然會考慮安全、經濟、高效等多種因素。為了信息安全,企業一般會采取異地備份等成本更高的手段。據稱,“9·11”事件后,有些擁有更完善的數據備份體系的公司很快就恢復了業務,而另一些公司則由于數據損毀而走向破產。企業數據要存多久,也是一個需要權衡各種因素后的決策。這是企業自主的行為,除非建立在這些數據之上的業務還有其他法律上的要求。
我們可能關心的是另一個問題,即國家層面的信息安全。有人提出“信息疆域”的概念。也就是說,土地、海洋、空間都有國家的屬性(領地、領海、領空),數字空間中是否也有“主權”的概念?大型跨國公司,通過種種業務滲透到日常生活的方方面面,因此可以采集到一個國家方方面面的數據。于是,國外機構對一個國家情況的了解甚至有可能超過該國自身,這顯然會直接威脅到國家安全。
因此,國家對于跨國企業的數據傳輸、數據備份、數據使用等應有所限制,并進行監控,這十分必要。國家應該對此立法保障。有些數據有法律的保護,如測繪數據,其他更多種類的數據,目前還沒有類似的法律。
問題四:
大數據怎么用?
維克托·邁爾·舍恩伯格:隨著世界開始邁向大數據時代,社會也將經歷類似的地殼運動。在改變我們生活和思維方式的同時,大數據早已在推動我們重新考慮最基本的準則,包括怎樣鼓勵其增長以及怎樣遏制其潛在威脅。然而,不同于印刷革命,我們沒有幾個世紀的時間去慢慢適應,我們也許只有幾年時間。
在大數據時代,對原有規范的修修補補已經滿足不了需要,也不足以抑制大數據帶來的風險,我們需要全新的制度規范。我們需要設立一個不一樣的隱私保護模式,這個模式應該更著重于數據使用者為其行為承擔責任,而不是將重心放在收集數據之初取得個人認可上。
肯尼思·丘基爾:對大數據技術進行規范是問題的關鍵。首先,可以從強調監管大數據的收集,轉向重點監管大數據的實際使用。其次,可以讓大數據變得不那么神秘,不再是個“黑箱”,增加大數據應用中的透明度和問責制。可創造一個被稱為“算法學家”的新職業,這些人接受計算機技術、統計學和數據處理方面的專門訓練,對大數據的應用進行評估,以確保公眾對大數據系統感到放心。
至于平衡隱私權和國家安全的問題,古希臘哲學家亞里士多德早就提出這樣的問題:“我們如何監視守護者?”即使是在他那個年代,這個問題也沒有簡單的答案。
斯蒂夫·帕爾默:大數據給我們帶來的真正機遇是把許多信息碎片拼起來,為我們的決策服務。大數據時代最大的挑戰是如何從大數據中獲取“價值”。從大數據中獲取最大價值,需要探索式的研究方法。未來,數據科學家會很吃香,這種科學家既要熟悉商業環境,也要有操作層面的知識。
杜小勇:很多問題就出在數據使用上!數據作為資產,就涉及管理的問題,因此“數據治理”就顯得越發重要。信息世界同樣需要公約,將竊取他人數據視為犯罪,將攻擊他人系統視為犯罪,從刑法上加以明確規定,共同營造一個文明有序的數字生活,應該是我們的理想。大數據時代,我們需要盡快跟進這方面的工作,如開展國家間對話,形成公約。
企業利用數據挖掘技術,進行精準廣告投放,也涉及隱私問題。一個少女收到了嬰兒用品廣告,其父大怒,要告企業。事實卻是這位少女未婚先孕了。這個故事中,企業使用的是自己采集的客戶購物數據,使用的是自己開發的數據挖掘軟件,整個過程都沒有問題。但事實上卻侵犯了個人隱私,應堅決反對。這里面應該有一些法律問題,需要認真研究。
朱揚勇:“大數據時代,數據作為資源,不被共享是趨勢。”這樣的話,數據運用一定需要價值交換。在確定數據權益的前提下,數據的運用就是有償使用。法律需要界定數據的權益,政府界定數據的類型(哪些是隱私,哪些涉及國家安全)等,這樣數據的流通就有法可依。
在現階段法律法規都還沒有明確之前,應從國家安全的角度高度關注數據資源的安全。而作為個人,要明白“有行動就可能產生數據”,所以當有些行為涉及隱私時,需要謹慎。
從更大的范圍來講,公共網絡中公開的數據應該屬于全人類,任何人都有權獲取、使用并獲益。這樣能夠更大程度地發揮數據資源的作用,讓數據給人類的生活生產帶來更多便利,對人類社會進步有重要的意義。
(編輯:高晴)
· | 2013對新媒體的猜想 移動社交 寬帶中國入選 |