人工智慧與資料隱私之探討

2019 / 04 / 25
作者： TWNIC

2019 / 04 / 25
Author : TWNIC

分類：待分類
Tags：個人隱私, 隱私

Categories : 待分類
Tags : 個人隱私, 隱私

人工智慧的機會和威脅

人工智慧（AI）具有巨大利益伴隨巨大風險的性質。透過持續發展的萬物聯網，無處不在的連接和雲端基礎設施，不斷收集大量的數據，每天都在上演人工智慧的各項創新應用。雖然與“大數據”的概念密切相關，但AI透過機器學習和深度學習的演算模式並做出自動決策，這正是AI的機會和威脅所在(決定可能是有益的，也可能是災難性的)。AI的錯誤或誤導性主張，可能會對預期的社會受益人造成重大損害。強人工智慧(Strong AI)或通用人工智慧(Artificial General Intelligence)的發展，更可能造成各層面深遠的影響，因此衍伸的倫理、法律與社會影響(Ethical, Legal and Social Impacts, ELSI)相關研究範圍甚廣，而本文僅就與資料隱私(data privacy)相關議題提出探討。

AI與大數據困境

AI與資料隱私相關部分，主要是以個人資料依賴型的人工智慧(personal data dependent AI)相關者為範圍，即收集、處理、利用個人資料，以進行智慧學習和智慧應用。

智慧學習和智慧應用涉及個人資料的上游蒐集、中段處理分析與最後之利用等三個流程。AI在這三個階段中，也都面臨需要更進一步克服的困境：

蒐集：可分為兩個來源，一為專為特定目的的智慧學習活動而直接向當事人蒐集資料，另一為基於其他目的，以二次利用轉供智慧學習及應用。例如AI藉由自動化處理技術，將特定自然人的資料用於建立可供評估、分析或預測，諸如該人之工作表現、經濟狀況、健康、個人偏好、興趣、行為、所在位置或行動軌跡等之個人剖繪(profiling)。
1. 資料蒐集事前同意困境：無論是直接或間接蒐集與當事人相關的個人資料，若能徵得當事人事前同意，理論上應無太多法律與倫理爭議，然而在智慧學習所需大數據規模下，逐筆取得當事人同意，取得成本較高外，如為間接蒐集，轉換目的之前尚須取得同意，亦被認為將抵銷無需付出龐大取得數據成本之優勢。
2. 資料處理去識別化困境：借資料去識別化的處理技術，以作為資料取得合法基礎的正當性，這些技術除對個別資料的直接識別資訊予以隱匿外，通常是針對資料庫中所有個人資料的整體資料集，進行隨機化(randomization)或一般化(generalization)的處理，使資料中的各筆個人資料，無法被個別標定(singling-out)、進行串連(linking)或推論(inferring)。但完全切斷個人資料的連結性，可能不能滿足智慧學習的需要，因此有所謂假名化(pseudonymization)方法，而能保有拼湊出個人圖像的完整能力。上述皆尚無法完全排除各該資料透過其他資料組合比對，再次識別當事人資料的可能，使得「無法標定、無法連結、無法推論」的真正去識別化的效果無法達成。
3. 資料利用前能事前預見困境： AI往往可以從多種表面上看似無關的資料中，具有建立可推論當事人其他特性的演算法，例如預測個人的宗教或種族傾向。AI透過大數據分析技術的不斷演進，已大幅提升而具有多能性(pluripotency)，由此產生的「關聯性知識/演算法」，也跳脫出各該資料蒐集時當事人所處的特定脈絡。
處理：
1. 演算法黑箱困境： AI開發或使用者，對演算法處無法提出有意義的合法說明。此乃一方面是開發者不願或無法將演算法透明化，另一方面是倘若演算法透過機器學習，將高度複雜且為數眾多的變項歸納為知識時，即使是開發者往往也只能知其然，而不知其所以然，而形成演算法之黑箱。
2. 數據偏誤複製陷阱：無意間的「訓練數據」本身所隱含的系統性偏見，直接予以複製，或數據資料不足，而這樣的偏誤在機器學習的外觀掩飾下，卻可能更難以被察覺。
3. 人為偏誤或無知困境：避免由於AI演算法人為的有意、無意操弄，而導致錯誤結果。甚至誤以為有完美演算法，可以取代所有人類行為的無知偏見，此人為因素可能當事人本身亦未察覺，因此更多元的AI團隊，如需要進行研究以人工智慧去偏見化(de-bias)，並確保人工智慧的培訓，不會繼承其程式或分析人員的偏見等，都有助於資料的更公平、正確的處理。
利用：
1. 可能造成差別待遇(或歧視)困境
  AI演算法產出的結果，即依據演算法預測或評估，做出自動化決策或行為時，可能因為不同分類、推論，造成差別待遇或歧視情況。
2. 無力提出因果說明困境
  大數據分析與AI技術，主要是透過「歸納法」，將訓練資料中可以存在的各種關聯性予以一般化。然而歸納本身，並無法對資料關聯性提出因果解釋。

AI與隱私權案例

AI與人臉辨識：中共計畫在2020年前要完成鄉村地區「全域覆蓋、全網共享、全時可用、全程可控」的影像監控聯網，形成全國「維穩監控網」，也就是所謂利用AI人臉辨識技術所建構的中國天網計畫(skynet)。「天網」目前已佈建於中國大陸 16 個省市自治區，加上無孔不入的監視系統，不少民眾哀道，感覺自己就像住在動物園裡，赤裸裸的被人監視。
AI與社群媒體：國際熱門社群軟體中，無論是臉書、推特、IG或是LINE，因為其商業模式都是以連接所有使用者為目標，並以AI技術分析，進行個人化廣告收入做為公司主要營收之一。2018年繼臉書將高達數千萬使用者及其交友圈萬臉友的個人資料傳送到「劍橋分析」(Cambridge Analytica)的事件後，又驚傳在國內有大量用戶的社群軟體LINE最新版APP更新後，將「隱私設定」之「外部應用程式存取」預設值，從「拒絕」更改為「一律允許」，造成LINE友的韃伐。
AI與中國社會信用制度：中國的社會信用體系是一項雄心勃勃的，由資訊技術驅動的計畫，通過國家設法建立一個關於自然人和法人的數據中央資料庫的AI數據分析，進而通過懲罰和獎勵激勵措施來監控、評估和改變中國人民的行為。

AI與隱私之可能未來發展

2018年5月25日歐盟的GDPR(General Data Protection Regulation)正式實施，是全球個資隱私保護的典範法規，也給予AI等科技快速發展對個資隱私侵害隱憂，有一個適時平衡的契機。GDPR針對「與個人有關的自動化決策」的規定，賦予個人有權可以拒絕「純粹以自動化方式」做成與其相關，且產生法律或類似效果的決定(right to object)。當「純粹以自動化方式」做成個人相關決定影響當事人時，得要求資料資料控制者(data controller)之人為介入，並提供解釋(right to explanation)。GDPR的初步實施，大家都仍在觀望其對新興科技的隱私保護可能成效。因此一方面新興AI技術仍不斷快速發展，一方面人們已逐漸驚醒個資隱私的重要性，彼此如何持續取得平衡，將會是持續發燒與關注的議題。

參考資料：

人工智慧相關法律議題芻議，主編: 劉靜怡，元照出版公司，2018/11
Analysis of the European R&D priorities in cybersecurity Strategic priorities in cybersecurity for a safer Europe, European Union Agency For Network and Information Security, 2018/12
鷹眼真實上演！大陸天網系統擬架6億監視器，1秒比對全世界人臉
中國社會信用制度之剖析, Vincent Chen-WS, May 14, 2018
社群網站與個人資料保護初探，林冠佑，司法新聲101期_第2篇，Jan, 2012
強人工智慧，維基百科