人工智慧與資料隱私之探討

人工智慧的機會和威脅

人工智慧(AI)具有巨大利益伴隨巨大風險的性質。透過持續發展的萬物聯網,無處不在的連接和雲端基礎設施,不斷收集大量的數據,每天都在上演人工智慧的各項創新應用。雖然與“大數據”的概念密切相關,但AI透過機器學習和深度學習的演算模式並做出自動決策, 這正是AI的機會和威脅所在(決定可能是有益的,也可能是災難性的)。AI的錯誤或誤導性主張,可能會對預期的社會受益人造成重大損害。強人工智慧(Strong AI)或通用人工智慧(Artificial General Intelligence)的發展,更可能造成各層面深遠的影響,因此衍伸的倫理、法律與社會影響(Ethical, Legal and Social Impacts, ELSI)相關研究範圍甚廣,而本文僅就與資料隱私(data privacy)相關議題提出探討。

AI與大數據困境

AI與資料隱私相關部分,主要是以個人資料依賴型的人工智慧(personal data dependent AI)相關者為範圍,即收集、處理、利用個人資料,以進行智慧學習和智慧應用。

智慧學習和智慧應用涉及個人資料的上游蒐集、中段處理分析與最後之利用等三個流程。AI在這三個階段中,也都面臨需要更進一步克服的困境:

  1. 蒐集:可分為兩個來源,一為專為特定目的的智慧學習活動而直接向當事人蒐集資料,另一為基於其他目的,以二次利用轉供智慧學習及應用。例如AI藉由自動化處理技術,將特定自然人的資料用於建立可供評估、分析或預測,諸如該人之工作表現、經濟狀況、健康、個人偏好、興趣、行為、所在位置或行動軌跡等之個人剖繪(profiling)。
    1. 資料蒐集事前同意困境:無論是直接或間接蒐集與當事人相關的個人資料,若能徵得當事人事前同意,理論上應無太多法律與倫理爭議,然而在智慧學習所需大數據規模下,逐筆取得當事人同意,取得成本較高外,如為間接蒐集,轉換目的之前尚須取得同意,亦被認為將抵銷無需付出龐大取得數據成本之優勢。
    2. 資料處理去識別化困境: 借資料去識別化的處理技術,以作為資料取得合法基礎的正當性,這些技術除對個別資料的直接識別資訊予以隱匿外,通常是針對資料庫中所有個人資料的整體資料集,進行隨機化(randomization)或一般化(generalization)的處理,使資料中的各筆個人資料,無法被個別標定(singling-out)、進行串連(linking)或推論(inferring)。但完全切斷個人資料的連結性,可能不能滿足智慧學習的需要,因此有所謂假名化(pseudonymization)方法,而能保有拼湊出個人圖像的完整能力。上述皆尚無法完全排除各該資料透過其他資料組合比對,再次識別當事人資料的可能,使得「無法標定、無法連結、無法推論」的真正去識別化的效果無法達成。
    3. 資料利用前能事前預見困境: AI往往可以從多種表面上看似無關的資料中,具有建立可推論當事人其他特性的演算法,例如預測個人的宗教或種族傾向。AI透過大數據分析技術的不斷演進,已大幅提升而具有多能性(pluripotency),由此產生的「關聯性知識/演算法」,也跳脫出各該資料蒐集時當事人所處的特定脈絡。
  2. 處理:
    1. 演算法黑箱困境 AI開發或使用者,對演算法處無法提出有意義的合法說明。此乃一方面是開發者不願或無法將演算法透明化,另一方面是倘若演算法透過機器學習,將高度複雜且為數眾多的變項歸納為知識時,即使是開發者往往也只能知其然,而不知其所以然,而形成演算法之黑箱。
    2. 數據偏誤複製陷阱: 無意間的「訓練數據」本身所隱含的系統性偏見,直接予以複製,或數據資料不足,而這樣的偏誤在機器學習的外觀掩飾下,卻可能更難以被察覺。
    3. 人為偏誤或無知困境: 避免由於AI演算法人為的有意、無意操弄,而導致錯誤結果。甚至誤以為有完美演算法,可以取代所有人類行為的無知偏見,此人為因素可能當事人本身亦未察覺,因此更多元的AI團隊,如需要進行研究以人工智慧去偏見化(de-bias),並確保人工智慧的培訓,不會繼承其程式或分析人員的偏見等,都有助於資料的更公平、正確的處理。
  3. 利用:
    1. 可能造成差別待遇(或歧視)困境
      AI演算法產出的結果,即依據演算法預測或評估,做出自動化決策或行為時,可能因為不同分類、推論,造成差別待遇或歧視情況。
    2. 無力提出因果說明困境
      大數據分析與AI技術,主要是透過「歸納法」,將訓練資料中可以存在的各種關聯性予以一般化。然而歸納本身,並無法對資料關聯性提出因果解釋。

AI與隱私權案例

  1. AI與人臉辨識: 中共計畫在2020年前要完成鄉村地區「全域覆蓋、全網共享、全時可用、全程可控」的影像監控聯網,形成全國「維穩監控網」,也就是所謂利用AI人臉辨識技術所建構的中國天網計畫(skynet)。「天網」目前已佈建於中國大陸 16 個省市自治區,加上無孔不入的監視系統, 不少民眾哀道,感覺自己就像住在動物園裡,赤裸裸的被人監視。
  2. AI與社群媒體: 國際熱門社群軟體中,無論是臉書、推特、IG或是LINE,因為其商業模式都是以連接所有使用者為目標,並以AI技術分析,進行個人化廣告收入做為公司主要營收之一。2018年繼臉書將高達數千萬使用者及其交友圈萬臉友的個人資料傳送到「劍橋分析」(Cambridge Analytica)的事件後,又驚傳在國內有大量用戶的社群軟體LINE最新版APP更新後,將「隱私設定」之「外部應用程式存取」預設值,從「拒絕」更改為「一律允許」,造成LINE友的韃伐。
  3. AI與中國社會信用制度: 中國的社會信用體系是一項雄心勃勃的,由資訊技術驅動的計畫,通過國家設法建立一個關於自然人和法人的數據中央資料庫的AI數據分析,進而通過懲罰和獎勵激勵措施來監控、評估和改變中國人民的行為。

AI與隱私之可能未來發展

2018年5月25日歐盟的GDPR(General Data Protection Regulation)正式實施,是全球個資隱私保護的典範法規,也給予AI等科技快速發展對個資隱私侵害隱憂,有一個適時平衡的契機。GDPR針對「與個人有關的自動化決策」的規定,賦予個人有權可以拒絕「純粹以自動化方式」做成與其相關,且產生法律或類似效果的決定(right to object)。當「純粹以自動化方式」做成個人相關決定影響當事人時,得要求資料資料控制者(data controller)之人為介入,並提供解釋(right to explanation)。GDPR的初步實施,大家都仍在觀望其對新興科技的隱私保護可能成效。 因此一方面新興AI技術仍不斷快速發展,一方面人們已逐漸驚醒個資隱私的重要性,彼此如何持續取得平衡,將會是持續發燒與關注的議題。

參考資料:

Photo created by vectorpouch

Scroll to Top