下載客戶端

登錄

PC算法：缺失數(shù)據(jù)下的因果發(fā)現(xiàn)

2020-12-08 08:42

來源：澎湃新聞·澎湃號(hào)·湃客

聽全文

原創(chuàng) 郭瑞東、屠睿博集智俱樂部

導(dǎo)語

在各種跟數(shù)據(jù)打交道的科學(xué)研究中，都需要通過觀測變量或?qū)ψ兞窟M(jìn)行干預(yù)試驗(yàn)，從而發(fā)現(xiàn)其中的因果關(guān)系。但在許多實(shí)際研究中，會(huì)面臨數(shù)據(jù)不全或數(shù)據(jù)缺失。在集智俱樂部中，來自瑞典皇家工學(xué)院的屠睿博，講述了數(shù)據(jù)缺失會(huì)怎樣影響因果發(fā)現(xiàn)，并介紹了怎樣使用基于貝葉斯網(wǎng)絡(luò)的PC算法框架來應(yīng)對數(shù)據(jù)丟失。本文是對分享的文字整理。

對因果發(fā)現(xiàn)不熟悉的讀者，可以查看我們根據(jù)卡耐基梅隆大學(xué)博士生黃碧薇的分享所整理的文章：

郭瑞東 | 講者

屠睿博 | 整理

鄧一雪 | 編輯

1. 數(shù)據(jù)缺失帶來錯(cuò)誤的因果關(guān)系

舉一個(gè)假設(shè)的例子，來說明數(shù)據(jù)缺失可能帶來的問題。假設(shè)大學(xué)的錄取，取決于智商高低，同時(shí)比較傾向于錄取男性，且智商測試只在大學(xué)中進(jìn)行。在這樣的場景下，如果在統(tǒng)計(jì)數(shù)據(jù)中，刪除包含缺失項(xiàng)的第二和第三行，那么就智商和性別的關(guān)系這一問題，就會(huì)得出“如果是女性，則平均智商更高”這樣一個(gè)錯(cuò)誤的因果關(guān)系。

圖1. 虛擬場景下，標(biāo)紅的數(shù)據(jù)缺失，導(dǎo)致錯(cuò)誤結(jié)論

用因果圖來描述上述場景，以及包含缺失值的變量智商，可以得出下圖：

圖2. 智商和性別共同影響大學(xué)錄取，而使用大學(xué)錄取后的數(shù)據(jù)，由于IQ項(xiàng)的缺失，造成有誤導(dǎo)性的因果關(guān)系被發(fā)現(xiàn)

為了解決數(shù)據(jù)缺失給因果發(fā)現(xiàn)帶來的問題，首先要考慮的問題是，如何用因果圖表示數(shù)據(jù)丟失機(jī)制。

圖3

例如上圖的代碼中，Ry是數(shù)據(jù)缺失指示變量 (missingness indicator)，它代表了變量Y的數(shù)據(jù)中是否包含丟失數(shù)據(jù)。同時(shí)，因?yàn)镽y的數(shù)值由變量W決定，所以變量W被稱為是缺失指示變量Ry的直接原因（direct cause）。

該數(shù)據(jù)丟失機(jī)制可以通過以下的因果圖（missingness graph）[1]表示。圖中的代理變量Y*（proxy variable）表示觀測到的含有丟失數(shù)據(jù)的Y變量。由于Y，Ry和Y*的關(guān)系可以唯一確定，所以后文因果圖中將不畫出Y*。

圖4. 包含數(shù)據(jù)缺失機(jī)制的因果圖示例

上文的例子是基于假定丟失機(jī)制的模擬環(huán)境，在真實(shí)場景中，需要根據(jù)常識(shí)和領(lǐng)域知識(shí)，對數(shù)據(jù)缺失的機(jī)制進(jìn)行假設(shè)。

2. 三種不同的數(shù)據(jù)缺失類型

所有可能數(shù)據(jù)缺失，可以按照丟失機(jī)制，分為三類，這三類涵蓋了所有可能的數(shù)據(jù)缺失[4]。

第一類是完全隨機(jī)的數(shù)據(jù)缺失（Missing Completely At Random），即數(shù)據(jù)是否缺失，和所有觀測的變量完全無關(guān)。例如由于硬盤故障，網(wǎng)絡(luò)丟包等與待研究問題完全無關(guān)的隨機(jī)性造成的，簡稱MCAR。

圖5. MCAR對應(yīng)的因果圖

第二類稱為受隨機(jī)因素影響的數(shù)據(jù)缺失（Missing At Random），即數(shù)據(jù)是否缺失的概率，是和某個(gè)可觀測變量的值有關(guān)的。例如某些組的受試者更有可能不愿意配合實(shí)驗(yàn)者，導(dǎo)致這一組額度數(shù)據(jù)中，缺失的比例更大，簡稱MAR。

圖6. MAR對應(yīng)的因果圖

第三類稱為數(shù)據(jù)缺失不隨機(jī)（Missing Not At Random），即數(shù)據(jù)缺失時(shí)，不清楚缺失的數(shù)據(jù)屬于哪個(gè)組。例如網(wǎng)購中，如果對商品的評(píng)分的人，要么是很喜歡這件商品，要么是很討厭這件商品的。這意味著購買者是否給商品打分，取決于購物者對商品的評(píng)價(jià)。在這種最復(fù)雜的情況下，應(yīng)對缺失問題更為困難。

圖7. MNAR對應(yīng)的因果圖

有了因果圖，在滿足一些比較弱的條件下，可以證明出數(shù)據(jù)缺失，只會(huì)在包含對撞因子的場景下，造成下圖所示的兩種可能的錯(cuò)誤因果關(guān)系被發(fā)現(xiàn)。

圖8. 可能的由數(shù)據(jù)缺失帶來的錯(cuò)誤連邊示意圖

這意味著想要解決缺失數(shù)據(jù)下的因果關(guān)系，只需要針對這兩種情況下，判斷圖中的紅邊是否是誤導(dǎo)性的。

3. 哪些數(shù)據(jù)缺失對因果發(fā)現(xiàn)是可解決的

不是所有因果發(fā)現(xiàn)中的數(shù)據(jù)缺失問題，都是可以解決的，必須在滿足以下四個(gè)假設(shè)時(shí)，問題才是可解：

首先，缺失指示變量不能作為觀測變量或者其他缺失指示變量的原因，也就是沒有任何一個(gè)非代理變量的數(shù)值取決于數(shù)據(jù)是否缺失。

第二個(gè)假設(shè)，稱為可信的觀察。即在包含數(shù)據(jù)缺失和不包含缺失數(shù)據(jù)的兩個(gè)“平行宇宙”中，待發(fā)現(xiàn)的因果關(guān)系及變量間的統(tǒng)計(jì)獨(dú)立性不變。即不會(huì)由于觀察包含缺失，導(dǎo)因果關(guān)系的改變。這可以看成之前可靠性假設(shè)（Faithfulness）的延伸。

第三，數(shù)據(jù)是否缺失之間，是相互獨(dú)立的，不會(huì)出現(xiàn)變量X丟失，一定導(dǎo)致變量Y丟失最后一點(diǎn)是不包含自我抹去數(shù)據(jù)。即變量X是否丟失，如果是由于x本身的值決定的，這種情況下也是從理論上無法解決的。

第四，無自我缺失機(jī)制。觀測變量本身不可是其數(shù)據(jù)缺失的愿意，比如一個(gè)自我缺失的例子可能是身高高于190cm或低于140cm的人群可能不愿意在填寫表格時(shí)輸入真實(shí)身高數(shù)據(jù)。

4. 包含缺失數(shù)據(jù)的PC算法

不論基于打分，還是基于模型的算法，都可以通過改進(jìn)算法，來應(yīng)對缺失數(shù)據(jù)。本文針對PC算法，詳細(xì)解說如何修正算法。

PC算法[2]首先初始化生成變量之間的全連接圖，之后第一步是搜索因果圖的骨架，第二步是確定因果方向，如下圖所示：

圖9. PC算法

為了應(yīng)對缺失數(shù)據(jù)，主要的修改在第二步：首先在骨架搜索后，要對所有缺失的數(shù)據(jù)項(xiàng)，通過統(tǒng)計(jì)獨(dú)立性，檢測出是由哪些變量導(dǎo)致的，之后找出所有可能的錯(cuò)誤的因果關(guān)系（邊），再更正可能的錯(cuò)誤的邊。

圖10. 前文代碼對應(yīng)的因果圖，其中X與Y之間可能存在錯(cuò)誤的因果聯(lián)系

上圖的例子中，已經(jīng)找到了X和Y之間可能存在錯(cuò)誤的因果聯(lián)系。但由于數(shù)據(jù)缺失與否，取決于對撞因子W，因此在去除不完整數(shù)據(jù)只考慮完整數(shù)據(jù)的情況下，無法通過統(tǒng)計(jì)獨(dú)立性，判定X和Y之間不存在因果關(guān)系。這就是傳統(tǒng)的PC算法為何無法解決數(shù)據(jù)缺失的原因。

圖10. 新方法[3]通過構(gòu)建數(shù)據(jù)補(bǔ)全器，解決數(shù)據(jù)缺失

在理想世界中，不存在數(shù)據(jù)缺失。如果能通過統(tǒng)計(jì)方法，基于缺失后的數(shù)據(jù)，估計(jì)出理想世界的情況，那么就能夠在理想世界中進(jìn)行因果發(fā)現(xiàn)，并解決數(shù)據(jù)缺失帶來的問題。這類似于機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)，也是因果推斷中常見的解決問題套路。

在假定線性高斯模型時(shí)可以通過三個(gè)包含權(quán)重和噪聲項(xiàng)的線性方程，來描述W和XYZ之間的關(guān)系，并通過線性回歸和觀測數(shù)據(jù)，學(xué)到由W到XYZ的數(shù)據(jù)補(bǔ)全器，從而使生成的數(shù)據(jù)滿足理想世界的數(shù)據(jù)分布。

為了消除W和Ry是否缺失之間存在的關(guān)聯(lián)，通過將數(shù)據(jù)中的W打亂，同時(shí)保留代表是否缺失Ry的值不變，如下圖所示：

圖11

最后在打亂后的Ws中，根據(jù)學(xué)到的數(shù)據(jù)補(bǔ)全器和線性回歸模型的殘差，還原出理想世界的X'，Y'和Z'。保持原有的樣本數(shù)不變，通過在X'，Y'和Z'中進(jìn)行統(tǒng)計(jì)檢測，最終糾正錯(cuò)誤的因果聯(lián)系。

在生成的模擬數(shù)據(jù)中，MVPC的算法的表現(xiàn)，不論對于MAR或者M(jìn)NAR，隨著樣本量的增加，其表現(xiàn)接近理想和目標(biāo)情景。

圖12. 模擬數(shù)據(jù)下MVPC算法的效果

機(jī)器學(xué)習(xí)中，經(jīng)常包含數(shù)據(jù)缺失，即無標(biāo)簽的數(shù)據(jù)。如果想將因果發(fā)現(xiàn)應(yīng)用在機(jī)器學(xué)習(xí)中，那就需要考慮在更少假設(shè)下的情況。對此可以參考碧薇的講座，其中的討論更加系統(tǒng)化。

參考文獻(xiàn)

1. Mohan, Karthika, Judea Pearl, and Jin Tian. "Graphical models for inference with missing data." Advances in neural information processing systems. 2013

2. Rubin, Donald B. "Inference and missing data." Biometrika 63, no. 3 (1976): 581-592.

3. Spirtes, P., Glymour, C., Scheines, R., Kauffman, S., Aimale, V., & Wimberly, F. (2000). Constructing Bayesian network models of gene expression networks from microarray data

4. Ruibo Tu, Cheng Zhang, Paul Ackermann, Karthika Mohan, Clark Glymour, Hedvig Kjellstr?m, and Kun Zhang. Causal discovery in the presence of missing data. In International Conference on Artificial Intelligence and Statistics (AISTATS), 2019.

推薦課程

本文整理自瑞典皇家工學(xué)院在讀博士屠睿博在“因果科學(xué)與Causal AI”讀書會(huì)上的分享，更多詳細(xì)內(nèi)容請參考錄播視頻，內(nèi)附PPT。

課程地址：

https://campus.swarma.org/course/1970

因果科學(xué)與Causal AI讀書會(huì)由集智俱樂部與北京智源人工智能研究院聯(lián)合舉辦，邀請對相關(guān)領(lǐng)域有興趣和積累的學(xué)者開展為期數(shù)月的線上分享和討論，研讀經(jīng)典和前沿論文。付費(fèi)參與讀書會(huì)可以回看往期錄播視頻并進(jìn)群討論。

目前已有超過200位海內(nèi)外高效科研院所的科研工作者和互聯(lián)網(wǎng)一線從業(yè)人員參與。詳情請參考：復(fù)雜科學(xué)最新論文

集智斑圖頂刊論文速遞欄目上線以來，持續(xù)收錄來自Nature、Science等頂刊的最新論文，追蹤復(fù)雜系統(tǒng)、網(wǎng)絡(luò)科學(xué)、計(jì)算社會(huì)科學(xué)等領(lǐng)域的前沿進(jìn)展。現(xiàn)在正式推出訂閱功能，每周通過微信服務(wù)號(hào)「集智斑圖」推送論文信息。掃描下方二維碼即可一鍵訂閱：

原標(biāo)題：《PC算法：缺失數(shù)據(jù)下的因果發(fā)現(xiàn)》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號(hào)請用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#因果關(guān)系 #算法