close

s33301531.jpg

因果革命:人工智慧的大未來(The Book of Why: The New Science of Cause and Effect,Judea Pearl)

   這本其實挺要緊的.每年底國內某些單位都會評選年度書籍.但可能不太有人注意到包括經濟,金融,商管類的書籍這幾年幾乎都上不了那名單上.其實不意外,但這幾乎不完全是書籍本身的問題.只要去看評選者名單,看他們的背景與專業方向,依路徑相依,大概就能猜到原因,一個不看這些類型書籍的評選團怎會選擇那些書籍?!.這種結果在統計上稱為"相關性".而"因果革命"則更進一步,它指出'相關性"其實並不能說明太多事情,而直接將焦點放在事情的因果關係上,既然都沒有財經資訊背景的評選者,那些書籍被評選者閱讀的機率可能等於0,或是他們認為財經書無資格與社科文學並列,以至於幾乎不會被選上的.但是這還不能稱為因果關係,因為也許評選單位找評審時就已經有條件預設,只是外人不知,於是若將評選單位的思考納入,或者就能展開因果分析了.

   這本書的論點可以直說是對於統計學相關性的挑戰,我們甚至可以直觀用本書的工具猜測社科,商管等學院裡以統計假設為基礎的博碩士論文在作者Pearl的因果觀點下可能多數淪為垃圾,只是大型的統計模式的抽樣資料練習而已,因為傳統的統計學並不足以證明事件間的因果關係,呈現的只是它們間的相關性,而這在社科商管自身的知識內容裡其實得不到因果方向與程度的推論工具,所以自然的淪為猜測垃圾,這便是本書相當要緊的部分.當然Pearl的目的其實並不在此,他是想修正或測試把統計用在人工智慧的機器學習或深度學習裡可能的問題,而以因果關係的新方式替入做出更接近真實的人工智慧系統,協助人們在此方向的跨步,與其說這是對統計學的激烈革命,還不如說Pearl是對人工智慧提出新的參照,自然是本重要書籍,但它不一定會有高評價,因為它是一門新的東西,所有的相關知識與發展步驟的架構都還在Pearl這些專門人士的手上,或在建構中,所以在學校系統裡,還只是研究生的課題,尚不能達到傳統統計學已經成為固定課程一般的地位,對多數讀者而言,這本書應該有進入的閱讀障礙,它採用許多技術細節,包括在路徑圖,機率算式,來架構從貝氏網路到因果圖,並藉由干擾與去干擾因子去改良找出因果圖的解答,大多數讀者可能都受阻於這些技術內容而放棄.書中的數學符號阻礙了文科生的進入,且中間的許多推論缺乏中繼解說,讓缺乏聯想者無法將一些內容連貫,以至於它可能被忽略,比如這書裡的後門路徑,前門路徑沒有解釋清楚,但其實如果書能增加一兩行指出有箭頭指向X即為後門,相對的為前門,且讀者當能立刻判斷出那條是因果路徑,哪條不是,被這些名詞搞得無以為繼.但以開創性而言,這絕對是本值得有心於此的人選擇的一本.

   從人工智慧這範圍我們可以先猜測之所以要破解"相關"進入"因果",是這批新知識的開創者們引發這樣的自問:當前人工智慧裡的機器學習和深度學習技術究竟是一種全新的算法推理形式,還是僅僅是傳統描述性統計和曲線擬合等長期數學技術的延伸!?.很明顯當前人工智慧無法執行因果推斷是一個嚴重的缺陷.深度學習停留在聯想層面,曲線擬合.從數學層次結構的角度來看,無論多麽熟練操作數據,以及在操作數據時引進了什麽內容,它仍然是一個曲線擬合的練習,即使它非常複雜和重要.從本質上講,表面上看深度學習算法具有大腦的靈感,但它們其實只算是一種強大的數據分析工具,尤其是擅長處理大量非結構化數據.但是,深度學習是一種非常通用和強大的曲線擬合技術,它可以識別以前隱藏的模式,推斷出趨勢或形態,並預測出各種問題的結果.曲線擬合方法在表示給定數據集方面的一個風險是過度擬合,就是算法不能識別出數據中推論的行動是基於的正常波動,還是因為被其他干擾因素迷惑,這便是風險與危險所在.深度學習的過度擬合可能會讓研究者陷入概念上的窠臼,並危及一般形式的人工智能的進展.這是因為基於傳統統計學來的就是相關分析的再延伸,但它形式,或數學算術變得更複雜,它依舊是相關分析.不是因果關係,而這便是因果革命的最重要之處."WHY",而非"correlation".這就如"網路聲量"這名詞其實只是代表同溫層回聲與對抗層效應兩者的加總,跟一個人的受支持度與得票數無關,即它是一個人或事件在望路上的討論度相關性的衡量數,但跟當選或落選不具必然的因果關係,對這種關係的理解弄錯了自然就是預測悲劇,但這是人類自創的悲劇.Pearl認為除非演算法和由它們控制的機器能夠推理因果關係,或者至少概念化差異,否則它們的效用和通用性永遠不會接近人類.除非機器人能夠模擬人類的直覺,否則不可能與它們進行有意義的對話,要求機器人具備理解因果關係才有可能讓它具有採取的其他行動和結果的能力.創建"類人"的學習和思考的機器需要他們能夠構建出世界的因果模型,能夠理解和解釋他們的環境,而不僅僅是使用模式識別來解決問題.既然如此,那為什麼要看這本書?從投機客來說,如果你也是個系統交易者,或根本就是已經以程式交易來替代人力,那麼系統過度擬合的問題一定是困擾,而在傳統的金融交易資料思考框架下其實已經不可能有突破,當然必須尋求一個新的路徑.當然尋求"類人"是第一步,"超"人則是另一種期望,比如過去一年的圍棋職業賽中,已經有棋士運用alphago的棋步在他職業賽的對戰中,便是人工智慧反過頭來影響人類思維一個例子.

   傳統的統計學從常見的迴歸,變異數分析,到logistic regression,模式廣泛generlize liner model 到更複雜的多變量分析,基本上都屬於相關性,都是衡量不同變數間關係的衡量.但是兩數相關並不能解說其間有因果,y=a+bx,其實並不能表達因果性.比如公雞啼與太陽出來,並沒有直接因果關係,只能說有高度的相關性,公雞不啼太陽可能依舊出現,天雨無日出但公雞卻啼鳴,這是其一,其次公雞啼與日出兩者間,何者為因何者為果也沒有可供證明的條件,只是一般人並沒有在這個問題上深思過.在"因果革命"中.Pearl給了一個他認為的找出因果的一種方式,那就是因果階梯(The Ladder of Causation),這個階梯就是人類找尋因果這件事的理解,它將人們認知因果這件事分成三階段.在這個階梯最底層是觀察(Seeing):即用眼睛去看.這一層考慮的是關聯(Assiciation),例如當我們看到雞啼然後再看見日出,會產生一種關聯.而第二階段是執行(Doing),這一段要考慮的是介入(Intervention),比如我們把公雞用眼罩罩住它的頭,讓它看不到,那麼隔天太陽會不會出來?公雞回不會啼鳴?來介入這樣的關聯.第三階段則是想像(Imagining),參與這一層要考慮反事實(Counterfactuals),比如若公雞沒有啼鳴,那麼將會發生甚麼,這是我們人類行為上對於因果產生的實際步驟,而Pearl的觀點就是必須要給人工智慧跨越這三個階層來形成的因果推斷模型.

   而Pearl以生物遺傳學研究上發展出來呃路徑圖(Path diagram)而由路徑圖發展而來作為因果分析第一層的主要工具.書中以A,B,C三個變量為基礎寫出了最簡單的三變量間的路徑關係:

  1、A—>B—>C,這被稱作一個鏈子(chain).例子:,著火(A)—>冒煙(B)—>報警(C).顯然,只有先著火,火導致冒煙,煙導致報警.但是如果我們只知道兩個,尤其是只知道A和C,那麽A和C是有關的嗎?假想一下我們的數據是一個地區著火次數和報警次數,那麽這兩個次數之間我想應該是呈現正相關的.這里需要註意一點,一旦我們給定B,即知道了B冒煙與否.假設,已知了在B=1(1表示冒煙,0表示不冒煙)的情況下,著火和報警的次數,那麽這A和C就是條件(在B=1的條件下)獨立的.

 2、A<—B—>C,這稱為叉子(fork) 例子:同樣我們用一個例子來說明這種關系.鞋子的大小(A)<—孩子的年齡(B)—>閱讀能力(C).還是考慮A和C,從相關的角度來看,鞋子的大小和閱讀能力可以想象有正相關的關系.但是我們一旦限定某個年齡層的孩子,比如孩子年齡等於8歲,那麽我想A和C之間也就條件獨立了.

 3、A—>B<—C,這稱為衝突(collider) 例子:最顯然的例子就是,好萊塢演員的天分(A)—>名氣(B)<—外表(C)對普通人而言,天分和外表是無關的.但是在好萊塢,無論是外表還是天分都可以讓你成名.那麽把事情反過來想,如果你成名了對於大多數人來說,不是靠A就是靠C,如果靠了A那C的成分就弱一些(這是某種負相關).所以,A和C本身獨立,但是限定了B之後,A和C變得相關起來.

   以上便是書中闡述的三種基本的變量關係的說明,.那路徑圖有什麽用?按照作者的看法,假設透過觀察我們發現A和C有某種關聯,但是不知道其間的因果是什麽?是A直接導致了C,或是說A透過了B影響了C,此時就必需執行干預與介入,透過將B條件化,去除干擾因子,執行do的機率算法計算出A與C之間的因果關係,即P(A|C)-P(A|do(C)),這是因果關係的第二層.而第三層即是反事實,它是透過中介分析法來調整達到計算出其中A到的直接效果與A->B->C的間接效果,與其間的交互作用達到了解其間因果關係程度,而這涉及條件多重的中介方程式,書中就至少列出三個中介方程式來找出反事實下的相對效果,而根據觀察,介入,反事實之後,就可以算出我們企圖問的從A到C 間的因果關係.

   但是,我認為大多數人在書中技術方法的講解的過程中應該是暈頭的,這便涉及到這本書的定位與寫法問題.因為包括路徑圖,變量混成的計算,條件機率,每一種其實都有它基本的知識在其中,但這本書偏偏沒有這些內容,它可能假設讀者都已經具備這些基本觀點下才來讀這本的,以至於在前面三個三變量間的路徑圖後,便跟著一些複雜的技術觀點,與無解答推導過程的直接答案,加上對路徑圖又不完全理解,以至於讀完本書可能完全不知道在做甚麼,個人以附圖將這三種變量關係重繪於下,下圖前面三個就是書中所述的A到C之間的路徑關係,但不同的是,個人以B為條件重新改變了這三個圖的關係,在其中fork是本書的主角,要計算A->C的因果關係,只要條件化B即可計算,此使B便是干擾因子,我們需要執行的就是去干擾因子,而這就是後門調整法,但是若B無法測量,或在現實中無法取得資料,就可以透因果路徑中A->C中的相關因子Z作為中介,即圖下的2.1,2.2,那麼可以採用前門調整來計算,而2.1與Chain類似,在Chain中,A與C之間的關係,除了因果路徑A->C,也包括非因果路徑A->B->C,因此才會有直接效應與間接效應,與交互作用.在Collider中因為A,C能夠互通,所以讀者可能發現除了開頭外,後面的計算例子完全沒有再見過Collider了,整本書可見的所有的路徑圖例子大約就是這三種路徑的擴張發展的變形.

    原則上這是一本試圖說明因果關係發展新觀點的書籍,它的動機與企圖是好的,但是本書似乎並不適合普羅大眾,它的技術面是有進入條件與障礙的,而這也是關於人工智慧書籍的難題,如果都談現象與理論,市面上的書大概都差不多,觀點發展到了一個段落.然後想研究人工智慧的人可能就被迫要跳進機器學習,深度學習裏頭,可是偏偏首先就碰到他們無法克服的數學技術問題,或許可以硬記先用在程式的模式裡,但其實並不真的理解它的功能,而這對於發展是有問題的,因為原本人工智慧就被認為有黑盒子運作的疑問,這下人們可能連黑盒子都搞不清楚了,不清楚因果那要如何發展下去,我想這也是文科生基本很難進入此領域的障礙,真的有興趣的人,還是得要把一些基本功練好才行,哪怕那些基本功其實對於某些人來說並不基本.以上.

.IMG_20200209_130032_resized_20200209_010211022.jpg

arrow
arrow
    全站熱搜

    speculatortw 發表在 痞客邦 留言(0) 人氣()