AlphaGo Zero是Google DeepMind圍棋軟體AlphaGo的最新版。2017年10月19日,AlphaGo團隊在《自然》上發表文章介紹了AlphaGo Zero,文中指出此版本不採用人類玩家的棋譜,且比之前的所有版本都要強大[1]。透過自我對弈,AlphaGo Zero在三天內以100比0的戰績戰勝了AlphaGo Lee,花了21天達到AlphaGo Master的水平,用40天超越了所有舊版本[2]。DeepMind聯合創始人兼CEO傑米斯·哈薩比斯說,AlphaGo Zero不再受限於人類認知,很強大[3]。由於專家數據「經常很貴、不可靠或是無法取得」,不藉助人類專家的數據集訓練人工智慧,對於人工智慧開發超人技能具有重大意義[4],因為這樣的AI不是學習人,是透過對自我的反思和獨有的創造力直接超越人類。文章作者之一大衛·席爾瓦表示,摒棄向人類學習的需求,這有可能是對現有人工智慧算法的拓展[5]。
[編輯]AlphaGo Zero神經網路使用TensorFlow在64個GPU和19個CPU參數伺服器訓練,推理的TPU只有四個。神經網路最初除了規則,對圍棋一無所知。AI進行「非監督式學習」,自己和自己對弈,直到能預測自己的每一手棋及其對棋局結果的影響[6]。前三天,AlphaGo Zero連續自我對弈490萬局[7]。幾天之內它就發展出擊敗人類頂尖棋手的技能,而早期的AlphaGo要達到同等水平需要數月的訓練[8]。為了比較,研究人員還用人類對局數據訓練了另一版AlphaGo Zero,發現該版本學習更加迅速,但從長遠來看,表現反而較差[9]。
[編輯]普遍認為,AlphaGo Zero是一次巨大的進步,即便是和它的開山鼻祖AlphaGo作比較時。艾倫人工智慧研究院的奧倫·伊奇奧尼表示,AlphaGo Zero是「非常令人印象深刻的技術成果」,「不管是在他們實現目標的能力上,還是他們花40天時間用四個TPU訓練這套系統的能力」[6]。《衛報》稱AlphaGo Zero是「人工智慧的大突破」,援引謝菲爾德大學的伊萊尼·瓦希萊基(Eleni Vasilaki)和卡內基梅隆大學的湯姆·米切爾(Tom Mitchell),兩人分別說它是令人印象深刻的成就和「突出的工程成就」[11]。雪梨大學的馬克·佩斯說AlphaGo Zero是「巨大的技術進展」,帶領我們進入「未至之地」[12]。
韓國職業圍棋選手李世乭回應稱:「之前的AlphaGo並不完美,我認為這就是為什麼要把AlphaGo Zero造出來」。至於AlphaGo的發展潛力,李世乭表示他必須要靜觀其變,但同時表示它會影響年輕的棋手。韓國國家圍棋隊教練睦鎮碩表示,圍棋界已經模仿到之前AlphaGo各個版本的下棋風格,從中創造新的思路,他希望AlphaGo Zero能帶來新的思路。睦鎮碩補充道,棋界的大趨勢如今被AlphaGo的下棋風格影響。「最初,我們很難理解,我差不多認為我在跟外星人打比賽。然而,有過這麼次的體會,我已經適應它了。」他說。「我們現在錯過了辯論AlphaGo與人類之間的能力差距的點。現在講的是計算機間的差距。」據稱,他已經開始和國家隊棋手分析AlphaGo Zero的比賽風格:「雖然只看了幾場比賽,但我們的印象是,AlphaGo Zero和他的前者相比,下棋更像人類[13]。」中國職業棋手柯潔在他的微博上表示:「一個純淨、純粹自我學習的AlphaGo是最強的……對於AlphaGo的自我進步來講……人類太多餘了[14]。」
[編輯]版本 | 硬體 | 等級分 | 賽況 |
AlphaGo Fan | 176個GPU、[4]分布式 | 3144[1] | 5:0 對陣 樊麾 |
AlphaGo Lee | 48個TPU、[4]分布式 | 3739[1] | 4:1 對陣 李世乭 |
AlphaGo Master | 4個第二代TPU[4]、單機 | 4858[1] | 網棋 60:0 對陣 44位職業棋手 |
AlphaGo Zero | 4個第二代TPU[4]、單機 | 5185[1] | 100:0 對陣AlphaGo Lee
89:11 對陣AlphaGo Master |
