簡單說,在開發(fā)了吊打人類的圍棋AI阿爾法狗之后,DeepMind現(xiàn)在又開發(fā)了阿爾法狗零(AlphaGo Zero),而這個(gè)阿爾法狗零:
最令人震驚的是,AlphaGo Zero在3天之內(nèi),純靠自學(xué),達(dá)到了人類頂尖高手的水平。以前寫的人工智能與SEO帖子里提到過,以前的AlphaGo是在學(xué)習(xí)大量人類歷史棋局之后,再開始巨量自我對(duì)局。這次AlphaGo Zero則完全沒有學(xué)習(xí)人類棋局,從零開始就是自我對(duì)局,3天內(nèi)完成490萬盤自我對(duì)局,并達(dá)到了吊打AlphaGo Lee版本的水平。
下圖是AlphaGo Zero水平增長曲線:
可以看到,3天內(nèi)水平突飛猛進(jìn),然后變得平緩,但還是增長中。
以前的AlphaGo達(dá)到AlphaGo Master版本水平,走了一年多時(shí)間,大致是按“月”計(jì)時(shí)的,AlphaGo Zero的進(jìn)步則是按“天”,甚至“小時(shí)”的節(jié)奏了。現(xiàn)在看來,AlphaGo之所以要那么長時(shí)間,很可能是被人類帶歪了,被人類歷史棋局誤導(dǎo)了,被人類知識(shí)和思路限制了。AlphaGo Zero徹底拋棄人類現(xiàn)有知識(shí),也就沒有受到人類知識(shí)的局限,是真正天馬行空地找到最優(yōu)解的自由戰(zhàn)士。
既然拋棄人類圍棋知識(shí),剛開始自我對(duì)局時(shí)必然是隨機(jī)的,或者說是胡來的。AlphaGo Games這個(gè)網(wǎng)站上公布了很多實(shí)際棋局,感興趣的可以研究一下,有很多有趣的地方。最初的AlphaGo Zero自我對(duì)局確實(shí)就是亂下的,但很快發(fā)現(xiàn)了人類也掌握的大局觀、布局、收官等知識(shí),但有的東西是比較晚才掌握的,比如征子。
聶衛(wèi)平和柯潔都說過,看了AlphaGo的棋,發(fā)現(xiàn)很多人類對(duì)圍棋的認(rèn)識(shí)是錯(cuò)誤的。在某種角度說,AlphaGo Zero沒有歷史包袱,沒有勝負(fù)的心理包袱,沒有任何人類思維限制,它對(duì)圍棋的探索是自由的、沒有局限的,目標(biāo)是全局的最優(yōu)解,所以很可能它的下法就是終極正確的。
能讓人類聊以自慰的是,AlphaGo Zero自由探索的結(jié)果說明,人類數(shù)千年的研究探索有些是錯(cuò)的,但總體上沒有錯(cuò)得離譜,AlphaGo Zero從白紙一張開始,最后的下法收斂到與人類差不多的方向,比如肯定了人類的一些定式是正確的,AlphaGo Zero胡來一陣之后也是這么下。
有點(diǎn)吊詭的是,AlphaGo Zero的訓(xùn)練方法有點(diǎn)像是回歸到窮舉的暴力算法上,把各種可能性走一遍,看看哪個(gè)會(huì)贏。據(jù)計(jì)算,圍棋的所有可能走法超過了宇宙中所有原子的數(shù)目,所以現(xiàn)在AlphaGo Zero已經(jīng)下過的棋局,在樣本數(shù)目上,一定是極小比例的。
但就是這極小樣本,已經(jīng)使AlphaGo Zero達(dá)到了這個(gè)水平。隨之而來的疑問是,在AI領(lǐng)域,大數(shù)據(jù)更重要還是模型更重要?在AlphaGo Zero之前,之所以近兩年人工智能發(fā)展迅猛,大家都認(rèn)為海量數(shù)據(jù)的獲得是關(guān)鍵。凡是取得重大進(jìn)展的領(lǐng)域,都是因?yàn)橛辛藬?shù)據(jù),語音、文字、圖像、視頻、醫(yī)療、自動(dòng)駕駛,無一例外。
現(xiàn)在,AlphaGo Zero不需要現(xiàn)有數(shù)據(jù)了,給它規(guī)則和模型,它就自己推演出一切了。這是要?jiǎng)?chuàng)世嗎?能移植到其它領(lǐng)域成為通用智能嗎?細(xì)思有點(diǎn)恐。
Google之所以偉大(至少到目前為止),就在于別人都覺得它已經(jīng)取得了巨大成就,而它經(jīng)常在別人忙著贊美和跟進(jìn)時(shí),毫不猶豫地推翻自己的既有東西,用另一種方法取得更驚人的成就。
我近一年參加SEO行業(yè)會(huì)議的演講主題基本上都是以人工智能為主的。作為一個(gè)SEO,之所以這么關(guān)注人工智能,是覺得不知道什么時(shí)候同樣的智能會(huì)用在搜索算法上,why not?如果有一天人工智能表明,現(xiàn)在搜索算法判斷內(nèi)容質(zhì)量的方法是錯(cuò)的,判斷權(quán)威性的方法是錯(cuò)的,判斷垃圾鏈接的方法是錯(cuò)的,AI有正確的方法,排名算法隨之改變,那么我們以前使用的SEO方法還適用嗎?
|