AlphaGo的技術策略網絡(Policy network)及值網絡(Value network)。前者負責將棋步的可能性縮少,而後者幫助AlphaGo學習評估棋局形勢;結合兩者之能,AlphaGo就可選出最佳棋步進攻。
日玩百萬局 「它們不犯錯」
為了極速訓練AI,研究員讓它們學習數以百萬計的棋局,預計每一步棋的可能性,之後再讓AI與自己對弈,從中磨練技術。
而AI最大的優勝之處,就是它們不會犯錯,而且一天可以玩百萬局棋,並學習所有的棋法。連facebook創辦人朱克伯格也表示,他已於去年着手研發「圍棋AI」。