由於人工智能(AI)特別是機器學習近年來取得驚人的進步,它已成為影響未來社會發展的重要因素之一。 人們開始關心AI是否會對我們的社會產生好的或壞的影響。
不久將來,人類將不可避免地與無數「多智能體(Multi-Agent)」一起工作,許多這類多智能體不會直接被人類控制,人類甚至要聽命於AI的指示。因此,我們現在必須做更多研究,了解多智能體在與其他智能體合作夥伴(包括人類)一起工作時會有怎樣的行為。
曾經用AlphaGo AI系統打敗世界圍棋冠軍的谷歌子公司Deep Mind,做了一個AI模擬研究實驗,以了解多智能體在合夥工作環境中的行為表現。他們採用深層多智能體(Deep Multi-Agent)強化學習來模擬合作的出現。研究可更好地理解和控制複雜的多智能體在遇到不同處境挑戰(比如經濟、交通和環境等)的行為。
實驗設計了兩個遊戲,第一個是蘋果蒐集遊戲(Gathering):兩個紅色和藍色智能體在一個共享的遊戲世界漫遊,收集蘋果以獲得獎勵。它還可向另一智能體發射光束(殺它)以從遊戲中暫時移除它,但不會有獎勵。實驗讓智能體玩這個遊戲數千次,讓它們學習如何使用深層多智能體強化學習而作出「理性」行為。
研究嘗試找出甚麼因素有助於多智能體合作,實驗結果顯示,當環境中有足夠蘋果時,智能體學會和平共存,並盡可能收集多的蘋果。然而,隨着蘋果數量減少,智能體學習到移除其他智能體,可能讓自己有更多時間收集稀少的蘋果。在遊戲中,蘋果愈少,會令智能體學到更多「殺它」行為。此外,無論如何改變減少蘋果數量的方式,具有更複雜策略能力的智能體都會嘗試更頻繁地殺掉另一智能體,即較少協作行為。
第二個遊戲名為狼群(Wolfpack),遊戲需要兩個智能體(狼)捕殺獵物。當狼成功地射擊獵物時,「捕獲半徑」內的所有狼都會獲得獎勵,獎勵與捕獲半徑中的狼的數目成正比,一隻狼可捕捉獵物,但是有被清道夫搶去獵物的風險。
然而,當兩隻狼一起捕獲獵物時,它們可更好地保護獵物免被清道夫搶去,故獲更高獎勵,狼群遊戲中智能體(狼)需密切協調才能成功合作。有趣的是,研究發現具有更複雜戰略能力的智能體之間會有更多的合作,與蘋果蒐集遊戲的發現剛剛相反。
從實驗中,我們可看到不同的環境規則,將導致智能體的不同行為,就像在不同社會環境下長大的孩子,會在成長後有不同行為。為將來AI與人類有良好的共同合作關係,這些對多智能體合作行為的研究是刻不容緩。
筆者於英國華威大學(Warwick University)平行電腦及計算科學取得碩士學位,現為香港電腦學會(HKCS)會員,雲端運算專題組召集人,大數據及商業智慧專題組委員會成員。現為位於香港科學園的華訊站(Right Station Ltd.)創辦人和總監。
作者:林南生