名家筆陣：研究AI影響刻不容緩

由於人工智能（AI）特別是機器學習近年來取得驚人的進步，它已成為影響未來社會發展的重要因素之一。人們開始關心AI是否會對我們的社會產生好的或壞的影響。

不久將來，人類將不可避免地與無數「多智能體（Multi-Agent）」一起工作，許多這類多智能體不會直接被人類控制，人類甚至要聽命於AI的指示。因此，我們現在必須做更多研究，了解多智能體在與其他智能體合作夥伴（包括人類）一起工作時會有怎樣的行為。

兩實驗助了解思維

曾經用AlphaGo AI系統打敗世界圍棋冠軍的谷歌子公司Deep Mind，做了一個AI模擬研究實驗，以了解多智能體在合夥工作環境中的行為表現。他們採用深層多智能體（Deep Multi-Agent）強化學習來模擬合作的出現。研究可更好地理解和控制複雜的多智能體在遇到不同處境挑戰（比如經濟、交通和環境等）的行為。

實驗設計了兩個遊戲，第一個是蘋果蒐集遊戲（Gathering）：兩個紅色和藍色智能體在一個共享的遊戲世界漫遊，收集蘋果以獲得獎勵。它還可向另一智能體發射光束（殺它）以從遊戲中暫時移除它，但不會有獎勵。實驗讓智能體玩這個遊戲數千次，讓它們學習如何使用深層多智能體強化學習而作出「理性」行為。

環境規則影響舉動

研究嘗試找出甚麼因素有助於多智能體合作，實驗結果顯示，當環境中有足夠蘋果時，智能體學會和平共存，並盡可能收集多的蘋果。然而，隨着蘋果數量減少，智能體學習到移除其他智能體，可能讓自己有更多時間收集稀少的蘋果。在遊戲中，蘋果愈少，會令智能體學到更多「殺它」行為。此外，無論如何改變減少蘋果數量的方式，具有更複雜策略能力的智能體都會嘗試更頻繁地殺掉另一智能體，即較少協作行為。

第二個遊戲名為狼群（Wolfpack），遊戲需要兩個智能體（狼）捕殺獵物。當狼成功地射擊獵物時，「捕獲半徑」內的所有狼都會獲得獎勵，獎勵與捕獲半徑中的狼的數目成正比，一隻狼可捕捉獵物，但是有被清道夫搶去獵物的風險。

然而，當兩隻狼一起捕獲獵物時，它們可更好地保護獵物免被清道夫搶去，故獲更高獎勵，狼群遊戲中智能體（狼）需密切協調才能成功合作。有趣的是，研究發現具有更複雜戰略能力的智能體之間會有更多的合作，與蘋果蒐集遊戲的發現剛剛相反。

從實驗中，我們可看到不同的環境規則，將導致智能體的不同行為，就像在不同社會環境下長大的孩子，會在成長後有不同行為。為將來AI與人類有良好的共同合作關係，這些對多智能體合作行為的研究是刻不容緩。

林南生

筆者於英國華威大學（Warwick University）平行電腦及計算科學取得碩士學位，現為香港電腦學會（HKCS）會員，雲端運算專題組召集人，大數據及商業智慧專題組委員會成員。現為位於香港科學園的華訊站（Right Station Ltd.）創辦人和總監。

作者：林南生

Money18更多即時港股指數資訊

上一則

下一則

名家筆陣：研究AI影響 刻不容緩

兩實驗助了解思維

環境規則影響舉動

林南生

名家筆陣：研究AI影響刻不容緩