雖然我們知道襯衫應放在衣櫃,但人工智能(AI)曉得嗎?未必。
我們可藉虛擬的環境,讓AI學習並了解真實的世界。「強化學習」(Reinforcement Learning) 是AI中的一個技術領域,會使用獎罰機制來訓練。當AI做出正確行為便會得到獎勵;反之,做錯將受到懲罰。因此,AI就會避免犯錯,繼而遵循正確的行為,最終達到最大化的預期效益。
現實中,「強化學習」常用作改善決策系統,在許多行業中都有廣泛的應用。典型的例子包括自動駕駛技術、遙控機械人、圍棋博弈、統計學等。
在現階段,「強化學習」進入了新的領域,除了涉及獎罰的機制之外,研究員正加入「常識」(Common Sense)來訓練AI;將「常識」以「眾包文本」(Crowdsourced Text)的形式,注入AI模型中。藉着「眾包文本」,我們希望AI系統懂得普遍的常識。
為了測試AI在家居層面的應用,研究員參照普通住宅製造一個虛擬場景,其中包括廚房、浴室、睡房等。另外,研究員將「人工智能代理人」(AI Agent)放在虛擬單位中,其任務是要將凌亂的物件放回正確的位置。例如水果要存放在雪櫃內、襯衫應放在衣櫃等。
研究員發現,經過「常識」訓練的AI代理人表現好過沒有經過訓練的,並可用較少的頻率活動,準確性亦更高;主因「常識」訓練能收窄隨機選擇的範圍,從而更快地幫助AI代理人可將凌亂的物件放回正確位置。另外,「常識」訓練能夠讓AI代理人模仿人類思考模式,在未知領域和現有知識之間找到平衡。
香港電腦學會人工智能專家小組執行委員會成員 戴劍寒