i Talk:智能叛變實因「壞」數據?

人工智能(AI)應用漸普及,人臉識別技術在內地已無處不在,但AI可靠度被質疑。最近有學者提出,學術研究更多採用機器學習,但技術倚重數據,萬一數據被「污染」,所得結果便無法準確。再推展出去,機器學習被數據誤導,嚴重起來,隨時引起智能叛變。

AI只是統稱,現時技術以機器學習和深度學習為主。這些技術倚靠數據,例如要訓練AI模型認得出一隻貓,事前要給數以萬計,不同品種、形態的貓照片作訓練。之後再見到貓照片,便會跟之前的學習對比,得出的信心值只要夠高,系統便會認為這是一隻貓。訓練數據愈多便愈準確。但若使用狗的照片去訓練辨認貓,結果便截然不同。

機器學習近年大量應用在學術研究,以處理數據。萊斯大學電腦科學副教授Genevera Allen最近發表研究報告,指出AI急於應用在研究,如生物醫藥領域,所帶來的不準確結果,可能導致科學危機。

機器學習結果易「離地」

她的研究發現,引用機器學習協助的研究結果,往往「離地」,因只解釋了所用數據集內部的現象,而非現實世界的情況。造成科學研究的結果缺乏可重複驗證的必然性,特別是生物醫學研究有85%都因此浪費精力。亦即數據偏離現實,被污染了,無法得出準確的研究結果。

機器學習本身存在問題,不只在科學研究有機會出錯,其商業應用同樣有危機。以污染的數據訓練,就會得出偏離原意的結果,AI執行時變得不一樣。但亦有人辯指技術本質是發現數據的規律,而不是基於模型去訓練數據,或以數據否定模型。得出錯誤的結果,是使用機器學習的人出了問題。

近年不少科學家提出要小心使用AI,而提出要注意機器學習的數據卻是首次。

艾雲

在財經界打滾多年後,投身資訊科技行業成為i世代。

作者:艾雲