i Talk：智能叛變實因「壞」數據？

人工智能（AI）應用漸普及，人臉識別技術在內地已無處不在，但ＡI可靠度被質疑。最近有學者提出，學術研究更多採用機器學習，但技術倚重數據，萬一數據被「污染」，所得結果便無法準確。再推展出去，機器學習被數據誤導，嚴重起來，隨時引起智能叛變。

AI只是統稱，現時技術以機器學習和深度學習為主。這些技術倚靠數據，例如要訓練AI模型認得出一隻貓，事前要給數以萬計，不同品種、形態的貓照片作訓練。之後再見到貓照片，便會跟之前的學習對比，得出的信心值只要夠高，系統便會認為這是一隻貓。訓練數據愈多便愈準確。但若使用狗的照片去訓練辨認貓，結果便截然不同。

機器學習近年大量應用在學術研究，以處理數據。萊斯大學電腦科學副教授Genevera Allen最近發表研究報告，指出AI急於應用在研究，如生物醫藥領域，所帶來的不準確結果，可能導致科學危機。

機器學習結果易「離地」

她的研究發現，引用機器學習協助的研究結果，往往「離地」，因只解釋了所用數據集內部的現象，而非現實世界的情況。造成科學研究的結果缺乏可重複驗證的必然性，特別是生物醫學研究有85%都因此浪費精力。亦即數據偏離現實，被污染了，無法得出準確的研究結果。

機器學習本身存在問題，不只在科學研究有機會出錯，其商業應用同樣有危機。以污染的數據訓練，就會得出偏離原意的結果，AI執行時變得不一樣。但亦有人辯指技術本質是發現數據的規律，而不是基於模型去訓練數據，或以數據否定模型。得出錯誤的結果，是使用機器學習的人出了問題。

近年不少科學家提出要小心使用AI，而提出要注意機器學習的數據卻是首次。

艾雲

在財經界打滾多年後，投身資訊科技行業成為i世代。

作者：艾雲

Money18更多即時港股指數資訊

上一則

下一則