人工智能(AI)近年突飛猛進,尤其電腦視覺技術,電腦望一眼已能認得出大部分物件。有這個技術水平,除了機器學習演算法成熟之外,還得用海量數據訓練。在訓練過程中,最重要就是標籤物件。中國和美國正在人工智能領域上競爭,他們標籤物件方式大有不同,正好反映兩國文化差異。
標籤物件就是電腦從圖像內所認出的物件,初期只能標示出這是物件,然後由人手去標籤那是甚麼,例如貓、狗等。只要數量夠多,如同類物件達至十萬,甚至上百萬標籤,人工智能就可認得屬於哪一類物件。
中國的標籤工作由一班勞工去做。每日坐在電腦前點擊,不斷標籤數據,根據顯示圖像,逐個物件標示。據報道,這工作已形成一大產業,在二、三線城市近年開設很多小型公司,專為幾間大型互聯網公司及人工智能獨角獸服務。
這些公司聘用大量基層工人做點擊工作,月薪兩、三千元人民幣,無論工作和工資,其實跟工廠模式差不多。近期內地工廠出現裁員潮,這份工作可能適合安置下崗勞動力。
Google同樣需大量人力資源去做這工作,雖用上聰明做法,但惹人非議。Google在○九年收購驗證碼反機械人公司reCAPTCHA,至今應用在範圍不同網站,驗證用戶並不是機械人,而是真正的一個人。該公司利用模糊的文字圖像,由人去輸入以驗明正身。
至於該圖像就是選用百多年前《紐約時報》創社至今的掃描,由於年代久遠,影像並不清晰,須以人手去辨認。通過驗證碼去做,實在一舉兩得。粗略估計,全球每天有兩億個字元透過reCAPTCHA錄入,相當於人類15萬小時工作量,不可少看集合群眾力量。
Google後來加入街景所攝下的路牌、門牌,讓用戶驗明身份時協助辨認,成為無人車技術的基礎。此事雖然公布了幾年,最近有用戶批評,為Google工作卻沒有報酬。
從人工智能前期的標籤工作,足以見到兩個國家的文化特色。當日後發展更複雜、更創新技術,則是雙方競爭的戲肉。到時會是中國的技術佔優,還是美國更出色?
在財經界打滾多年後,毅然投身資訊科技行業,成為i世代。
作者:艾雲