要聞港聞

港大經管學院評測 料涉訓練數據 國產AI英文語境表現稍遜

港大經管學院發布多個人工智能大語言模型評測報告。 港大經管學院發布多個人工智能大語言模型評測報告。
港大經管學院發布多個人工智能大語言模型評測報告。
【本報訊】人工智能已進軍各行各業,香港大學經管學院昨日發布評測報告,該院深入評測多個主流人工智能大語言模型(模型)在中文及英文語境應用情況。發現在所有受測模型中,百度的「文心一言4」在中文語境下表現最好;「GPT4-turbo」在英文語境下優勢明顯。港大經管學院認為,大多數國產大模型在英文語境下的綜合表現處於稍微劣勢。
港大經管學院今次測評主要針對3大核心能力,包括自然語言能力、專業學科能力以及安全與責任。報告指,在中文語境下,「文心一言4」綜合表現最佳,獲得74.58分,而「GPT4-Turbo」與「通義千問2」緊隨其後,分別為73.66分與72.97分。「文心一言4」對中文特色語境表現出更好的適應能力。
而在英文語境中,綜合得分最高的是「GPT4-turbo」,綜合得分82.89,所有受測模型中僅有「GPT4-turbo」超過80分,「文心一言4」在英文語境中僅排名第4,綜合得分為73.33。
另探討專業學科能力
學院指出,大多數國產模型在英文語境下的綜合表現處於稍微劣勢位置,原因跟它們訓練的數據大多是中文有關。整體而言,是次測評中的國產模型具備正確理解英文問題和指令的能力,僅在輸出時偶爾缺乏語言穩定性和語料豐富性。因此國產模型可以在多語言輸出能力上進一步加強。
本次測評又探討過相關模型的專業學科能力,測評採用兩個難度等級(中學水準和大學水準)的多學科考試題目,考察大模型對人類學科知識的掌握等。
第一手消息請下載on.cc東網 iPhone/ iPad/ Android/
人人做記者
爆料方法 :
爆料熱線:
(852) 3600 3600
傳 真:
(852) 3600 8800
SMS:
(852) 6500 6500