Open Ray手記:TTS語音合成

新一代的藍芽耳機不但標榜清晰的話音和抑噪功能,更強調額外的語音能力:例如把來電的號碼、人名讀出、甚至把短訊用TTS(Text To Speech)讀出。TTS技術由來以久,過去幾年,視窗XP和Mac機都內置TTS功能,你把一大段文字抄入TTS軟件,電腦便會逐個字變成語音讀出,可惜這技術一直未有受到用戶歡迎。

暫時TTS仍然以英文為主,例如Kindle電子書閱讀器內置了TTS,打開電子書,如果不想用眼睛看的話,可以選擇打開TTS,閱讀器便會以男聲或女聲把文字讀出來,讓你「聽書」,以取代閱讀文字。現在藍芽耳機把TTS用到短訊和電郵上,由於駕車時難以閱讀短訊,能夠用TTS變成聽文字,最好不過。

新一代的TTS技術,已經不再像機械人聲,文字讀起來生動活潑,可以隨意選擇用男聲或女聲,也可以調節說話速度。TTS一般都不是真人發聲,而是採用語音合成,效果有時不及用真人發聲的文字再拼湊起來。例如打電話收聽報時和天氣報告,所用的就是預錄的真人發聲。它先把數目字的讀音預錄起來,報的時候才即時拼湊,於是可以讀出「現在的時間是」、「3」、「時」、「20」、「5」、「分」。

採用合成方式,理論上任何文字皆可讀出,對一些特別發音的字,才改用預錄。中文TTS方面,一樣是先把文字變成拼音符號,再經電腦合成變成語音。不過,中文TTS的效果遠較英文TTS為差,讀出來的每個字語調相同,雖然讀音準確而且沒有機械人聲,但語調刻板,甚為難聽,希望將來技術進步後可以改善吧。

飲食網站創辦人

鍾偉民(Ray)