2023-06-02 基督教論壇報 / 國際新聞

Meta使用聖經譯本發展AI語音技術 可識別1, 100種語言

檢舉
基督教論壇報 記者 洪嘉蔚 追蹤
Meta開發了一項用人工智慧模型驅動的文字轉語音技術,可以識別四千多種語言;這項技術的研發團隊更使用聖經作為語言資料庫。(圖/ThisisEngineering RAEng on Unsplash)

【記者洪嘉蔚/綜合編譯】臉書(Facebook)和Instagram的母公司Meta開發了一項用人工智慧模型驅動的文字轉語音技術(text-to-speech technology),可以識別四千多種語言,並同時轉錄和翻譯文本。這項技術的研發團隊更使用聖經作為語言資料庫,以識別出1, 100種方言。

Meta在5月22日發布的新聞稿中指出,此模型被命名為「大型多語言語音模型」(Massively Multilingual Speech,MMS),它的文字轉語音技術比目前已知的技術還強大40倍以上。

示意圖。(圖/Luca Bravo on Unsplash)

聖經多語言翻譯 是寶貴的文本資源

Meta提到,此項技術的目標是為了「保護面臨消失危機的各種語言」。「世界上有非常多的語言正在逐漸消失,目前語音辨識技術的缺陷,會加速語言消失的速度」。Meta也希望能讓人們能更輕鬆地以他們喜歡的語言,取得線上資訊和使用設備。

然而,收集數千種語言的語音數據成為他們面臨的首項挑戰。因為現有最大的語音數據庫,最多僅涵蓋100種語言。在宣布該項技術的聲明中寫道:「為了克服這項問題,我們使用聖經作為文本,因為它已經被翻譯成多種不同的語言,並且被廣泛應用在語言翻譯相關的研究,是非常寶貴的資源。」

以聖經作為文本來源。(圖/Aaron Burden on Unsplash)

Meta的AI研發團隊提到,研究用的聖經資料來源,分別包括Faith Comes By Hearing.com、GoToBible、Bible.com等網站的原文和錄音。

這些翻譯的內容有公開的錄音資料,紀錄了人們使用不同語言閱讀文本的習慣。Meta也創建了1,100多種用不同語言來閱讀新約聖經的語音資料庫,平均每種語言的數據資料有32小時。

示意圖。(圖/ Possessed Photography on Unsplash)

未來發展方向可期

美國布羅沃德學院(Broward College)語言中心表示,全世界約有7,100種語言。Meta目前的研究項目中,已經包括超過6,255種語言和方言錄製的聖經故事、福音信息、經文朗讀和歌曲。若透過蒐集其他來源的基督教文獻、讀物,或詩歌等語言資料,AI可以識別的語言種類,在未來可能會累積到4000多種。

另外,雖然這些數據來自特定領域,並且經常由男性讀者的聲音呈現,但經過研究分析後,Meta表示其聲音的表現,並不會因為說話者的性別不同而有差異。

示意圖。(圖/Luca Bravo on Unsplash)

用宗教文本訓練 有人持不同觀點

雖然錄音的內容來源是宗教性的,但Meta經分析後表示,這不會使模型產生更多的宗教語言。「我們與基督教倫理學家磋商、討論後得出結論,大多數的基督徒並不認為新約及其譯本的內容太過神聖或難以理解,而不能作為AI學習的材料。」

「外界有人認為,用聖經或宗教文本訓練AI,會存在使語言模型的世界觀產生偏見的風險」,Meta AI團隊說。「然而,我們從模型生成語言的技術分析中看見,與在其他領域訓練的基線模型相比,僅出現極小的偏差。」

未來,Meta希望可以增加M​​MS的覆蓋範圍,以支持更多語言,並解決處理方言的挑戰。不過這對於現有的語音技術來說,仍有很大一段研究之路要走。(資料來源:Yahoo, Evangelical Focus)

傳遞有信仰、有愛的好新聞

加入福音大爆炸計畫,奉獻支持論壇報

推薦給你