自動翻譯機的浪漫(2)

最近幾年,日本常常有關於今後10~20年間可能會消失的職業的話題。由於現在AI技術越來越進步,所以將來電腦有可能取代很多現存的職業。例如自動駕駛技術成熟後,電腦就可能取代鐵路和公路的車輛駕駛的工作。另外,電腦可以在一瞬間處理非常複雜的計算,而且幾乎不會出錯,所以銀行的業務員也可能被電腦取代。

這一類預測「可能會消失的職業」的報導非常多,每篇報導提到的職業都大同小異。這些「可能會消失的職業」的共通特徵就是「照著規則形式化作業」。

最近,有一部分報導把「翻譯」也列入「可能會消失的職業」。其實不只是媒體報導,有幾位我有在關注的日本社會評論家也認為今後「翻譯」這門工作可能會被電腦取代。他們的立論根據是AI技術越來越進步,IT企業可以透過網路蒐集龐大的文字資料,也可以透過聲控服務蒐集人類的語音資料。有了這些巨大資料,電腦在不久的將來就可以理解人類的語言,哆啦A夢的翻譯蒟蒻不再是想像中的工具。

翻譯時不找專業的翻譯人員,直接用電腦自動翻譯。其實這不能算預測,因為是現實中早就存在的事實,而且是十年前就已經是事實了。至於「電腦在不久的將來可以理解人類的語言」,則只是一部分媒體和評論家的浪漫的想像而已。

我在2008年曾經寫過《自動翻譯機的浪漫》及《翻譯軟體的能力極限》兩篇文章,提到電腦的自動翻譯有很多缺陷。不過當時已經有很多人在用電腦的自動翻譯,儘管當時電腦翻出來的內容多半不像句子。

2018年的現在,電腦自動翻譯的品質明顯比10年前進步。10年前的自動翻譯翻出來的結果不像句子,現在的自動翻譯翻出來的結果比較像句子。不過電腦翻譯的基本原理還是和10年前一樣,就只是詞彙轉換和句子重組。只是以前的電腦是用文法規則來組句子,現在的電腦是參考大量語言範例來組句子。

由於目前這個世界上還沒有人想得出讓電腦理解人類語言的方法,所以開發翻譯系統的人做的不是讓電腦理解人類語言,而是用統計學的技術讓電腦參考大量例句,把轉換後的詞彙拼湊成比較自然的句子。所以現在電腦翻出來的句子比以前自然。不過詞彙轉換過程中必然會失真,如果原文夾帶了任何模糊語氣或暗示的話,翻譯的精度會更低。所以現在的電腦翻譯出來的句子的等級還是「僅供參考」。

今後20年,這個世界上恐怕還是造不出優質的自動翻譯系統。

2011年,日本的國立情報學研究所曾經推動了一個用AI技術讓電腦挑戰日本的大學入學考試的研究計畫。計畫的主題是「機器人進得了東大嗎」。具體而言就是動用目前最新的技術讓電腦去考大學入學考試的摸擬考。考試的方法是把模擬考題的資料輸入電腦,讓電腦回答,然後和其他參加模擬考的高中生比成績,推算出電腦大概可以考上什麼學校。

這個計畫動員了上百名專業人士。一半是大學的學者和研究生,一半是民間企業的研究員。這個計畫本來是10年計畫,不過做了5年就中止了。因為大家得到結論,確定目前最先進的技術無法讓電腦考上東大。再多做5年也不會變。

電腦參加大學入學考試的一大難關是電腦無法理解考題內容。技術人員要做的是教電腦從考題的文字種類及排列組合特徵來推論「考題可能在問什麼」,然後讓電腦湊答案。舉例來說,負責數學科的技術人員是研究數學考題的文字特徵,分類成幾何代數型、統計型、數列型考題,然後讓電腦從題目中的數字來湊出可能的答案。負責歷史科的技術人員則是讓電腦從考題的各選項的關鍵詞分析出題目可能的形態,然後再比對題目的特徵,把相關性最高的選項當作答案。只從關鍵詞來推論考題內容非常不容易,不過技術人員還是找到了高精度的推論方法,讓電腦在數學和歷史科得了高分。不過這種技術只適用於「日本的大學入學考試中的敘述比較形式化的考題」而已。國語和英語科的閱讀型考題的文章沒有固定的形式,無法從關鍵詞推論考題內容,而且閱讀測驗無法用計算或形式化的知識解題,所以電腦得不了高分。

日本的大學入學考試的國語科閱讀測驗的形式是讓考生看一篇文章。文章裡有幾段話的旁邊有畫線。考題就是問這幾段話的意義,然後讓考生四選一或五選一。由於電腦無法理解文章的意義,而且技術人員找不到有效的解題方法,所以最後負責國語科的技術人員是用計算文字量的方式讓電腦猜答案。具體而言就是計算文章中畫線句子中的文字種類及數量,以及該句子前一個段落中的文字種類及數量,當作參考基準。然後再計算各選項中的文字種類及數量,和參考基準比較。作答時就是讓電腦選和數值最接近參考基準的選項。這種解題方法實質上和占卜差不多。不過這一招讓電腦的猜答案的正確率達到五成。這個方法是技術團隊試過的所有方法中得分最高的方法。不過因為本質上是猜答案,所以不論怎麼改良,成績永遠停留在猜答案的水準。

英語科考試中,英語科的技術人員一開始是給電腦3300萬個英文例句資料。電腦在練習考古題時,英文句子重組問題的答題正確率達到八成。不過實際考摸擬考時,由於題目加了一點變化,電腦無法應付,結果三題中只答對一題。正確率掉到三成三。之後,技術人員把英文例句資料加到19億個,這時候電腦才能答對大部分的英文句子重組問題。也就是說,19億個英文句子的範例資料可以讓電腦造出比較正常的句子。不過遇到英文會話測驗時,電腦的答題正確率就落到四成。後來技術人員又把英文例句資料提升到150億個,還讓電腦深層學習,狀況還是沒有明顯改善。研究團隊證明了巨大資料和深層學習在處理語言資料時並非萬能,無法讓電腦理解語言的意義。

這個計畫在推動當初,曾經有某個單位想贊助超級電腦。不過這個計畫的技術團隊本身有很多頂尖的電腦專家,他們知道超級電腦不是萬能的工具。技術團隊用的伺服器如果遇到解不開的考題的話,就算改用超級電腦,還是一樣解不開。所以電腦在答題時沒有動用超級電腦。

「機器人進得了東大嗎」的研究團隊在計畫的第5年就確信現在的最新AI技術無法讓電腦考上東大。這不是失敗,而是成功。因為參加這個計畫的所有工作人員從一開始就不認為現在的最新AI技術能讓電腦考上東大。這個計畫的本質只是想確認目前最新的AI技術能讓電腦在日本的大學入學考試考到什麼水準。

雖然電腦考不上東大,而且目前的技術再發展二十年可能還是無法讓電腦考上東大,不過「機器人進得了東大嗎」的計畫中止時,電腦的成績有達到日本的中堅層大學的入學水準。

在計畫中止前,日本的媒體在報導相關消息時,幾乎全部都是在談AI技術非常先進,先進到準備要挑戰東大。研究團隊發表電腦的考試結果時,媒體則輕描淡寫提到電腦還不擅長閱讀測驗。這種報導讓不少日本大眾誤解了現實的AI技術。結果一些媒體和社會評論家誤以為過幾年AI技術可能會克服問題,電腦的翻譯會越來越精確。

其實真正的事實不是「電腦還不擅長閱讀測驗」,而是目前電腦根本無法理解人類的語言。

翻譯是把某種語言表達的內容轉換成另一種語言,而且在轉換過程中要努力不讓意義失真,要儘可能讓接收意義的人能理解發話者的原意。所以從事翻譯工作最基本的條件是理解語言、理解意義,而且要能妥善表達。

由於電腦無法理解人類的語言,所以電腦在翻譯時根本不知道原文的意義,當然也不知道翻譯出來的句子的意義,而且在兩種語言的詞彙轉換過程中一定會發生失真。不過現實中,很多從事翻譯的人其實對外語一知半解,自己的母語表達也一塌糊塗。舉例來說,台灣很多翻譯書中雖然印的是中文,不過句子根本不像句子,譯者本身可能也沒讀懂原文。而且這樣的書還不少,而且遍及娛樂、文學、學術領域。拿這些翻譯書和10年前的電腦翻譯的句子相比,水準其實不會差太多。由於現在的電腦翻出來的句子比較像句子,所以那些沒看懂原文,而且連自己的母語都無法適切表達的翻譯人員就有可能被電腦取代。因為電腦造出來的句子看起來比較正常。

如果想做翻譯工作,又不想輸給電腦,方法其實很單純。就是把自己的母語及外語學好,要能確實看懂或聽懂外語的資訊,然後要能清楚適切地表達意思。

今後幾十年,在語言理解領域,人類只要努力還是可以贏過電腦。不過翻譯業界還是會被電腦侵蝕。因為很多人不知道電腦無法理解人類的語言。很多人以為電腦翻譯是電腦萬能,能理解人類語言的結果。這種大眾觀念就可能讓電腦取代人類。

以日本為例,現在日本很多店家為了吸引外國人觀光客消費,有準備各種外語標示。不過大部分的外語標示是由電腦自動翻譯。因為店家覺得這種事情交給萬能的電腦就可以了,而且不用花錢。雖然現在電腦自動翻譯的結果比較像句子,不過大前題是原文必須清楚完整。很多店家設計標示時用的原文可能是過度省略的日語口語,由於結構不完整,電腦當然翻不出像樣的內容。就算標示內容是完整的文章,如果原文寫得太爛,或是用了一堆非常偏門的專業術語,電腦還是會翻得一塌糊塗。有不少到日本觀光的台灣人可能曾經在很多地方看過一堆莫名其妙的中文標示,這就是日本人把自己平常用的母語丟給電腦翻譯的結果。這反映了很多日本人連自己的母語都無法妥善表達。

無法妥善表達自己的語言,並不是日本獨有的問題。台灣的狀況恐怕更嚴重。在日本,網路上還可以找得到很多解析日語的資訊。例如把一些比較難懂的文章或法律條文地解析成易懂、明確的日常日語。這表示還有不少日本人關心自己的語言,也關心自己國家的法律制度。台灣的網路上很難找到這一類的資訊。台灣的網路上雖然找得到古文翻譯成白話文的資訊,但是沒有人知道這些翻譯文的根據,也沒有人知道這是誰翻的。台灣的網路上雖然有人討論法律,但是幾乎所有的討論都只是轉貼條文,然後直接下結論,沒有人去分析法律條文用詞設計的邏輯考量。這反映了台灣人不太關心自己使用的語言。不關心語言的人恐怕也不會去思考怎麼妥當表達自己的語言。這形同把人類還能勝過電腦的能力放棄了。

目前日本的總務省的情報通信研究機構正在開發多語言翻譯系統,想在東京奧運時發揮功能。「機器人進得了東大嗎」的計畫主持人新井紀子曾經有一段期間擔任過這個計畫的顧問。新井紀子指出,開發新的多語言翻譯系統的關鍵不是系統的演算法,而是翻譯例句的資料量。現在的演算法不論怎麼改良,都不會有大的突破。不過如果翻譯例句的資料量夠大,翻譯品質會明顯不同。如果只給電腦100萬組例句資料,翻譯的品質會很糟。如果翻譯例句超過1000萬組,電腦就有可能造出「比較正常」的句子。

一般人學外語時,如果要造出像樣的句子,其實學不到100個外語例句就可能達成。如果能確實吸收1000個外語例句,外語能力會相當好。不過電腦要學1000萬組以上的例句才能造出比較像樣的句子。從這裡可以看出人腦和電腦的學習能力的落差。

日本政府的多語言翻譯系統計畫最大的問題是沒有人知道要從哪裡生出1000萬組的多語言翻譯例句的學習資料。如果動員大量外語班學生和正在學外語的志工來製作資料,然後用網路回收,是有可能生出1000萬組例句資料。不過管理過程要花大錢。而且如果當中有人提供的資料有誤,或是有人故意惡作劇的話,電腦的學習資料就會被汙染。電腦一但吸收了被汙染的資料,錯誤內容就永遠變成電腦的知識的一部分。

日本的通產省在1982年曾經推動第五代電腦的開發計畫,想造出能思考、能正確翻譯的電腦。不過由於人類的數學無法重現人腦活動,所以這個自動翻譯機的浪漫計畫最後失敗。而且政府內沒有人敢提這件事,就連事後的失敗研究報告資料也找不到。現在總務省推動的多語言翻譯系統也是相當浪漫的計畫,不過巨大資料和深層學習並非萬能,而且製作深層學習用的巨大資料要花很多時間和勞力,所以想搶在東京奧運前實用化的多語言自動翻譯系統恐怕也只是一種浪漫的嘗試。