翻譯軟體的能力極限

語言翻譯是把某種語言的詞彙、句子、文章,以及隱藏在表達背後的暗示,轉換成另一種語言。翻譯時,必須理解原文作者在想什麼,然後用另一種語言來重現原文的意思。由於每一種語言的特性不同,所以語言在轉換過程中,難免會發生劣化(資訊佚失)。如果資訊佚失得越少,翻譯的品質就越好。

由於目前市販的翻譯軟體和網路上的翻譯網站還沒有能力理解人類的語言,所以這些軟體和網站只能當作翻譯人員用的輔助工具。

那麼電腦無法理解人類的語言嗎?

從目前的科技來看,電腦還的確無法理解人類的語言。其實不只是語言,電腦連單詞的意思都無法理解。電腦技術的本質是數學,因為目前人類無法用數學表現詞彙的意思,也無法用數學來重現「理解」的構造,所以電腦無法理解詞彙的意義。

目前電腦能處理的事物,全部都是能用數學計算處理的事物。

電腦程式的設計原理是先想好所有可能發生的情況,然後規定程式在這些情況下的對應方式,而且每個對應步驟都要詳細規定。例如在情況一必須這麼作;情況二必須那怎麼做;情況三又該怎麼怎麼做等。

每一種情況下,可能又有很多條件。例如在情況一如果有A、B兩種可能性的話,工程師必須事前規定好這兩種可能性的對應方式。當然,這兩種可能性之下,又有其他的可能性。每一種條件的對應方式都必須設定好。如果中間遺漏了任何狀況,程式執行到這個有遺漏的部分時,就會發生問題。

舉例來說,如果要設計一個可以從家裡客廳走到外面餐廳點咖哩飯的機器人,必須要先設想好從客廳走到家門外的所有條件。家門的開與關就是兩種完全不同的狀況。如果家門開著的話,就不用執行「開門」的動作。如果家門關著的話,就必須教機器人開門的方法。如果是住公寓,從家門口到樓下可能有分樓梯和電梯兩種路線。到達一樓時,還要再判定一樓出入口的門是開是關,然後依狀況執行適當的行動。如果這些步驟當中有任何一個地方規定不明確的話,程式可就會在執行途中中止。

就算這個機器人有本事走出公寓,從公寓到餐廳的過程也有非常多種可能性。如果不希望機器人捲入交通事故,就必須要詳細規定好過馬路時的對應方式。這比教小孩子過馬路還難。就算機器人順利到達餐廳,還有很多要考慮的狀況。例如餐廳的門是自動門或手動門。如果是手動門,還分有滑輪式和轉軸式,滑輪式的門有分向左拉和向右拉的,轉軸式的門有分推開、拉開,或是推拉均可的門,這些情況和所有對應方式全部都要在程式中規定好。

如果順利進入餐廳,餐廳還可能分成由服務生帶位入座和客人自行入座。如何去判定這些情形也是個大問題。服務生沒有來帶位,可能只是服務生正在忙,但這並不代表可以隨便入座。如果機器人順利入座,開始點咖哩飯時,必須要先判斷餐廳的菜單內容,假設菜單順利判讀成功,還要考慮咖哩的口味是牛肉、豬肉、雞肉、海鮮等,並且還要決定咖哩的甜度和辣度。這些過程中,只要有一個細節沒有在程式中事先規定好的話,這個任務就可能在途中中斷。

如果把這個任務的機器人換成真人,就不用這麼麻煩了。

假設有個完全不懂日文的台灣人第一次到日本旅遊。這個人從友人口中得知飯店的斜對面有一間專賣咖哩的餐廳,然後想從飯店的房間走到那家餐廳吃咖哩飯。在這個狀況下,就算這個人對飯店建築規格一無所知,也一定能從飯店的房間走出飯店。就算這個人是第一次到日本,從飯店的門口過馬路到對街找一間必然存在的餐廳絕非難事。哪怕這個人從來沒在這個餐廳用過餐,菜單中的片假名完全看不懂,一樣可以點得到咖哩飯(大不了指著鄰桌的人吃的東西,這樣一來什麼問題都解決了)。

從這個例子來看,要一個人去對街的餐廳點咖哩飯時,只要向這個人下「到斜對面的餐廳點咖哩飯」的指令即可。就算這個人對環境再怎麼陌生,只要旅館斜對面確實有一間咖哩餐廳,要這個人完成任務一點也不難。然而讓電腦控制的機器人執行同樣的任務,就會變得非常難。因為電腦是照著程式規定做事,不會做出程式規定外的事情。如果這個機器人遇到程式設計師事先沒有預料到突發狀況的話,機器人就無法對應。後續的所有指令當然都無法執行。

有些人可能會認為,把這些無法解決的突發狀況當成經驗,在設計新機器人時把這些況狀設定進去,以後的機器人不就會越來越完美嗎?

的確,如果把新的狀況一一加入程式,機器人能對應的狀況就會增加。

然而,我們平時走在路上會遇到多少不可預期的突發狀況呢?

事實上,人類自己也無法預期自己走在路上會遇到什麼狀況,所以人類無法做出可以對應所有突發狀況的機器人。

那麼為什麼人類能應付從未經歷過的突發狀況呢?人類和電腦到底差在哪裡呢?

簡單地說,人類遇到未知狀況時,會依本能行動。但是電腦程式在執行過程中如果遇到未知的狀況,而且無法排除時,就會僵持在那裡。

同樣的例子也發生在語言溝通過程中。有些台灣人到日本留學時,會去打工賺學費或外快。然而這些人開始工作時才發現幾乎聽不懂店長的日文,這就是未知的狀況。儘管不知道店長在講什麼,不過大家還是會硬著頭皮做事。當然,硬著頭皮做事並不是亂做,而是用直覺判斷怎麼做比較保險。就算做錯了,事情還是在進行中。然而如果換成電腦的邏輯的話,電腦在接受指令模式時,如果無法判讀指令內容,電腦就只會顯示錯誤訊息而已。DOS時代的「Bad command or file name.」就是這種情形的最佳寫照。

其實人類在日常對話中,也沒什麼人真的很認真地去分析對方的措詞。大部分的人只是抓比較有印象幾個關鍵詞,然後就擅自解釋對方的想法。

用誇張一點的譬喻來說明的話,我們是用「妄想」或「幻想」來解釋聽到的語言。在日本,從事速記工作的人在記錄會議或演講內容時,雖然是一字不漏,但是這些速記人員在記錄時其實根本不知道會議或演講的具體內容。這些人是把速記原稿反譯成正式文書時,才意識到自己當時抄下了什麼東西。也就是說,這些人在記錄時,頭腦並沒有解析詞彙的意義,而是靠習慣反射。

如果「傾聽」是把對方說的每一字每一句全部聽清楚,然後確實理解內容的話,人們在對話過程中,其實根本就沒有在聽。大家其實只是抓住氣氛按直覺行動而已。不過奇妙的是大致上不會出太大的錯誤。

也就是說,人類平常在對話時,其實沒有用太多知識去分析對方的語言,而是憑本能去應付對方。所以很多人根本不記得昨天和朋友鬼扯了什麼。真正去把每一個字聽清楚的往往是那些在準備外語聽力考試的人。事實上,在聽力考試中努力把「每一個字」都聽清楚的人恐怕不會考得太好。因為人腦實在沒有辦法在短時間內處理那麼多資訊。托福的聽力測驗中,如果有考生去解析聽到的時間、電話號碼等數字的話,這個人聽力部分的成績大概會很糟糕。

1973年智利的生物學家Humberto Maturana以及Francisco Varela提出一種叫作「autopoiesis」(自我創出)的理論。這個理論大致上是說細胞、神經系統、生物體有「自己生成自己」的能力。這個理論後來被延伸解釋成生物進化時產生的一些本能行為,甚至可以用來解釋人類社會中的一些行為等。有些學者認為人類對語言的理解和運用可能就和「autopoiesis」有關。例如人類能夠在對話中快速反應,是因為很多部分是跳過思考解析,而這些跳過的空白部分是由一廂情願的解釋或幻想來填補。這些一廂情願的能力並不是後天學來的,可能是本來就已經設定在人腦當中。

由於人類平常對於語言的理解和運用可能是基於天生的本能反應而非後天的理解,所以1990年代左右,創造出「理解人類語言的電腦」的想法就已經式微。取而代之的人工生命體技術是利用模擬昆蟲等構造比較簡單的生物來驗證「autopoiesis」理論。然後期待利用這種技術自行進化,探索出人類行為模式。在這個技術發展成熟之前,人們使用的翻譯軟體其實只是一種符號替換及重組的程式而已。

由於翻譯軟體做的只是符號的替換和重組,所以翻出來的結果會非常生硬。例如把日文的「すみません」丟到日翻中的翻譯軟體後得到的結果一律是「對不起」。不過事實上,在某些場合中,日本人在心懷感激時也會講「すみません」,而且這種場面還不少,在這種場合中,「すみません」應該是相當於中文的「謝謝」。又例如把日文的「ご迷惑をおかけしました」丟到日翻中的翻譯軟體後所得到的結果則可能是「給您添麻煩了」。不過實事上,常看日本電視新聞的人都知道,日本人在向日本社會大眾鄭重道歉時,會用「ご迷惑をおかけしました」,中文的「給您添麻煩了」顯然無法表現出這種歉意的強度。「ご迷惑をおかけしました」實際上應該要翻成「對不起社會大眾,造成社會大眾困擾,深感抱歉」會比較適當。然而對於翻譯軟體而言,「すみません」只能硬生生地代換成「對不起」,「ご迷惑をおかけしました」只能硬生生地代換成「給您添麻煩了」,這就是目前翻譯程式的現實。這就是翻譯軟體的能力極限。


用形態素解析軟體處理「梅與櫻」網站文章的結果。為了讓人看得懂,這張圖是把解析結果用文書處理軟體整理後的結果。限於篇幅的關係,這張圖只列出部分解析結果而已。「形態素解析」是把文章和句子的成分一一分解後進行分析。圖中最上面的四行文字是我們輸入的文章。下方的表格是文章中的詞彙的解析。翻譯軟體的原理就是先對文章進行「形態素解析」,然後把這些成分重新排列,替換成另外一種語言。由於我們用的「形態素解析」軟體是1999年的開發的,所以「ブログ」(部落格)被判定為「未知語」。也就是說,這個程式中並沒有「ブログ」這個詞的資料。如果某個翻譯軟體中使用了這個「形態素解析」的資料庫的話,這個翻譯軟體就無法翻譯出「ブログ」這個詞。由於語言會隨時間變化,所以如果翻譯軟體如果沒有把新詞彙加到資料庫時,就會發生翻不出來的情形。如果是人類在從事翻譯的話,就算看到了自己從來沒看過的詞彙,還是會想辦法把那個詞彙硬翻出來的。由此也可看出人類和電腦的不同,以及翻譯軟體的能力極限。

相關文章連結
自動翻譯機的浪漫

コメント

  1. susu

    直覺翻譯…
    每回看”梅與櫻”對翻譯的分析.都能得到很大的收獲.也能更理性的看待翻譯這件事.一直以來都對自己憑直覺的翻譯感到沒自信,原來這也是人類的本能.機器所學不到的才能呀..thanks for sharing

  2. ソフトで単語の意味はとれますが
    (susuさんへ)
    こんにちはszyuです。コメントありがとうございます。
    翻訳ソフトについては、あくまでも参考ですよね。私もよく翻訳ソフトを使いますが、最終的には翻訳ソフトを使いながら、使用する訳語は全く別のものになっていることも多いです。原文が翻訳ソフトに適応しているように書かれているかどうかという問題もありますよね。機械は便利で定型的なものは翻訳できると思いますが、それでも機械ができる範囲というのはとても限られていると思います。やっぱりそれなりのものを訳出するためには人間の主税が必要だと思います。
    ☆☆☆