gooブログ與華文漢字

由於日本的gooブログ用的文字編碼是EUC-JP碼,是一種比較傳統的日文編碼,不支援日文以外的文字。因此梅與櫻的華文文章其實是在比較克難的環境下發表的。

雖然在gooブログ系統下用華文投稿有些不方便的地方,但是由於gooブログ的介面非常人性化,沒有什麼多餘累贅的東西,再加上我們沒有時間自己架一個blog系統,因此目前梅與櫻仍然會繼續使用gooブログ,當然我們並不排除將來自己弄一套blog系統的可能性 (前提是我們要有時間)。

梅與櫻到2010年年底為止,總共有1362篇文章,文字總數約為175萬字 (包含回應文字,不含HTML標籤)。由於梅與櫻當中有一半的文章是中文文章,因此當我們使用gooブログ系統的備份功能時,備份文字檔中的中文部分會出現亂碼。事實上,用「亂碼」這個詞可能會有語病,因為嚴格來說,文字檔中的看似「亂碼」的部分其實是一種十進位的「Numeric character reference」編碼 (有些人把這個詞譯作數字字元參引)。不過這裡基於方便,姑且以「亂碼」來稱呼。

從梅與櫻開站到2010年年底為止,175萬字的文字備份檔當中一共出現了14941個「亂碼」,佔總字數的0.8789%。也就是說,每114個字當中,就有一個字是gooブログ系統無法表示的文字。而這14941個「亂碼」其實是由627個文字構成。統計如下:

類別 字種個數 字種比率 出現頻度 頻度比率 全文中比率
繁體字 325 51.83% 14107 94.42% 0.8298%
誤字 56 8.93% 73 0.49% 0.0043%
簡體字 169 26.95% 471 3.15% 0.0277%
其他 77 12.28% 290 1.94% 0.0171%
合計 627 100% 14941 100% 0.8789%

從上面的表來看,繁體字造成的亂碼的字種、頻度都最高。這是因為梅與櫻當中的中文文章全部都是用繁體中文寫成的。而簡體字部分比較少,是因為簡體字只出現在極少數回應當中。從文字性質來看,其實gooブログ對繁體字的相容性比較高,這是因為繁體中文和日文漢字比較接近。而簡體中文許多文字都已經過度改造,因此和日文漢字相通性非常低。事實上,如果把上面表中的169種簡體字改寫成繁體字的話,其中155個字不會變成亂碼。

至於「誤字」指的是在輸入過程中,按錯按鍵的情況下打出來的怪字。按錯按鍵的情形大致上有兩種,一種為按錯位置,另一種為按錯順序 (打字打太快時就容易造成擊鍵順序錯誤),而這56個誤字多半是屬於後者。

至於「其他」的部分,則包含中文的注音符號、、粵語漢字、韓文、土耳其文、阿拉伯文、希臘文、特殊符號等。

我們在寫中文文章時,會遇到的另一個問題就是日文windows裡的「メモ帳」(相當於中文windows裡的「記事本」的東西) 也無法完全正確表現中文。當我們遇到這種字時,就只有盲打而已。


325種在gooブログ系統中會變成亂碼的繁體字 (文字順序照頻度排序)。由於我們在gooブログ發表中文文章時,會加上HTML標籤來防止亂碼發生,因此讀者在讀梅與櫻的中文文章中不會出現亂碼。然而,這只限於文章的正文部分而已。gooブログ系統的正文部分可以用HTML標籤來防止亂碼發生,但是標題部分沒有辦法用這招,因此我們的中文文章的標題絕對不會用上圖中的325種繁體字,因為一用的話,標題就會出現亂碼。所以梅與櫻的部分中文文章的標題其實遷就gooブログ的特性,改用英文、日文、或是異體字來防止亂碼發生。又,gooブログ的回應系統對繁體字的相容性比較部落格的文章標題寬鬆,但是仍然會有部分繁體字會變成亂碼,而且無法用HTML標籤修正,因此我們在回應文章時,儘量以相似的日文漢字來取代上圖中的繁體字。


「メモ帳」中看不見的繁體字。在第一張圖中的325種繁體字當中,有103種字是「メモ帳」上看不見的字。這些字在「メモ帳」會顯示成一個半形的黑色方格。由於我們在打中文草稿時都是在「メモ帳」上作業,因此遇到這些字時,只能靠盲打而已。雖然「メモ帳」也可以更改字形,但是一但更改字形之後,會影響到日文文章作業時的易讀性。由於這是日文windows本質的問題,因此換成其他的editor其實也無法完全解決這方面的問題 (換成word雖然可以解決文字的問題,但是這又會影響操作便利性)。因此我們就只能將就使用「メモ帳」而已。我們並不喜歡這種狀況,但是這種「黑色方格」至少是我們在決定中文文章標題或是用中文回覆留言時的用字參考指標。當我們用「メモ帳」打標題或是打留言時,如果發現畫面上出現了「黑色方格」,我們就會知道:最好用別的字來代替。


56種誤字 (文字順序照頻度排序)。這些誤字也包含部分讀者回應中的誤字。文章中出現這些字的原因並不是因為語言知識不足,而是在操作電腦過程時的疏失造成。事實上,由於打錯字這種事情不可能避免,再加上我們打出來的錯字有些根本是看不見的字,因此我們只能在文章發表後,從發表出來的文章中一一檢查。當然,帶有這張圖當中的誤字的文章已經全數修正。

打字時,打錯字的機率有多大?

其實每個人的情況都不一樣。即使是同一個人,在不同的精神狀況下,打字時的擊鍵正確率也會不一樣。個人基於興趣,從2009年3月開始,除了假日以外幾乎每天都會花十五至二十分鐘進行打字練習 (內容除了日打、英打以外,還包含鍵盤上所有的數字、符號的打字訓練)。從打字練習的結果統計來看,大約平均每四到五次擊鍵,就會發生一次誤擊。由於大部分的情況是誤擊之後會立刻修正回來,因此錯字並沒有那麼多。雖然英打和日打性質和中打的性質不太一樣,但是上面圖片中的誤字大都不是拆字或是文字知識不正確的問題,而是鍵盤的誤擊造成。因此英打和日打的擊鍵錯誤率其實多少還有一些參考價值。

コメント

  1. ksdtmac

    我看了一下內文
    發現你們是用類似 & # 2 7 5 9 9 ; 這種東西來表示那些秀不出來的字
    請問這種兩邊對照的方式
    是怎麼做到的呢?

  2. 麻衣

    建議
    如果妳/你們要自己架網誌,
    wordpress網誌後台的語言支援度比日本本土任何網誌提供者更好,只要買個虛擬主機網址就可以用了,這樣應該能夠解決中日文輸入轉換的問題。

  3. 謝謝回應
    To ksdtmac:

    謝謝您的回應。

    您提到的 & # 2 7 5 9 9 ; 這一類字串就是Numeric character reference的編碼。
    如果要查這些編碼對照的文字,一個方法是找到編碼表,網路上也有這一類編碼的檢索系統。
    再不然就是把這些編碼打到google的檢索欄,google會自動把編碼轉換成相對應的文字。

    今後歡迎您繼續指教。
    ☆☆☆

    To 麻衣:

    謝謝您的建議。

    其實梅與櫻在營運初期,就已經租了虛擬主機,並考慮過用wordpress架網誌。
    不過由於我們一直沒有多餘的時間處理這方面的問題,所以架站的計畫也就只能擱置。

    今後歡迎您繼續指教。
    ☆☆☆