這兩三年,日本的網路資訊品質劣化得相當嚴重。
網路資訊包羅萬象,說劣化,也不是所有的資訊都劣化。舉例來說,2017年現在,政治、經濟、社會、歷史、文藝、先進科學等領域的劣化情形比較不明顯,搜尋有意義的資訊並不難。另外,日本的各公家機關的行政及便民資料也比以前充實很多。
但是在時事、醫療保健、飲食、運動、日用品、名人、旅遊等比較貼近民眾日常生活的領域,越來越難找到「有意義的資訊」了。搜尋引擎搜到的結果大多是「一般人早就知道的常識」、「從其他網站剪貼、抄襲來的重複資訊」、「似是而非的資訊」、「表面上看似寫得很詳細,但是實質上是避重就輕、什麼都沒講的空洞資訊」。
政治、經濟、社會、歷史、文藝、先進科學等領域的資訊當然很有意義。但是這些資訊無法直接解決一般人生活中的問題。一般人生活中比較需要的是時事、醫療保健、飲食、運動、日用品、名人、旅遊方面的資訊。這些領域的資料變得越來越難查,就會影響到民眾處理日常生活中的問題的效率。
日本的網路資訊劣化,不是這兩三年才有的事。早在2010年代初期就已經有徵兆,只是這兩三年劣化得特別嚴重。
2010年代初期,我在查比較舊的時事資料時,就發現搜尋引擎搜到的結果幾乎被2ch的轉貼網站佔滿。
2ch的轉貼網站在日本叫「まとめサイト」,意思就是懶人包網站。最近十幾年間,台灣的網路也很流行「懶人包」。「懶人包」是由熱心的網友把複雜、分散的資料蒐集整彙成比較容易吸收的「套餐」。這種套餐可以讓其他網友省下很多找資料的時間。日本的2ch轉貼網站是從2ch布告欄龐大的討論中選出一些比較有趣的內容,轉貼到外部網站。讓沒有用2ch的網友也能一窺2ch的討論。這些網站是利用有趣的題材吸引網友瀏覽,然後在頁面中貼一大堆廣告和誘騙式的點閱連結來賺外快。由於製作這種網站可以謀利,所以這一類的網站就越開越多。有些人就在轉貼時加油添醋、煽風點火。內容修改得越羶腥,流量就越高。結果這些網站轉貼的時事討論資料就失真了。
(※日本的2ch電子布告欄已經在2017年10月改名成5ch。)
我本身有訂閱日經新聞的網路版,可以查閱過去幾年間的日經新聞內容。不過分析時事必須多方比較,所以我還是會用搜尋引擎找其他媒體的報導資料。以前我在網路上查比較舊的時事資料時,搜尋結果大多是一些關心時事的個人部落格。這些人把自己關心的新聞報導貼到自己的部落格,然後寫一些對社會現象的感想。這些人不求流量,就只是把部落格當成日記而已。不過進入2010年代後,Google的搜尋結果中,煽風點火型的2ch轉貼網站就漸漸擠掉了比較純粹的時事評論的個人部落格。結果我在搜尋時事資料時,必須用多種搜尋語法來排除這些「假的時事網站」。非常辛苦。
當時日本的網路上就有不少人在抱怨資料越來越難查。因為搜尋結果大多被「問答網站的複製網站」、「維基百科的複製網站」、「2ch的轉貼網站」佔據,已經失去了原有的多樣性。
大約在同一時期,日本的Youtube也漸漸被一堆「不是影片的影片」佔據。
這些「不是影片的影片」大多是用一張照片偽裝成新聞影片來誘騙別人點閱。一點進去,就只會看到一張不會動的照片和轉貼來的新聞稿字幕而己。有不少假影片為了煽風點火,還會在新聞稿上動手腳。當日本一有重大新聞時,就有一堆網路蟑螂馬上製作這種假影片來誘人點閱。
這種Youtube「假影片」的問題並不是只有日本才有,其他語系的Youtube也有不少假影片,只是日本的狀況特別嚴重。因為日本有業者宣稱只要製作簡單的Youtube影片就可以賺大錢。結果一堆想賺大錢的日本人就花錢向業者購買製作軟體或教材,然後大量生產「不是影片的影片」。這些假影片的特徵就是沒有影片、只有照片和文字,而且標題畫面的字型配色很醜。從這些醜到爆的配色可以看出日本民眾的平均美感意識。有台灣人批判台灣民眾的審美能力差,其實日本人的審美觀也沒好到哪去。日本這些想靠製作假影片賺大錢的人當然不會賺到大錢,真正賺到大錢的恐怕是那些賣製作軟體或教材的業者。這就是網路賺錢的實態。
除了2ch的轉貼網站和Youtube的假影片,日本的投稿型食譜網站cookpad也差不多在同一時期利用民眾的炫耀心理,讓民眾大量投稿自己做的菜。結果用日本Google搜尋食譜時,搜尋結果全部被cookpad的頁面佔滿。本來,在網路上搜尋食譜的人多半是想找做菜的創意和要領,不過cookpad的大眾投稿資料多半非常粗糙、草率,幾乎沒有參考價值。而且還會妨礙別人查資料。結果後來有不少日本人在網路上搜尋食譜時,會用排除語法過濾掉cookpad的頁面。
◆◆◆
兩三年前,日本的網路上又出現一大堆新的懶人包網站。這些懶人包網站把網路上既有的資訊大量拼貼重製成新網頁。題材主要就是時事、醫療保健、飲食、運動、日用品、名人、旅遊等一般民眾比較關心的日常生活事物。
本來網路上已經有很多有用的生活資訊。要查這方面的資料並不難,用搜尋引擎搜到的資料也很多樣。不過新的懶人包網站出現後,狀況完全變了。這些懶人包網站以整理資料為名,擅自轉貼別人網站中的照片,把別人網站中的資訊收編到自己的頁面中。這樣的網站非常多。
這些業者的手法是僱一堆打工的人用簡單的網頁製作技術來製作有條理的頁面。頁面構造有條理,搜尋引擎的積分就會比較高。網站的內容就只是把其他網站的內容簡單拼湊而己。由於製作網站的人沒有相關的專業知識,所以無法分辨來源網站的內容是否正確。結果他們剪貼來的資訊可能同時包含了事實和網路謠言。其實這些業者大多根本不在乎這種問題。搜尋引擎是用AI判定網頁品質,由於AI只能判斷網頁排版是否有條理、關鍵字是否明確,無法理解資訊的意義,所以搜尋引擎就會把這些網站的內容誤判成優良資訊。由於這些業者是採用「頁海戰術」大量製作新的垃圾網頁,所以花心思製作的既存個人網站全部被埋掉了。搜尋引擎搜到的大多是內容雷同的垃圾頁面。
舉例來說,現在用日本的Google搜尋某個藝人的名字時,搜尋結果的第一頁可能有官方網站,也有維基百科的條目,不過其他結果以及接下來好幾頁的結果幾乎全部是類似「○○○○單身嗎?性格?學歷?」「○○○○有整形嗎?宗教?主演廣告?」這樣的網站。網站的標題包含藝人的姓名和其他一般人可能關心的事項的關鍵詞。關鍵詞的後方多半加了「問號」。網址幾乎都是「~.com」。這些頁面大多開頭會有像維基百科一樣的「目錄」,看似很有條理,其實這只是欺騙搜尋引擎的手段。實質上這些網站的內容是剪貼自其他既存的網站,而且可能包含網路謠言。至於網路上不存在的資料,業者會設法捏造或用含糊其詞的方式作文。假設某個北海道出身的藝人從來沒公布過自己的畢業母校,業者就會在頁面中作文提到這個藝人「應該是北海道的某個大學畢業的」。這樣子,業者就在網路上創造出了關於這名藝人的學歷資訊。當然,這種資訊完全沒有意義,就只是欺騙搜尋引擎,然後誘騙網友點閱而已。網友點閱後,當然還是不知道這個藝人的學歷。
這些業者為了爭奪搜尋引擎的結果排行,甚至還會消費往生者。
2017年2月,日本有一名18歲的少女偶像藝人突然病逝。消息剛上日本的網路新聞時,由於病因還沒公開,所以主要媒體都沒有報導這位年輕藝人的病名。不過日本的Google的搜尋結果的前幾頁就出現了好幾個提到這位藝人病名的網站。這就是惡質業者的生產速度。
兩天後,經紀公司才對外發表這位藝人的疾病名稱。藝人的疾病當然和惡質業者網站中提到的疾病完全不同。
惡質網站的業者為了攻佔搜尋頁面,不擇手段編造內容、捏造藝人的疾病。其他的惡質業者看到有同業發表最新消息,就開始抄襲剪貼,想要搶搜尋頁面的順位,結果網路上就出現了一堆假的時事資訊,而且還排在Google搜尋結果的前段。
◆◆◆
這幾年,我一直想買運動用的耳機,我也一直在摸索改善運動品質的練習方法。由於這些領域也被大量的垃圾網站攻佔,所以我幾乎找不到答案。
我在查運動用耳機的資料時,搜尋結果的確列有出一大堆比較耳機的網站。這些網站半是用類似「8種運動用耳機比較」、「10種最新耳機比較」的標題。網址幾乎都是「~.com」。網站排版很有條理,頁面開頭大多會有像維基百科一樣的「目錄」,而且還列出了好幾種品牌的耳機。不過仔細一看,這些網站就只是把各家耳機品牌官方網站上的圖片和數據剪貼到同一頁而已。製作這種網站的業者恐怕沒有實際用過這些耳機,所以剪貼資料之外就是「憑想像力寫的推薦文」,並沒有真的做比較。
十多年前,我用「イヤホン」(耳機)、「比較」這兩個關鍵詞來搜尋,我可以找到真正的消費者玩家的使用心得。不過現在我用同樣的關鍵詞搜尋,出現的卻是一堆貼滿購物網站連結的假比較網站。真正的個人玩家心得網站已經被惡質業者的「頁海戰術」擠到搜尋結果的幾百名之外。
去年年底,我在考慮買新的GPS運動錶,在蒐集資料時也被這些泛濫的假比較網站干擾。結果我只有改查歐美的網站。
我在查運動練習方法的資訊時,搜尋引擎也會列出一堆網站。這些網站的標題幾乎全部包含了「ダイエット」(減肥),而且網址幾乎都是「~.com」。不論我查騎車、跑步、走路,都逃不出這些網站的魔掌。這些網站的排版也都很有條理,大多一開始也會有像維基百科一樣的「目錄」,而且用了一堆圖庫照片。如果是介紹跑步,就會貼俊男美女跑步的圖庫照片。講到方法論時,可能就會貼一張美女在思考的圖庫照片。
其實大部分這一類的網站的內容可能就只是說騎車可以減肥、跑步可以減肥、走路可以減肥等。這根本是大家早就知道的常識。再不然就是講早上運動、白天運動、晚上運動的優劣,其實這也是一般人自己可以想像的內容,根本不需要查網路。也就是說,製作這些網頁的人真的就只是「憑想像力」來介紹運動的方法。製作這些頁面的業者可能平常根本不運動,他們製作這些網頁不是為了服務想運動的人,而是為了搶Google搜尋結果的排行而已。這些網頁只會妨礙想運動的人查網路資料。
以前我剛開始練馬拉松時,我在網路上還可以找到一些不錯的入門方法論的個人網站。不過現在日本Google的搜尋的結果全部被垃圾網站攻佔,比較有參考價值的個人網站幾乎全部被擠到幾百名之外。
本來,懶人包是一種資訊服務,不過日本的懶人包網站的業者不重視倫理,就只想用大量新頁面佔據搜尋結果。製作網站的人本身不關心自己製作的題材,就只是為了業績而做業績而已。結果日本的懶人包網站不再是「資訊整理網站」,而是「妨礙網路搜尋的網站」。
這些業者每天就是想一大堆時事、生活、演藝、健康、醫療的關鍵詞。然後調查這些關鍵詞在Google的搜尋結果排行前幾名的網站的內容,然後馬上剪貼複製,製作出可以騙過AI的相似內容的頁面來擠下其他的懶人包網站。所以這些惡質的抄襲剪貼網站每天都在大量增殖。
由於懶人包網站太惡質,所以也引發了日本社會批判。2016年12月1日,日本的業者DeNA宣布關閉旗下的九個懶人包網站。因為有人控訴這些網站盜用別人的著作,也有醫師指出這些網站中充斥假的健康資訊,還有大企業為了形象而劃清界線、停止贊助。日本的某個職業攝影師也在他的個人網站中控訴業者盜用照片。
DeNA關閉自己旗下的剪貼網站,而且有提到侵權賠償的事宜,還算比較有良心。至於另一家著名企業LINE則根本不想對自己旗下的「NAVERまとめ」的內容負責。梅與櫻網站也有十幾張照片著作遭到「NAVERまとめ」盜用。LINE就是吃定個人網站營運者自力救濟的能力有限,對侵權問題完全採冷處理方式,根本不在乎企業倫理。所以我和日本人作者到現在都拒絕使用LINE,我個人也不放心把我的隱私資料交給這家公司。
◆◆◆
DeNA的懶人包網站關站事件之後,Google終於開始行動,調低懶人包網站在搜尋結果中的排行。不過日本的網路資訊的搜尋效率不但沒有變好,反而越來越糟。因為日本一大堆業者依然每天都在試各種搜尋關鍵詞、追蹤Google的最新的搜尋結果排行,然後立刻製作出可以騙過Google的AI的垃圾網站來擠掉舊的網站。日本的Google完全處於挨打狀態。
現在用日本的Google搜尋資料時,Google除了會列出網站以外,也會列出相關的Youtube影片。網站多半是被懶人包型的垃圾網站佔據,Youtube影片則多半是最新的「不是影片的影片」。
由於這些網站會妨礙搜尋資料,而且用搜尋語法也很難過濾掉這些一直在增殖的垃圾網站,所以日本有人利用Google的自訂功能製作出特別的搜尋器。可以過濾NAVER、cookpad、2ch轉貼網站、問答網站、懶人包網站等。不過這種自訂搜尋器還是不精確,會把其他有意義的網站也一同過濾掉。我自己是用瀏覽器的外掛套件來過濾Youtube和Google的搜尋結果。由於過濾Youtube的套件有嚴重的bug,所以我用了幾個月後就移除了。至於過濾Google搜尋結果的套件,從2016年4月到2017年4月,我大約封掉了三四百個網站。最近半年間,我又封掉了超過一千多個網站。每個被我封掉的網站都包含了很多垃圾頁面。從這裡可以約略看出這些垃圾網站真的在變本加厲增殖中。
我判斷某個網站是否該過濾的主要原則是:
如果標題類似「○○○○單身嗎?性格?學歷?」、「10種×××比較」、「5種△△△的方法」,就列入過濾名單。
如果網址包含日文,就列入過濾名單。
如果網站是日文網站,但是網域是「.xyz」、「.info」、「.biz」,或其他比較偏門的國家的網域的購物網站,就列入過濾名單。
如果搜尋結果中如果有關於SEO、賺錢、健康食品方面的敘述,就列入過濾名單。
網址形態是「~.com」的日文網站/標題包含疑問句/內容有目錄/圖片來自圖庫。四種條件中只要符合兩種,就列入過濾名單。
以上是原則,有時候會有例外。不符合上述原則的網站,就另外判斷。
最近我在用Google查資料時,有時候會發生前五頁的搜尋結果全部空白的情形,因為前50個網站全部都是妨礙搜尋的垃圾網站。雖然我過濾掉了很多垃圾網站,但是我還是常常搜不到有意義的資料。因為搜尋結果排行在50名之後的網站常常和我要搜尋的資料的相關性不高。這代表有意義的網站可能被擠到更後面。結果現在用日本的Google查有意義的資訊,往往還要加上時間過濾。如果排除掉最近三年間的資訊,搜到的資料品質會比較好一點。但是這也代表日本的Google已經失去搜尋有意義的新資訊的能力了。結果我現在很多日本的資料必須從twitter和facebook蒐集。雖然twitter和facebook可以用來「蒐集」資訊,不過這些SNS並不是「搜尋」資訊的好工具。我曾經有一段時間改用bing來找資料。bing的搜尋結果的確比Google好一點,但是日本的垃圾網站實在太多,我的瀏覽器沒有過濾bing的搜尋結果的套件,而且bing的搜尋語法的功能不如Google,所以最後還是作罷。
10年前,很多人覺得Google的搜尋引擎無敵。在很多人眼中,Google的搜尋AI可以選出符合大家需求的資料,也有很多防止網頁取巧的措施。營運網站的人都不敢取巧,因為大家害怕遭到Google的懲罰。不過時代變了,現在用Google在日本的網路上很難找到有意義的新資訊,也幾乎搜不到twitter和facebook的資訊。而且日本的垃圾網站業者輕易地打敗了Google搜尋引擎的AI系統。這是10年前沒有人能想像的事情。不希望Google壟斷網路的人可能會覺得很高興,但是在日本用網路很難查到有意義的日常生活資訊,是日本的資訊文化的一大悲劇。