跳至主要內容

語言是進入網際網路的第一把鑰匙

Image by Pete Linforth from Pixabay 

全球化與網際網路發展的影響下,英文成了國際間通用的語言。使用網際網路必須要先透過26個英文字母,或至少得先記住幾個入口網站或搜尋引擎網站的英文位址,再自透過搜尋或入口網站的連結找到自己的目的地。

自圖 1 可以得知在網際網路裡最常被使用的前十大語言:英文的使用人口數為第一,其次是中文 (無特別區分正體中文或簡體中文),第三為西班牙文,除了英文的普及性造成使用人口較多外,中文的使用人口數也不遑多讓。雖然這三種語言為全球使用人數居多的語言,然而在網際網路的內容上,則有不同的呈現。

圖 1 網際網路使用的前10大語言與其使用人口數統計
資料來源:Internet World Stats - Top Ten Languages Used in the Web (2019.04.30)

從 圖 2 可以得知,至2019年9月17日前,網際網路中的內容過半以上都是以英文來呈現,其他語言占比多數都不超過10%,中文僅占1.6%。就比例上而言,中文使用者是網際網路使用人口數的第二多人口,但網路上中文內容的資料僅佔整體的1.6%,更遑論其他更少見的語言內容不到0.1%。
圖 2網際網路內容使用的語言文字
資料來源:W3Techs.com - Percentages of websites using various content languages (2019.09.17)
除了網路的內容多是以英文呈現外,網站位址也是由英文的26個字母 (a到z)、阿拉伯數字 (0到9) 與連字符號 (-) 組成,透過對應 IP 位址,讓一般網路使用者不需要記住 IP 位址就能找到網站,然而非原生語言的網址,對於其他語言的使用者來說,仍有進入障礙。

對於非英語系國家人民來說,因為傳統文化的影響,讓性別因素影響了女性接受教育的權利,或是因為戰亂、經濟等因素,造成女性或是弱勢族群無法接受第二或其他外語的教育,在聯合國17個永續發展目標中的第 4 個目標,便是「確保包容和公平的優質教育,並為所有人提供終身學習機會」,在各國倡導網路教育平台及各大學都藉由網際網路開設課程的趨勢下,如果能降低女性與弱勢族群的進入網際網路的門檻,將會有助於達成該目標的達成,而國際化域名將會提供一定的助力,讓非英語系的族群較容易進入網際網路領域。

網際網路相關組織在國際化域名的努力

ICANN則自2003年開始著手進行國際化域名(Internationalized Domain Names,簡稱IDNs)的相關工作,讓不同語言的使用者都可以透過自己熟悉的語言及文字輸入網址,進入網際網路的世界,取得網路上的資訊。IETF在 2003 年 3 月發布了三則與 IDNs 相關的 RFC,分別為:
  1. RFC 3490 IDNA: Internationalizing Domain Names in Applications
  2. RFC 3491 Nameprep: A Stringprep Profile for Internationalized Domain Names
  3. RFC 3492 Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications
在2009年之前,我們所知的頂級域名 (Top-Level Domain,簡稱 TLD)僅可使用英文字,但2009年11月之後,便可以藉由IDNs,申請不同語言文字,如中文、阿拉伯文、西里爾文的頂級域名。2010年至2014年之間,則是透過快速通道計畫(Fast-track),在根區域 (Root Zone)讓38個國家和地區頂級域名(Country code top-level domain,簡稱ccTLD)可以使用不同語言的文字,例如:”.台灣”。 直到2018年12月31日止,已有302個ccTLD被放入根區域中。

除了頂級域名外,ICANN也在2013年時進行為根區域(Root Zone)「標籤生成規則」(Label Generation Rules),藉由該機制來協助不同語言文字中,有效的IDN標籤和異體字的存在。

IDNs在全球發展狀況

ICANN 除了利用 Universal Acceptance 計畫來實踐真正的多語言的網路社會理想外,也持續執行推廣IDNs。

圖3 是由 IDN World Report 藉由開放的 gTLD 文件與每個 gTLD IDN 相關的"A記錄"國家與 ccTLD 社群的年度調查表所得到的數字,將 gTLD 與 ccTLD 的 IDN 申請數量合計所得到的數字。該圖顯示了自2013年後至2018年間,申請IDN數目的增長。俄羅斯、南韓、德國、台灣、日本在這段期間都有所增加,也顯示了有其需求存在。
圖 3 World Map Growth of IDNs
資料來源:IDN Report

申請 IDNs 的好處與挑戰

DNS讓每個網路的使用者不需要依賴記 IP 位址,而是可以透過對應可讀性較高的域名,讓每個人容易記得網址,而 IDNs 則是更進一步打算做到透過網路使用者習慣的原生語言,就可以輸入網址、寄送 E-mail,方便讓使用者取用(Access),並降低進入網路的第一道門檻。

就網際網路的商務應用來說,如果是打 算到其他語言國家建造在地化的網站,以協助在當地市場的銷售,也可以在自己國家申請該當地語言的泛用型域名(Second Level)。在台灣除了可以申請中文的泛用型.tw域名外,在 2018 年裡,也陸續開放了泰文、日文、韓文、法文、德文的泛用型.tw 域名服務,也就是網站的擁有者若想針對前述語言使用者提供相關的服務,不妨也將IDN的申請搭配該語言文字的內容,作為增強網站服務的在地化 (localization) 的手段之一,也能加強在該語言使用者心中的印象。

IDNs 的最終目的是希望能協助降低語言門檻,讓各個不同語言的人,不需要藉由學習英文或其他語言,而是以使用者本身習慣的原生語言輸入網址,進入網站。由於 IDNs 的對象屬於熟悉該語言文字的使用者,所以頁面內容也需要使用同一種文字,以達到整體網站的一致性並增加留住使用者在網站上的時間,也較能降低抗拒的心態。

自另一個角度觀察 IDNs 的優點,除了降低進入網路的使用門檻外,同時也可以使該語言的文字在網際網路上流通,維持網路的多樣性,增添對不同文化的包容性。網際網路在討論「包容」(inclusive)時,不是只有談論如何縮短數位落差與經濟成長,同時也包含了對性別、種族、文化、語言的包容,也能該整體網際網路生態體系更為健康。

在全球化(Globalization)的浪潮下,大家可能會由於使用人數偏多的語言,認為單一外語即可。但全球化並不代表英語化,使用 IDNs 還是要回到最原始的目的:「讓對使用該語言的使用者,可以使用自己較習慣的語言來進入、閱聽網站的內容,讓網際網路的文化具多樣性。」

儘管如此,IDNs 的實踐與通用仍有相當高的挑戰,例如瀏覽器、郵件伺服器、行動載具對不同文字在網址上的包容性並不一致,使用者本機所安裝的應用程式、操作系統對於特殊文字的包容性,又例如在漢字的使用上,日本、韓國、中國、台灣⋯⋯等使用漢字的國家也有所謂的異體字或同義字的複雜,且非拉丁語系文字與 DNS 的對應需要依照前述的三個 RFCs 來轉換、處理、對應。有許多消費者末端所使用的應用程式並不支援 IDNs,而電子郵件的往來更是重要,郵件伺服器若無法接受 IDNs,也無法讓訊息通過電子郵件傳遞。例如,當使用者在網站上申請註冊成為網站會員,在填寫電子郵件位址時輸入「中文繁體字@中文.台灣」時,有可能會因為以往的郵件伺服器的 IDNs 通用性不足,而無法傳遞註冊確認信。

在 IDNs 無法在全球完全普及的情況下,反而增加了進入門檻,也只會讓消費者對於 IDNs 的推動與使用完全無感。不愉快的消費經驗只會讓消費者更抗拒使用這樣的服務,也影響了網站擁用者使用 IDNs 的意願。除此之外,消費者可以透過搜尋引擎、社群平台來找尋相關的網頁內容,加上英語教育日漸普及、網際網路的科技也不斷的在改進,可以透過線上同步翻譯來減少閱讀英文或非慣用語言的頁面內容⋯⋯等各種方式來降低非英語慣用國家進入網際網路、取得網路上知識的門檻,這些對於 IDNs 的推動都有一定的挑戰。

結語

儘管網路科技進步與英語教育愈來愈普及,都能降低網路使用者進入網際網路的門檻,使用IDNs 時也要注意網站內容是要與 IDNs 呼應,有可能增加相對應的管理成本,但也不應該因此而停止實踐IDNs與通用性、易取用性的相關作為。反而更應該站在少數族群的立場,降低他們便利的網路使用門檻,更能增加網際網路的多樣性與對不同文化的包容。

參考資料:
  1. Internet World Stats - Top Ten Languages Used in the Web (April 30, 2019) 
  2. W3Techs.com - Percentages of websites using various content languages (Sep. 17, 2019)
  3. United Nations, Sustainable Development Goals Knowledge Platform
  4. ICANN, Internationalized Domain Names
  5. At-Large , Background: IDN
  6. World Map Growth of IDNs, IDN World Report
  7. TWNIC, 國際化域名標準-標準介紹
本文亦刊登於台灣網路資訊中心blog-語言是進入網際網路的第一把鑰匙,版權屬台灣網路資訊中心,若需轉載本文,請先向台灣網路資訊中心洽詢。

    留言

    此網誌的熱門文章

    聽死神說故事--偷書賊

    書名:偷書賊(THE Book Thief) 作者:Markus Zusak ISBN:9789866973420 作者網站: Markus Zusak 譯者:呂玉嬋 出版:木馬文化 封面取自博客來網路書局。 購買於小小書房。 這個夏天讀《偷書賊》和《失物之書》,會在兩本不同的故事裡看到同一個時空背景所發生的故事,同樣是發生在孩子身上的事,同樣在說文字的力量,但《偷書賊》的節奏比《失物之書》緩慢一些。我盡量不要比較這兩本書,因為這是很無聊的事,但在閱讀的過程裡總驚訝這兩個故事有那麼多巧合之處,不是情節上的相似,而是在人物角色和背景總是有相似或是對立的情況出現。 《偷書賊》的女主角是被德國夫妻領養的莉賽爾,原本也要一同被領養的莉賽爾的弟弟卻死於火車上,莉賽爾在遭受與父母分離及弟弟的死亡後,在精神上受了極大的創傷,幸運的是領養她的父母是故事書中最仁慈的角色,給了莉賽爾完整的愛,不同於此時期裡其他的孩子可能瀕臨餓死或是送入集中營或是在街頭流浪被流彈波及,莉賽爾因為養父母的照顧和周遭的朋友、躲在地下室的猶太人…還有偏愛她的死神。 這個故事的特別處之一,敘述者不是主角或是任何一個書中的角色,而是沒有時空限制,總是旁觀的第三者,特別是在二戰的年代,無所不在的死神,戰場、集中營、巷弄裡,特別的是,這個死神總是想要表現祂冷酷無情和輕蔑人類的一面,但實際上我們從書中讀到的,是祂憐憫人類、輕視、無奈、驚訝人類的個性,也像人類一樣會抱怨工作、具有詩意、幽默感,也就是具有人性的一面: 人類只有在一天的開始與結束時,才會觀察顏色的變化。 但是對我而言,一天當中,每個短暫片刻都呈現出不同的色度與調性。 光是一個小時的時間,就包含了幾千種不同的顏色:蜜蠟黃、柔絲藍、陰鬱黑。 我是做這行的,當然特別注意顏色的變化。 …她貫徹始終,只要經過三十三號的門口,從沒有忘記吐痰,還會外加一句「死豬」。我發現德國人有個特點:他們真的很愛豬。 這個具有人性的死神成了說書者,祂說著在戰時會發生在任何一個角落的故事,然而我們透過祂的眼睛,看到一個帶著色彩、煙硝味濃厚、心驚膽跳與眼淚的故事,祂不儘是旁觀者,同時也是貫穿整個故事的主要角色之一。 整個故事讀起來有對納粹主義的不滿也有對當時情況的無奈。裡面對於創傷後壓力症候群( PTSD )的描寫也很貼切,莉賽爾和猶太人麥克斯分別經歷了不同程度的打擊,也產生了同樣的症狀,

    和 AI 工作三個月的感想

    在 ChatGPT 在台灣開始流行後,我和它一起工作了大概 3 個月的時間。這段時間裡有許多出現如何監管、治理AI的文章、也有不少教學、像是有不少如何下關鍵字使它協助你工作。這篇文章純粹以一個使用者的立場來分享,這段時間我與 ChatGPT 一起工作的感想,而不是告訴你怎麼治理它或是如何使用它。 這 3 個月裡如何與 AI 一起工作? 因為我的工作知識涉及的領域不止在網路科技,但網路科技卻是我的所有工作範疇的基礎,網路治理是我的入門磚。 在 2 月底 3 月初時,有一份工作內容是聽 12 場研討會的錄影並摘要,原本我們擔心不了解法庭程序、法律用字、各國的法規和習慣不同,但第一個問題是,怎麼有效率的把錄音裡的話語解釋出來?。後來長官提出了一個方法,有沒有可以聽打字幕的工具?把字幕擷取出來,再翻譯成中文,然後再修改?於是我想到 ICANN 會議、IGF 會議所使用的即時字幕工具,但後來又找到了 Web Captioner 。這是許多 YouTuber 會使用的字幕工具。 也許有人會說,這目前市面上有很多錄音筆可以做到這件事了?我要說的是,如果你面對的是不同國家口音、用字習慣、法律用字、法庭程序,錄音筆能否做到同樣的能力?我沒有實際測試過,但 Web Captioner 已經協助減少初期工作的一項負擔,後續的工作完全要依賴這個第一步,不然沒有辦法接下去。 有用過 Google Translate 的人都知道,它最多就是「堪用」而已,你丟什麼給它,它也就回饋你什麼。就是照字面翻譯,沒有上下文的脈絡,當然後續還很多很好用的翻譯工具,但就便利性來說,Google Translate 的便利性還算是高的。 直到 ChatGPT 出現,我從 3 開始用,再到 3.5版,然後付費使用 GPT 4 和一些外掛工具,它開始讓我感受到身為人的限制、受到體力的限制,還有機器學習的快速,更重要的是,它讓我思考如何去問問題。 基本的翻譯工作在 GPT 3 就已經到90%的滿意程度,那個時候我還擔心 Web Captioner 的文字擷取能力會受限於講者的口音,所以我還是會聽著錄音做即時聽打,以使要翻譯的文字檔更完整。一場 90 分鐘的專家討論需要 4 個工作天全力投入才能翻譯、整理完畢,但如果是一個可以講美式或英式英語的講者的專題演講,只要速度不快,大概 1.5 個工作天就能處理完畢。 GPT

    讀歐盟「數位服務法」和「數位市場法」草案心得

    在 3 月 24 日時參與了 台灣網路講堂 所舉辦的 活動 ,這個活動是以在台灣較知名的美國 Parler 案為題,來討論歐盟的「數位市場法」 (Digital Market Act. 簡稱 DMA ) 對於「守門人」(Gatekeeper) 平台的管制,並邀請了從競爭法、經濟學、公平會、傳播及科技法律不同角度的講者來討論這個議題。 受限於時間,講者們只能把不同角度的重點讓參與者了解,事後再看 DMA 時,才了解並不是只有單純只對守門人做規範,而是從整個歐盟打算將會員國打造成「數位單一市場」(Digital Single Market)的整個脈絡,並從其發展資料經濟 (Data Economic)所發展不同階段的相關政策、指令與法律,而主管 (也是當天活動的引言人) 也提醒,還可以自歐盟在 2018 年 5 月正式執行的「一般資料保護規範」(General Data Protection Regulation,簡稱 GDPR) 觀察,歐盟當局不是只有外表看到的禁止、設限,更重要的,它是希望藉由明確的「法遵」 (Compliance) 要求,建立一個健全、具有發展與競爭機會的數位經濟市場。 這些法遵要求不論是對歐盟會員國境內發展數位服務的廠商、中小企業、不同規模的平台,到跨國企業進入歐盟市場發展,除了要面臨相關的市場調查外,也同樣要遵守。 如果無法看整個歐盟的數位單一市場發展,應該要了解 DMA 其實是「The Digital Services Act package」的法案之一,另一個則是「數位服務法」 (Digital Service Act. 簡稱 DSA ) ,DSA 規範了不同規模的「線上中介產業」 (online intermediary) 該做的事及責任,而 DMA 則是針對法案草案中所規範的守門人更加上了「義務」(Obligation)。由於台灣網路資訊中心已在其部落格中有整理相關的 摘要 ,且台灣網路堂也會公布當天活動的錄影,所以在這篇文章就不再解釋 DSA 和 DMA ,有興趣的人可以自己再去閱讀兩個法案的草案內容,歐盟執委會也有整理許多相關的問答在其網站中,十分好閱讀。 DSA、DMA 與歐盟其他法案的關係 在歐盟執委會網站中有提到,DSA  是一個水平的計劃,重點關注線上中介業者對第三方內容的責任,網路用戶的安全或對信息社會的不同提供者的不對稱