我的貼標籤規範

前幾天討論了目前各家網站標籤功能的混亂,即便有這些混亂,「標籤」仍是訊息管理非常重要的一個工具,也是落實真正語義網(semantic web)的一個基礎。

/images/2012/2012-04-21-too-many-tags.png

然而正由於目前沒有一致性的標籤標準,人們對於標籤的使用也很隨興,所以會常常看到下面三種情形:

  1. 同一個概念以不同的詞語組合方式標籤

    例如一篇文章中同時加入了 win7, Windows 7, MS windows 7, windows-7 等標籤,有縮寫、有全名、有各種不同的連接詞。這種現象在以搜尋流量為主的媒體網站中尤為常見。上面的圖就是一個活生生血淋淋(?)的例子,這組關鍵字取自 Engadget 的這篇文章

  2. 同一個概念以不同的單字形式標籤

    以英文做標籤的網站中很容易發生這種情形,因為一個概念在不同的詞性表現下就是不同的單字,因而成為不同的標籤關鍵字。例如我想要加上「部落格」這個標籤,用英文寫時就可能同時把名詞、動詞、動名詞,還有單數型複數型全部通通填上去,像這樣: blog, blogging, blogs

  3. 同一個概念以不同的語言標籤

    這個就是多語言使用者的苦惱了。例如像我這樣的宅宅就會因為以下 動畫, アニメ, Anime, 動画 等標籤到底要用哪個好而苦惱,而最後的結果通常就是全部都用。

這三種情形都是用不同的方式去標籤同一個概念,雖然初衷是為了將來方便搜尋,但往往反而導致搜尋時的困難。考慮以下情形:假設我的一篇部落格文章用了 win7Window 7 作為標籤,另一篇主題近似的文章卻是用了 Windows 7win-7 作為標籤。這種不一致性會讓讀者在前篇文章中點下 win7 這個標籤連結時,無法將所有主題相關的文章列出。

另外一個問題則是製造不必要的心力浪費。因為沒有一個標準來選擇用哪個單詞做標籤,因此也不知道自己將來要回頭找資料時,會用哪個單詞來做搜尋,只好想辦法把所有自己想得到的所有相關字一股腦兒全部填入。

為了避免上述問題,雖然目前每個網站的標籤機制如同多頭馬車各行其道,制定一個自己個人使用的標籤習慣(或規範)倒是可行的一個作法。這個問題相信困擾的不只是我,上網找了一下,有兩篇值得參考的文章,第一個是 Calvin C. Yu 所寫的 Taggin Guidelines (在投影片中的第 13 頁),主要原則如下:

  • 簡練
  • 小寫
  • 單數

另一個參考是由 Hutch Carpenter 所提出的,他認為標籤機制應該有個標準,而這個標準就是**複數詞組,逗號分隔** (Multi Word, Comma Seperated)。


而我自己所使用標籤的標準如下:

  1. 簡便性

    1. 盡量簡單。

    2. **方便輸入。**所以標籤時會以英文為主,例如用 browser 而不用 瀏覽器

    3. **自己容易想起。**通常第一個想到的字詞就是了。

    4. 使用容易理解的詞。

  2. 一致性

    1. **一個概念一個詞。**所以 動畫, アニメ, Anime, 動画 就只剩下用一個 anime

    2. **小寫。**同樣是為了方便輸入。

    3. **用單數,用名詞。**當然,這免不了會遇到例外情況,主要還是要依照使用情境判斷。

    4. 人名的標記盡可能從主人。例如使用 菅野よう子 而非 菅野洋子, 韩寒 而非 韓寒。除非該人名的原始拼寫方式我不熟悉,例如我總是想不起來戈巴契夫怎麼拼,那就直接用戈巴契夫吧。同樣是以自己方便為最高原則。

    5. 除非是自己口語常用的縮寫,不然不使用縮寫作標記。nds win7 xbox360 都很好理解,可是用 resp req 來做為 response request 標籤的替代,就太過頭了。現在連寫程式都不鼓勵這種縮寫了。

  3. 格式

    1. **省略單字間空白。**也就是說用 macosx 而非 mac os x。不過英文人名是例外;日常用字如 smartphone 我們容易斷字,相對的人名如果省略空白有時候就不容易逆推。其他如果空白省略會造成歧異的話,也應該保留空白於關鍵字中。

    2. **以逗號區隔關鍵字。**正確來說應該是以「逗號加空白」區隔關鍵字。


以上便是我個人使用的標籤規則。如果你有不錯的標籤習慣,也歡迎一起討論分享。