我的貼標籤規範
前幾天討論了目前各家網站標籤功能的混亂,即便有這些混亂,「標籤」仍是訊息管理非常重要的一個工具,也是落實真正語義網(semantic web)的一個基礎。
然而正由於目前沒有一致性的標籤標準,人們對於標籤的使用也很隨興,所以會常常看到下面三種情形:
-
同一個概念以不同的詞語組合方式標籤
例如一篇文章中同時加入了
win7
,Windows 7
,MS windows 7
,windows-7
等標籤,有縮寫、有全名、有各種不同的連接詞。這種現象在以搜尋流量為主的媒體網站中尤為常見。上面的圖就是一個活生生血淋淋(?)的例子,這組關鍵字取自 Engadget 的這篇文章。 -
同一個概念以不同的單字形式標籤
以英文做標籤的網站中很容易發生這種情形,因為一個概念在不同的詞性表現下就是不同的單字,因而成為不同的標籤關鍵字。例如我想要加上「部落格」這個標籤,用英文寫時就可能同時把名詞、動詞、動名詞,還有單數型複數型全部通通填上去,像這樣:
blog
,blogging
,blogs
。 -
同一個概念以不同的語言標籤
這個就是多語言使用者的苦惱了。例如像我這樣的宅宅就會因為以下
動畫
,アニメ
,Anime
,動画
等標籤到底要用哪個好而苦惱,而最後的結果通常就是全部都用。
這三種情形都是用不同的方式去標籤同一個概念,雖然初衷是為了將來方便搜尋,但往往反而導致搜尋時的困難。考慮以下情形:假設我的一篇部落格文章用了 win7
與 Window 7
作為標籤,另一篇主題近似的文章卻是用了 Windows 7
與 win-7
作為標籤。這種不一致性會讓讀者在前篇文章中點下 win7
這個標籤連結時,無法將所有主題相關的文章列出。
另外一個問題則是製造不必要的心力浪費。因為沒有一個標準來選擇用哪個單詞做標籤,因此也不知道自己將來要回頭找資料時,會用哪個單詞來做搜尋,只好想辦法把所有自己想得到的所有相關字一股腦兒全部填入。
為了避免上述問題,雖然目前每個網站的標籤機制如同多頭馬車各行其道,制定一個自己個人使用的標籤習慣(或規範)倒是可行的一個作法。這個問題相信困擾的不只是我,上網找了一下,有兩篇值得參考的文章,第一個是 Calvin C. Yu 所寫的 Taggin Guidelines (在投影片中的第 13 頁),主要原則如下:
- 簡練
- 小寫
- 單數
另一個參考是由 Hutch Carpenter 所提出的,他認為標籤機制應該有個標準,而這個標準就是**複數詞組,逗號分隔** (Multi Word, Comma Seperated)。
而我自己所使用標籤的標準如下:
-
簡便性
-
盡量簡單。
-
**方便輸入。**所以標籤時會以英文為主,例如用
browser
而不用瀏覽器
。 -
**自己容易想起。**通常第一個想到的字詞就是了。
-
使用容易理解的詞。
-
-
一致性
-
**一個概念一個詞。**所以
動畫
,アニメ
,Anime
,動画
就只剩下用一個anime
。 -
**小寫。**同樣是為了方便輸入。
-
**用單數,用名詞。**當然,這免不了會遇到例外情況,主要還是要依照使用情境判斷。
-
人名的標記盡可能從主人。例如使用
菅野よう子
而非菅野洋子
,韩寒
而非韓寒
。除非該人名的原始拼寫方式我不熟悉,例如我總是想不起來戈巴契夫怎麼拼,那就直接用戈巴契夫
吧。同樣是以自己方便為最高原則。 -
除非是自己口語常用的縮寫,不然不使用縮寫作標記。
nds
win7
xbox360
都很好理解,可是用resp
req
來做為response
request
標籤的替代,就太過頭了。現在連寫程式都不鼓勵這種縮寫了。
-
-
格式
-
**省略單字間空白。**也就是說用
macosx
而非mac os x
。不過英文人名是例外;日常用字如smartphone
我們容易斷字,相對的人名如果省略空白有時候就不容易逆推。其他如果空白省略會造成歧異的話,也應該保留空白於關鍵字中。 -
**以逗號區隔關鍵字。**正確來說應該是以「逗號加空白」區隔關鍵字。
-
以上便是我個人使用的標籤規則。如果你有不錯的標籤習慣,也歡迎一起討論分享。