ニコニコ動画のタグを可視化。がニコニコ動画のTOPに飾られたら昇天

とりあえず書きなぐり。ていうかこのブログは常に書きなぐり。

Newsgraphy - 日本のニュースを可視化するサイト
http://newsgraphy.com/

あーこういうのニコニコでやったら面白い気がするなぁー。公式サイトのTOPに飾ってあったら面白い気がするなぁー。とりあえず脳内で妄想するだけでも面白い気がするなぁー。それにはまずタグのクラスタリングと階層化からやぁー。

 このエントリのネタ元は↑のサイトとwikipediaの「都市雇用圏」のページです。タグを市町村。タグの動画数を面積。タグのマイリスト数の中央値*1を人口密度と置き換えます。

とりあえず以下の5つのタグで試してみよう

タグ名 動画数
アイドルマスター 47,943
東方 35,714
初音ミク 35,372
ミクオリジナル曲 7,634
春香 6,152

んで、今度は二つのタグのペアが重複してる動画の数を調べる。

  アイドルマスター 東方 初音ミク ミクオリジナル曲 春香
アイドルマスター ×
東方 170 ×
初音ミク 451 255 ×
ミクオリジナル曲 21 4 7,368 ×
春香 6,109 10 21 0 ×

これを、ペアの動画数が小さいほうのタグに占める割合であらわすとこうなる。

  アイドルマスター 東方 初音ミク ミクオリジナル曲 春香
アイドルマスター ×
東方 0.5% ×
初音ミク 1.3% 0.7% ×
ミクオリジナル曲 0.3% 0.05% 96.5% ×
春香 99.3% 0.2% 0.3% 0.0% ×

 ここで、割合が一定以上になったペアは同じジャンルのタグということになる。動画数が多いタグが親タグになる。

なのでこの場合

アイドルマスターアイドルマスター
└春香
初音ミク初音ミク
└ミクオリジナル曲
東方

こんな感じに階層化される。

とりあえずアイデアが思いついた端から書いただけだから検証とかなにもやってないんですけど。

自分でも書いててなんかデジャヴュを感じると思ったけど、今思い出した(21:53)

これだこれ。
http://www.flickr.com/photos/kynbit/2133106772/

*1:そのタグの全動画のマイリスト数を参照できるなら、対数平均でもいいね