ニコニコ動画のタグを可視化。がニコニコ動画のTOPに飾られたら昇天
とりあえず書きなぐり。ていうかこのブログは常に書きなぐり。
Newsgraphy - 日本のニュースを可視化するサイト
http://newsgraphy.com/
あーこういうのニコニコでやったら面白い気がするなぁー。公式サイトのTOPに飾ってあったら面白い気がするなぁー。とりあえず脳内で妄想するだけでも面白い気がするなぁー。それにはまずタグのクラスタリングと階層化からやぁー。
このエントリのネタ元は↑のサイトとwikipediaの「都市雇用圏」のページです。タグを市町村。タグの動画数を面積。タグのマイリスト数の中央値*1を人口密度と置き換えます。
とりあえず以下の5つのタグで試してみよう
タグ名 | 動画数 |
アイドルマスター | 47,943 |
東方 | 35,714 |
初音ミク | 35,372 |
ミクオリジナル曲 | 7,634 |
春香 | 6,152 |
んで、今度は二つのタグのペアが重複してる動画の数を調べる。
アイドルマスター | 東方 | 初音ミク | ミクオリジナル曲 | 春香 | |
アイドルマスター | × | ||||
東方 | 170 | × | |||
初音ミク | 451 | 255 | × | ||
ミクオリジナル曲 | 21 | 4 | 7,368 | × | |
春香 | 6,109 | 10 | 21 | 0 | × |
これを、ペアの動画数が小さいほうのタグに占める割合であらわすとこうなる。
アイドルマスター | 東方 | 初音ミク | ミクオリジナル曲 | 春香 | |
アイドルマスター | × | ||||
東方 | 0.5% | × | |||
初音ミク | 1.3% | 0.7% | × | ||
ミクオリジナル曲 | 0.3% | 0.05% | 96.5% | × | |
春香 | 99.3% | 0.2% | 0.3% | 0.0% | × |
ここで、割合が一定以上になったペアは同じジャンルのタグということになる。動画数が多いタグが親タグになる。
なのでこの場合
アイドルマスター ├アイドルマスター └春香 初音ミク ├初音ミク └ミクオリジナル曲 東方
こんな感じに階層化される。
とりあえずアイデアが思いついた端から書いただけだから検証とかなにもやってないんですけど。
自分でも書いててなんかデジャヴュを感じると思ったけど、今思い出した(21:53)
*1:そのタグの全動画のマイリスト数を参照できるなら、対数平均でもいいね