相対好み評価について書き直してみた。

前回との違い

　１つのエントリーに情報をまとめ、新しく順位付け手法を追加。
　前回のエントリーはこちら

相対好み評価とは

　相対好み評価とは、その作品がどのくらい視聴者に好まれているかを、ユーザーが行った他の作品との比較評価データを元に数値化する評価方式。
　比較評価とは、作品Ａと作品Ｂを評価する時、「ＡがＢより好み」と「ＢがＡより好み」のどちらかで評価する事。
　以下、数値化された評価を評価値と呼ぶ。
　以下、評価を行うユーザーをレビュアーと呼ぶ。

評価値は何を意味するのか

　作品Ａが、作品Ｂより評価値がＮ点高い場合、作品ＡとＢを比較評価した時、作品Ａのほうが好みだと答えるレビュアーの割合がＢのよりＭ％高いと推定される。のような事を表す。
　例えるなら、ドラゴンボールの戦闘力を対数表記したもの。が近いかもしれない。

採点方式との違い

　レビュアーが0〜10点の間で投票を行い、その平均を評価値にする採点方式（範囲投票）の場合、10点を超える点数や、0点を下回る点数はつかない。相対評価の場合、点数の上限や下限は無い*1。
　PIXIVのように、採点する人のほとんどが10点をつけてしまい、平均値が意味を持たないというような事は無い。
　計算量が多い。
　ある程度データが集まらないと評価値が収束しない。

相対評価が使われている例

　俺がこの方式を勉強した元ネタのサイト。
　http://kashi.dip.jp/~kashi/rating/
　ゲーム「カルネージハートポータブル」でユーザーが作ったＯＫＥの強さを相対評価しているサイト
　http://www.asahi-net.or.jp/~vw4k-kbys/chp/rating/
　各国のサッカー代表の勝率を相対評価しているサイト
　http://www.eloratings.net/
　wikipediaでの、より簡易的な算出法の解説。この手法は評価値を正確にするのに、より大量のデータが必要になる。計算量は少なくて済む。
http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%AD%E3%83%AC%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0

評価値の計算方法。

　まず、比較評価データを集める。

Ａが、Ｂより好みと答えたレビュアーが3人
Ｂが、Ａより好みと答えたレビュアーが1人
Ｂが、Ｃより好みと答えたレビュアーが2人
Ｃが、Ｂより好みと答えたレビュアーが3人

　これをリーグ表の形で表すとこんな感じになる。

＼	Ａ	Ｂ	Ｃ
Ａ	＼	３	０
Ｂ	１	＼	２
Ｃ	０	３	＼

　次に比較評価データを数式に変換する。

レビュアーの人数 * log( 1 + exp( -k( より好みな作品の評価値 - より好みでない作品の評価値 ) ) )

　に、比較評価データの数字を入れて

3 * log( 1 + exp( -k( Xa - Xb ) ) )
1 * log( 1 + exp( -k( Xb - Xa ) ) )
2 * log( 1 + exp( -k( Xb - Xc ) ) )
3 * log( 1 + exp( -k( Xc - Xb ) ) )

　となる。logは対数関数、expは指数関数、kはレーティングのスケールを決める数字。Xnは、これから計算するそれぞれの作品の評価値を表す。次にレーティングのスケールを決定する。
　レーティングのスケールは「レーティングが高い作品と低い作品を比較評価した時、レーティングの差がnなら、高い作品が好まれる確率はm/m+1になると推定する」このnとmに何の数字が入るかという事*2。採点評価でいうと、満点を5点にするか、100点にするかを決める事に相当する。だいたい標準的には、「レーティングが高い作品と低い作品を比較評価した時、レーティングの差が400なら、高い作品が好まれる確率は10/11になると推定する。」のような設定が用いられる*3。ここではこれに従う*4。これに基づいて式を作るとこうなる。

3 * log( 1 + 10^( -0.0025( Xa - Xb ) ) )
1 * log( 1 + 10^( -0.0025( Xb - Xa ) ) )
2 * log( 1 + 10^( -0.0025( Xb - Xc ) ) )
3 * log( 1 + 10^( -0.0025( Xc - Xb ) ) )

　expのところにさっきのmが来て、kにはnの逆数が入る。これで、Xnに適当な数字を入れてgoogleに突っ込めば答えが出てくる状態になった。
　このレーティングは相対値なので、評価値を決定するには絶対の基準を決定する必要がある。今回は「作品Ａの評価値は常に1000」とする。

3 * log( 1 + 10^( -0.0025( 1000 - Xb ) ) )
1 * log( 1 + 10^( -0.0025( Xb - 1000 ) ) )
2 * log( 1 + 10^( -0.0025( Xb - Xc ) ) )
3 * log( 1 + 10^( -0.0025( Xc - Xb ) ) )

　Xaにあらかじめ1000を代入しておく。そして、この4つの式の答えの合計が一番小さくなるXbと、Xcの値が、それぞれ作品ＢとＣの評価値になる。

Xa=1000
Xb=809くらい
Xc=880くらい

評価値が収束しない場合

＼	Ａ	Ｂ
Ａ	＼	10
Ｂ	０	＼

　このように、作品ＡよりＢが好み。と答えた人が一人もいない場合、評価値は収束せず、Ａの評価値は無限大、Ｂの評価値はマイナス無限大になる。この場合、

＼	Ａ	Ｂ
Ａ	＼	10
Ｂ	１	＼

　と、Ｂが好みなダミー評価を加えることで収束する。Ｂが好みなレビュアーが現れれば、そのときにダミー評価を取り除く。

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	０	０	＼	10
Ｄ	０	０	10	＼

　このデータの場合、作品Ｃ、Ｄはどちらも作品Ａ、Ｂより好みという評価が無い。この場合も収束せず、ＡとＢは無限大、ＣとＤはマイナス無限大になる。この場合もダミー評価を入れれば収束する

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	１	１	＼	10
Ｄ	１	１	10	＼

＼	Ａ	Ｂ	Ｃ
Ａ	＼	１	０
Ｂ	０	＼	１
Ｃ	１	０	＼

　このデータの場合、Ａ＞Ｂ＞Ｃ＞Ａと、評価が循環する。これは収束し、評価値はＡ＝Ｂ＝Ｃになる。
　既に評価値が算出できる作品群に対し、より好み、より好みでない両方の評価がそれぞれ1個以上あるなら、その作品は評価値が算出できる

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	０
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

　Ａの評価値を基準としてあらかじめ決定しておく。Ｂと評価値が算出できるＡを見ると、Ａに対してより好みが１人、Ａに対してより好みでないが１人あるので、Ｂは評価値を算出できる。Ｃと評価値が算出できるＡ，Ｂを見ると、Ｂに対してより好みが１人、Ａに対してより好みでないが１人あるので、Ｃは評価値を算出できる。Ｄと評価値が算出できるＡ、Ｂ、Ｃを見ると、Ａに対してより好みが１人いるが、より好みでないがＡ、Ｂ、Ｃに対して１つも無いので、Ｄは評価値を算出できない。ダミー評価で解決できる

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	１
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

　ダミー評価は０を全て埋める必要が無い。評価値を算出できる条件が満たされればそれで良い。

順位付けによる比較評価データの収集。

　比較評価データを効率よく集めるために、順位付けを行う。
　順位付けとは、レビュアーが、複数の作品を、好みの順番に並べる事。
　例・レビュアーＸ、Ｙ、Ｚが、作品Ａ、Ｂ、Ｃを順位付けして

レビュアーＸの順位、Ａ＞Ｂ＞Ｃ
レビュアーＹの順位、Ｂ＞Ａ
レビュアーＺの順位、Ｃ＞Ｂ

　という結果になった。Ａ＞Ｂのとき、ＡはＢより好みだという意味。このデータは、このように表に置き換えられる。

Ｘ	Ａ	Ｂ	Ｃ
Ａ	＼	１	１
Ｂ	０	＼	１
Ｃ	０	０	＼

Ｙ	Ａ	Ｂ	Ｃ
Ａ	＼	０	０
Ｂ	１	＼	０
Ｃ	０	０	＼

Ｚ	Ａ	Ｂ	Ｃ
Ａ	＼	０	０
Ｂ	０	＼	０
Ｃ	０	１	＼

　Ｘの順位付けをみると、ＡはＢより好み、ＢはＣより好み、ＡはＣより好みなので、表にするとこうなる。Ｙ、Ｚも同様。これを全て合計する。

＼	Ａ	Ｂ	Ｃ
Ａ	＼	１	１
Ｂ	１	＼	１
Ｃ	０	１	＼

　このように比較データを集める。今回、レビュアー１人が3作品を順位付けすることで3回分の比較評価データが得られた。100作品を順位付けすれば、比較評価4950回分のデータを得られる。

データ収集はカテゴリー単位で行う。

　ニコニコ動画なんかの場合、カテゴリーごとに動画の形態が大きく変わり、カテゴリーごとに評価基準が変わったりもする。相対好み評価は一次元のスカラーな評価なので、評価基準は出来るだけ揃ってるほうが望ましい。そこで、評価はカテゴリーごとに行う。
　あるレビュアーが、カテゴリーＡ、Ｂが付けられた４つの動画について順位付けして

Ａ１＞Ｂ１＞Ａ２＞Ｂ２

　という結果になった。この場合、表に置き換える際、いったんカテゴリーごとに分割して

Ａ１＞Ａ２
Ｂ１＞Ｂ２

　このようにした上で、カテゴリＡのみの表、カテゴリＢのみの表に置き換える。

Ａ	Ａ１	Ａ２
Ａ１	＼	１
Ａ２	０	＼

Ｂ	Ｂ１	Ｂ２
Ｂ１	＼	１
Ｂ２	０	＼

　そして、それぞれのカテゴリごとに評価値の算出を行う。

カテゴリーが一つの作品に二つ以上付いている場合。

　あるレビュアーが、第一カテゴリーＡ、Ｂおよび第二カテゴリーＸ、Ｙが付けられた４つの動画について順位付けして

ＡＸ＞ＢＸ＞ＡＹ＞ＢＹ

　という結果になった。この場合、カテゴリーごとに、そのカテゴリーが付いた動画を抜き出して

ＡＸ＞ＡＹ
ＢＸ＞ＢＹ
ＡＸ＞ＢＸ
ＡＹ＞ＢＹ

　の四つを作り、それぞれ置き換える

Ａ	ＡＸ	ＡＹ
ＡＸ	＼	１
ＡＹ	０	＼

Ｂ	ＢＸ	ＢＹ
ＢＸ	＼	１
ＢＹ	０	＼

Ｘ	ＡＸ	ＢＸ
ＡＸ	＼	１
ＢＸ	０	＼

Ｙ	ＡＹ	ＢＹ
ＡＹ	＼	１
ＢＹ	０	＼

　そして、それぞれのカテゴリごとに評価値の算出を行う。このとき、カテゴリが複数付いている動画は、評価値も複数持つ事になる。たとえばカテゴリＡおよびＸが付く動画には、「カテゴリＡとしての評価値」と「カテゴリＸとしての評価値」の２つの評価値が付く。

その他

信長の野望シリーズを相対評価
 http://d.hatena.ne.jp/sea_side/20090815/1250318083
ニコニコ動画の偏りの原因を相対評価を使って分析。
http://d.hatena.ne.jp/sea_side/20090813/1250150967

*1:上限や下限を設定することは出来る。評価値が悪い作品を作りたくないなら、下限を設定するのもいいかもしれない。

*2:正確に書くと、推定勝率=1/（1+m^（（相手のレート-自分のレート）/n））

*3:チェスなどで

*4:たとえばこれを、将棋なんかの段級位っぽくしたいなら、nを１、mを3とかにすればそれっぽくなるんじゃないかな。これだと1段上の人の勝率は3/4になる、って感じ。

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	０	０	＼	10
Ｄ	０	０	10	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	１	１	＼	10
Ｄ	１	１	10	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	０
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	１
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	０	０	＼	10
Ｄ	０	０	10	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	１	１	＼	10
Ｄ	１	１	10	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	０
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	１
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	０	０	＼	10
Ｄ	０	０	10	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	10	10	10
Ｂ	10	＼	10	10
Ｃ	１	１	＼	10
Ｄ	１	１	10	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	０
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼

＼	Ａ	Ｂ	Ｃ	Ｄ
Ａ	＼	１	１	１
Ｂ	１	＼	０	０
Ｃ	０	１	＼	０
Ｄ	１	０	０	＼