Microsoft Bingのランキングエンジンをシミュレートし、ランキングを学習します
inspector(検査官、監査人、検閲官、視学、警視正、警部補)
ランキングアルゴリズムは日々進化しています。Googleのサーチエンジンは200以上の特徴量を用いたり色々しています。
これらはGoogleでないと手に入らない特徴量も多数存在しており、容易に、ユーザが最適化できるものではなかったりします
わかりやすいものでは、ドメイン以内にコンテンツが十分に存在し、それがある程度参照されるものであれば、以前あったようにWelqさんのようにコンテンツの内容の是非によらず、ランクアップしてしまうような問題もございました。
意図しない作用をもたらすから、狙ってはいけないなどということはなく、SEOはビジネスにおいて極めて重要な課題です。
SEOでどの要素(サイト規模?テキスト数?キーワードの作り?コンテンツの内容?)などどれにどの程度注力すればいいのか判明したら大変なビジネスインパクトがあります。
ここでは、クリエイティブのキーワード(title, meta, body)で何がどの程度重要か、BingさんやGoogleさんなどを教師データとしたときに、機械学習のアルゴリズムでサイトを、どの程度有益なのか定量化してみようと思います。
Rankingエンジンのランクの傾向を、検索クエリ結果から、ランキンされたサイトの自然言語的特徴から、獲得しようという意図です。
これを行うにあたって1つの制約があります。
-
- ランキングエンジンのリバースエンジニアリングのような行為は認められるのか
- に関して述べると、この行為は、例えばGoogleやBingなどのサーチエンジンの競合を作るという意図がない、広域に解釈すれば、ビジネスでなければよいと言えそうである。例えば今回は、自己研究に基づくので問題がない。
Microsft Bingのランキングエンジンのクエリ(neologdに内在している辞書を利用)することによって、膨大なダイバシティの検索結果が得られます。
検索結果のランキングを見ることにより、同等のランキングエンジンが作成可能であると期待できます
- lambdarank, lightgbmに実装あり
- lambdamart, xgboostに実装あり
資料が全くなく、調査して理解するまで結構かかりました。
ranksvmフォーマットはgroup fileというのが別途必要になっている
- neologdで一般単語をとりだす
- bingでクエリを作成して、ひたすら大量に集める
- 1位=4, 2位=3, 3位=2, 4位=1で、単一ページでないドメイントップのサイトをランキングする
- 言語処理的にtitle, meta, bodyの自然言語でランキングしてみる
(本当はこれ+DeepLearningでやってもいい)
neologdなどからnoun(名詞)を取り出して、それを検索クエリ群にする
import glob
import pickle
import json
nouns = []
for name in glob.glob('mecab-ipadic-neologd/build/*/*.csv'):
f = open(name)
for line in f:
ents = line.strip().split(',')
if '名詞' not in ents:
continue
term = ents[0]
nouns.append(term)
open('nouns.json', 'w').write( json.dumps(nouns, indent=2, ensure_ascii=False) )
$ python3 scrape.py
$ python3 scan_pair.py
$ python3 pair_scrape.py
$ python3 10-parse-htmls.py
$ python3 20-make-vector.py
$ python3 30-index.py
OP7を実行すると学習可能なファイル群が出力されます
(xgboostのバイナリがlibcなどの互換がなくて実行できない場合は、xgboostを再コンパイルしてください)
$ cd rank
$ ./xgb mq_train.conf
map(mean average precision)の略で、平均精度です。pairwiseで評価すると、mapでの評価になります。他の関数のndcgなどはうまく動作しません。なぜ?
1000roundでの精度はこの程度です
[20:36:05] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 936 extra nodes, 1252 pruned nodes, max_depth=36
[20:36:05] [999] test-map:0.721291
学習が完了すると、rank.modelというファイルが出力されます
rank.modelをもちいて未知のクエリに対してランキングすることができます
$ ./xgb mq_predict.conf
[20:51:20] 144775x162216 matrix with 3899318 entries loaded from test.data
[20:51:20] start prediction...
[20:51:49] writing prediction to pred.txt
pred.txtの中にランキングされたファイルが記されています。
ランクの値と、実際のランクはこのように表現され、やはり相関など何も考えなくても単純にランキングが上になりがちな構成という物がありそうです
(予想ランク@左、実測ランク@右)
1.05754 4
-0.578957 2
0.386893 0
0.511651 4
0.683687 2
-0.800342 0
0.642033 4
0.35129 2
0.74472 0
1.39248 4
0.454038 2
0.221512 0
...
単純なSVMなどを利用すると、簡単に配信システムで計算できますが、勾配ブーストのようなランキングはどうなんですかね。決定木なのでC++のファイルなどに変換させるのが良いと思います
ランキング学習はレコメンドエンジンとも深く結びついた技術でマネタイズのコアをなしうる重要なテクノロジーです
AIで自動判別でなんかすごいのを作る前の前哨戦で、レコメンドはぜひとも検討に値するテクノロジーです
勾配ブーストによる特徴量選択の結果を見ることができます
強力に非線形化されているので、これ単独で見ることにあんまり意味はないのですが、どんな特徴量が選ばれやすいのかは視覚的に確認できます
例えばランキングに影響する単語群はtitleとkeywordの重要度が高いのはなるほどという感じなのですが、車なども強いことがわかります
title:インポートファッションアイテム 1989114
title:Sledge 680939
title:バンキング 465049
title:西善 314689
title:メイプルストーリー 188914
keyword: ベローズ の 専門 メーカー 180548
title:ラセン 153568
title:DV 86233
keyword:建築 資材 68659
title:あぜ 68124
body:none 60321
keyword: クロス ロード 51767
title:Shade 46926
title:食通 44635
body:, 43729
keyword:競艇 38174
keyword: 常滑 32940
title:多摩丘陵 29434
title:cherry 25848
body:MAZDA 25152
title:の 23459
title:エビス 23234
title:本田技研工業 23085
body:Jewelry 22530
title:・ 21902
...