ベンチマークさんに追いついた(第1回ビッグデータ分析コンテスト)
昨年末から続いてる第1回ビッグデータ分析コンテストなお話。私が参加した12/24時点では人数30数名だったんですが、1/7には倍以上の77名にまで膨れ上がっていました。ランキングは50位までしか見れないらしく、スコアの低かった私はランク外に。しくしく。目標にしてたベンチマークさんも消えてます。言い換えると、上位50名は全員ベンチマークに買ってるということですね。
コンテスト自体は1/15まで続いています。が、私自身がとれる時間としては恐らく今日が最後になるということで少し頑張ってみました。
今回はモデルを条件分けして用意してみます。具体的には「平日用のモデル」「週末用のモデル」「連休用のモデル」のように「推定対象日が旅行客増えやすい日かどうか」を区別しやすくしてみました。これで「推定日が平日なら平日なりの推定結果」「休日なら休日なりの推定結果」をより精度高く推定できるだろうと。連休判定の際には「火曜日が祝祭日なら月曜日も休む人よね(->月曜日を連休に割り当て)」といった微調整もしてます。
結果としては、「平日/週末/連休」の3つに分けたタイプでは小さな改善に留まり、「平日/休日」の2つに分けたタイプでは大きな改善に繋がりました。ただの週末と連休を区別するタイプであまり改善しなかった理由は、連休に該当する事例が少なすぎたので傾向を学習しづらかったということだろうと想像します。90次元もあるのに事例数件しかないし。
「平日/休日」の2タイプに分けたモデルでようやく目標にしていたベースライン(1.76417)を越えて、1.747002386094990になりました。50位丁度で掲載されてるランキングでは最下位ですがw(微調整してたら送信回数上限に引っ掛かったので、サイト上のスコアは少し悪い奴が残ってます)
これもすぐ抜かれて見れなくなるんだろうな〜。
[ 過去ログ ]
- 12/24時点: ベースライン狙いのつもりだった(スコア: 2.11849)
- 12/28時点: ほんのり誤差程度の改善(スコア: 2.116117762457610)
- 12/30時点: 闇雲に属性を増やすことの限界(スコア: 1.847609627462350)
- 12/31時点: みんな大好き特異値分解(スコア: 1.836236251800440)
- 1/7時点この記事): スコア: 1.747002386094990