ほんのり誤差程度の改善(第1回ビッグデータ分析コンテスト)
第1回ビッグデータ分析コンテストでの観光宿泊数推測するやつですが、思ってた以上にベースラインが遠い可能性あり。いや、単に「宿泊数以外のデータを無視してる」のが悪いという話はあるんですが、そのデータだけで+簡単なモデルだけでベースラインいけるんじゃないかと見積もってたんですが、実はそうでもないのかな。モデルの設計(入出力、アルゴリズム、パラメータ最適化)が悪いというよりも、ベースライン自体が結構調整されまくったものかもしれない。
取りあえず試してみたのは以下の通り。
- 12/24時点のスコア(コピペ版): スコア: 2.11849
- 線形回帰(LinearRegression)(入出力:過去90日分を入力として1日未来を予測)。->スコア: 2.135054318087990(コピペより悪化)
- 近傍法回帰(KNR)(入出力:同上)。->スコア: 2.116117762457610(コピペから0.04ポイント程度改善)
入力の長さ(過去ログどのぐらいを参照するか)を1ヶ月・2ヶ月・3ヶ月で試してみましたが、その中では「線形回帰だと3ヶ月はかなり悪くなる」けど「近傍法だと3ヶ月が良い」らしい。ちょっと以外。
ちなみに14都市*2ケース=28ケース全てに対しての処理はしてません。1ケースだけをモデルに当てはめてみた結果です。28ケース全て推測するようにすると、もう一桁ぐらいは改善するのかも。
[ 過去ログ ]
- 12/24時点: ベースライン狙いのつもりだった