ほんのり誤差程度の改善(第1回ビッグデータ分析コンテスト)

Share on:

第1回ビッグデータ分析コンテストでの観光宿泊数推測するやつですが、思ってた以上にベースラインが遠い可能性あり。いや、単に「宿泊数以外のデータを無視してる」のが悪いという話はあるんですが、そのデータだけで+簡単なモデルだけでベースラインいけるんじゃないかと見積もってたんですが、実はそうでもないのかな。モデルの設計(入出力、アルゴリズム、パラメータ最適化)が悪いというよりも、ベースライン自体が結構調整されまくったものかもしれない。

取りあえず試してみたのは以下の通り。

  • 12/24時点のスコア(コピペ版): スコア: 2.11849
  • 線形回帰(LinearRegression)(入出力:過去90日分を入力として1日未来を予測)。->スコア: 2.135054318087990(コピペより悪化)
  • 近傍法回帰(KNR)(入出力:同上)。->スコア: 2.116117762457610(コピペから0.04ポイント程度改善)

入力の長さ(過去ログどのぐらいを参照するか)を1ヶ月・2ヶ月・3ヶ月で試してみましたが、その中では「線形回帰だと3ヶ月はかなり悪くなる」けど「近傍法だと3ヶ月が良い」らしい。ちょっと以外。

ちなみに14都市*2ケース=28ケース全てに対しての処理はしてません。1ケースだけをモデルに当てはめてみた結果です。28ケース全て推測するようにすると、もう一桁ぐらいは改善するのかも。


[ 過去ログ ]