ほんのり誤差程度の改善（第1回ビッグデータ分析コンテスト）

Feb 28, 2015 イベントレポート日記

第1回ビッグデータ分析コンテストでの観光宿泊数推測するやつですが、思ってた以上にベースラインが遠い可能性あり。いや、単に「宿泊数以外のデータを無視してる」のが悪いという話はあるんですが、そのデータだけで＋簡単なモデルだけでベースラインいけるんじゃないかと見積もってたんですが、実はそうでもないのかな。モデルの設計（入出力、アルゴリズム、パラメータ最適化）が悪いというよりも、ベースライン自体が結構調整されまくったものかもしれない。

取りあえず試してみたのは以下の通り。

12/24時点のスコア（コピペ版）: スコア: 2.11849
線形回帰(LinearRegression)（入出力：過去90日分を入力として1日未来を予測）。->スコア: 2.135054318087990（コピペより悪化）
近傍法回帰(KNR)（入出力：同上）。->スコア: 2.116117762457610（コピペから0.04ポイント程度改善）

入力の長さ（過去ログどのぐらいを参照するか）を1ヶ月・2ヶ月・3ヶ月で試してみましたが、その中では「線形回帰だと3ヶ月はかなり悪くなる」けど「近傍法だと3ヶ月が良い」らしい。ちょっと以外。

ちなみに14都市＊2ケース＝28ケース全てに対しての処理はしてません。1ケースだけをモデルに当てはめてみた結果です。28ケース全て推測するようにすると、もう一桁ぐらいは改善するのかも。

[ 過去ログ ]

12/24時点: ベースライン狙いのつもりだった