闇雲に属性を増やすことの限界（第1回ビッグデータ分析コンテスト）

Feb 28, 2015 イベントレポート休日日記

第1回ビッグデータ分析コンテストでの観光宿泊数推測するやつですが、前回の近傍法回帰(KNR)（入出力：過去90日分を入力として1日未来を予測）するモデルを全28ケースに適用した所、スコアが約1.84へと大幅な改善に。宿泊数データそのものだけから推測するモデルに拘ってたのは「結果的にはこの数値に様々な要因が含まれているから」なんですが、それでもここまでいくのは予想外でした。ランキング的には大分低いんだけど（ぉぃ）。ちなみに順位もあまり変わっていません（数人抜いたぐらい）が、新規参加者が増えたおかげで下にはユーザが増えました。どういうモデル使ってるんだろう。

今回は、一先ず宿泊数データから離れて別属性も加えてみるかと試しにセンサーデータ（今回は日々の平均気温）で季節感を強化してみました。モデル設計はほぼ一緒で、
　入力：宿泊数過去90日分＋平均気温過去90日分
　出力：翌日の宿泊数（総数、訪日外国人宿泊者数）
を年毎にモデル構築してみました。単純に次元数が2倍になってますね。考え方がシンプルなだけに試してみるのもすぐできるだろうと思ってたのですが細かい所でのデバッグに手間取ってて。実はまともにpandas触ってみるの初めてだとか。平均気温とかの提供データに欠落があるとか（あって良いけどドキュメントに書いててよ）。お陰でデバッグしながら勉強になりましたｗ

と、そこそこ苦労して前述モデルを試してみたものの結果は大して変わらず。良くも悪くもない同等のモデルになっちゃいました。ま、サンプル数には限界があるので時限を増やした所で学習しづらい状況になってるのだとは想像します。

ということで、次は何らかの方法で時限圧縮してみようかなー。もしくは精度無視して面白そうなモデル検討してみるかなー。（そういう部門賞もあるらしい）

[ 過去ログ ]

12/24時点: ベースライン狙いのつもりだった（スコア: 2.11849）
12/28時点: ほんのり誤差程度の改善（スコア: 2.116117762457610）
12/30時点(この記事): （スコア: 1.847609627462350）