ベースライン狙いのつもりだった(第1回ビッグデータ分析コンテスト)

Share on:

第1回ビッグデータ分析コンテストなるものが経産省・文科省・IoT推進ラボらの主催で開催されてるようです。データの利用範囲や時期の問題がなければ学生実験で扱っても良いなと思うんですが、約1ヶ月で〆切だとか、本コンテストへの応募利用以外には使っちゃ駄目とか良くある(?)制約があるのでそうもいかず。とはいえ参加資格は大分緩いので、取りあえず学生向けに告知するだけしてみました。誰かやって見る人いるかなー。

コンテストの内容は、


  • 2014年6月〜2015年5月末までの14都市に関する「観光宿泊数データ」を提供。これらのデータから推測して欲しいのは「2015年6月〜11月末における14都市に関する全観光宿泊者数と訪日外国人宿泊者数」。ちなみに14都市のうち一カ所は石垣です。
  • 関連情報として、(a)ブログ・SNS等で各観光地のキーワードが出現した回数(これも1日毎にカウントされてる)。(b)気温等の「環境センサーネットワークデータ、気象庁データ」。(c)為替データ等も提供されている。
  • 主催側で提供しているデータ以外にも、オープンアクセス可能なデータなら何を利用しても良いっぽい。
  • ランキング結果は随時公開。

というものらしいです。大雑把な傾向(参加者がどういう言語・環境・ツール・手法使ってるか)も一応見れますが、コンテストなだけあって現時点で見れるのは表面的な情報だけですね。

物は試しということでベースライン狙うべく「自分だったらベースラインをどう作るか」という視点でから考えて「単純に2014年データを2015年にコピペし直す」のに加え、曜日毎の傾向はあるだろうから「1日分ズラす」だけしたデータをシェルスクリプトで作成。で、提出した結果がランキングのnaltomaで、35人中34位、スコア2.11849。目標にしてたベンチマークは21位と22位の間で、スコアは1.76417。全然届いてないし(涙)。

どこまで時間取れるかは怪しいけど、思いつく仮説をあれこれ試して遊んでみよう〜。