Archive for the ‘日記’ Category

ベンチマークさんに追いついた(第1回ビッグデータ分析コンテスト)

木曜日, 1月 7th, 2016

昨年末から続いてる第1回ビッグデータ分析コンテストなお話。私が参加した12/24時点では人数30数名だったんですが、1/7には倍以上の77名にまで膨れ上がっていました。ランキングは50位までしか見れないらしく、スコアの低かった私はランク外に。しくしく。目標にしてたベンチマークさんも消えてます。言い換えると、上位50名は全員ベンチマークに買ってるということですね。

コンテスト自体は1/15まで続いています。が、私自身がとれる時間としては恐らく今日が最後になるということで少し頑張ってみました。

今回はモデルを条件分けして用意してみます。具体的には「平日用のモデル」「週末用のモデル」「連休用のモデル」のように「推定対象日が旅行客増えやすい日かどうか」を区別しやすくしてみました。これで「推定日が平日なら平日なりの推定結果」「休日なら休日なりの推定結果」をより精度高く推定できるだろうと。連休判定の際には「火曜日が祝祭日なら月曜日も休む人よね(->月曜日を連休に割り当て)」といった微調整もしてます。

結果としては、「平日/週末/連休」の3つに分けたタイプでは小さな改善に留まり、「平日/休日」の2つに分けたタイプでは大きな改善に繋がりました。ただの週末と連休を区別するタイプであまり改善しなかった理由は、連休に該当する事例が少なすぎたので傾向を学習しづらかったということだろうと想像します。90次元もあるのに事例数件しかないし。

「平日/休日」の2タイプに分けたモデルでようやく目標にしていたベースライン(1.76417)を越えて、1.747002386094990になりました。50位丁度で掲載されてるランキングでは最下位ですがw(微調整してたら送信回数上限に引っ掛かったので、サイト上のスコアは少し悪い奴が残ってます)

これもすぐ抜かれて見れなくなるんだろうな〜。


[ 過去ログ ]

ゼミ始め

水曜日, 1月 6th, 2016

昨晩はかなりの大降りでしたが貯水率見る限りではそんなに影響無かったらしい。ダムがある所では降ってなかったのか。

毎週水曜日は会議&ゼミで疲れた体をお笑い(お茶会とも言う)で癒す一日です。今日も豊作でした。

卒論・修論仕上げシーズンだけでなく、目下のイベントとしてはIPSJ全国大会の原稿〆切が明日。NAL研は例年進学予定の学部生を中心として発表してもらっていて、今回は学部生3人+院生1名が予定。うち学部生1名は昨年末時点で相談してたのですがやっぱり今回は難しそうだということで見送ることに。その分卒論&進学後に頑張ってもらうということで。1名は既に仕上げ終了。2名は現在修正中ということで、どうにか出すだけならば形にはなるのかなという状態らしい。

仕事始め

火曜日, 1月 5th, 2016

時間指定のあるタスクはデータマイニング班と、その時間帯だと困ると言っても入れられてしまった会議ぐらいで、それ以外は年末年始に溜まってた事務仕事しつつIPSJ全国大会の予稿チェックするぐらいのスロースタートな日でした。

実験の方はそろそろ成果物仕上げを見据えて計画立てようというお話と、一部のグループが取り組もうとしてる割とコスト大きめなタスクへのTips話したぐらいか。厳密には違うけど一種のベクトル量子化に近いニーズともいえるタスクで、特徴抽出から手をつけようというお話。

予稿コメントは直接口で言った方が伝わる部分もあるかなと、実験終了後に研究室除いてみたものの言いたい人はきてないかタイミング悪かったらしい。ま、仕方ない。

学科のパスワード周りで(個人的に)トラブル起きてたんですが、どうやらある条件に引っ掛かった人だけにおきてた症状らしい。みんな大丈夫かー。

2015年度/情報工学実験2/探索アルゴリズム1の口頭試問日調整

火曜日, 1月 5th, 2016

最終更新日: 2016/02/04, 08:33

探索アルゴリズム1の口頭試問日調整用の記事です。
「空き時間目安」を参照の上、「口頭試問希望の手順」に沿って調整してください。
便宜上1月末まで期日を記入していますが、レポート提出締め切り(月曜クラスは1/14(木)、金曜クラスは1/18(月))から1週間程度を目安に終えるようにしてください。
後ろになるほど期末試験期間と被りやすくなりますので、その前には終えるようにしましょう。


口頭試問希望の手順

(1) レポートを提出(サーバにアップロード)する。
(2) メールで提出報告する際に、空き時間目安を参照の上、希望日&時間帯を申請する。
 提出時点で希望日時を調整できていない場合には後日申請でも構いません。
 同様に、既に提出済みのグループは別途メール申請してください。
 なお、原則としてグループ単位での実施です。
 どうしても全員が揃う日程で調整できない場合には個別相談ください。
(3) 特に問題無ければ、私から承認メールを返信します。
(4) 予約時間帯にグループメンバ全員で口頭試問。(約20分程度。長いと30分オーバーになることも)
 *場所は當間部屋(705室)です。
 *当日は予め提出されたレポート(PDF)を見えるように準備します。
  用紙等の準備は不要です。(追加したい資料があれば電子データで提出ください)


空き時間目安

下記はあくまでも目安です。変更が入る都度変更していきますが、下記時間帯で対応できないこともありますので、ご了承ください。
便宜上「2時限目」を開始時間にしていますが、1時限目での対応も適宜調整しますので希望するグループがいたら相談してください。また、(センター試験期間を除き)土日の希望があれば検討しますので相談ください。

1/6(水), 2時限目
1/7(木), 2〜5時限目
1/8(金), NG

1/11(月), 成人の日
1/12(火), 2〜3時限目
1/13(水), 2〜4時限目
1/14(木), 2〜4時限目
1/15(金), 2〜5時限目 (センター試験準備日のため終日休講日)
 10:20-10:35, 月2(5階会議室)
 10:35-11:05, 月6(5階会議室)
(1/16, 17: センター試験)

1/18(月), NG
1/19(火), 2〜3時限目
 10:20-10:40, 月4
1/20(水), 2時限目
1/21(木), 2〜4時限目->NG(大学院入試のため)
 12:50-13:05, 月5->再調整
 13:10-13:30, 月8->再調整
 13:30-13:50, 金5->再調整
1/22(金), 2〜4時限目
 13:00-13:20, 月7
 13:20-13:40, 月8
 14:40-15:00, 月3

1/25(月), 2〜5時限目
 10:20-10:40, 金6
 14:20-14:40, 金5
 14:40-15:00, 金4
 16:20-16:40, 月5
1/26(火), 2時限目
 10:20-10:40, 金8
1/27(水), 2時限目
 10:20-10:40, 金2
1/28(木), 2〜5時限目
1/29(金), 2〜5時限目
 12:50-13:10, 金11
 13:10-13:30, 金10

1/30(土), NG

2/1(月), 2〜5時限目
2/2(火), 2〜3時限目
2/3(水), 2〜4時限目
2/4(木), 3時限目(14:00まで)
2/5(金), 2〜5時限目
 金9, 16:30-16:50
 月9, 17:00-17:20


口頭試問未実施グループのリスト

>未実施
月9
金9

>終了(search1)
月2,3,4,5,6,7,8
金2,4,5,6,8,10,11


メモ

提出状況一覧(メール報告があった分)。
下記の日付&時刻は、レポートPDFファイルのタイムスタンプです。

>探索アルゴリズム1
月2: 1/14, 18:36 -> 1/25, 17:18
月3: 1/13, 04:24 -> 1/22, 15:25
月4: 1/14, 23:34 -> 1/26, 21:44
月5: 1/12, 16:56
月6: 1/14, 19:35 -> 1/17, 18:44
月7: 1/14, 23:31 -> 1/31, 20:04
月8: 1/14, 17:35
月9: 1/14, 18:49
金2: 1/18, 23:03
金4: 1/18, 21:57 -> 1/31, 01:13
金5: 1/18, 18:34 -> 1/26, 16:35
金6: 1/18, 19:42 -> 1/25, 12:12
金8: 1/18, 23:52 -> 1/28, 19:37
金9: *相談あり -> 2/3, 13:05
金10: 1/18, 23:57 -> 1/19, 14:12
金11: 1/18, 22:49 -> 1/30, 10:54

>探索アルゴリズム2
月2: 1/14, 18:26 -> 1/18, 16:58
月3: 1/13, 04:22
月4: 1/14, 23:34
月5: 1/12, 16:34
月6: 1/14, 19:24 -> 1/17, 19:00
月7: 1/14, 23:41
月8: 1/14, 18:56
月9: 1/14, 22:54
金2: 1/18, 23:00
金4: 1/18, 17:00
金5: 1/18, 18:29
金6: 1/18, 20:21
金8: 1/18, 23:51
金9: *相談あり -> 2/3, 13:12
金10: 1/18, 21:21
金11: 1/18, 23:23

やっとこさ失効状態から回復

月曜日, 1月 4th, 2016

運転免許な話。てんかんに伴う「やむを得ず失効」という状態が続いていましたが、本日ようやく免許更新することができました。予想してましたが一般よりも当日手順(窓口あちこち巡るツアー)が多かったけど、午後イチの講習を受けるつもりで昼前に手続き済ませるつもりで出かけたのでスムーズに終われました。ということで1年ほど続いていた免許失効状態が回復しました。普段運転するつもりはないのだけど、あると便利だよねということで。


年末年始にクリアしたタスクは以下の通り。スマフォになってから電子書籍読みやすくなって籠り気味だな。

みんな大好き特異値分解(第1回ビッグデータ分析コンテスト)

木曜日, 12月 31st, 2015

今年最後の第1回ビッグデータ分析コンテスト記事です!良いお年を!(忘れる前に書く人)

年の瀬だしということで試すこと自体は簡単な特異値分解を使った次元圧縮をやってみました。気持ち的には「ノイズ除去」ぐらいのつもりです。適用したのは今の所一番良かったモデルをベースに、

 元入力:宿泊数過去90日分(90次元)
 ->SVDで10, 20, 40, 60, 80次元に圧縮。
 出力:翌日の宿泊数(総数、訪日外国人宿泊者数) *元のまま

としてみました。結果的には上記の中では60次元がベストで、スコア1.8台勢力の中ではトップになりました。(サイト上では2番目になってるけど、1日5回までしか提出できなかったのでベストではないスコアが残ってます)

それにしても1回目のスコア提出でかなり高いスコア出してる人がちらほらいるのだけど、何をどうやってるんだぜ?


[ 過去ログ ]

闇雲に属性を増やすことの限界(第1回ビッグデータ分析コンテスト)

水曜日, 12月 30th, 2015

第1回ビッグデータ分析コンテストでの観光宿泊数推測するやつですが、前回の近傍法回帰(KNR)(入出力:過去90日分を入力として1日未来を予測)するモデルを全28ケースに適用した所、スコアが約1.84へと大幅な改善に。宿泊数データそのものだけから推測するモデルに拘ってたのは「結果的にはこの数値に様々な要因が含まれているから」なんですが、それでもここまでいくのは予想外でした。ランキング的には大分低いんだけど(ぉぃ)。ちなみに順位もあまり変わっていません(数人抜いたぐらい)が、新規参加者が増えたおかげで下にはユーザが増えました。どういうモデル使ってるんだろう。

今回は、一先ず宿泊数データから離れて別属性も加えてみるかと試しにセンサーデータ(今回は日々の平均気温)で季節感を強化してみました。モデル設計はほぼ一緒で、
 入力:宿泊数過去90日分+平均気温過去90日分
 出力:翌日の宿泊数(総数、訪日外国人宿泊者数)
を年毎にモデル構築してみました。単純に次元数が2倍になってますね。考え方がシンプルなだけに試してみるのもすぐできるだろうと思ってたのですが細かい所でのデバッグに手間取ってて。実はまともにpandas触ってみるの初めてだとか。平均気温とかの提供データに欠落があるとか(あって良いけどドキュメントに書いててよ)。お陰でデバッグしながら勉強になりましたw

と、そこそこ苦労して前述モデルを試してみたものの結果は大して変わらず。良くも悪くもない同等のモデルになっちゃいました。ま、サンプル数には限界があるので時限を増やした所で学習しづらい状況になってるのだとは想像します。

ということで、次は何らかの方法で時限圧縮してみようかなー。もしくは精度無視して面白そうなモデル検討してみるかなー。(そういう部門賞もあるらしい)


[ 過去ログ ]

ゼミ納め

火曜日, 12月 29th, 2015

今年は(連絡の取れない一人を除くと)学部生3人が進学希望ということもあって、卒論仕上げに直接寄与するかはさておき研究ストーリーを今の時期に改めて練り直したいなと。研究テーマは3人ともやりたいテーマを設計するところから着手してて、先行研究調べつつ試行錯誤しながら「やれそうな問題設計」に落とし込んでみてます。一方で今の問題設計は適切なのか、本当にやりたいことにマッチしているのか、見逃してた側面はなかったか、等の疑問が残ってる部分も多いということで改めてブレストし直そうと。マンツーマンでやるよりはもう少し人数増やしてやりたい気もしますが、一先ず1回目のブレストを年内にやろうということでここ数週間やってました。

土台が固まってやることやるだけになったら進捗確認を主体とした討論だけで十分なんですが、学生にとっては始めてやる研究活動でもあるので「どういう位置付けなのか」を体系的に意識する(脳内地図を広げる)ためにも何度かはこういうブレストをする機会をとろうと。1月に入ると修論・卒論追い込みでそれどころじゃなくなってくるし。

ほんのり誤差程度の改善(第1回ビッグデータ分析コンテスト)

月曜日, 12月 28th, 2015

第1回ビッグデータ分析コンテストでの観光宿泊数推測するやつですが、思ってた以上にベースラインが遠い可能性あり。いや、単に「宿泊数以外のデータを無視してる」のが悪いという話はあるんですが、そのデータだけで+簡単なモデルだけでベースラインいけるんじゃないかと見積もってたんですが、実はそうでもないのかな。モデルの設計(入出力、アルゴリズム、パラメータ最適化)が悪いというよりも、ベースライン自体が結構調整されまくったものかもしれない。

取りあえず試してみたのは以下の通り。

  • 12/24時点のスコア(コピペ版): スコア: 2.11849
  • 線形回帰(LinearRegression)(入出力:過去90日分を入力として1日未来を予測)。->スコア: 2.135054318087990(コピペより悪化)
  • 近傍法回帰(KNR)(入出力:同上)。->スコア: 2.116117762457610(コピペから0.04ポイント程度改善)

入力の長さ(過去ログどのぐらいを参照するか)を1ヶ月・2ヶ月・3ヶ月で試してみましたが、その中では「線形回帰だと3ヶ月はかなり悪くなる」けど「近傍法だと3ヶ月が良い」らしい。ちょっと以外。

ちなみに14都市*2ケース=28ケース全てに対しての処理はしてません。1ケースだけをモデルに当てはめてみた結果です。28ケース全て推測するようにすると、もう一桁ぐらいは改善するのかも。


[ 過去ログ ]

この文脈におけるモデルって何?

金曜日, 12月 25th, 2015

2年次の学生実験はオムニバス形式ということもあって、担当する週としない週があります。そのため2年次の実験がない期間は比較的自由時間が増えるのですが、逆に担当する週は準備やら(終わった後のレポート採点やら)で忙しくなります。ここ数年はデザインスクールが11月末にあるのでその前にはなるべく授業入れたくない(自由に動ける時間を増やしたい)ということで、勢いそれが終わった12月以降に学生実験が集中しちゃってます。ということで、今月4週間は実験だけで毎週6コマ。ま、学生への何かしらの切っ掛けになっててくれればそれで良いんですが。


例年とほぼ同じ内容ではあるけども、全く同じということはなくテコ入れしています。タイトルとやや(?)違うことやってたりしますが、よりやりたいことにシフトしてきてるつもり。具体的には機械学習寄りの話と、より抽象的な話としての「モデル」という考え方についての内容に触れるようになってきてます。というのも、学科の学習教育目標で次のような文脈で「モデル化」という話が出てきています。

[課題解決能力と創造性] 情報工学の理論及び技術を総合的に活用し、与えられた制約下で創意工夫により課題を解決する。
G-1: 問題を分析し、モデル化を行い、課題を適切に設定する。
G-2: 与えられた制約の下で、修得した知識と技術を総合して課題を解決するとともに、解決法を適切な評価尺度で評価する。
G-3: 課題解決において創意工夫を行う。

学習教育目標から引用)

その割には、(授業とは無関係に年次指導の一貫としてやった個人面談で話を聞く限りでは)モデル・モデル化という考え方をほぼ誰も説明できないという事実を目の当たりにしちゃいました。それを放置するのはとても忍びないというか我慢ならないので、実験・演習を通してモデルという言葉や考え方に慣れてもらうようにしてみました。

一度や二度やったぐらいで学習効果があるかはともかく、積み重ねの一貫として実験でやってみてるつもりです。何かしらこういう教育自体を実験として設計すると論文にまでできると、理想的何打炉なとは思いつつ、重い腰はあがりません。(駄目)


CXD7P3LUMAAWsiS CXEDrrEUkAELS1O CXDGm-TVAAAROO9.jpg-large

TLで学生がおいしそうなケーキを作ってたので我慢ならずに美味しい物を食べて帰宅。あ、学生から頂いたスターウォーズなチョコも美味しかったです!