面白そう&切っ掛けになる課題を検討するのが一番手間暇がかかる

Share on:

m_20140603183116538d95e417065

昨日はブログを書き忘れていたらしい。実験1の準備してたからが半分、体調不良っぽいのも半分か。そろそろまとまった休みを取りたいな〜。

朝一の複雑研全体ゼミは、The Elements of Statistical Learningの続き。延長しっぱなしの2.4節(統計的決定理論)を導入だけやり、2.7〜2.8.2節あたりをメインにやってました。2.7節は、残差平方和を最小化するだけでは必ずしも良くなるとは限らず、モデルの複雑さ(自由さ)によっては過適応のような局所解に陥ってしまいがちなため、それをなるべく避けるために制約を導入している事例が多々あるよという話。2.8.1節は制約の一例としてペナルティ項、特にroughness penaltyを導入した平滑化する事例。2.8.2節はカーネル法による重み調整、2.8.3節も制約の概要紹介ということでこの辺りは全て「詳細は後の節で話すね」という概要紹介な節でした。これで一先ず2章については延長しまくってる2.4節のみ。終わったら3章に入るかどうか悩んでいるのですが、試しに学生に別の書籍(和書)見せたらこっちが良いというリクエストが。うーん、どうしよっかなー。幸い決定するまでの時間がまだ取れるので、もう暫く考えてみよう。

実験1/スクリプトプログラミング(シェルスクリプト)は、例年だと2年次の実験1回目でやってるのですが、他の先生が出張と被ってどうしても最初にしたいということで調整。その次にやればよかったかもですが、それを切っ掛けに調整がされちゃったのと、私がやってるテーマは分かり易いから「これやる前にこれが必要な実験はやらないだろう」とか思ってたら、どうやら違ったらしい。しくしく。

やるタイミングが後ろにずれたからという訳でもないですが、ある程度シェルスクリプトな話を他の週でもやってるならということで、ベーシックな話はシンプルに例示&演習する形で終了。便利なコマンドを紹介する所までで100分ぐらい?か。休憩を挟み、今回の課題をやる&解説する時間に。どちらも「TSV保存されたログファイル(今回はツイート関連情報)から必要な箇所を抽出し、数値処理した上でグラフ化せよ」という課題。具体的には、Level 1 では「一日あたりのツイート数をカウントし、ツイート数/日な線グラフを描け(gnuplot)」。Level 2 では「mention map を描け(dot/graphviz)」。というお題。課題を大きく変更した分手間取ったというか予定通り(?)にハマってしまって、それ込みで丁度の時間。なかったらもうちょい余裕もって終われたはずなんだがが。ま、あたふたしてる姿というかトラブルシューティングしてる様子を見れるのも良いよね。