Archive for the ‘講義/実験’ Category

台風12号(弱)、PD2、NAL研週ゼミ

木曜日, 7月 31st, 2014

m_2014073102325253d9aad431ab0

台風12号が近づいてましたが、先日の台風とはうってかわって弱弱の暴風域が設定されないぐらいの弱さ。傘普通に差せたし。雨は早朝に結構降ってましたがそれ以降はほぼ止んでて、こちらもあまり問題にならず。ということで今回の台風は全く問題ありませんでした。後から追いかけてくる台風11号も、今の所は弱いか。


PD2は、講義としての15回分が終了。期末試験期間には何も無いですがPD1と合同で最終発表会が8/15にあります。うまくスケジュール組んで頑張ってください。

授業中はグループワークしてもらうだけだったのでredmineでのアクティビティ(チケット報告回数)をチェックするスクリプト書いてみたり。

以下、最終発表に向けての注意点を列挙。

  • 当日は時間厳守(発表時間12分+質疑3分だけじゃなく、午前午後の集合も)。
  • 最終課題としての作品を企画すること。忘れてるかもしれませんが、CM完成までいかなくても良いです。ただし、ちゃんと時間かけただけの企画内容を話そう。
  • 前日までに1ページ企画書を提出すること。具体的なフォーマットは近日中に講義ページにて告知されます。
  • 当日用のプレゼンテーションを準備すること。スライドじゃなくても構いません。322教室で全員が見れる形なら。
  • ルーブリックを用いた中間評価がまだの人は早め(中間なので本来はもう閉め切ってます)に。)
  • 最終発表日当日にもルーブリック評価をします。加えて授業評価アンケートも当日。

m_2014073108592953da0571e2d91

NAL研週ゼミは、就職活動で2名、体調不良で1名欠席。欠席して構わないから通常モード時にその分頑張ってください。今日は院生1名+学部生3名という構成だったこともあり、どちらかというと学部生の中間発表に向けた討論がメインでした。少しずつ具体的なテーマに絞り込めつつあるかなー。ま、具体的な内容は追々。

PD2、NAL研週ゼミ、お茶会

木曜日, 7月 24th, 2014

今日はPD2とNAL研ゼミがあるぐらいで隙間時間が多いはずだったのだけど、課題(というかPD2の中間報告)提出状況確認してたら時間なくなるぐらい未提出者が多かったのでこんな感じでまとめて周知するのと、授業中に対応するのとで終了。声かけしたぐらいでは動かないというのは良くある風景で、謎です。それぐらい(やらなくても何とかなるorなんとかならなくても困らない?)にしか思ってないのだろうとも想像しますが。

プロジェクト管理に使ってるredmineを眺めると、グループ毎に使い方/頻度に大分ばらつきが。慣れてもらうことを最優先しての導入なので、頑張ってるグループには少し加点ぐらいはしてみたい。(できるかは?ですが)


週ゼミは一人病欠。来週は2名就職活動らしい。

玉城くんはDropout関連の事例調査しつつ検証実験をしてみているのですが、説明できない実験結果がでてきてしまった。嬉しい誤算という訳でもなく、うまく説明できる仮説が思いつかない。もしどこかで誤りがあるのではなく、今回の結果が正しいのだとしたら、これを説明するだけでも面白い話になるのかも?

慶留間くんは、LDA結果出てくるトピックからセレクトしたものが、どのぐらい妥当かを文書チェックしてみたとのこと。今回のセレクトした文書集合は比較的「まとまってるように見える&アブスト眺めるぐらいでも全体像が把握しやすい」もので、にも拘らずLDAで上位の単語としては欲しい物がなかなかランクインしてない、らしい。まずはベースライン的にTF-IDF噛ましてみようかとか。

平良くんは、先日の個別ゼミで前向きに取り組めそうなのか、来週ぐらいには質問項目をどうにかし終えて、シミュレーションに入りたいとの宣言。

高橋くんは、オンライン・ニュースをパーソナライズしたいという話で、まずは想定環境で得られる入力を列挙し、目標を明確にしてみることに。似たような事例は大量にあるので、面白くなるかどうかはどう差別化するか次第かな。

神谷さんは、文章理解+心理学な話から「印象深いシーンとは?」という疑問に突き当たり、問題設定例としてそこに取り組むのも手か?という話に。やりたいことの一例は、司書さんとやり取りしながら少しずつキーワード引き出し、これだというものに行き着くようなものとか。

松田さんは、「難しい物を分かり易く」ということに取り組みたいということで、その一例として調停要約(どこで折り合い付けられそうか、主張のどこでぶつかってるのか)を調べてみたけどちょっと違う。どちらかというと政治なニュース(=その時々に切り出された一側面情報、スナップ)とかで背景/条例とか知らないから「うん、分からん」みたいな状態をどうにかしたいかな、と。じゃ、具体的にその分からない状況を再現するために実際に記事集めてみて、どこに難しさを感じるのか、どういう先行事例があるか、を調べてみることに。

m_2014072409330053d0d2cd004f8

お茶会はぶくぶく珈琲と共に。ウコンとかゴーヤーとか「え!?」と思えるようなものがブレンドされてるんですが、これがまた良い塩梅に仕上がってて、個人的には沖縄一ウマい珈琲です。

複雑研全体ゼミ、プログラミング3の相談対応、個別ゼミ

火曜日, 7月 22nd, 2014

ここ1,2週間ぐらい「自宅に居ると喉の調子が悪くて鼻水がずるずる。大学で仕事してると少し回復」というのを繰り返しています。あれこれ試してみた感じでは「飲食の偏り」とか「空調付けっぱなし」の問題ではないことをここ1週間で確認。具体的には、普段あまり食べてなかった海産物や肉類、野菜果物類あれこれ食べてみたり、なるべく空調レス(扇風機のみ)で過ごしてみてたのだけど、体調には影響せず。言い換えると、案外空調無しでも過ごせるなとは思った。真昼&寝始めの2時間ぐらいは付けてたけど、それぐらいで何とか。

今は、試しに空調の「部屋掃除モード」とやらをお試し中。天気の良い日に空気入れ替えもしてるから関係無さそうなんだけど、今の所はプラシーボ効果か鼻水も止まってます。ハウスダスト? 掃除だけじゃなくてベッド周りの洗濯とかもやったんだけどな。

今日は朝から複雑研全体ゼミ、プログラミング3の相談対応、個別ゼミ、をしながら空き時間で事務作業したり相談準備したりで早朝からずっと走りっ放しな一日でした。


朝一の全体ゼミは、「統計的機械学習―生成モデルに基づくパターン認識」の3章関連演習、7章&8章。3章関連演習は主成分分析してみた、というお話。この辺りははじめよう多変量解析~主成分分析編~あたりを眺めてイメージしつつ、実際にやってみるのが良いんじゃないかと。

7章「最尤推定法におけるモデル選択」は、最尤推定法にもいくつか種類がある中でどれを選べば良いのかを判断するための基準についての話。どれだけ確率密度関数を近似できたかを表現する「KL情報量」だと、そのまま使うことができない(真の解が分からないと距離を測れない)上に、近似したとしても「複雑なモデルほど良いモデルと判定してしまう」のでそのままKL情報量を使うのはNG。そこでパラメータ数も含めたAIC基準を使いましょうというお話。東工大の資料が分かり易いというか教科書まんまかと。

8章「混合ガウスモデルの最尤推定」は、ガウスモデルを複数組み合わせて(足し合わせて)より複雑な表現を可能にしたモデルの話。複雑なだけあって解を行列演算して求めることが難しく、勾配法やEMアルゴリズムを使って局所的最適解を見つけようという流れ。これも東工大資料参照。


3時限目はプログラミング3関連の相談で、学科システムを学生らで運営している(=いろんな情報をゲットできる)ことを前提として、どういうことがやれそうかという話。具体的に収集しているデータは、誰が(who)、学科LANへの接続している時刻(when)と、どこから(where)接続しているかの情報。whoについては勿論個別に把握できる訳だけど、収集できてるデータからは「誰が同じ部屋に居るか」も分かるし、whenも「収集データのままだけじゃなく、1時間/1日/平日/週末/学期/年間」とか様々なスケールで見ることができるだろうし、whereについても具体的な部屋が分からなくても1〜3年次はかなりの頻度で各々の自習室だろうし、4年次以上は研究室情報追加するだけで分かるだろうし。いくつか例示しつつ、あれこれ粒度を変えて「今どうなってるか」だけじゃなくて「どう変化したか」を可視化することで見えてくるものもあるんじゃない?とか。ただし、グラフ化/可視化することが目的じゃなくて、何か目的があってそれを達成するために必要な可視化が何か、ということを考えよう。手段と目的を取り違えないように。


4時限目は平良くんの個別ゼミで、感情推定のために認知的評価が分かれば良いんじゃね?というストーリーをここ1,2ヶ月?ぐらい続けてて、その認知的評価ってどうやって取ろうかという話であれこれ。小説に限らず「コンテンツを楽しむ」という過程をどうモデル化するかというのが中核にあるのだけど、感想を書かせるみたいなやり方だと「実際に思ってたことを書けない側面を見落としがち」だったり。そこをインタビュー/アンケートとかで積極的に聴きだすアプローチだとバイアスかけ過ぎてしまうこともあるしで一長一短。それでも未知の物を作るのであれば「Demo or Die」とか「アジャイル」なやり方が向いてると思う訳で、「取りあえずやってみようよ」と。やりながら問題出て来たらその都度対応するのが基本だけど、その前に見通し立てたいよねという気持ちも分かるので、ストーリー例を示してみたり。ま、そういう話を根掘り葉掘り時間かけてやれるから個別ゼミの時間は必要だな。

PD2中間発表(進捗確認、ルーブリック評価)、週ゼミ

木曜日, 7月 17th, 2014

明日は諸事情により急遽休みを取ることに。オープンキャンパスの件、自分のタスクは今日で終わらせておいて良かった。

午前はオープンキャンパス関連の事前準備最終タスク。といっても殆ど終わってたのでど忘れしてた印刷物準備と、まとめ役を頼んでいる院生との事前打ち合わせぐらいか。後は明日の会場設営・学科パンフ準備は最初から頼んであるタスクなので、そちらに再依頼するぐらい。いろいろタスク投げまくってますが、去年に比べれば事前周知を工夫してるので関係者への周知度は5割はアップしてると想像。(去年は殆ど周知できてなかったというのが実体だが)


m_2014071702372053c736e0c8c40

PD2の13回目は、進捗確認とルーブリック評価を使って中間評価。ルーブリック評価は「グループ内での相互評価+自己評価+PMからの評価」で平均6〜7件ぐらいの評価をする+受ける形でやってますが、想定では「書くのに6件*2分=12分」、その後の口頭確認で+数分、入力に10分で30分かからないぐらい。だったんですが、結構長引いてたっぽい?。どこで時間かかってたのかも聞きたかったのだけど、進捗確認の方も予定時間よりオーバーしてたので聞けず。ま、ここで手を抜くと中間チェックしてる意味が薄れてしまうので、これぐらいで良いんだろうとは思う。やったことが何も評価されないよりは嬉しいだろうし。


週ゼミでは、例によって院生組みの討論時間が長めなのは仕方ない。テーマ毎/学年毎とか何かで分けるのも手なんだけど、個別ゼミもやってるから一応全員参加で続ける予定。卒研/修論〆切近づく年末年始になるとそんなこと言ってられないかもしれないけども。

玉城くんは、Dropoutに手を加えたバージョンでの謎挙動について「中間層の出力*(1-dropout率)」の部分を落としてみて動作チェックしたという話。一応それっぽくなってるのだけど、逆にそれでは説明できない結果もあってまだ謎が。再来週の予稿〆切にはちょっと厳しそうか。

慶留間くんは、LDAのトピック出力について「妥当っぽいトピックが出力されてるか」を判断する方法として、「文書毎トピック出現率(の推移)」をベースにチェック中ということで、今の所は「妥当っぽい」のがあるらしい。かつ、具体的な文書もチェックしてるので「どういう点で共通してるか」についても検討中。

平良くんは、小説読んだ際に生起される感情は「どういう風に認知していたか(認知的評価)」に応じて決まるはずだという仮定に基づいたモデルを作ろうとしているのだけど、そのために必要な認知的評価をどう獲得するかという点であれこれ苦戦中。

m_2014071709383353c7999925e6a m_2014071709490053c79c0cb3e93 m_2014071710003853c79ec6810a4

お茶会は先週大好評だったレーゲンス再び。うん、やっぱり美味しいです。個人的には先週のやつがより好みだったけど、今回のも捨て難い。


m_2014071711221953c7b1eb6ce76 m_2014071711421553c7b697ebb49

晩ご飯は元気付けるために餃子食べるべく通堂へ。ざるラーメンがあったけど、個人的には微妙だったな。

それと今日思い出したけど、ケーキに含めるのは違和感あるかもだけどオススメ・スイーツで、沖国大近くにあるpippiのコルネはなかなか。まだ一度しか食べてないけどまた食べたい〜。

PD最終発表調整、PD2、個別ゼミ、週ゼミ

木曜日, 7月 10th, 2014

台風で休みになった分のタスクを移行した日ということもあってお疲れモードな一日。謎の事務仕事が投げられて来たのでそのままブーメラン返ししてみたら予想通りまた戻って来てカオス。全く持って意味/意図/必要性が分からない事務仕事を要求されてもなぁ。

CA3E4971

お昼はドライカレー弁当をゲット。たまに出てくるドライカレー弁当/レッドカレー弁当が割と良いのだけど、学食にデフォルト陳列されてるのがヨロシクナイ方なのは何故なのだろう。手間の問題かなとは思うが、弁当が高い訳でもないし。


午前中〜3時限目はPD関連で、名嘉さん主催のPD1<->PD2の擦り合わせや合同最終発表会について調整。発表会では、今回は発表12分+質疑3分=合計15分に短縮してみるのと、部門賞とは別にグランプリ(総合優勝)を設ける予定。それ以外は多分昨年通りになるんじゃないかと。

PD2ではredmine(要学科アカウント)でプロジェクト管理もしてみることに。どこまで使い込めるかは置いとくとして、期日を意識するとか、普段の進捗をその都度報告して積み重ねることに慣れてもらうとか、チケットを通して責任感を意識してもらうとかの方に重きを置いてるかもしれない。ま、タスク管理ツールに慣れてもらうことも良い経験になるでしょう。(学科事務/学部事務もそうして欲しい)


台風に搗ち合って延期した個別ゼミは松田さんの番で、当初想像していたこととキーワード的に書いてみた内容とにズレがある気がするということで、当初やりたかったことから単語を擦り合わせつつターゲットを列挙してみたり、それらをベースに話を派生させる形でどういう問題が設定できそうかを例示してみたり。大目標を建ててその一部分をテーマにするのもありだし、様々な問題に共通するようなパーツをテーマにしても良いし。とあれこれ一人のことについて話合う時間が個別ゼミです。別に他の人も参加して良いよとも伝えてみてますが、今の所一回あったかどうかぐらいか。ま、週ゼミで情報共有できるならそれで良いんですけど。NICT情報分析システム WISDOMはサービス停止中だったらしい。「直接調停要約自動生成システムHERMeS」も公開されてたような気がしたのだけど、ググったり論文眺める限りではURL掲載されてないな。


CA3E4972 CA3E4973

週ゼミは、病欠と就職活動欠席とで2名欠席。これは仕方ないので問題無し。
玉城くんはDropout「しない」ニューロンと組み合わせてみてどうなるかを検証中。常時稼働ユニット数が多すぎると、Dropoutなし状態に近い学習傾向が見れてるので、実装は大丈夫ぽい。
慶留間くんはHDP-LDAで収束するトピック数の妥当性と、そのトピック数を指定してLDAで構築されるトピックの妥当性を検証中。文書毎のトピック存在割合(と言って良いのだろうか)をベースに良し悪しを確認できないか進めてみていて、いくつかサンプルをチェックする限りでは「それっぽい」感じではある。
平良くんは、先行研究での認知的評価をそのまま組み込んでみたアンケート調査をして結果を眺めてみたところ。人数不足なのと、評価項目が粗すぎる(?)のとで認知的評価での共通点が少なすぎるため、このままま感情との相関を見るにはちょっと難しいという印象。
源河くんと松田さんは個別ゼミを咀嚼している段階で、関連文献等含めて少しずつテーマを具体化していくことに。

お茶菓子は高橋くん担当でドイツ菓子レーゲンスでオススメされたものらしい。しっとり感が素晴らしく良かったので、あれこれチェック(制覇)したいところだ。


CA3E4974 CA3E4975

という具合でお疲れモードな日にはご飯準備するのは怠いので、通堂へ。台湾ラーメンは美味しいだけではなく、生姜/ニラたっぷりで元気になる(強壮剤的な意味で)のでオススメ。

就職センター中の人話、PostgreSQLリストア済んだその後

金曜日, 7月 4th, 2014

今日で実験1が入り込んだ忙しい週が終了。実験4コマ、授業1コマ、ゼミ3コマな週でした。別タスクとしては、デザインスクールでのテーマとして設定できそうかの下調べとして就職センターに話を聞けたか。

m_2014070402425753b614b1dc881

実験1/ネットワーク演習1は、レポート課題ではなく実技テストのみで、一応今週出席した人らは大丈夫の模様。欠席者にはメール通知済みですが、今の所一人しか反応ないらしい。もう後半だし、そういうものだろうなとも思うけど、時間も授業料も勿体無いな。

PostgreSQLリストア問題は、一通り解決。結果的には8カ所にエンコード上の問題がありました。思ったより少なくて良かった。ということで後はリストアしたやつに収集スクリプトで追加していくだけ。だと思ってたんですが、これが微妙にうまくいかない。rootで動くことも確認済みなんだけど、cron実行すると動かない。せめてエラーログ吐いて欲しいんだけど。って、そういうスクリプト噛ませば良いな気もするな。でもちょっとこれ以上追求したくない気分なので、週明けまで放置プレイで。


m_2014070402142653b60e02758dd m_2014070403262653b61ee265deb

就職センターではわざわざセンター長を初めとして3人もが時間割いて準備してくれてました。何だか申し訳ない。就職センターとしては、直接的な就職活動支援だけではなくインターンシップ/アドバイザ(キャリアカウンセラー)、その他の企画イベント(例えば企業見学)等の提供を通して「卒業生らの進路決定率(not就職率)」改善に繋げることを目標としているらしい。進路決定率を意識しているのは、「就職率」はちょっとしたマジックナンバーで母集団が卒業人数とイコールではないため。具体的には、昨年度の進路状況として公開している就職率88.3%は「就職を希望していて就職できなかった割合」であって、その隣りにある「その他」の255人は「卒業してるけど就職を希望していない人も含む(公務員/教員志望等も含む)人数」で、進路自体を決定できていない人数がかなりいるという話。

聞きたかった話は「沖縄ならでは」の話について。伝聞では「沖縄の人は辞めやすい」とかありますが、そこら辺の数値/何かしらの体験談や、就職相談等を通した県民特性なりがあれば是非とも、という気持ちで突っついてました。あいにくというか就職センターとして卒業生の追跡調査は困難なのと、企業への質問アンケート等も回答率が悪いために統計的な情報や分析はできていないらしい。ただ、就職活動支援(旅費2.5万支給)に伴う報告書を眺めたり、報告会を開催している限りでは「県外学生のアクティブさに驚いた」ケースが多いらしく、一度参加することで意識に変化が見られる学生が少なくないとのこと。その大きな要因は、沖縄が海に囲まれた小さな島(で競争相手が少ない)ことや、親御さんが必要以上に過保護にしてたり、求人自体が少ないにも関わらず最初から外を知らないので県内指向といった、県民性に根ざした問題かもしれない。という話でした。とにかく「一歩踏み出して外に目を向けよう!(あれこれ手を打ってみるがそもそも学生が来ないケースが多い)」とのこと。うん、そうだよね。B2にブログ課題やらせてるのもその一貫だし。「辞めやすい」については、恐らく事前の企業研究不足によるミスマッチではとのこと。どう調査したら良いか、そもそも調査自体していないことも少なくないとか。


個人ゼミは高橋くんの番で、やりたいといってる情報推薦とはどのようなものか、について少しずつ周辺情報を書き出し、説明し合いながら互いの認識を共有。同じ言葉でも違うことを意味していることが多々あるので、いろいろ表現し直してみるというのが重要。この過程を通してぼんやりしてたイメージを少しずつ具体化していくことに。ただ、最終ゴール自体が決まってる訳ではないので途中からは「具体例を例示」したり、「それらを抽象化することで課題例を提示」したり。テーマに落とし込む所まではやってないですが、参考になるかもしれない文献渡しつつ、咀嚼兼ねて自分なりに整理&再検討してもらうべく宿題として持ち帰り。

m_2014070410320053b682a0bf04f

お疲れモードなので月曜日はお休み。ということで3連休〜。

PD2、NAL研週ゼミ、PostgreSQLリストア時のトラブル

木曜日, 7月 3rd, 2014

今日はPD2とNAL研週ゼミで、合間に昨日のPostgreSQLリストア時のトラブルをチェックしてました。大凡の目処が立って良かった。

PD2の11回目は先週の続き。最終課題「情報工学科のCMを制作」に向けて各自のアイデアを考えて来てもらったのが先週の課題で、今週はそれを持ち寄り互いに披露し合って討論題材とし、目標像に落とし込むというのが目標でした。が、どこまでやれてるのかは謎か。実際問題として「一度決めたはずの目標像が進むにつれて*思ってたのと違う*」とか良くある話だし。それでも、決められた期間(時間)で収めることを前提に計画立てて行動し、躓いたならそれはどこか、何故そうなったのか、を経験して欲しいです。そのための実習形式課題なので。経験せずに済ませるなら適当にレポート書かせて終わりますが、それを求めている授業じゃないです。デザイン(設計)に関連した失敗を含む様々な経験をして欲しい

PMで院生も来てたので河野研/長田研でのmercurial/gitlabの使い方を聞いてみたり。河野研は論文やソース等をmercurialで管理してて、論文ならそのリポジトリを先生に伝えてメール指導/直接pushで指導されたり、印刷して持ってくる場合には赤ペン先生したりとその時々でやりやすい形で指導してるらしい。こういう添削を一通りcommitログ化しておくと、添削システム作成用のデータセットにも使えそうではあるのだけど、明確な良し悪し以外のルール化は難しそう。長田研のこの間の勉強会話は、gitlab上でのコメントを使ってみ遊んだという話だったらしい。


m_2014070309232753b5210fe90d4

週ゼミは久しぶりに全員集合。最近は「まず院生の進捗確認&討論してから4年次に1回以上質問させる」という風にやってみてるのですが、院生にも予想外の質問が出て説明する練習になって良さげらしい。本当は自分からどしどし質問して欲しいのだけど、そうなる切っ掛け作りになるなら強制しても良いか。

NNでの深層学習のDropout周りのアンサンブル学習効果について検証使用としている玉城くんは、まずはDropout率を変更してみての精度チェック。Dropout率が高くなる=稼働するユニット数が減ると「瞬間的な学習効果(1度の重み更新度合い)が高くなる」らしく、ユニット数が減った状態でBPしてるなら確かにそうかという話。当面はDropout自体に手を加えてみての検証をしてみる方向に。

トピックモデルLDA結果へ「分かり易いラベル」を付けようとしている慶留間くんは、HDP-LDAで得られるトピック数と、その際のトピックの中身自体に疑問があるとのことで、自身でチェックできる分かり易いデータセットを構築して再建してみることに。

小説読んだ際の感情を推定しようとしている平良くんは、認知評価を含めた(というか認知的評価を確認できる)アンケートを作成してみたので、検証できそうかを確認するため研究室メンバ内でもやってみてくれという報告。第一被験者になった人はありがとうございます(これからもお願いしますw)。


m_2014070310432753b533cf9434d m_2014070310495953b53557e7dd0

PostgreSQLのリストア問題は、

  • (1) pg_dump 時に owner 関連を含まないように dump させても alter owner するような SQL を出力しやがること。
  • (2) 古いPostgreSQLでのエンコーディング問題の逃げ方を参考に進めると、出力されるエラー行には何も問題が無いこと。(実際にはその前で別のエラーが出てたのだけど、それがなかなか再現しなかったために気付くのに時間がかかった)。
  • (3) pg_restore が素のSQLに対応していない(何でだよ)ので tar でやってたのだけど、エラー箇所が「行(とエンコーディングで問題あるんじゃない?というヒント)」しか出さないこと。(該当行を探すのにいちいち展開+関係しそうなファイル探し+該当行チェック、という手順を踏む必要がある)

で、ようやく問題特定できたので、修正できるようになりました。どのぐらい修正箇所あるか分からないけど、素直に delete しまくった方が早い気がしなくもない。もともと綺麗なデータセットではないので多少データ件数減っても問題無いし。ま、続きは明日やろう。この辺りの問題は MySQL では一度も遭遇したことがないので、個人的にDB構築するなら二度と PostgreSQL は触りたくないな。と思えるぐらいには面倒くさい。。

複雑研全体ゼミ、ネットワーク演習、gitlab勉強会

火曜日, 7月 1st, 2014

火曜日恒例複雑研全体ゼミは「統計的機械学習―生成モデルに基づくパターン認識」の「3章 識別関数の良さを測る基準」と「4章 最尤推定法」を終了。終了したのだけど、イマイチ数式解釈をスルーしがち(ゼロではないけど)なのがちょっと。表面をなぞるだけの読みでは「ふーん」で終わっちゃう。一方で参加者側も質問を遠慮しがちなのもちょっと悲しい。義務づけないとしないというのは、勉強する気が無いということだよなぁ。それでも良いからと強制しても良いんだけど、それは私の主義に反する。主義に拘っても意味無いのだけど。

3章の概要は、最大事後確率則(入力パターンが属する可能性が最も高いカテゴリを選ぶ)、最小誤識別率則(パターンが誤って分類される確率を細小にするように決定する)、ベイズ決定則(誤って識別したときの損失を最小にするように識別する)を数式展開していき、本質的には「最大事後確率則=最小誤識別率則」となること、またベイズ決定則も損失が一定なら一致。その上で計算が複雑になることを避けるために最大事後確率則をチョイスし、p(x|y)をシンプルにするため条件付きでない確率密度関数p(x)を訓練標本から推定する問題として4章以降を進めるよというお話。

4章は最尤推定法の定義と特徴を示しつつ、マハラノビス距離(wkipediaslideshare)の紹介。ガウスモデルのシンプルな形(カテゴリ毎の分散共分散行列Σが等しいと仮定するとフィッシャーの線形判別分析(slideshare)を「訓練標本をガウスモデルで近似することで最尤推定量(μとΣ)を算出し、それから超平面を構成する傾きと切片を算出できるというお話。

良い演習が用意されているのでそれを宿題にしつつ「発表担当者以外も事前学習しよう」と突っ込み入れて終了。


午後は実験1の情報ネットワーク演習1の火曜日組み2週目、動的経路制御と実技テストを終了。ネットワーク演習するようになってから7,8年目?ぐらいですが、(先週)授業終わった直後に再確認したいからといって復習し始めたグループがいたのも、(今週)授業が始まる前に来て復習してたグループがいたのも初めてかも。実技テスト前の動的経路制御な演習や、先週も含めて「いきなり全体を構築するんじゃなくて、小さく設定して動作確認しながら進めよう」と何度も口酸っぱく言ってるつもりなんですが、どうしてもゼロにはならない。教育というのはそういうものなんですけどね。でも、こういう「細かくチェックする」という癖を早めに身につけておかないと、(その人にとって理解の範疇を越える)複雑なシステムに直面すると太刀打ちできないだろうという意味で、これからも言い続けます。


5時限目は、名嘉村研の嘉数先輩によるgitlab (git/github/gitlab) 講座。gitlab を研究室で使い始めてるところが出て来ているらしく、どういう使い方してるのか聞いてみたいということと、1年次の学生から講座開いて欲しいという話を耳にしていたこともあって調整した結果、今日開催してもらえることに。いや、最初は「話を聞く」だけだったんですが、偉大なる嘉数先輩は資料まで準備してくれて話をしてくれました。ありがたいことです。ちなみに長田研での勉強会もあったらしい。こういうのを学科atndか google calender か何かで共有すると良さそうなんだけど、自分から用意するほどでもなく。学生が自主的にやってくれれば良いと思ってるし。でもあった方が良いのだろうなとは思う(シツコイ)。

話を聞いた限りでは、一番のネックは検索性だということが分かった。自前で clone & grep しても良いのだろうけど、それだとリポジトリ横断検索しづらいし。自分でそういうツール作れば良いという話でもあるけど、一方でカスタマイズしすぎると「gitlabのバージョンアップに追従し続けるコスト」もあったりで悩ましい所。そういうのを避けたいというのが一つの理由で、gitlabはどうなんだろうという気持ちで聞いてみたかった訳だし。あと、研究室用途という点では「プロジェクトとは切り離したトップページとしてのwiki機能」も欲しいのだけど、現状では別途pukiwikiなりを用意するか、wiki専用のリポジトリを作ってそれで運用するかみたいな対応になるらしい。gitlab上だと検索できないのでpukiwikiか何かしらのwikiクローンを用意することになりそう。適材適所で使い分ければ良いという話でもあるか。3つ目のネックは通知機能で、「プロジェクトはクローズドだけどcommit log程度の情報をRSS feedで受け取りたい」という微妙なもの。いちいち自分でpullするのは嫌だし、かといって Mail/Twitter なりでいちいち「pushしました」と言われるのも嫌な状況での利用なんですが。具体的には論文指導する時だな。

河野研ではtexというか論文指導もmercurial経由でやってるっぽいのだけど、指導コメントは特に何も考えずpushするだけなんだろうか。diffで見れれば十分という話ではありそうだけど、何か工夫の余地がありそうでもある。

m_2014070110174253b28ac686352

晩ご飯はヘチマたっぷりの味噌汁。適当に白葱加えたのは失敗でした。汁飲む分/香り具合には構わないけど、ネギ自体の味は邪魔だな。ヘチマさんが死んでしまう。

(不定期コラム) こんなレポートは嫌だ

土曜日, 6月 28th, 2014

先日実験1のレポートチェックを終えましたが、今年ならではのという話ではなく、私が教員として大勢の学生を相手にチェックするようになってからずーーーーーーっと続いてる普遍的な傾向。つまりは例年やってるレポート指導。折角なのでまとめておこう。

傾向を大別して「一般的なレポートとしてのおかしさ」と「LaTeX文書としてのコマンド等のおかしさ」に分けてみました。


一般的なレポートとしてのおかしさ

悪い点まで含めて丸々コピペ。
先輩等含めて他人のレポート参照するのは推奨してます。理解して自分で書くなら。理解もせずにコピーするのは「コピー機」でしかなくて、何の勉強にもなっていないのだけど、高い授業料払ってそれで良いの?。電子ファイルは複製しやすいですが、それと同じぐらいコピペ判定も簡単なのを分かっていないのだろうなとも思う。「悪い点」までコピペする(それを採点するコストを他人に強要する)というのは喧嘩を売ってるということだよね?
日本語の文章になっていない。
見出しでもなく本文中に「結果」と一言書いて図表掲載してるだけとか、文章が日本語になっていないというケース。報告書以前の問題なので、まずは文章書けるようになってください。参考文献としては「知へのステップ―大学生からのスタディ・スキルズ」、「大学生のためのリサーチリテラシー入門」とか? いや、まずは「文章で説明しろ」というだけの話なんですが。
句読点の使い方がおかしい。
補足も何もあったものではないですが、文字通り「句読点が無い文章」や「本文中の句読点が不揃い」というケース。個人的なメモなら自由にやってくれて構いませんが、レポート(報告書)ならそれなりの文章を書こう。
パラグラフを意識していない。
ツイートとかの short message 系ツールに慣れ親しんでるから、という訳でもなくこれも昔っからある傾向ですが、パラグラフが存在していないケース。句読点で改行されてることが多いけど、無関係に改行が入ることも。パラグラフで書けないということは、報告書が構造化されていないのと同等なので、意識して(章節や段落という意味で)構造化文書を心がけよう。構造化文書書けない人はプログラミングも苦手だろうなと思う。どう心がけたら良いかの具体例としては、「やればできる 卒業論文の書き方」か「レポートの組み立て方」あたりを一度は読んでみるとか。
本文の無い節がある(箇条書きだけ/図表だけ/本当に何も無い)。
これも見出しだけで言い切ってますが、「2.2 結果」と見出しに加えて図や表はあるもののそれに関する説明文等が本文中に一切無いケース。派生ケースに「自由課題に取り組んでる割には目的/手段を述べずにいきなり結果を示してる」ものも。一般的に、報告を受ける人はエスパーじゃないので文章でストーリーを説明してください。
図表や参考文献を本文中で参照していない。
授業レベルのレポートではそれでも良いかなとも思えるのですが、正式には「どこで参考にしたか」を参照して示すべき。例えば web でリンク張る時に無関係の所にリンクが用意されててもムカつくよね?
図表にタイトルが無い or 同一タイトルの図表がある。
原則として同一タイトルで異なる図表が同一レポート内に存在するというのは不適切。違う意図があって作図したからこそ複数掲載しているはずなので、図表事に適切なタイトルを付けよう。
折れ線グラフ等の軸ラベルが小さすぎて読めない。
ベクター形式になってるなら拡大して読めますが、それでも本文の文字サイズと比べてラベルの文字サイズが小さすぎるなら、改めましょう。誰でも読み易くない報告書は読みたくないよね?
(ソースコードではなく)本文中で用語等をダブルクォーテーションで囲う際に向きを気にしない。
“ここを強調したい”のようなケースでカギ括弧や丸括弧は剥きに気を使うのに、本文中のクォート類で向きを無視する人多数。プログラミング言語では剥きが無いことケースも少なくないからだとは思うけど、文章中ではちゃんと剥きを整えよう。
結果を現在形で書く。
分かった事実は過去形で書こう。関連して、事実とそうでないもの(考察等)は文章から明確に区別できるように書こう。

LaTeX文書としてのコマンド等のおかしさ

texを使う理由は、数式等を綺麗に出力したいからだけではなく、目次生成/図表文献番号の整理等を自動化するためでもあります。例えば、途中で図表を中間に追加したり文献追加したりする度にそのインデックスを自分の手で書き直すのは嫌ですよね?

図表のインデックスを手動で書いている。
図表なら caption で図番号&タイトル付けると共に、label でユニークなラベル名を付けよう。本文中から参照するには ref。参考文献なら bibitem と cite。
PDF/EPSといったベクター形式で作図したのに、PNG等のラスター形式に劣化させたあげくファイルサイズを数十MBにして掲載する。
お願いだから辞めてください。ebbでbounding box情報を抽出して、テンプレートを参考に埋め込めるようになろう。
目次を手動で書いている。
tableofcontents 使おう。勿論、section/subsection 等で見出しを書いていることが前提になります。(こういうのを自動生成するために目印を付けるのが section等のコマンドな訳だ)
section, subection 等を使っていない。
前述の目次にも絡む理由で、見出しにはちゃんとコマンドを使おう。言い換えると見出しと本文を明確に区別しよう。
\\ で改行しまくる。
新しいパラグラフを始めるなら「空行」をいれよう。\\ では「新しく段落が始まる」ということを tex が認識してくれないので、「段落始まりである時下げ(スペース)」を自動で入れてくれません。
本文を verbatim で書く。
気持ちは分かる。けど、それ何の解決にもなってないネ。似たケースに table や何かしら罫線で囲う人も。こうして罫線文化が生まれているのかなぁ。。本文は環境使わずにそのまま書こう。
本文中で記号をエスケープせずに全角で書き直して出力する。
verb なりエスケープするなりして半角のまま記号を出力しよう。

その他:担当教員名の誤り。

(年次指導でもあるのに。しくしく)

胃袋を鷲掴みにされるということ

金曜日, 6月 27th, 2014

昨日の梅雨明け宣言後もまだ高湿度な日が続いていますが、今日は比較的「シンプルに暑い」という天候具合で、本格的な夏日の始まる予感がひしひしと。日傘の有り難みを感じるのは良いけどそれにも限界があって、朝通勤するとまずは汗を拭うなり酷い時にはまず着替えからという状態。何かもう一つ徒歩通勤を快適にするグッズが欲しいが、具体的に何が効果的かは良く分からず。あれこれやっても汗かくのは避けられないから着替えで良いじゃんとも思うし。

CA3E4936

本格的な夏に突入ということでここ数週間は洗濯機の稼働率も高し。夏物のズボンが少な目だったこともあり、買い物ついでに330沿いの青山へ。何気に330をバスで移動するの初めてだったんだけど、どれでも近くを通るだろうということで適当に乗り込み、無事到着。160円だしか待ち時間殆ど無かったしで実用性高いな。折角ここまで来たしということで姜先生に教えてもらった海産物の美味しい居酒屋さん友綱へ。お昼は(この質にしては)めっさ安いのですが、晩ご飯も普通に易かった。これだけの海鮮丼が税込み1,400円ちょっとなら十分安い。〆のアサリの味噌汁も格別。疲れが貯まってるからか、ちょっと泣きそうになった。しくしく(嬉し泣き)。

実験1「情報ネットワーク演習1」の2組目の1日目が終了で、これで忙しい1週間がようやく終わり。一部のグループで「正しく設定しているはずなのに動作しない」らしく物理層からチェックしまくってたが原因不明で。「NICが物理的に死んでる可能性」を潰すために学科LANに繋げると問題無く稼働。その後、もう一度実習用に設定し直したら普通に動きました。うーん?。

オープンキャンパスの方は、会場調整が2件動いているのだけど、回答待ちが続いてて調整できず。勝手に決めても良いんだったら決めちゃうんだけど。しくしく。パネル作って終わったので、確認含めてもう一度突っついてみよう。