Archive for the ‘NAL研議事録’ Category

個別ゼミ、下調べ

月曜日, 7月 28th, 2014

空調が壊れたか?と思うぐらい午前中は全く機能していなかった(動作音がするだけ)のだけど、物理層から調べた結果、単にリモコンの電池切れ説が濃厚っぽい。操作中に通常と異なる表示になったり操作を受け付けなくなったり、仕舞には勝手に表示消えてしまったり。電池変えたら素直にリモコン&空調本体が動作するように。良かった良かった。

午前中は個別ゼミで、午後は明日の全体ゼミ準備と、予稿作成に向けた下調べしてたぐらいか。PD2関連の相談対応したり、MEXTスカラーシップ手続き確認したり。ほげほげ。


午前中は玉城くん個別ゼミ。主な話題は前回週ゼミでの謎結果に対する仮説検討と、修論ストーリーの擦り合わせ。NNベースの深層学習で、Dropoutをどう設定するのが適切かとかそのあたりの指針なり改善案なりを見出したいのだけど、Dropout率が学習時とテスト時とで異なる使われ方をしている点(解釈としては理解できる)、層毎のニューロン数に応じて重み初期値にも影響する点(これは理由が分からない)、とかあれこれ謎な点がでてきてあっちいったりこっちいったりの繰り返し。少しずつ明らかになりつつあるのだけど。

PD2、NAL研週ゼミ、お茶会

木曜日, 7月 24th, 2014

今日はPD2とNAL研ゼミがあるぐらいで隙間時間が多いはずだったのだけど、課題(というかPD2の中間報告)提出状況確認してたら時間なくなるぐらい未提出者が多かったのでこんな感じでまとめて周知するのと、授業中に対応するのとで終了。声かけしたぐらいでは動かないというのは良くある風景で、謎です。それぐらい(やらなくても何とかなるorなんとかならなくても困らない?)にしか思ってないのだろうとも想像しますが。

プロジェクト管理に使ってるredmineを眺めると、グループ毎に使い方/頻度に大分ばらつきが。慣れてもらうことを最優先しての導入なので、頑張ってるグループには少し加点ぐらいはしてみたい。(できるかは?ですが)


週ゼミは一人病欠。来週は2名就職活動らしい。

玉城くんはDropout関連の事例調査しつつ検証実験をしてみているのですが、説明できない実験結果がでてきてしまった。嬉しい誤算という訳でもなく、うまく説明できる仮説が思いつかない。もしどこかで誤りがあるのではなく、今回の結果が正しいのだとしたら、これを説明するだけでも面白い話になるのかも?

慶留間くんは、LDA結果出てくるトピックからセレクトしたものが、どのぐらい妥当かを文書チェックしてみたとのこと。今回のセレクトした文書集合は比較的「まとまってるように見える&アブスト眺めるぐらいでも全体像が把握しやすい」もので、にも拘らずLDAで上位の単語としては欲しい物がなかなかランクインしてない、らしい。まずはベースライン的にTF-IDF噛ましてみようかとか。

平良くんは、先日の個別ゼミで前向きに取り組めそうなのか、来週ぐらいには質問項目をどうにかし終えて、シミュレーションに入りたいとの宣言。

高橋くんは、オンライン・ニュースをパーソナライズしたいという話で、まずは想定環境で得られる入力を列挙し、目標を明確にしてみることに。似たような事例は大量にあるので、面白くなるかどうかはどう差別化するか次第かな。

神谷さんは、文章理解+心理学な話から「印象深いシーンとは?」という疑問に突き当たり、問題設定例としてそこに取り組むのも手か?という話に。やりたいことの一例は、司書さんとやり取りしながら少しずつキーワード引き出し、これだというものに行き着くようなものとか。

松田さんは、「難しい物を分かり易く」ということに取り組みたいということで、その一例として調停要約(どこで折り合い付けられそうか、主張のどこでぶつかってるのか)を調べてみたけどちょっと違う。どちらかというと政治なニュース(=その時々に切り出された一側面情報、スナップ)とかで背景/条例とか知らないから「うん、分からん」みたいな状態をどうにかしたいかな、と。じゃ、具体的にその分からない状況を再現するために実際に記事集めてみて、どこに難しさを感じるのか、どういう先行事例があるか、を調べてみることに。

m_2014072409330053d0d2cd004f8

お茶会はぶくぶく珈琲と共に。ウコンとかゴーヤーとか「え!?」と思えるようなものがブレンドされてるんですが、これがまた良い塩梅に仕上がってて、個人的には沖縄一ウマい珈琲です。

複雑研全体ゼミ、プログラミング3の相談対応、個別ゼミ

火曜日, 7月 22nd, 2014

ここ1,2週間ぐらい「自宅に居ると喉の調子が悪くて鼻水がずるずる。大学で仕事してると少し回復」というのを繰り返しています。あれこれ試してみた感じでは「飲食の偏り」とか「空調付けっぱなし」の問題ではないことをここ1週間で確認。具体的には、普段あまり食べてなかった海産物や肉類、野菜果物類あれこれ食べてみたり、なるべく空調レス(扇風機のみ)で過ごしてみてたのだけど、体調には影響せず。言い換えると、案外空調無しでも過ごせるなとは思った。真昼&寝始めの2時間ぐらいは付けてたけど、それぐらいで何とか。

今は、試しに空調の「部屋掃除モード」とやらをお試し中。天気の良い日に空気入れ替えもしてるから関係無さそうなんだけど、今の所はプラシーボ効果か鼻水も止まってます。ハウスダスト? 掃除だけじゃなくてベッド周りの洗濯とかもやったんだけどな。

今日は朝から複雑研全体ゼミ、プログラミング3の相談対応、個別ゼミ、をしながら空き時間で事務作業したり相談準備したりで早朝からずっと走りっ放しな一日でした。


朝一の全体ゼミは、「統計的機械学習―生成モデルに基づくパターン認識」の3章関連演習、7章&8章。3章関連演習は主成分分析してみた、というお話。この辺りははじめよう多変量解析~主成分分析編~あたりを眺めてイメージしつつ、実際にやってみるのが良いんじゃないかと。

7章「最尤推定法におけるモデル選択」は、最尤推定法にもいくつか種類がある中でどれを選べば良いのかを判断するための基準についての話。どれだけ確率密度関数を近似できたかを表現する「KL情報量」だと、そのまま使うことができない(真の解が分からないと距離を測れない)上に、近似したとしても「複雑なモデルほど良いモデルと判定してしまう」のでそのままKL情報量を使うのはNG。そこでパラメータ数も含めたAIC基準を使いましょうというお話。東工大の資料が分かり易いというか教科書まんまかと。

8章「混合ガウスモデルの最尤推定」は、ガウスモデルを複数組み合わせて(足し合わせて)より複雑な表現を可能にしたモデルの話。複雑なだけあって解を行列演算して求めることが難しく、勾配法やEMアルゴリズムを使って局所的最適解を見つけようという流れ。これも東工大資料参照。


3時限目はプログラミング3関連の相談で、学科システムを学生らで運営している(=いろんな情報をゲットできる)ことを前提として、どういうことがやれそうかという話。具体的に収集しているデータは、誰が(who)、学科LANへの接続している時刻(when)と、どこから(where)接続しているかの情報。whoについては勿論個別に把握できる訳だけど、収集できてるデータからは「誰が同じ部屋に居るか」も分かるし、whenも「収集データのままだけじゃなく、1時間/1日/平日/週末/学期/年間」とか様々なスケールで見ることができるだろうし、whereについても具体的な部屋が分からなくても1〜3年次はかなりの頻度で各々の自習室だろうし、4年次以上は研究室情報追加するだけで分かるだろうし。いくつか例示しつつ、あれこれ粒度を変えて「今どうなってるか」だけじゃなくて「どう変化したか」を可視化することで見えてくるものもあるんじゃない?とか。ただし、グラフ化/可視化することが目的じゃなくて、何か目的があってそれを達成するために必要な可視化が何か、ということを考えよう。手段と目的を取り違えないように。


4時限目は平良くんの個別ゼミで、感情推定のために認知的評価が分かれば良いんじゃね?というストーリーをここ1,2ヶ月?ぐらい続けてて、その認知的評価ってどうやって取ろうかという話であれこれ。小説に限らず「コンテンツを楽しむ」という過程をどうモデル化するかというのが中核にあるのだけど、感想を書かせるみたいなやり方だと「実際に思ってたことを書けない側面を見落としがち」だったり。そこをインタビュー/アンケートとかで積極的に聴きだすアプローチだとバイアスかけ過ぎてしまうこともあるしで一長一短。それでも未知の物を作るのであれば「Demo or Die」とか「アジャイル」なやり方が向いてると思う訳で、「取りあえずやってみようよ」と。やりながら問題出て来たらその都度対応するのが基本だけど、その前に見通し立てたいよねという気持ちも分かるので、ストーリー例を示してみたり。ま、そういう話を根掘り葉掘り時間かけてやれるから個別ゼミの時間は必要だな。

PD2中間発表(進捗確認、ルーブリック評価)、週ゼミ

木曜日, 7月 17th, 2014

明日は諸事情により急遽休みを取ることに。オープンキャンパスの件、自分のタスクは今日で終わらせておいて良かった。

午前はオープンキャンパス関連の事前準備最終タスク。といっても殆ど終わってたのでど忘れしてた印刷物準備と、まとめ役を頼んでいる院生との事前打ち合わせぐらいか。後は明日の会場設営・学科パンフ準備は最初から頼んであるタスクなので、そちらに再依頼するぐらい。いろいろタスク投げまくってますが、去年に比べれば事前周知を工夫してるので関係者への周知度は5割はアップしてると想像。(去年は殆ど周知できてなかったというのが実体だが)


m_2014071702372053c736e0c8c40

PD2の13回目は、進捗確認とルーブリック評価を使って中間評価。ルーブリック評価は「グループ内での相互評価+自己評価+PMからの評価」で平均6〜7件ぐらいの評価をする+受ける形でやってますが、想定では「書くのに6件*2分=12分」、その後の口頭確認で+数分、入力に10分で30分かからないぐらい。だったんですが、結構長引いてたっぽい?。どこで時間かかってたのかも聞きたかったのだけど、進捗確認の方も予定時間よりオーバーしてたので聞けず。ま、ここで手を抜くと中間チェックしてる意味が薄れてしまうので、これぐらいで良いんだろうとは思う。やったことが何も評価されないよりは嬉しいだろうし。


週ゼミでは、例によって院生組みの討論時間が長めなのは仕方ない。テーマ毎/学年毎とか何かで分けるのも手なんだけど、個別ゼミもやってるから一応全員参加で続ける予定。卒研/修論〆切近づく年末年始になるとそんなこと言ってられないかもしれないけども。

玉城くんは、Dropoutに手を加えたバージョンでの謎挙動について「中間層の出力*(1-dropout率)」の部分を落としてみて動作チェックしたという話。一応それっぽくなってるのだけど、逆にそれでは説明できない結果もあってまだ謎が。再来週の予稿〆切にはちょっと厳しそうか。

慶留間くんは、LDAのトピック出力について「妥当っぽいトピックが出力されてるか」を判断する方法として、「文書毎トピック出現率(の推移)」をベースにチェック中ということで、今の所は「妥当っぽい」のがあるらしい。かつ、具体的な文書もチェックしてるので「どういう点で共通してるか」についても検討中。

平良くんは、小説読んだ際に生起される感情は「どういう風に認知していたか(認知的評価)」に応じて決まるはずだという仮定に基づいたモデルを作ろうとしているのだけど、そのために必要な認知的評価をどう獲得するかという点であれこれ苦戦中。

m_2014071709383353c7999925e6a m_2014071709490053c79c0cb3e93 m_2014071710003853c79ec6810a4

お茶会は先週大好評だったレーゲンス再び。うん、やっぱり美味しいです。個人的には先週のやつがより好みだったけど、今回のも捨て難い。


m_2014071711221953c7b1eb6ce76 m_2014071711421553c7b697ebb49

晩ご飯は元気付けるために餃子食べるべく通堂へ。ざるラーメンがあったけど、個人的には微妙だったな。

それと今日思い出したけど、ケーキに含めるのは違和感あるかもだけどオススメ・スイーツで、沖国大近くにあるpippiのコルネはなかなか。まだ一度しか食べてないけどまた食べたい〜。

全体ゼミ、個別ゼミ、#長田研勉強会

火曜日, 7月 15th, 2014

週末から昨日にかけての3連休は喉にくる風邪で体調回復に努めるために引き蘢ってました。しくしく。本当は引き蘢るの楽しいけど、半強制されると気持ち的にはちょっとね。で、今日から通常業務してた訳ですが、隣室の岡崎先生も大分喉の調子が悪い。何かそういうタイプの風邪(?)が流行ってるのかしら。体調第一に頑張りましょう。(体調悪い時に休むのは構わないから、そうじゃないときは取り戻すぐらい頑張ってくれ>休む人)


朝一は先週台風でお流れになった複雑研全体ゼミで、今回は「統計的機械学習―生成モデルに基づくパターン認識」の4章の演習、5章「最尤推定法の理論的性質」、6章「線形判別分析による手書き文字認識」。

4章の演習は正規分布に従って生成したサンプルを対象として最尤推定するというもので、サンプル数の変化に王子で推定結果がどう変わるかを眺めるというシンプルなタスク。教科書のコードはOctaveだと古過ぎる(教科書はOctave2.x, 現バージョンは3.x)らしく、そこで手こずったらしい。バージョン重要。

5章「最尤推定法の理論的性質」は、一致性(サンプル数が無限に多い時に最適な推定量が得られる)、漸近不偏性(サンプル数が無限に多い時にバイアスがゼロに確率収束)、漸近有効性(バリアンスの有効推定量の下界がクラメール・ラオの不等式で与えられる)、漸近正規性(サンプル数が十分に多いとき推定量が近似的に正規分布に従う)なお話。「これらを満たしてるとどう嬉しいのか」とか、現実の問題例を挙げて「必ずしもサンプル数が大量にあってからといって適切に推定できるとは限らない」とか、あれこれ。

6章「線形判別分析による手書き文字認識」は、具体的なデータセットを使って(最尤推定に基づいた)線形判別分析をしようというお話。分散共分散行列は全カテゴリで等しいと仮定している分、コードが易しくなってるっぽい。


m_2014071502344253c49342e4eee

午後の個別ゼミは源河くんで、もともとやりたかったことをベースに話してもらい、具体的にどういうことかを事例列挙。それをまとめたり具体化したりを行きつ戻りつしながら問題設定例へ。今の所、キーワードになりそうなのは「支援」?。

その後はいくつか事務処理しつつ、オープンキャンパスの書類作成。後は印刷準備とまとめ役お願いする学生との打ち合わせぐらいかな。


#長田研勉強会なるハッシュタグで勉強会告知等やってるらしい。どんなことやってるかはRSSの全体RSS眺めてみれば分かるかも。こういう情報はどしどし共有(探しやすく)すると良いんじゃないかと。勉強会に参加するだけじゃ意味無いけど、切っ掛けには良いし。

PD最終発表調整、PD2、個別ゼミ、週ゼミ

木曜日, 7月 10th, 2014

台風で休みになった分のタスクを移行した日ということもあってお疲れモードな一日。謎の事務仕事が投げられて来たのでそのままブーメラン返ししてみたら予想通りまた戻って来てカオス。全く持って意味/意図/必要性が分からない事務仕事を要求されてもなぁ。

CA3E4971

お昼はドライカレー弁当をゲット。たまに出てくるドライカレー弁当/レッドカレー弁当が割と良いのだけど、学食にデフォルト陳列されてるのがヨロシクナイ方なのは何故なのだろう。手間の問題かなとは思うが、弁当が高い訳でもないし。


午前中〜3時限目はPD関連で、名嘉さん主催のPD1<->PD2の擦り合わせや合同最終発表会について調整。発表会では、今回は発表12分+質疑3分=合計15分に短縮してみるのと、部門賞とは別にグランプリ(総合優勝)を設ける予定。それ以外は多分昨年通りになるんじゃないかと。

PD2ではredmine(要学科アカウント)でプロジェクト管理もしてみることに。どこまで使い込めるかは置いとくとして、期日を意識するとか、普段の進捗をその都度報告して積み重ねることに慣れてもらうとか、チケットを通して責任感を意識してもらうとかの方に重きを置いてるかもしれない。ま、タスク管理ツールに慣れてもらうことも良い経験になるでしょう。(学科事務/学部事務もそうして欲しい)


台風に搗ち合って延期した個別ゼミは松田さんの番で、当初想像していたこととキーワード的に書いてみた内容とにズレがある気がするということで、当初やりたかったことから単語を擦り合わせつつターゲットを列挙してみたり、それらをベースに話を派生させる形でどういう問題が設定できそうかを例示してみたり。大目標を建ててその一部分をテーマにするのもありだし、様々な問題に共通するようなパーツをテーマにしても良いし。とあれこれ一人のことについて話合う時間が個別ゼミです。別に他の人も参加して良いよとも伝えてみてますが、今の所一回あったかどうかぐらいか。ま、週ゼミで情報共有できるならそれで良いんですけど。NICT情報分析システム WISDOMはサービス停止中だったらしい。「直接調停要約自動生成システムHERMeS」も公開されてたような気がしたのだけど、ググったり論文眺める限りではURL掲載されてないな。


CA3E4972 CA3E4973

週ゼミは、病欠と就職活動欠席とで2名欠席。これは仕方ないので問題無し。
玉城くんはDropout「しない」ニューロンと組み合わせてみてどうなるかを検証中。常時稼働ユニット数が多すぎると、Dropoutなし状態に近い学習傾向が見れてるので、実装は大丈夫ぽい。
慶留間くんはHDP-LDAで収束するトピック数の妥当性と、そのトピック数を指定してLDAで構築されるトピックの妥当性を検証中。文書毎のトピック存在割合(と言って良いのだろうか)をベースに良し悪しを確認できないか進めてみていて、いくつかサンプルをチェックする限りでは「それっぽい」感じではある。
平良くんは、先行研究での認知的評価をそのまま組み込んでみたアンケート調査をして結果を眺めてみたところ。人数不足なのと、評価項目が粗すぎる(?)のとで認知的評価での共通点が少なすぎるため、このままま感情との相関を見るにはちょっと難しいという印象。
源河くんと松田さんは個別ゼミを咀嚼している段階で、関連文献等含めて少しずつテーマを具体化していくことに。

お茶菓子は高橋くん担当でドイツ菓子レーゲンスでオススメされたものらしい。しっとり感が素晴らしく良かったので、あれこれチェック(制覇)したいところだ。


CA3E4974 CA3E4975

という具合でお疲れモードな日にはご飯準備するのは怠いので、通堂へ。台湾ラーメンは美味しいだけではなく、生姜/ニラたっぷりで元気になる(強壮剤的な意味で)のでオススメ。

就職センター中の人話、PostgreSQLリストア済んだその後

金曜日, 7月 4th, 2014

今日で実験1が入り込んだ忙しい週が終了。実験4コマ、授業1コマ、ゼミ3コマな週でした。別タスクとしては、デザインスクールでのテーマとして設定できそうかの下調べとして就職センターに話を聞けたか。

m_2014070402425753b614b1dc881

実験1/ネットワーク演習1は、レポート課題ではなく実技テストのみで、一応今週出席した人らは大丈夫の模様。欠席者にはメール通知済みですが、今の所一人しか反応ないらしい。もう後半だし、そういうものだろうなとも思うけど、時間も授業料も勿体無いな。

PostgreSQLリストア問題は、一通り解決。結果的には8カ所にエンコード上の問題がありました。思ったより少なくて良かった。ということで後はリストアしたやつに収集スクリプトで追加していくだけ。だと思ってたんですが、これが微妙にうまくいかない。rootで動くことも確認済みなんだけど、cron実行すると動かない。せめてエラーログ吐いて欲しいんだけど。って、そういうスクリプト噛ませば良いな気もするな。でもちょっとこれ以上追求したくない気分なので、週明けまで放置プレイで。


m_2014070402142653b60e02758dd m_2014070403262653b61ee265deb

就職センターではわざわざセンター長を初めとして3人もが時間割いて準備してくれてました。何だか申し訳ない。就職センターとしては、直接的な就職活動支援だけではなくインターンシップ/アドバイザ(キャリアカウンセラー)、その他の企画イベント(例えば企業見学)等の提供を通して「卒業生らの進路決定率(not就職率)」改善に繋げることを目標としているらしい。進路決定率を意識しているのは、「就職率」はちょっとしたマジックナンバーで母集団が卒業人数とイコールではないため。具体的には、昨年度の進路状況として公開している就職率88.3%は「就職を希望していて就職できなかった割合」であって、その隣りにある「その他」の255人は「卒業してるけど就職を希望していない人も含む(公務員/教員志望等も含む)人数」で、進路自体を決定できていない人数がかなりいるという話。

聞きたかった話は「沖縄ならでは」の話について。伝聞では「沖縄の人は辞めやすい」とかありますが、そこら辺の数値/何かしらの体験談や、就職相談等を通した県民特性なりがあれば是非とも、という気持ちで突っついてました。あいにくというか就職センターとして卒業生の追跡調査は困難なのと、企業への質問アンケート等も回答率が悪いために統計的な情報や分析はできていないらしい。ただ、就職活動支援(旅費2.5万支給)に伴う報告書を眺めたり、報告会を開催している限りでは「県外学生のアクティブさに驚いた」ケースが多いらしく、一度参加することで意識に変化が見られる学生が少なくないとのこと。その大きな要因は、沖縄が海に囲まれた小さな島(で競争相手が少ない)ことや、親御さんが必要以上に過保護にしてたり、求人自体が少ないにも関わらず最初から外を知らないので県内指向といった、県民性に根ざした問題かもしれない。という話でした。とにかく「一歩踏み出して外に目を向けよう!(あれこれ手を打ってみるがそもそも学生が来ないケースが多い)」とのこと。うん、そうだよね。B2にブログ課題やらせてるのもその一貫だし。「辞めやすい」については、恐らく事前の企業研究不足によるミスマッチではとのこと。どう調査したら良いか、そもそも調査自体していないことも少なくないとか。


個人ゼミは高橋くんの番で、やりたいといってる情報推薦とはどのようなものか、について少しずつ周辺情報を書き出し、説明し合いながら互いの認識を共有。同じ言葉でも違うことを意味していることが多々あるので、いろいろ表現し直してみるというのが重要。この過程を通してぼんやりしてたイメージを少しずつ具体化していくことに。ただ、最終ゴール自体が決まってる訳ではないので途中からは「具体例を例示」したり、「それらを抽象化することで課題例を提示」したり。テーマに落とし込む所まではやってないですが、参考になるかもしれない文献渡しつつ、咀嚼兼ねて自分なりに整理&再検討してもらうべく宿題として持ち帰り。

m_2014070410320053b682a0bf04f

お疲れモードなので月曜日はお休み。ということで3連休〜。

PD2、NAL研週ゼミ、PostgreSQLリストア時のトラブル

木曜日, 7月 3rd, 2014

今日はPD2とNAL研週ゼミで、合間に昨日のPostgreSQLリストア時のトラブルをチェックしてました。大凡の目処が立って良かった。

PD2の11回目は先週の続き。最終課題「情報工学科のCMを制作」に向けて各自のアイデアを考えて来てもらったのが先週の課題で、今週はそれを持ち寄り互いに披露し合って討論題材とし、目標像に落とし込むというのが目標でした。が、どこまでやれてるのかは謎か。実際問題として「一度決めたはずの目標像が進むにつれて*思ってたのと違う*」とか良くある話だし。それでも、決められた期間(時間)で収めることを前提に計画立てて行動し、躓いたならそれはどこか、何故そうなったのか、を経験して欲しいです。そのための実習形式課題なので。経験せずに済ませるなら適当にレポート書かせて終わりますが、それを求めている授業じゃないです。デザイン(設計)に関連した失敗を含む様々な経験をして欲しい

PMで院生も来てたので河野研/長田研でのmercurial/gitlabの使い方を聞いてみたり。河野研は論文やソース等をmercurialで管理してて、論文ならそのリポジトリを先生に伝えてメール指導/直接pushで指導されたり、印刷して持ってくる場合には赤ペン先生したりとその時々でやりやすい形で指導してるらしい。こういう添削を一通りcommitログ化しておくと、添削システム作成用のデータセットにも使えそうではあるのだけど、明確な良し悪し以外のルール化は難しそう。長田研のこの間の勉強会話は、gitlab上でのコメントを使ってみ遊んだという話だったらしい。


m_2014070309232753b5210fe90d4

週ゼミは久しぶりに全員集合。最近は「まず院生の進捗確認&討論してから4年次に1回以上質問させる」という風にやってみてるのですが、院生にも予想外の質問が出て説明する練習になって良さげらしい。本当は自分からどしどし質問して欲しいのだけど、そうなる切っ掛け作りになるなら強制しても良いか。

NNでの深層学習のDropout周りのアンサンブル学習効果について検証使用としている玉城くんは、まずはDropout率を変更してみての精度チェック。Dropout率が高くなる=稼働するユニット数が減ると「瞬間的な学習効果(1度の重み更新度合い)が高くなる」らしく、ユニット数が減った状態でBPしてるなら確かにそうかという話。当面はDropout自体に手を加えてみての検証をしてみる方向に。

トピックモデルLDA結果へ「分かり易いラベル」を付けようとしている慶留間くんは、HDP-LDAで得られるトピック数と、その際のトピックの中身自体に疑問があるとのことで、自身でチェックできる分かり易いデータセットを構築して再建してみることに。

小説読んだ際の感情を推定しようとしている平良くんは、認知評価を含めた(というか認知的評価を確認できる)アンケートを作成してみたので、検証できそうかを確認するため研究室メンバ内でもやってみてくれという報告。第一被験者になった人はありがとうございます(これからもお願いしますw)。


m_2014070310432753b533cf9434d m_2014070310495953b53557e7dd0

PostgreSQLのリストア問題は、

  • (1) pg_dump 時に owner 関連を含まないように dump させても alter owner するような SQL を出力しやがること。
  • (2) 古いPostgreSQLでのエンコーディング問題の逃げ方を参考に進めると、出力されるエラー行には何も問題が無いこと。(実際にはその前で別のエラーが出てたのだけど、それがなかなか再現しなかったために気付くのに時間がかかった)。
  • (3) pg_restore が素のSQLに対応していない(何でだよ)ので tar でやってたのだけど、エラー箇所が「行(とエンコーディングで問題あるんじゃない?というヒント)」しか出さないこと。(該当行を探すのにいちいち展開+関係しそうなファイル探し+該当行チェック、という手順を踏む必要がある)

で、ようやく問題特定できたので、修正できるようになりました。どのぐらい修正箇所あるか分からないけど、素直に delete しまくった方が早い気がしなくもない。もともと綺麗なデータセットではないので多少データ件数減っても問題無いし。ま、続きは明日やろう。この辺りの問題は MySQL では一度も遭遇したことがないので、個人的にDB構築するなら二度と PostgreSQL は触りたくないな。と思えるぐらいには面倒くさい。。

トランセンデンス->ゲームAI、古いPostgreSQL周りのエンコーディングトラブル

水曜日, 7月 2nd, 2014

トランセンデンスはまだ見てません(前置き)。

今日は短めの会議が一件あっただけで他は空いてた一日でした。オープンキャンパスの方も基本的には資料作成を一応終えている(チェック待ち)し。ということで午前中は読みたかった記事やらをあれこれチェック。

人工知能が意識を持つのは遠くない? – 「トランセンデンス」トークイベントは技術的特異点に因んだテーマにもなっている映画「トランセンデンス」の紹介記事というか、逆方向の記事らしい。特異点のキーでもある「汎用人工知能(Artificial General Intelligence; AGI)」はここでいろいろ話も進めているらしい。人工知能学会も最近特集が出てました。毛色が大分変わりますが、ゲームの中の人工知能なる三宅先生のスライドや関聯論文が。ゲームの進化と共に進化が求められたNPCの「表向きに見える歴史」と「裏側を支えて来た歴史」がずらずら出てきて面白い。

午後は堀川くんのツイート収集スクリプトを別サーバに移行しようと四苦八苦してました。いや、まだ現在進行形か。一応目処が付きつつありますが、古いPostgresには encoding 周りのバグが残ってるらしく、こんな感じでチェックしながら対応せざるをえない雰囲気。ちなみに今回は「同一バージョンでの dump&restore」なんだけど、同じ状況です。しくしく。古いバージョンに残ってるなら、今のバージョンに頑張って restore しても後でまた問題が出てくるので、一度 Postgres 最新版をインストールしてからにした方が良さげか。

というか一番時間かかったのはスキーマ dump->restore するだけで何故か失敗してたこと。ここはencoding関係ないけど「validじゃない」と言われ続けてた。mysqlだとdump&restoreでつまづいた記憶は一度もないんだけどな。。

個別ゼミの再始動/進路相談(私の場合)

月曜日, 6月 30th, 2014

全体ゼミなり欠席組みの調子が改善してから再始動するつもりだったのが、いつまでもずるずると長引くことになってしまって早幾月。待つだけ月日を無駄にしちゃってる感が出て来たので、それはそれとして個別ゼミを再指導することに。いつまでもテーマ決まらないとちゃんと来てる方も心配だろうし。

再始動個別ゼミの1回目は神谷さん。ターゲットが小説という点で平良くんにも近く、どこかで互いに補える部分がでてくることを期待しています。今回はテーマとしてどういう目標を設定できそうかを列挙し、互いの言葉やニュアンスからズレや違いを修正し直しつついくつかの具体的な目標例を設定。そして目標に対するアプローチをいくつか検討してみるという流れで話を進め、卒業研究全体像をイメージしてもらってました。あれこれ図やイラスト書きながらだと手書きが早いし、書いたものを広げて俯瞰したり繋げてその先を考えることもしやすい。ということで裏紙さんを使いまくり。別に新しいコピー用紙使っても良いんだけど。

その後は別学生からの進路についての相談。私自身の場合は、大学入学時にはゲーム作りたかった(ので、課題と無関係にあれこれミニゲーム作って遊んでた)。B1前後では全く進学なんて考えてませんでした。2,3年次で人工知能とか知能ロボットといった知能情報系科目に出会ってから大きく変わり、関連本探したり先生に質問に行ったりしてたはず。その頃もまだ進学というのは意識してなかったのだけど、研究室仮配属されて具体的に論文手渡されてから「そっちの道」を考え始めました。正確には、「どうしようか」だったのが、「そっち一本」になりました。その前後で企業見学ツアーとかにも参加してたのだけど、それ以上に魅力があったし、今でもその魅力に取り付かれている。

論文を手渡され、関聯論文を探しに図書館へ出かけて「雑誌(=学術雑誌)」の意味が分かったり(それまでは学術じゃない定期紙のことだと思ってた)。検索エンジンなかった当時、学会事の学術雑誌が膨大に陳列されてる様を眺めて戦いたり、あれこれ読み漁ってツッコミいれたり、何を書いてるのか分からず悩んだり。(今は検索エンジンある分良くも悪くも探し易いのだけど、それがかえって「巨人の肩」を実感し難くなってるのかなと妄想してしたり)。ツッコミ入れるぐらいなら自分でやれよということであれこれやって論文書いたり。たまたま地元開催してたからという理由で発表ねじ込まれた学会から「論文書かないか?」と声かけられて喜び勇んで書いて投稿したら「分野が違うからNG」とか言われて拒否られ、そのことについて遠藤先生が怒り心頭で先方に電話で怒鳴りまくったりとか。没頭してただけあっていろいろあったか。

具体的な研究活動の始まり「論文読み」だったとすると、具体的に学外に出て発表したのは情報処理学会の全国大会で、当時のログを見ると9月に発表してたらしい。当時はまだプロジェクタなんて一般的ではなくて、OHPシートを使っての発表が一般的な時代。アニメーションは手動(一枚ずつ上乗せ)でやる時代。人によってはその場で党名のOHPシートに書きながら発表したりしてた時代。学内の周りでは見聞きしないことだらけで楽しかったのだけど、先生含めて他の人からは真面目に参加してる変わったやつとか見られてたらしい。そのまま博士後期課程までいくかとか、その後どうするかとか何も考えてなかった(これは事実。自分の人生なんて自分が楽しければそれで良いと思ってるので)のですが、気がつけば今こうしています。ここ最近は研究から遠ざかっている(指導ばかりで自分自身で論文書く回数がめっきり減っている)のが当面の一番の問題だな。自分が楽しめない研究なんて楽しくないし。

ちなみに、一番苦労したというかもう二度とやりたくないのは「博士論文〆切1週間だか2週間前に連絡貰ってそこから徹夜が続いた」ことです。博士後期課程3年目は授業等取り終えてたので丸々1年間アメリカのFermiLabに研修に行ってました。離れてることもあって「日程決まったら連絡ください」とお願いしつつ、修論ぐらいのタイミングだろうとたかをくくってたら数ヶ月単位で違い、それを数週間前に伝えられて死ぬかと思いました。もう、あの頃には戻りたくない。。

でも研究自体はやりたいので時間下さい。(オープンキャンパスの準備しながら)

P.S.
やりたいことがあるなら、そのことを快適にやれる場所に進路を進めるのが。なんとなくでは時間が勿体無いです。