Archive for the ‘日記’ Category

歴史を積み重ねることで立ち位置や進み具合が分かる

木曜日, 8月 9th, 2012

1年生向けの必修科目「プロジェクト・デザイン1」と、2年生向け必修科目「プロジェクト・デザイン2の合同で行う最終発表会が明日行われるようです。2年前の様子はこんな感じだったらしい。

何を発表するかというと、1年次は昔っから固定した大テーマが用意されていて「沖縄の新興について」を前提として、グループ毎に調査・討論・提案・プレゼンをするといった流れのようです。それに対して2年次ではテーマに縛りは無くて完全フリー。その分「何をテーマにしたら良いか」自体で悩むグループもあるようですが、一つの求めていることがそれだと想像します。

テーマが異なるという点では一緒に開催する必要はないですが、時期的な近さ・縦の交流・同じ評価項目(新規性・有効性・社会性)の指定といったことから同時開催しているようです。過去に学ぶというか歴史を積み重ねることで少しずつ前進できると思うけど、この講義自体の過去の成果物とかはうまく共有されているのだろうか。と書いてたら去年のアーカイブや今年の提出先(要パスワード)という形で共有しつつあるらしい。

何も参照する事無しに思いつくまま行動しても(出発点としては)良いけど、その結果が「昔だれだれがやったのと同じだね」ということだったら悲しいよね。先に進むために、もしくは現在どれだけ進んでるか、どのような立ち位置なのかを確認するために、過去を参照する必要があるし、過去を残す必要がある。別の言い方をすると見える化もその一つ。行為を蓄積することでどういう道を辿ってきたかが分かりやすくなり、振り返りやすくなる(≒参照/再利用/Hackしやすくなる)。それが歴史を積み重ねる、参照するという行為の意義なんだけど、その大切さに気づける切っ掛けぐらいにはなってるのかなぁ。

ちなみに、規模的には1学年60名。2学年で合計120名に加え、彼らをPM(プロジェクト・マネージャ)としてサポートする院生の皆さん30名、そして興味本位で覗きにくる他の学生・教員らがちらほら居たりするので総勢160名程度?が勢揃いするお祭り騒ぎ状態。一番大きい部屋を使っても全員座るのは困難だったりするので椅子持ち込みしたり、2年ぐらい前から(?)はUstream対応までしてるらしい。ということで、明日は#ieryukyuが騒がしい^H^H^H^H賑わうかと思いますが宜しくお願いします(?)。

進化計算班が(ほぼ)終了

水曜日, 8月 8th, 2012

午前中は進化計算班の最終提出物(ソース、プレゼン、ドキュメント一式)に目を通し、気になる点へコメント。発表時には「第三者が見ても設計がイメージしにくいな」という点も多々あったのですが、コーディング周り等当日コメント指摘した点についてのブラッシュアップが追加されててGoodです。ベストには遠いかもしれませんが、こういう経験を次回(後期の実験なり4年次での卒研なり、就職後なり)に繋げていってもらえればそれで良いんじゃないかと。「ほぼ終了」なのは、一つ未提出っぽいのがあるのでその確認中ってことです。

ちなみに、進化計算班は3年次向けの学生実験の一つ(サーバ班、コンテンツ班などなど多数あり)で、遺伝的アルゴリズムの実装を通したプチ卒研体験を目指してやってます。大まかな流れとしては、最初の3週間は「お勉強の時間」で、「探索」という概念を勉強しつついくつかの探索アルゴリズムと共に遺伝的アルゴリズムの特徴をイメージできることを目指す。次の2週間程度は「自分で問題を設計する」のが目標で、実際に探索したい問題を設計する。過去の成果物を眺めると分かりますがいろんな提案してきてくれますし、一部は別講義でのオフィシャル・ツールに格上げされたりもしました。残りの10週間程度が具体的な実装。ただし、自分たちで考案した問題を直接実装するのではなく、それを別の人に開発依頼しつつ自分たちはその別の人(クライアント)から開発を請け負うという形式を取っています。

この「開発を請け負う」というのは面倒な方針だし、自分でやりたいことを実装する訳でもないという点で苦痛なこともあるかもしれない。けど、就職後はそういうことが当然になってきたりするし、他人が何を望んでいるかをうまく引き出すスキルであったり、より良いものに仕様をブラッシュアップしていくスキルだったり、実際の現場で求められるであろう事柄の一つは実際に起きるだろうということを期待してこういう方針で続けています。

学生実験という点で特に力を入れている教育効果としては、「同じ世代の人らがどういう風にコーディングしているか」を見ながらコメントすることで、ステップアップしやすくすることを心がけているつもり。例えばFizzBuzzとか小さな問題でリアルタイム・コーディングして貰う様子を眺めつつ、コミットしてもらったソースをベースにリファクタリングをしてみたり。コードのテスト方法や、テストの自動化をTipsとして紹介したり。実際のGA実装に入ってからはコードレビューを主体として「グローバル変数使わないように設計し直そう。例えばここはどうしたら良い?/ここはこういうロジックで書いた方が読みやすい/実際にデバッグしよう!」とか、その時々でやってる事は違いますが基本はコード・レビューです。

そんなこんなで現在やってる学生実験では、主に「ゼロから1,000行程度のコードを書ける」レベルを目指しています。問題設定次第でもありますが、大抵どのグループも最低そのぐらいの量を書くことが多い。当初は「関数って何?」レベルの人もいますが、commit logを眺める限りでは最終的には30回ぐらいはコミットしてて、実験中にもそれなりに説明できつつ、こちらのコメントを理解できるようになってるらしい。勿論そこまで到達できない人もいることはいますが、それでも共同開発を通して自分のコミットが活かされてシミュレーションが動くという体験は必要なんだと思ってます。

という感じで進化計算班をやっていますが、来年度からは別テーマに変更することを想定しています。もう少しNAL研に近い内容にしたい。テーマ次第でもありますが、そもそもの達成目標をどうしようかなぁ、と悩んでいます。便利なツールを使いながら云々という方向にするか、泥臭い所から実装するようにするか、etc.。

学生の多くは期末テスト終わって夏休みに入ったらしい

火曜日, 8月 7th, 2012

駐車場がらがらだし静かで素晴らしいです(そっちか)。

一部課題が残ってる学生や台風等での補講やってる科目もあるようですが、全体としては期末試験が昨日で終わり、今日含めて数日はちょこちょこイベントがあるぐらいで休みに入ってる学生の方が多数になってるんでしょう。

夏休み中に個人的にやっときたいタスクを眺めてみると、こんな感じ。

  • 実験3(進化計算班)の成績付け。(最終報告待ち)
  • FAN2012の運営。(目下のタスクは懇親会&当日バイト学生の調整あたり)
  • 大学院入試(8/16)。(私自身が特別やることは無いはずだけど)
  • FAN2012に向けた複雑研全体での発表練習(8/20,21予定)。
  • 集中講義「インターネットソフトウェア」(8/21-24)。(私自身がやる訳じゃないが)
  • 査読1件(今月中)。
  • FAN2012当日(8/30,31)。
  • AO入試(1次面接:9/6, 2次面接:9/20)。
  • 琉球大学・沖縄高専第3回交流研究会(9/18)の調整。(去年から始めたイベント:趣旨告知レポート
  • 日本認知言語学会の第13回全国大会(9/8,9)への潜入捜査。
  • 学部3年生向け実験(情報工学実験3,4)での新テーマ検討。
  • 科研費ネタの再検討。
  • 達成度チェックリストの検討。

講義・実験等がないだけあってイベント盛りだくさんですが、ちょっと詰め込み過ぎ感がなきにしもあらず。ラスト3つは必ずしも夏休み中に終える必要はないのが救いか。とか言ってると進まない訳だがw

締め切り日ベースでソートしてみたけど、被りまくって並行作業になるので順序にはあまり意味無いな。

[複雑研全体ゼミ補足記事] 8/6, 災害時デマRTの傾向

月曜日, 8月 6th, 2012

今日の全体ゼミ
 ・谷津: [1] 災害時デマRTの傾向
での関連話を補足します。

[1] 災害時Twitterにおけるデマとデマ訂正RTの傾向, 報処理学会研究報告. データベース・システム研究会報告, 2011, http://ci.nii.ac.jp/naid/110008583012


>災害時デマRTの傾向

 震災後1ヶ月ほどの期間を対象として、RT回数トップ1千件について主観的(?)に傾向分析してみたという話だったかと思います。

 特に震災時を想定せず、広い意味での信憑性という点では [2] 以降の記事が出典含めて参考になると思います。

 災害時を想定した情報抽出・整理という点では、例えば NLP2012 では「災害時における言語情報処理 [3] 」というテーマのセッションが設けられ、以下に掲げた概要で発表の募集がありました。

2011年は,東日本大震災を初め,世界各国が記録的な災害に見舞われる年となった.こうした災害時には,インターネットが重要な情報源となる.しかし,それと同時に多くの情報が飛び交い,人手での整理が困難な場合も多い.本テーマセッションは災害時における言語情報処理技術の役割を見つめ,インターネットなどで溢れる言語情報をいかに整理し,必要としている人に提供するかに関する議論・アイディアの共有を目的とする.災害情報の抽出・提示・信頼性判定,言語情報を用いた災害予測,災害時におけるコミュニケーション支援,地理情報や画像情報等との融合など,災害時の言語情報処理に関するあらゆる課題を対象とする.

 上記を受けて集まったのが、A4,A5の2セッション、合計11件の発表になります。情報源としては Twitter が多くなっていますが、Q&Aサイト/報道文書/ブログなど古くからあるものを使っている事例もあります。そういう情報源に対して何をするのかという点では、欲しい情報の抽出/流言デマ特性解析 [4] /行動経路抽出と可視化/救助要請情報抽出サイト構築、などが目標として掲げられているようです。

 上記テーマセッションの提案者でもある、ANPI_NLP プロジェクト [5] で精力的に活動されていた楽天技研の村上さんや、京大のNeubigさんらを含んだ全体討論が、A5セッションの後半で行われました。當間が解釈できた範囲になりますが、その様子を [6] に書いてあります。また、當間&与儀さんで少しだけ手伝ったという話もしましたが、それは ANPI_NLP プロジェクトの件で、[7] のようにコーパス構築を少しだけ手伝いました。

[2] 【Credibility for the 21st Century】1. イントロダクション / 「情報信憑性」研究者やまもとのウェブサイト, http://hontolab.org/research/credibility-for-the-21st-century-1/
 2. ウェブ情報の特徴, http://hontolab.org/research/credibility-for-the-21st-century-2/
 3. 信憑性研究の歴史, http://hontolab.org/research/credibility-for-the-21st-century-3/
 4. 情報ソースの信憑性, http://hontolab.org/research/credibility-for-the-21st-century-4/
 5. 情報ソースの信憑性に係る様々な要素, http://hontolab.org/research/credibility-for-the-21st-century-5/
 6. 「情報ソース = 組織」である場合, http://hontolab.org/research/credibility-for-the-21st-century-6/
[3] NLP2012, テーマセッション, http://www.anlp.jp/nlp2012/#thematic_session
[4] 流言情報クラウド:人間の発信した訂正情報の抽出による流言収集, 言語処理学会 第18回年次大会, 2012, A4-2, http://luululu.com/paper/2012/A4-2.pdf
[5] ANPI_NLP, http://trans-aid.jp/ANPI_NLP/
[6] A5:テーマセッション3 : 災害時における言語情報処理(2), 全体討論, NLP2012, https://ie.u-ryukyu.ac.jp/tnal/archives/2042#A5-discuss
[7] 東北関東大震災とソーシャル・メディア(ショートバージョン), https://ie.u-ryukyu.ac.jp/tnal/archives/1548

[複雑研全体ゼミ補足記事] 7/30, 検索支援, 路肩検出

月曜日, 7月 30th, 2012

今日の全体ゼミ
 ・玉城: [1] 検索支援
 ・山入端: [2] (サイクリングマップ生成を想定した)路肩検出
での関連話を補足します。

[1] SNS 上に蓄積されたインタレストグラフを用いた類似 ロールモデルの発見と企 業検索支援サービス, 情報処理学会第74回全国大会, 6ZE-5, 2012, http://www.gakkai-web.net/gakkai/ipsj/74program/data/pdf/6ZE-5.html
[2] 平面投影ステレオ視を用いた路肩検出, 電子情報通信学会技術研究報告. PRMU, 2009, http://ci.nii.ac.jp/naid/110007123826


>検索支援

 キーワードや辞書的な関連度検索ではなく、ユーザの好みから構築したインタレストグラフをベースに、類似したユーザを捜し出し、検索結果に繁栄させるという話でしたが、2ページ予稿ということもあって詳細が良く分からないままでの討論になってしまいました。
 「インタレストグラフ」自体は、特に情報推薦・情報フィルタリングの分野で行われているユーザプロファイリング [3] の一種としての造語のようですね [4]。プロファイリングをインタレスト(嗜好)のグラフとして構築し、グラフ間の類似具合で嗜好の類似度を測るということのようです。プロファイリング話なので、「インタレストグラフをどうやって作っているのか?」という風に調査するよりは、「ユーザの嗜好をどうやって抽出しているのか?」という視点での調査をした方が実りがありそうです。
 なお、このグラフ(ネットワーク)を利用した推薦としては [5] や、FAN2012での特別講演 [6] が参考になると思います。

[3] 情報推薦・情報フィルタリングのための ユーザプロファイリング技術, 人工知能学会論文誌 2004, http://nishilab-osaka-u.sakura.ne.jp/people/hijikata/arch/UprofText.pdf
[4] 意外と知らない「ソーシャルグラフとインタレストグラフ」の違いを徹底解説!, http://www.social-recruiting.jp/archives/398
[5] なぜ3人いると噂が広まるのか, 日本経済新聞出版社, 2012, http://www.amazon.co.jp/gp/product/4532261554/
[6] 特別講演「大学発の研究シーズ,ネット広告業界最前線に挑む」, 吉井 伸一郎 サイジニア株式会社 代表取締役, https://ie.u-ryukyu.ac.jp/fan2012/


>路肩検出

 自転車が交通可能なマップを自動車等で撮影した動画から生成したいという流れでの路肩検出の話でした。
 自転車マップとしては、[7] のように運転者自身の安全運転度合いを自動評価する試みや、[8] のようにアンケートベースでマップ作成しつつ危険区域(狭さ、段差、見通し、交差点など)も抽出するという事例があるようです。
 マップ生成とは異なるアプローチとしては、3軸加速度センサーを用いてリアルタイムに道路状況を推定しつつ、注意喚起を共有するシステムを構築する [9] という提案や、ハンドル操作やブレーキングなどの走行状態をモニタリングすることで快走性を評価する [10] という事例もあるようです。

[7] 装着型センサを用いた自転車の安全運転実態マップ自動生成の試み, 映像情報メディア学会技術報告, 2011, http://ci.nii.ac.jp/naid/110008687500
[8] 地域で取り組む地球温暖化防止のための社会実験 : (その3)自転車利用に対するアンケート調査と自転車利用マップの作成, 日本建築学会研究報告, 2006, http://ci.nii.ac.jp/naid/110006973449
[9] 口コミと路面状況を共有できる自転車用安全運転支援システム, 情報処理学会研究報告, GN, 2009, http://ci.nii.ac.jp/naid/110007993299
[10] 走行コンテキスト抽出による自転車の快走支援地図の設計と実装, 情報科学技術フォーラム講演論文集, 2008, http://ci.nii.ac.jp/naid/110007641719

なるとませんしょ2012

土曜日, 7月 28th, 2012

アナタの為?後輩の為?
「一つ前の学年の時に読みたかった本」や、「1つ下の学年に向けて勉強にオススメの本」があれば教えて下さい!

ということなので、研究室配属時の自己紹介の一部として紹介している書籍をベースに、少し追加・整理し直してみました。抜けてる本も多々あるんだろうけど、取りあえず思い出せたものを書いてます。

基本的には入門書/新書ぐらいのレベル(学部1年生でも読めるレベル)が多いです。難しい本は補足するなりしてます。

取りあえず全員読めや!と強気で押したくなるのは処世術・ライフハック的な視点やいろんな考え方/世界観が面白かった本で紹介してる(1)の「大学生のためのリサーチリテラシー入門 研究のための8つの力」。プロジェクト・デザイン1,2あたりの教科書/副読本としてお勧め。

以下、當間主観でカテゴリ分類して紹介しています。
カテゴリ内の順番は、なるべく番号が若い方が読みやすいようにソートしたつもりです。


目次


人工知能(研究)よりの読み物で面白かった本

(1) 心はプログラムできるか 人工生命で探る人類最後の謎 (2007)
研究室内外で紹介していますが、読み物としても面白く、学生からのウケも良いです。
人工生命の立場から仮説→検証を繰り返して一つ一つ知見を重ねて行く科学的方法論について、多数の事例で紹介しています。
一般の人向けに書かれてるので詳細を知りたい場合には不向きですが、幅広く関連テーマ・課題を眺めてみたい場合に良書。
関連のある読み物としては「ロボットの心―7つの哲学物語 (講談社現代新書) 柴田 正良 (新書 – 2001/12)」もお勧め。こちらは文字通り「読み物」レベルの新書です。
(2) 複雑系入門―知のフロンティアへの冒険 (1998)
私が学生の頃に出会った入門書で流石に古くなってきてますが、複雑系科学/工学に関して幅広く鳥瞰できる書籍としては現時点でも良書。複雑研の全体ゼミでも2010年までは全員に読ませていました。(最近は方針を変更したから輪読させてないというだけの話です)
(3) ロボットにつけるクスリ – 誤解だらけのコンピュータサイエンス (2000)
これも古い本なのだけど、人工知能の現状や取り組んでいる課題を一般教養レベルで講義(大学の教養科目として実施)をしていた内容をベースに、その内容を教師学生らの対談型で読み物として書いた本なので、ストーリーを追いやすいです。
(4) 脳をつくる―ロボット作りから生命を考える (1995)
(問1)Aさんの脳を切除し,Bさんの脳を移植する.目覚めた人はAさんかBさんか?
(問2)鳥の脳を切除し,人間の脳を移植する.目覚めた鳥(の世界感)は人間か鳥か?

このような問題に対し、ロボット工学な研究者ならではの解釈を当てはめて答えています。

似たような話題が「免疫」の世界でもあります。
例えば上記に近い例で言うとAさんの心臓をBさんに移植すると、Bさんの「免疫系」は異物が混入したと考え拒絶反応を示し始めてしまい単純にはうまくいかないということになります。ここで、人間に取っての自分とは「自分と考える何か(例えば脳)」だと仮定すると、その「自分」にとって「心臓」が無いと生きていけないので取り込んで利用した方が良いに決まっていますが、「免疫系」は異物として排除する方向に動きます。「自分」の意思とは無関係に、「免疫系」が行動してしまいます。ここでの「人間/自分/脳」と「免疫系」は、どちらに主体性があるのでしょう?
こういう話に興味がある人は、多田先生の「免疫の意味論」を読んでみよう。私のバイブル(学生時代の研究の原点)です!皆も自分のバイブル本見つけよう!

参考:「脳をつくる」の書評免疫系のメモ

(5) 動きが生命をつくる – 生命と意識への構成論的アプローチ (2007)
途中までしか読んでないんですが、生命らしさ/意識らしさについて「ダイナミクス」で捉えるというお話。学部1,2年生ぐらいでいきなりこの本を読むのはちょっと難しいかも。

情報検索(研究)よりの読み物で面白かった本

(1) サーチアーキテクチャ 「さがす」の情報科学 (2007)
検索エンジンや様々なWebサイトでの検索といった「電子的に探すという行為」に限定せず、そもそも探すとはどういうことかという視点で多角的に事例を交えて紹介している本。変わった観点から数値データを基に話を進めてて、パラパラ読むぐらいでも楽しいです。
(2) 検索エンジンはなぜ見つけるのか―知っておきたいウェブ情報検索の基礎知識 (2011)
日経BPの同書シリーズ(10年後も通用する基本を身につけよう)はどれも入門書として良書だと思います。
その中の一冊である「検索エンジンのなぜ」では、
 ・どうやって集めているのか
 ・どうやって整理しているのか
 ・どうやって検索しているのか
を中心として具体例を交えながら技術的な工夫を「概観」できるように書かれています。より具体的な手法について調べたい人向けにリファレンス(参考文献)も用意されてるので、興味があるならその先にどんどん進めます。なお、日英問わずでより専門的な書籍としては「Information Retrieval in Practice」をどうぞ。プロファイリング(ユーザの嗜好推定やどういうコミュニティに属しているか、何について話しているのかといった分析)みたいな話に興味があるなら「入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック」とか。Twitter/Facebookとかいろんな事例が出てきます。
(3) 集合知イン・アクション (2009)
検索エンジン、推薦エンジンを自然言語処理ベースで作り上げる際の一アプローチを基礎から応用レベルまで幅広く取り上げた本。具体的なソースも付いてるぐらい実装寄りの書籍です。手法についての説明は簡易的にしか述べられていない部分もあるため、これを起点に興味のあるものは掘り下げていくための出版点としての書籍。
2009年度にはこれの輪読もやりました。

自然言語(研究)よりの読み物で面白かった本

(1) 自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ (2004)
自然言語処理への入門書としてのお勧め。形態素解析から始めて意味解析に至るまでを入門的に読める本。読みやすいけど具体的な実現(実装)は、これだけでは無理でしょう。
実装寄りの入門書としては「入門 自然言語処理」がお勧め。
(2) Rによるテキストマイニング入門 (2008)
実装というか演習寄りの入門書。Rを使った環境構築から始まり、口コミ情報の分析/アンケート自由記述文の分析/沖縄観光のアンケート分析といった事例を紹介しつつ学べます。
(3) テキストマイニングハンドブック (2010)
自然言語処理をベースとした分析手法について鳥瞰できる書籍。これだけでは理解困難なテーマも多々あるので、出発点として使おう。

人工知能における「常識」(研究)寄りの読み物で面白かった本

(1) IBM 奇跡の“ワトソン”プロジェクト: 人工知能はクイズ王の夢をみる (2011)
言わずとしれた(よね?)「WATSON」先生を実現するためのプロジェクトとして中の人が書いた書籍。
一般向けに書かれてるので学部1年生でも読めますが、プロジェクトXみたいなノリが嫌いな人には冗長すぎるかもしれない。
(2) ミンスキー博士の脳の探検 ―常識・感情・自己とは― (2009)
上記の本より古い(原書はもっと古い)ですが、人間が普段何気なく実現している機能や側面について事例を上げながら独自の提案を構築していくお話。かなり噛み砕かれた文章なので低学年でも十分読めますし、リファレンスもたっぷり提示されているので必要に応じて関連文献についての詳細についても調べて行くことができます。
(3) 「ロボットは東大に入れるか」キックオフシンポジウムの紹介+α(PDF資料のpp.40-)
ロボットに東大合格させよう(センター&2次試験共に合格させよう)というのを目標に掲げたプロジェクト(通称「人工頭脳プロジェクト」)が発足しています。このキックオフシンポジウムに参加してきた(記録1, 記録2)のですが、「常識」という良く分からないものへ科学/工学的に迫ろうという取り組み自体が面白く、学生向けへの紹介資料を作成したのが上記のリンク先にあるPDFになります。PDF内の40ページ移行に関連書籍を當間主観で整理してますので、興味がある人は覗いてみると良いかも。

広い意味でのマイニング(データ解析)として面白かった本

(1) データを未来に活かす (2011)
数理統計を中心とした話題が多いですが、多方面に渡る「データとの向き合い方」について高校生レベルで理解できるように噛み砕いて紹介されています。統計数理研究所に所属している研究者らへのインタビューを通して「これを実現したい!(データをこう活かしたい!)」という強い動機から、それを実現するためのアプローチとしてどういうことを考え、やってみてどうだったかといった事が書かれています。研究テーマかもしれないし人生の目標かもしれないしそれ以外かもしれないけど、こういう生き方をしているんだという事例という意味でも早い段階で読んでおくことをお勧めします。
(2) パターン認識と機械学習 理論と現実の妥協点探し -最適化問題と機械学習- (2012/slideshare)
書籍「パターン認識と機械学習」へのイントロダクションとして公開されてるスライドです。多次元の特徴空間に対してどう取り組むかという視点で描かれていますが、そもそもの素朴な疑問から出発して理論と現実(イメージしやすい例)を行ったり来たりしながら話を進めてくれるので、データ解析にどう取り組むべきかという一つのアプローチを想像しながら読むことができます。勿論、これで物足りなければ書籍の方に手を出してみると良いでしょう。(書籍自体の難易度は高いです)
(3) Rによるデータサイエンス-データ解析の基礎から最新手法まで (2007)
こちらは具体的に手を動かしながらデータ解析をしてみるという入門書。幅広く浅く多数の手法が出てくるので、手法毎の詳細については知りたい場合には別途調べる必要があります。
続きは英語で良ければ「Data Mining: Practical Machine Learning Tools and Techniques, Third Edition」とか。

震災関連

(1) IT時代の震災と核被害 (2011)
震災直後や復興支援段階で「IT」関係者がどう行動したかという一種のドキュメンタリーとしても読める書籍。目次を眺めると分かりますが、グーグル/ヤフー/ツイッター/アマゾン/MITメディアラボ/動画サイト/Ustream/ニコニコ動画/CNN/デマなどなど、ジャンルを問わずいろんな業種の人たちが自発的に行動していった側面に触れることができるだけでなく、今の復興段階だからこそ改めてどうあるべきかを問いかける内容になっています。なお、先ほどのリンク先からグーグルの事例についてはPDFで公開されてたりしますので、まずは読んでみよう。
(2) 人を助けるすんごい仕組み――ボランティア経験のない僕が、日本最大級の支援組織をどうつくったのか (2012)
ふんばろう東日本支援プロジェクト」の発起人自身が当時どう考え行動していったかを書き綴った書籍。ITが役立つ部分とITだけではどうにもならない部分をうまく噛み合わせながらコミュニティを効果的に運営していったが、その根底にあるのは研究テーマに根ざしている部分があるから自然に行動することができた。という話です。
(3) 不自然言語処理 -枠に収まらない「リアルな」言語処理-:7.ANPI_NLP-NLP技術を応用した震災時安否情報確認支援- (2012)
これは書籍じゃなくて論文です。
ANPI_NLP(ANPI=安否、NLP=自然言語処理)というプロジェクトが震災後に立ち上がりました。このプロジェクトでは、以下のようなことを目的として主に自然言語処理や情報抽出/データマイニング等に関わる研究者・技術者が集ってボランティアで行った活動の一例です。

ANPI_NLPの活動目的、タスクより抜粋)
現在、東北関東大震災に関して様々なところで種々の情報が飛び交っています。その中でも、特に被災された方々の安否情報は最も重要な情報であり、できるだけ正確な情報を大量に整理する必要があります。しかしながら実際は情報は大量でかつ様々なところに分散して存在しているために探しにくいだけでなく、情報を提供する側と情報を必要とする側で適切に必要な情報を共有できていないと考えられます(例えば、どちらかが人の名前を1文字間違える、平仮名と漢字との違い、ある人の安全が確認されるとその情報は電子的に残されにくい、など)。

大きなタスクとしては、楽天技研ではGoogle社のPerson Finderの情報を使わせて頂いており、この情報とTwitterなどから得られる安否確認情報を照合、更新することでPerson Finderの情報を充実させること、が挙げられます。このタスクはできるだけ早く、かつ正確な情報の抽出が社会的に渇望されていると考えられます。(2011/03/16 @kmura)


設計/技術寄りの読み物で面白かった本

(1) アーキテクチャの生態系 – 情報環境はいかに設計されてきたか (2008)
2ch/hatena/nicovideo/mixi/Facebook/Twitterといった様々なオンライン上での交流を支援しているWebサービスを中心に、「アーキテクチャ/設計」という観点から俯瞰的に考察されています。学術的側面とWebサービス的側面、利用客としての側面などが面白く考察されてて、こういったものに興味がある人は必読書。
(2) ボナンザVS勝負脳―最強将棋ソフトは人間を超えるか (2007)
ゲームプログラミング的な人工知能(例えばNPCの行動戦略を学習させたいとか)に興味がある人は必読。人間(ここでは将棋のプロとか)の知識を人手で体系化→実装するアプローチに対し、コンピュータ的なアプローチ(多数の事例を集めて機械学習→全探索)が勝ったという話。読みやすいですが、新書レベルの内容なので具体的なアルゴリズム等の詳細については実際に関連論文を探して読む必要があります。

参考:書評

(3) ウェブ国産力 – 日の丸ITが世界を制す (2008)
2008年時点での話になりますが、ここ最近の www 周りの技術を踏まえた上で、大学/企業らでどのような動きが出始めているか、どのようなモノが求められているかを示している本。
(4) 600万人の女性に支持されるクックパッドというビジネス (2009)
Webサービスを提供するにあたり、ほげほげ考えて行動したらこうなった、という cookpad.com の成り立ちを垣間みれる本。IT系の新書ですが、何のためにITを使うの?という点で読むことを勧めるという意味でここで紹介しています。

参考:書評

(5) Googleを支える技術 – 巨大システムの内側の世界 (2008)
途中まで読んで他の人に貸している状態だったりしますが、検索エンジンとしての精度向上の話と、実用システムとしての性能向上のバランスを取りながら Google がどのように工夫し続けているかを「それらしく推測」した話。

こっち方面(大規模サーバ)に興味があるなら、最近だと「Mobageを支える技術 ~ソーシャルゲームの舞台裏~ (2012)」も良さそうです。


生体情報寄りの読み物で面白かった本

(1) 単純な脳、複雑な「私」 (2009)
脳科学に関する基本的知識から最新の話題までを、高校生向けに授業した際の内容を書き起こした本。これだけじゃなく、池谷先生の本は「続きが気になって読み続けてしまう」タイプのものばかり!

こういう方面に興味がある人なら「Mind Hacks ―実験で知る脳と心のシステム」もお勧め。
どちらも解説&簡易実験で確認するという形で読みやすいです。

(2) 赤ちゃんは世界をどう見ているのか (2006)
人間の持つ不思議な能力に関し、先天的に持つものなのか学習によりはぐくまれるものなのかといった視点や、心理学の立場から得られた知見について一般向けに書かれた書籍。何がどこまで実験的に分かっているのか、分かりつつあるのかといったことがちりばめられています。人工知能/知能ロボットあたりでの一つの目標「赤ちゃんロボットを作りたい」という人なら読んでおくべき。
(3) ミラーニューロンの発見―「物まね細胞」が明かす驚きの脳科学 (2009)
赤ちゃんは世界をどう見ているのかの続きとして読むと、楽しめる一品。
複雑系的思考がブレイクスルーを生んだ事例としても、割と最近の脳神経細胞周りでどういうことが明らかになりつつあるのか、どういった仮説があるのかといった事を読める本。

処世術・ライフハック的な Tips やいろんな考え方/世界観が面白かった本

(1) 大学生のためのリサーチリテラシー入門 研究のための8つの力 (2011)
目次を眺めると分かりますが、タイトルになってる8つの力は「聞く力/課題発見力/情報収集力/情報整理力/読解力/執筆力/データ分析力/プレゼンテーション力」が挙げられていて、具体例を交えながら指南されています。今どういう本使ってるか分からないですが、講義「プロジェクト・デザイン1, 2」の教科書にすると良いんじゃないかなと思える本です。
この本の中でも紹介されていますが、一応この本よりも優しく書かれた本としては「大学基礎講座 改増版」。逆により抽象的な立場で書かれた本としては「大学生の学び・入門」があって、その中間を意識して書かれた書籍らしい。また、物事を複眼的に捉える「知的複眼思考法」も強く意識していると紹介されていますが、そういう多面的/複眼的に考えるということについて触れてみたい人はこちらも手に取ってみると良いでしょう。
イレギュラーな本として、「サはサイエンスのサ」もニュースが伝えている一側面とそれらの裏側や深い調査に基づいた解釈や独自の考えなどを書かれていて、調査の仕方や疑問へのぶつかり方、論拠の提示から考察への繋がり等を面白く読める本です。

ちなみに、勉強の仕方という点では「学習パターン (Learning Patterns)」も参考になるかと。同じパターン・ランゲージの例としては「プレゼンテーション・パターン (Presentation Patterns)」もあります。

(2) 「社会を変える」を仕事にする 社会起業家という生き方 (2007)
聞きたい話 (y11)」という話が出て、河野先生の話を聞く会があったようです。
広い意味でいろんな先輩の話を聞いてみたいということだと理解しているのですが、そういう点でこの書籍も一例になるかと。

そんな中、彼の胸のなかの疑問は、どんどん大きくなっていく。
「自分は本当は何をしたかったんだろう」と。

こう思ってる人は、一つの例として読んでみよう。

ちなみに「二十歳のころ―立花ゼミ『調べて書く』共同製作」(いろんな人の「二十歳のころ」どうだったかが分野問わず紹介されてます)なんていう本もあるらしい。

(3) 理系大学院留学 – アメリカで実現する研究者への道 (2010)
斜め読みしかしてませんが、海外大学院への入学等を検討してる人は一側面として知ってると良さそうな話がちらほらありました。いろんな進路があるんだよ、という参考に。私自身1年間米国留学した口だし。
研究繋がりで、言語処理学会の一イベントとして「自然言語処理における企業と大学と学生の関係」について3者の立場からの主張&討論がありました。その様子をブログにまとめています。また、情報工学科新入生歓迎LT祭りで話したこともその流れで紹介したものです。
(4) ウェブ時代をゆく ─いかに働き、いかに学ぶか (2007)
既に5年前の本という意味で古い気もしますが、「ロールモデルを見つけよう/Vantage point に立とう」とか今でも同じことが言えるTipsが紹介されています。

参考:書評


その他読み物でお勧め。小説関連(順不同)

  • スノウ・クラッシュ(近未来アメリカが舞台ですが、冒頭数十ページはずっとピザの話ですw 仮想世界で出てくる書司さん(プログラム)みたいなの作りたいなー。)
  • アイの物語(純粋にSFとして面白い!)
  • 時砂の王(同上!)
  • パプリカ(同上!)
  • BRAIN VALLEY(比較的たんたんと話が進むので人によっては好みが分かれるかも)

プログラミング関連、その他

[複雑研全体ゼミ補足記事] 7/23, 樹木生成モデル、強化学習

月曜日, 7月 23rd, 2012

今日の全体ゼミ
 ・潮平: [1] 樹木生成モデル
 ・慶留間: [2] 強化学習
での関連話を補足します。

[1] Simulating tree growth based on internal and environmental factors, 2005, http://dl.acm.org/citation.cfm?id=1101406&dl=ACM&coll=DL&CFID=129906701&CFTOKEN=72882969
[2] 宮崎和光.,村田元,小林重信: “Profit Sharingに基づく強化学習の理論と応用”, 人工知能学会誌 Vol.14 No.5 pp.800-807 (1999), http://svrrd2.niad.ac.jp/faculty/teru/xol_s.html


>樹木生成モデル

 どういう木を生成/再現したいのかという話や、そもそも最終結果だけで良いのか途中経過が大切なのかなど、研究目的自体を明確にしようという話がありました。
 その例として、「ユーザの望む結果」を生成したいのであれば、その「望んでいるもの」を何とかして低コストでシステムに入力できると嬉しそうだという例を話しましたが、より具体的な研究例としては [3,4] のようにインタラクティブに操作していくタイプの事例があるようです。特に [3] では、「パラメータが多く、局所的な形状に関与するパラメータから大局的なデータを推測しながら設定するのは困難」というような主張をしているらしい。
 別の例としては、 [5] のようにリアルタイムアニメーションを前提とした3次元樹木モデルの構築と計算量削減を行っている例があるらしい。
 目的と目標次第で評価方法が変わってくるので、自分が目指している場所を明確にしていこう。

[3] インタラクティブな生長シミュレーションによる3次元樹木モデルの生成, 日本バーチャルリアリティ学会論文誌, 2006, http://ci.nii.ac.jp/naid/110008728953
[4] 実写映像に基づいた3次元樹木モデルの生成, 電子情報通信学会論文誌, 1999, http://ci.nii.ac.jp/naid/110003183636
[5] 効率的かつリアルな3次元樹木モデルのアニメーションの検討, 電子情報通信学会技術研究報告, 2003, http://ci.nii.ac.jp/naid/110003272748


>強化学習

 部分観測に制限された状態(POMDP)ではマルコフ決定過程(MDP)が成立せず、次状態が「観測できる現在の状態+実行した行動」だけでは一意に定まらず、MDPを前提としたシンプルな方法だけではうまく学習が進まない。その一例としてループ問題を示し、一つの打開策として Profit Sharing が紹介されていました。
 部分観測が引き起こす「現実には異なる状態/状況を同一視してしまう」のは、何故起きてしまうのだろう? 例では2次元格子空間で表現された7×7~15×15のマップ内が用意され、例えばロボットが観測できる範囲が周囲1マスのように制限されると見分けがつかない状況が生じる、という話でしたが、人間だとそうは「なりにくい」はず。例えば、シンプルな3Dダンジョンゲームだと同じように「見た目には同じ」という状況は多々ありますが、歩数覚えるなりマッピングするなりして迷わないための工夫をすることで解決しようとするでしょう。
 つまり、単純に「観測できる現在の状態+実行した行動」で次状態を考えようとするのではなく、「観測できる現在の状態」を少し拡張して「どうやって現在の状態に辿り着いたか」といった履歴を活用して「異なる状況」として認識したり、環境自体にマーキングして観測結果を操作するなどして、POMDP環境下でも効率良く学習しやすくできると嬉しそうです。
 この「観測情報から状態空間を自動で構築していく」という方向での事例としては、[6,7] のように行動獲得やプランニングといったキーワードで研究がすすめられているようです。

[6] ロボットの行動獲得のための能動学習, 情報処理学会誌 (1997), http://www.er.ams.eng.osaka-u.ac.jp/Paper/1997/Asada97e.pdf
[7] 複数の学習器の階層的構築による行動獲得, 日本ロボット学会誌, 2000, http://www.er.ams.eng.osaka-u.ac.jp/Paper/2000/Takahashi00d.pdf

[複雑研全体ゼミ補足記事] 7/2, 交通シミュレーション

月曜日, 7月 2nd, 2012

今日の全体ゼミ
 ・与那嶺: [1] 交通シミュレーション
での関連話を補足します。

[1] A cellular automaton model for freeway traffic, Journal de Physique I, 1992, http://hal.archives-ouvertes.fr/docs/00/24/66/97/PDF/ajp-jp1v2p2221.pdf


>交通シミュレーション

 CAでモデリングする際の速度上限や格子サイズをどのように決めるべきかという話がありましたが、その一例として [2] では「車の最小車間距離(渋滞時のバンパー間距離)である 7.5m」をセルの長さとし、速度は0から最高速度までを整数化してv_max=5時に120km/hとなるように、実際の速度と対応させるという話が紹介されています。ただ、セルの長さを決めた上で速度 v を「単位時間あたりの移動セル数」決めると、その時点で移動速度が確定するように思うので、v_maxをどう設定するかというのはセルサイズと一緒に考える必要があるんじゃないかと想像しますが。

 都心部への自動車流入をコントロールする目的でのロードプライシング関連としては、利用の仕方に応じて課金具合を調整する [3] のようなデポジット制度が検討されているらしい。どういう状況で行動(駐車場/公共交通/徒歩/来ない)を変更するかについてもアンケート調査し、「来訪行動変更モデル」を構築する所までやってみているようです。実施前のアンケート調査主体なので、実際に施行された後でその回答通りに行動するかどうかは別問題として残るとは思いますが、一つのユーザモデルの作り方として参考になるかも。

[2] セルオートマトン法による道路交通シミュレーション, 人工知能学会誌 2000, http://ci.nii.ac.jp/naid/110002808261/
[3] デポジット制度による受容性と柔軟性の高い都市部自動車流入マネジメント施策の研究と実証, 道路政策の質の向上に資する技術研究開発成果報告レポート No.18-2, 2009, http://www-vip.mlit.go.jp/road/tech/jigo/h18/pdf/report18-2.pdf

[複雑研全体ゼミ補足記事] 6/25, UI全般の事例、自動運転/運転補助

月曜日, 6月 25th, 2012

今日の全体ゼミ
 ・西島本:視線インタフェースのデザイン [1]
 ・岩元:Traffic Light Mapping and Detection [2]
での関連話を補足します。

[1] 視線入力システムによるメニュー選択方法の有効性 : 若年者と高齢者の比較, 人間工学 2011, http://ci.nii.ac.jp/naid/10028058275/
[2] Traffic Light Mapping and Detection, Proc. of ICRA 2011, http://research.google.com/pubs/pub37259.html


>UI全般の事例

 具体的な方向性が決まっていないようなので、視線に限定せず UI 全般についての
事例紹介です。
 操作時のインタラクションを工夫するという事例としては、[3,4] のような疑似力覚や専用デバイス導入したものもあるようです。特に [3] は教育(学習)利用を想定してて、記憶の定着向上に向けたものらしい。[1] の視覚的なデザインとしての効果を高めるも「メニュー内の項目選択」のように制限して効果を測定しているように「ある特定状況下における効果」を測定するのは一つのアプローチですが、実応用を考えると多面的な視点が必須なので「どういうゴールを描いているか」を提示するのが先かなと感じます。勿論 [4,5] のように「新しいメディア」みたいな側面を重視する方向もありですが。
 ゼミ中の話題に出た「デバイス毎にコンテンツを最適化する必要があるのは面倒」という点での関連事例としては [6] のようなものがあるらしい。コンテンツといっても CSS/HTML に特化した例ですが。全く異なる視点の例としては、開発環境を提案する [7] というのもあるらしい。

[3] 擬似力覚を用いた概念マップ作成支援, 人工知能学会全国大会 2012, https://kaigi.org/jsai/webprogram/2012/paper-451.html
[4] メディアラボ第5期展示 「感覚回路採集図鑑」, 2009, http://www.miraikan.jst.go.jp/info/090924133793.html
[5] タンジブル・ビット : 情報と物理世界を融合する,新しいユーザ・インタフェース・デザイン, 情報処理 2002, http://ci.nii.ac.jp/naid/110002764323/
[6] 多様な閲覧サイズのためのWebページレイアウト最適化法の提案, 電子情報通信学会技術研究報告. NS 2009, http://ci.nii.ac.jp/naid/110007131194
[7] ユビキタスコンピューティングにおけるGUI-でバイス複合型のアプリケーション開発手法, 日本ソフトウェア科学会 2011, http://ci.nii.ac.jp/naid/110002764323/


>自動運転/運転補助

 自動運転/運転補助についてどういう問題例が考えられるか(というよりは他にどういうことに使えそうかという質問でしたが)という点については、例えば [8] の交差点内での衝突回避など、「予防安全」という観点からの取り組み [9]。
 [10] のように運転スキルを評価するという事例。
 また、[11] のように道路電気・通信設備なども含めた社会システムとして検討してるところもあるらしい。

[8] ポテンシャルフィールドに基づく交差点右折時の歩行者衝突回避に関する研究, 自動車技術会学術講演会前刷集 2011, http://jglobal.jst.go.jp/public/20090422/201102204186113173, http://technopark-tuat.com/tip/wp-content/uploads/Techno_park_MATSUMI_jp.pdf
[9] 予防安全装置の開発 (Active Safety Devices Development) / 東京農工大学 永井正夫研究室, http://www.tuat.ac.jp/~nagaimu/kenkyu_its0.html
[10] 高齢者の認知特性を考慮した運転能力評価システムの開発, 日本機械学会論文集C編 2011, https://www.jstage.jst.go.jp/article/kikaic/77/784/77_784_4591/_article
[11] 安全・快適ドライブをサポートするITS (ニュースレター), 電気学会論文誌D(産業応用部門誌) 2011, https://www.jstage.jst.go.jp/article/ieejias/131/10/131_10_NL10_1/_article/-char/ja/

[複雑研全体ゼミ補足記事] 6/11, Mario AI, プライバシー情報検出, 感情表現抽出

月曜日, 6月 11th, 2012

今日の全体ゼミ
 ・岩瀬:Mario AI [1]
 ・長浜:プライバシー情報検出 [2]、感情表現抽出 [3]
での関連話を補足します。

[1] Super Mario Evolution, http://julian.togelius.com/Togelius2009Super.pdf
[2] プライバシー情報検知のための知識の準備と学習 : 自然言語情報の開示制御技術DCNLの実現(2), 情報処理学会研究報告 2009, http://ci.nii.ac.jp/naid/110007160945
[3] 感情表現の抽出手法に関する提案, 電子情報通信学会技術研究報告 2004, http://ci.nii.ac.jp/naid/110003278750


>Linear Genetic Programming: 線形遺伝子GP

 Mario AI [1] で、Genetic Programming (GP) で木構造ではなく1次元配列表現で遺伝子表現することで進化しやすくなるという事例があったはずという話をしましたが、Linear Genetic Programming (LGP; 線形遺伝子GP) [4,5,6] でした。
 [4] では概要や提案時の論文が掲載されてるだけでなう、ソフトウェアも提供されてるようです(ただし多くは .exe ぽい)。また、[5] のようにLGPに特化して書籍化されたものもあれば、[6] のように他の最適化手法と比較されてる例も多々あるようです。

[4] 遺伝的プログラミング / IBA Labo., http://www.iba.t.u-tokyo.ac.jp/rs/gp.html
[5] Linear Genetic Programming (Genetic and Evolutionary Computation) [ハードカバー], Springer-Verlag 2006, (amazon) http://goo.gl/QMj2V
[6] A Comparison of Linear Genetic Programming and Neural Networks in Medical Data Mining, IEEE Trans. on Evolutionary Computation 2001, http://www.cpdee.ufmg.br/~joao/CE/ArtigosProgGen/NnGPcomparison.pdf


>プライバシー情報検出

 プライバシー情報検出 [2] について、想定している状況次第で「プライバシー情報」の定義や扱い方も違いそうだと思いながら聞いていましたが、古くは [7] のようにOECDガイドラインをベースにした話があったり、比較的最近だと [8] のようにリスクの拡大や、位置情報サービスを例にとった保護モデルの例が紹介されてたりするようです。

[7] ネットワーク上での情報統合によるプライバシー侵害とその対策, 電子情報通信学会技術研究報告 1998, http://ci.nii.ac.jp/naid/110003276315/
[8] ユビキタス情報社会のプライバシーとその保護技術(センシングネットワーク), 情報処理 2010, http://ci.nii.ac.jp/naid/110007700779


>感情表現抽出

 感情表現抽出 [3] について、抽出だけでなくその先(例えば Negative/Positive 分類とか)についての事例について調べてみました。[9-12]は言語処理学会第18回年次大会から「感情」というキーワードが含まれているものをピックアップしてみています。
 [9] では「機能(陳述/発話/質問など)」という観点で分類するという例(ただし[9]自体は分類体系を検討するのが主題で自動分類まではしていない)や、[10] のように語義・意味役割を付与したコーパスを構築し、傾向分析するという話などがあるようです。
 もう少し具体的な題材を見据えた事例としては、[11] の話し合い構造化(賛否表現分類)による「合議」を目的としている例や、[12] のうつ検出のために感情変動を推定するという例があるようです。

[9] 何をつぶやいているのか?: マイクロブログの機能的分類の試み, 言語処理学会 第18回年次大会 2012, http://www.anlp.jp/nlp2012/program.html
[10] 日本語テキストに対する述語語義と意味役割のアノテーション, 言語処理学会 第18回年次大会 2012, http://www.anlp.jp/nlp2012/program.html
[11] 賛否表現評価ラベルによる合議目的の話し合い構造化の試み, 言語処理学会 第18回年次大会 2012, http://www.anlp.jp/nlp2012/program.html
[12] うつキーフレーズと感情変動に基づくブログからのうつ検出手法, 言語処理学会 第18回年次大会 2012, http://www.anlp.jp/nlp2012/program.html