Archive for the ‘NAL研議事録’ Category

仮配属生との顔合わせ食事会

金曜日, 11月 16th, 2012

午前中は比較的時間が取れたので、デュアルソリューションさんとの連携でどういうことがやれそうかについての検討。取りあえずはストレートに思いつく事を列挙。大分前に産学官連携でやった「携帯電話と電子マネー融合型情報提供サービスによる沖縄観光消費拡大モデルの構築」でも似たようなことやってたので、逆にいうとどこかに新しい点or面白そうな点を見つけ出せないと研究テーマとしてはやりづらいかなぁ。間接的に「どういうことをやれそうか」を提案する方が面白そうではある。先方に取ってそれが嬉しいかはまた別問題だったりもするけど、それは後で擦り合わせの時に気にしたら良いだけだし。

午後は、とある人力事務作業で数時間やってからゼミ。卒業生が来る予定だったんですが、体調不良のため来れず、そちらとの顔合わせはできなかったのはちょっと残念。卒研中間発表の口頭発表に参加した4年次には「Best Presentationを探して自分の発表に活かそう」という話をしていたのですが、うちの学生らによると以下の学生が良かったとのこと。互いに刺激し合いましょう〜。

  • 松田安登@和田研:研究発表に限らずいろんな所での発表経験があるからなのか、カンペも使わず、場慣れしている印象。
  • 比嘉岬@長山研:質疑応答時に、質問者の意図を確認して汲み取ってから回答しているのが良かった。
  • 城間篤人@谷口研:話し方が丁寧なだけでなく、研究全体のストーリーが分かりやすかった。

仮配属生との顔合わせ食事会ということで、B4に段取りお願いした結果モフモナに行くことに。(晩ご飯は自宅で食べることにしてることもあって)数年ぶりに食べたのだけど、相変わらずの美味しさ。基本的に出てくるのが遅い(文字通り本当に遅い)ので、ゆっくりしたい時にはとてもいい場所だな。自己紹介では就職活動目前の学生に今後の予定突っ込んでみたり。進学にせよ就職にせよ、その先を考えて選ばないと時間浪費するだけになっちゃうことがあるので、たまには突っつかないとね。

進化計算班7回目終了。そろそろ中間地点なので一度振り返す時期?

木曜日, 11月 15th, 2012

個人的に曇り具合や萌え具合が素晴らしかったので珍しく曇り空をアップしてみたり。

中間発表のWeb質疑応答に回答が届き始めているので、気になる回答には突っ込み返し。意図が良く分からない場合には直接話を聞くのも一つの手です。口頭発表時でも意図自体が分からないまま回答するのはできるだけ避けよう。勿論「誤解しているか否か」自体を判断できないこともあるけど、回答前に一度「**についてということで宜しいでしょうか?」とか自分の言葉で相手の質問を解釈し直して確認するとか、工夫の仕方はいろいろ考えられます。

進化計算班は7回目が終了。今週からは具体的な「クライアントからの要求に基づいた開発」に入るので、メインタスクは進捗確認を兼ねたコードレビューになります。今回は全グループJavaらしい。2006年からやってるけど初めての展開。今期から始まってるモデリングと設計の影響もあるのかしら。astah使ってモデリングしてるグループもいるし。今度使いやすいのか聞いてみよう。

オプションのプログラミング演習では、いくつかのサンプルソースを使いながらGDBを使ったデバッグ演習&ポインタ周りの確認(PDF)したぐらい。実装の時間もできるだけ確保してあげたいので、これからはTips的な紹介ぐらいで終わるんじゃないかなと。

実験の議事録を書いてた時点では来週はxUnitかDoxygenあたりをしようかなーと考えてたんですが、そろそろ中間的な頃合いでもあるので振り返りか自己評価的なものをやって、残りの後半でそこの改善を目指せるように可視化でもするかしら。グローバル変数的な実装だと何が問題になるかという話でも良いかなー。受講する側も「自分で」シラバス見直して講義の達成目標を確認して、自分の行動を振り返ってみよう。

こんな感じで、オプションで何やるかどうかは当日の気分次第だったり。

地味に細切れなタスクがちらほら入った日

水曜日, 11月 14th, 2012

特に明確な〆切があるわけじゃないタスクは時間取れるタイミングで手をつけてみる訳ですが、こういうものは後回しされまくりでなかなか進まない。もうちょっと集中して一日二日で片付けてしまった方が良いよと思うのは簡単だけど、なかなかそういう風に行動できず。リソース管理してくれるOS募集中(嘘)。

何年か前にお願いされたタスク(事務作業)が再度舞い込む。お願いされるのは構わないのだけど、人の使い方というかアプローチの非効率さが前回と変わっていないのはちょっと悲しい。事務作業は事務にお願いした方が良さそうなんだけど、かといって何か対案出してまで関わろうという意思がある訳でもないので粛々と作業してみたり。

久しぶりの個別ゼミは院生の番。いろんな話題が混在している Timeline 上での「同一話題/関連している話題」と判断しているのはどうやっているのか、をアンケートベースで調査しつつ自動判定できるようにしたいねという話。結構時間取られるアンケートなので手伝ってくれた人には「おいしい食事を食べに行こう!」ということで土下座依頼する方向でw 真面目に必要なタスクではあるのでやらざるを得ないので、ほんと、お願いします(土下座)。


一方で、認知科学or認知言語学の方面で似たような報告はありそうなので、そっち方面の調査も必要だよな。これまでにないタスクだとは思ってるけど、参考になる類似タスクは多々あるだろうし。取っ掛かりぐらいは見つけておきたいが、どのタイミングでどういう風にやるかは悩みどころ。今度の日本認知科学会第29回大会に参加してくるのもそっちの意味合いが強いです。MIT認知科学大辞典なるものが出版されるようだけど、1640ページの辞典ぐらい最初から電子データで出して欲しい。。どうしよっかなぁ。

昨日直したつもりのパッチは、学生からの報告により不十分だったことが判明したので、急いで修正版を用意。分かりやすい報告出来るのも一つのスキルだよね。「単に動かない」とかいわれても「で?」と返したくなるし。

明日は、岸本奨学金で東南アジア(ベトナム、タイ)に研修派遣してきた学生による成果発表会があるらしい。「11/15(木),16:20-17:20,工学部2号館224室(大会議室)」です。別件ですが、近いうち(?)に、インターンシップ行ってきた学生らの成果発表会的なものも計画中とのこと。学内に閉じこもる必要はないので、自分で何を目指すか、どう行動するかの目標が定まってない人はこういう「人の体験」に触れてみるのも一つの手じゃないかと。勿論オフィシャルな場じゃなくて、個別に話しかけてみるのも一つの手です。自分から行動しよう〜。

教員による研究室紹介終了(NAL研紹介サマリ)

火曜日, 10月 23rd, 2012

研究室紹介は20時過ぎで終了。関係者各位お疲れさまでした。

今日は4年次の中間発表〆切に向けてのミニゼミ2件をして、残りは研究室紹介用の資料整理をほげほげしてた一日。昼過ぎには終わるだろうとたかをくくった割には16時頃までやってました。一旦資料作り始めるとあれこれ紹介したくなるからなぁ。実際には説明省略しまくりでしたが、興味ある人はゆっくり眺めてみてねってこともできるし。

ということで、NAL研紹介で使った資料をアップロードしたので資料リンク紹介と、話し忘れた事項の追加です。基本的には全て資料中にリンクを掲載していますが、特に説明中に紹介した関連事例リンクも抜粋しています。

紹介し忘れてたのは後半2件。

選書2012は、関係のある専門分野へのイントロダクションも紹介してますので、参考になるかなと。

未踏ユース/スーパークリエータにまつわる座談会は、IPAの未踏ユースと呼ばれるプロジェクトの話です。詳細はその座談会記事を読んでもらうとして、端的に紹介すると「前人未踏なIT技術を組み込んだアイデアに対して開発費(上限180万ぐらいらしい)とスペシャルなPMを用意して開発支援するよ!」という人材発掘を兼ねた育成事業です。その応募にNAL研の与儀さんが採択されただけでなく、スーパークリエータ認定されました。ぱちぱち。という紹介ではなくて、進学するからといって「研究室内/大学内/学術交流内」に制限した活動をするのは勿体無いよ。未踏に限らずもっと外を見よう。外に出て活動しよう。という話をし忘れました。

勉強会に限らずいろんな所で多種多様な支援なりプロジェクトなりコンテストなりが開催されてたりしますので、そういう情報探して応募するも良し。気にせずGitHubとかでオープンソースとして公開しながら自分のプロジェクト進めるも良し。研究活動100%集中で学外発表しまくるも良し。何らかの方法で学外活動しないと、外からは「あなた」を見つけることができないですよ。というお話。前に新入生向けLTで話したことでもあります。

教員による研究室紹介の始まり

月曜日, 10月 22nd, 2012

今日は情報工学実験2の情報ネットワーク演習2の最終日ということで、月曜クラスのストレートケーブル作成実習と、実技テスト(ポートベースVLAN、タグVLAN、STP)。ケーブル作成は前回のクラスで「全体に向けた口頭指導+テキスト提示」のみでがしがし圧着させまくってたこともあって大量にRJ45コネクタを廃棄するはめになったのですが、今回は「できるだけ圧着前に一度確認させて〜!」としたところ当然ではあるけど劇的に廃棄数が減りました。失敗するのも勉強のうちではあるのでどちらが良いのか良く分からなかったりしますが、圧着前の目視チェックでダメ出しされまくった学生もいるので結果的には「事前チェック」方式で良いのかも。

2週目は時間的に余裕があるので何か追加するかという話題。追加するならMSTPだよねで一致するんだけど、それだったら1週目の続きでそのまま盛り込みたいが、1週目はちょっとこれ以上は微妙なライン。来年はどうなるかなー。

学生実験が終わったら明日に順番が予定されてる研究室紹介用の関連資料をちらほら整理。ここ数年更新をさぼってたNAL研の歩みもようやく更新。ブログ側でイベントレポート一覧を作ってあったので、不足分(学内イベント分ぐらい)を追加するぐらいのコストで整理できたかな。昨年度のイベントではやっぱり「頭脳プロジェクト キックオフシンポジウムへの参加 [ 第1部 | 第2部 ]」と「与儀さんのスーパークリエータ認定 [ 座談会風紹介記事 ]」が大きいかな。

トップページの左側にあるリンク集やら普段の日記やら眺めたら「私がどんな人か」を想像しやすいんじゃないかと思いますが、どのぐらいの人が眺めているかは不明です。ただ、一度「FAQを朗読してる場面に遭遇した」ことがあるので、ゼロではないらしい。ネタ的に書いてる部分を朗読されると狼狽するしちゃうので注意。というかFAQとかいくつかのページは大分古いから削除したくなるな。更新しても良いが、うーん。

明日はどういう風に10分の時間を使おうかなー。とあれこれ悩んでると面倒になって「例年通り」になると想像するが。

ゼミ&お茶会で4時間弱かかった一日

金曜日, 10月 19th, 2012

学生実験とゼミに追われる三日間が終わりました。ちょっと明日は休業日にしないとキツいかなー。
1週間合計のゼミ時間としては、ゼミ関係の時間が「月曜に1.5時間ぐらい。水曜に1時間。今日3時間」で、合計では5.5時間はゼミだったらしい。有意義な時間だったとは思うので良い時間の使い方でしたが、流石に疲れました。

学生実験2の方は、ストレートケーブル作成&実技テスト。1グループ(4~5名)あたり2,3本作ってもらって一人あたり1口ずつは作業してもらうのかなと想像してた(昔やった時はそうだった)のですが、今回は全員1本ずつ作成してもらう事に。想像通りではありますがRJ45コネクタへの圧着ミスが大量発生して途中から「圧着前に一度確認させて!」に。うん、一度に40名弱相手に説明しても聞いてなかったりするし、注意点書いててもテキストも斜め読みしちゃうからこうなっちゃうよね。これが「実際に作業してもらう」ことの意義ではあると思うので、失敗含めて考慮済みではある。が、来週やる月曜日のクラスではもう少し圧着ミスを減らしたい所存。

ゼミには、研究室配属シーズン(研究室紹介が来週〜再来週に予定されてて、実際の配属調整は11月上旬ぐらいかな?)ということでB3の方々が見学参戦。それは良いものの、4年次の中間発表間際だったり、ここ最近個別ゼミ追加とかで学生側も脳内加速してるのか一人あたりの討論時間が長くなり、延長しまくりの3時間弱(予定では90分前後)もかかってしまいました。お茶会も用意してたけどとっくに晩ご飯過ぎててもおかしくない時間帯になってて、そこから更に1時間弱懇談会もの間お腹グーグーならせてしまったかもしれない(終わったのは20時前)。ごめんなさい。来週も多分延びるだろうから、来週はお茶会じゃなくて食事会にするorお食事的なもの用意するべきかなぁ。

それでもゼミ&お茶会(懇談会)参加して初めて分かる事があったとは思うので、他研究室も含めて適宜役立ててもらえれば、それが一番です。

言語処理学会第18回年次大会(NLP2012)を振り返る

水曜日, 3月 21st, 2012

自然言語処理学会第18回年次大会(NLP2012)が日程上終了しました。

記録のため、見つかる範囲でNLP2012関連ブログ記事を整理すると以下のようになります。

當間レポートでは基本的に質疑応答を中心とした備忘録がメインでした。
この記事では、「聴講した発表」で興味深かった内容等についてつらつらと書いてみます。


<目次>
知識表現について

不勉強を承知の上で書きますが、知識の表現方法として様々な取り組みが行われているにも拘らず未だにうまい解決方法が見つかっていない。問い方が悪いという側面も意識はしていますが、representation 問題に関するモヤモヤ感が拭えません。乾先生のチュートリアルで紹介のあった「Distributional semantics」というのも一つの道だと思いますし、propositionalとの融合という道も分かりますが、直感的にはうまくいきそうに思えないです。ここでいう「うまくいきそうにない」は、私にとっての設問が人工生命・人工知能寄りの話であって、固定ドメインでの固定タスクに特化させたアプローチとしては十分機能すると思います。そういう意味では「Distributional semantics」という考え方は興味深い。

(目的に応じた)特徴量表現について
前述の知識表現と絡む話ではありますが、「文書分類するなら/深層格抽出するなら/同義語抽出するなら/etc.こういう特徴量」というような、大雑把にまとめてしまうと「目的に応じた代表的な特徴量表現」というのがあるかと思います。研究の掘り下げ度に応じて新たな表現形式が日々生まれてくるのは良いとして、目的に応じてユーザが取捨選択するというのではなく、取捨選択まで含めて低コストで最適化できないのかなぁ。

単純な定式化方法としては「予め候補を列挙しておき、最適な組み合わせを見つける」みたいなのが思いつきますが、うーん。そこまでやるならもう一段メタ的にレベル挙げて、対話的に背景・目的・目標・例題等を提示しながら問題設計をサポートしてくれるような所を目指した方が嬉しそうではある。災害関連テーマセッションの全体討議で出たような「ポイントが別にもあって、災害時にはガソリンが無くなるとは誰も思っていなかった/原発壊れる/計画停電などなど、予測できなかったイベントが多かった。どういう情報を抜いてくるかが分からない状況下で「抜いてくる」というタスクは一つ大きな面白いタスクだと思う。」への一つの解としては、そういうのを低コストに実現する必要があるのかなと想像。より現実的なエキスパートシステムとか、実際に現場で利用できるレベルでの知識の蓄積の仕方、と考えても良いかもしれない。専門家に相談したら良いという話でもあるけど、それも難しい状況があるわけで。

そういう状況&タスクに相当すると思われる一例として、行政に関するSNS上のコメントの自動分類とか、「東日本大震災関連の救助要請情報抽出サイト」構築と救助活動についてあたりのタスクは、前述の「より現実的なエキスパートシステムがあればそのレベルは一定程度解消できる」ように思う。前提が曖昧過ぎますがw

IEICE SIG-WI2関連のツイート(@m2nrさん)で見かけたのですが、減災情報システム合同研究会なるものが4月に発足するらしい。

含意関係認識について
RITEに含まれてる1タスクですが、NIIの宮尾さんが大学入試関連の発表で言われてたように「記憶していることと問われていることが意味的に一致しているかどうかを認識するタスク」という観点から「人間がテキストを介してやっているものは何か」ということへの解明に迫ろうとしている点はとても面白い。去年のキックオフシンポジウムでもあった「含意関係認識以外にどういうタスクがあるのか、それらを積み重ねていったその先にあるものは何か」という点は、何があるのだろう。一方で、ここで挙げた「知識表現/特徴量表現」みたいなことを考えると、実は今回の取り組みもまだ「実はロジックで記述可能な文章」に制限されてたりしないかという気もする。

いろいろ関連発表ありましたが、個人的に続きが気になるのは数量表現を伴う文における含意関係認識の課題分析

発話文の前提の推定
対話のような複数主体が共同活動するには「必要な知識・信念(=前提)」を共有化する必要があり、対話を通してその前提をどう作り上げていくかという話。英語テキストでは前提推定に役立つ手掛かりに関する研究が多々あるけど、今回は日本語でやってみたらしい。「前提」という考え方が良く分からないけど、「対話」を対象にしているだけあって他には無い視点(だから理解し難いの)かもしれない。

説明生成に基づく談話構造解析の課題分析
対象は英語談話で、Boxerというセマンティック表現に変換するシステムを利用しているらしい。特に「接続詞が非明示的(implicit)な状況での意味的関係」を推定するタスクの解決が目的で、現状ではF値4割程度とのこと。日本語だとどのぐらいやられているんだろう。深層格推定にも近いタスク?

複数ドメインの意見分析コーパスを用いたアンサンブル学習による意見分析システムの提案
「ドメイン」そのものを自動抽出というか自動分類するようなシステムがあると良さそう。目的に応じて異なりそうなので、そこも加味する必要ありそうだが。

定義文から自動獲得した言い換えフレーズペアの分析
人手でアノテーション精査した後でALAGINフォーラムで公開予定らしい。いますぐ必要なデータというわけではないのだけど、あれこれ言語資源が提供されてるという点ではとっとと使える状態になっておく方がベターだとも思う。ぐぬぬ。

法令文の構造的書き換え
タスクとして面白いのだけど、アプローチとしては情報処理学会全国大会であった係り受け構造アライメントを用いた文間の差異箇所認識の方が実用面で使いやすそう。法令文ならではの特有タスクもあると思うけど、より一般化されたタスクという点で。

2ツイートを用いた対話モデルの構築
最終的な目標をどういうところに設けているのか分からなかったですが、個人的には「より人らしく見えるbotのモデル化」みたいな視点で話を聞いてました。人らしく見えるというだけで、提案/推薦/相談とかいろんなタスクへの心的負荷軽減に繋がるんじゃないかなーとか。もやもや。

同じような点では、市川先生による招待講演での「対話言語」という切り口での仮説や検証結果がとても面白い。こんな話されたら「書籍:対話のことばの科学」を即ポチリますとも。

コールセンタ対話における話者の知識量推定も、ある意味「早い段階で対話相手の知識量を把握することができれば、それに応じてより適切な対応を取りやすくなる」みたいな話に繋がるんだろうな。

何をつぶやいているのか?:マイクロブログの機能的分類の試み
ツイートを機能面で分類しましょうという話で、まずは分類体系について検討したという話。こんな感じであまり良く考えずに「まずやってみてから問題点を洗い出す」というアプローチも、ある程度の知見を得られたのでやって良かったではありますが、もう少し後先の事を考えてアクションに移すべきだったか。とはいえ、今はまた「体系なりの指標をシステム構築者が設計する」というのに限界を感じてたりするので、別アプローチ取ってても同じ道を歩んでいたとも思う。いくつかの代表的な俯瞰目的にはこういう体系化が大切なんだと思う。

俯瞰目的によっては、意味検索のプロトタイプシステムの構築や、料理レシピテキストの構造解析とその応用のようなアプローチの方が良さそう。前者だとあるキーに対する機能的側面による絞り込みがしやすそうだし、後者だとフローチャート化することでストーリーを加味した抽象化ができそうな予感。ストーリー性という点ではストーリー性を考慮した映画あらすじからの類似度計算というような話が情報処理学会全国大会でありました。

小学生のための新聞読解支援に向けた重要語抽出の検討のように、注目されやすい/説明を聞きたくなりがちな観点での重要語を自動抽出することで「デフォルト視点」みたいなのを設計することもできそう。

ランダムフォレストを用いた英語習熟度の自動推定
今回「作文・校正支援」関連の発表を聞けていないのですが、こういう「習熟度推定」という側面も一つの校正支援ができそうだなと思って聞いてました。

作文事例に基づいた児童の「書くこと」に関する学習傾向についての分析−小学四年生による紹介文・感想文を中心に−も、校正という観点からどういう風にアノテーションしたら良いのかという点でとても参考になりそう。大学での課題指導か、論文指導版であれこれ校正コーパスあると嬉しいよなー。

違う観点になりますが、機械生成した作文でも同じ特徴量で評価できるのかしら。


同じく校正の一例としては冗長な文の機械的分析と機械的検出みたいな話も。

辞書の意味を利用した日本語単語と英語単語の難易度推定
情報処理学会全国大会でも同じく「日本に住む外国人」にとっての日本語の難易度推定という話がありましたが、こういうのを突き詰めていくと頭脳プロジェクトでいうところの「外国人向けの誤解し難い制御された文」みたいなものを生成できるようになったりするのかな。

論文間参照タイプ判定の細分化に基づくサーベイ補助システムの構築
是非とも実用レベルに仕上げてCiNiiに組み込まれて欲しいw

住民参画Webプラットフォームにおけるコンサーン・アセスメント支援機構
個人的に学会イベント参加する度に「イベントレポート」として文章化(記録化)していることもそうなんですが、こういう学術交流に関する「論文」以外の交流(質疑応答とか)をうまく残すことってできないのかなー。pingpong project(ピンポンプロジェクト)の一側面とも思ってたんですが、久しぶりにブログ見直してみるとあまり続いていない(?)ように見えるし。うーん。

安否情報ツイートコーパスの詳細分析とアノテーションに関する一考察
災害関連については既に書いたのでここではANPI_NLPの今後について。全体討議でも話題になりましたが、「災害ツイートコーパスがないとできないことと、そうでないことはあるか」が気になります。憶測・デマ混じりの中で云々というのはそのタスク例なのかな。A4:テーマセッション3 : 災害時における言語情報処理(1)ではそれ関連の発表が多かったらしい。

修了生によるミニワークショップ(与儀)

火曜日, 3月 20th, 2012

修士修了生がそれまでに得た知見の中で、特に論文などの文章として書かれているもの「ではない」部分として、これまでに作成したプログラムや実施した計算機実験の一部を体験してもらうため、研究室新配属生を対象としたワークショップのような形式で実施してもらいました。

前回の下地くんに引き続き、今回はTwitter上の議論要約関連をやってる与儀さん(FIT2010FIT2012未踏)が担当です。


イントロ紹介をした後、B3向けnal研チュートリアル – よぎぶろぐに沿って進めるらしい。

前回の「もう少し手を動かしてもらう所があると良かった」という話をしていたこともあって、全体としては説明4割+環境構築4割+動かす2割ぐらいはあったんじゃないかと。途中から説明というか実演で済ましちゃうのが増えましたが、全体像が記事化されてる分見直しやすいだろうから問題にならないだろうし。

環境構築で R, mecab, RMeCab とインストールしていく所でまずはつまづく。こういう失敗に遭遇できるのがワークショップする意義の一つだと思う。

検索しながら試行錯誤した結果「ソースパッケージ」としてインストールすると良いらしい。

その後は上述資料に沿って形態素解析、特徴ベクトル作成、クラスタリングするといった一連の流れを通しながらRの使い方をあれこれ実演。

終了後に、未踏での話含めて与儀さんの1,2年での取り組んだこととか情報源/書籍/RSSとか幅広いTipsを紹介してくれてました。
「エディタは何使ってる?emacsとか?」「vim使ってますね」「はっはっはっは。でもorg-modeはvimにもあってねー」とか微笑ましいですね。

(研究室内アクセス制限付きの場所かもしれないけど)多分その資料も後でどこかにおいてくれるんだと想像。

他の4年次やM1が参加できなかった(一人途中から来たけど)のはちょっと残念ですが、その分「聞かなくてもそのぐらい分かってる(キリッ」という事なんだと理解していいんですよねw

情報処理学会 第74回全国大会 を振り返る

土曜日, 3月 10th, 2012

情報処理学会 第74回全国大会が日程上終了しました。

上記レポートでは基本的に質疑応答を中心とした備忘録がメインでした。

この記事では、「聴講した発表」で興味深かった内容等について整理します。

整理といってもピックアップしながら何が面白かったか(どういう視点で見てたのかとか)をコメントとして残しておくだけですが、いろんな視点があるんだよということをこの記事読んでる学生に少しでも伝わると嬉しい。

Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)
PDFが与えられた時に機械的に「意味的に繋がりのある箇所をグルーピングしていく」という話。目新しさは感じなかったけど、人工頭脳プロジェクトみたいなケースでの「用紙を見たときに論理構造を自動で抽出したり、図表イメージ等を説明文と紐付けて解釈する」ところでは必要になる技術だよなという点で「残されてる課題」が何なのか気になりました。図と説明文を紐付ける方は、NIIの「テキストからの物理モデル生成に向けて」で話を聞けると思うので、楽しみ。

中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)
同様に人工頭脳プロジェクトを意識して聞いてました。この発表は「(有理数の演算で解くタイプの)文章題を解く」というソルバ自体の提案。この手のアプローチにおける根っこは数理論理学で、実際にテキスト解析しながら論理式&論理記号に変換するところをやってるという理解で合ってるのかな。そうだとして、似たようなアプローチが多々あるんだろうけど、既存アプローチでの問題点などが気になるのと、「直接文章には現れない【常識を加える】ことで不足知識を補う」ところを手動でやってるところは残念。いや、手動でやっても良いとけど、対象としてる「中学校レベル」では(a)どのぐらいの数が必要なのかが想定できているのか、(b)そもそも時間かければ解決できる問題なのかといった意味での「記述可能性」が気になる。

質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)
アプローチはともかく「ユーザがシステムに入力した質問文中に情報が不足している場合」という視点に共感を覚えました。全部が全部じゃないですが「特徴ベクトルで類似度云々」という話であれこれ処理しようとしてると「どういう処理であれ特徴ベクトルが適切に構築されている」という前提が必要になるんですが、そうじゃなくて「不適切だったら適切になるよう作り直そう。必要なら情報源広げよう(バイアス/縮小/集中しよう)」という設計指針で動くシステムであっても良いわけで。

冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)
一種の要約・サマリ生成タスクだと思いますが、こういう「まとめる」タスクにおいて「何を除外するか、どういう視点でグルーピングするか」といったことまで含めて半自動化で指示しながら整理できると嬉しそう。

マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)
Google trendsbuzztterを合わせたような話。堀川くんがやってるテーマに近いですが、こういう話を聞くと抽出漏れや痒い所への手の届き難さが気になってしまいます。2chまとめサイトみたいなものでも良いですが、まとめる人(システム)毎の面白さがあって良いと思いますが、ユーザが操作できる余地を用意できないかなーと。

準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)
めちゃくちゃ細い回線上に一方通行な回線(約6秒に1回250bit程度)だけど、アジア・オセアニア全域カバーできることもあって、何かしら防災に役立てられないかという話。具体的なオペレーションが(多分)設計できてないようですが、グリニッジ標準時みたいに何かしら世界標準規格化できると便利になりそうな予感。

日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本人の観点で作られた「やさしさ」が本当にそう感じられるのかが分からないということで、実地調査含めた検討をしたいという話。原語と意味や発音が異なることが多い「外来語」が「やさしさ」に比較的相関しているとのこと。「理解する/誤解を生じ難い文章」という観点での「自然らしい文」が推定・自動生成できるようになると嬉しいよね。

文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)
「消費者-広告代理-出品者」という3者間のマッチングを改善するため、「消費者が検索時に入力する任意の文字列」と「出品者が用意するコンテンツ」のマッチング精度向上したいという話。去年発表したという「対象分野に特化した類似度計算」(多分これ)の続きで、記憶容量&計算コストを改善したらしい。情報源依存でスコアが異なるので類似度の適切さについても要検証だと思うけど、なるべく汎用性のある類似度したいならGoogle辞書なり使うだけでOKという立場で、ドメイン/コミュニティ特化類似度みたいなのを目指しているっぽい。

係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)
開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きいし、修正する度不整合箇所発見タスクが生じて以下略な状態なのをなんとか簡素化したいという話。現場ならではの具体的なタスクだよね。去年のNLP年次大会で聞いた実務翻訳で耳にした翻訳メモリと類似タスクにも見えるのだけど、どの辺りに違いがあるのかしら。

複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)
コーパスを使用しないキーワード抽出という視点は面白いけど、こういうアプローチで「抽出されたキーワード」というのはどういう特性を有するのだろう。普通、「特徴的な」とか「良く使われる」とか何かしら相対的な特徴があって初めて「このコンテンツならではの特徴」というのが見えてくると思うのだけど。

知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)
語彙的マッチングのアプローチとして、「概念付与+係り受け解析+深層格付与」という流れに「なるほどー」と思いながら聞いてました。ちゃんとした評価までやれてないようですが、割とざっくりとした方法でも十分な結果が得られたりするのかしら。

ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)
「あらすじ」というコンテンツを「語彙的な類似度+ストーリー性の類似度」で検索したいという話。実際問題としてあらすじマッチングがどれぐらい有益かは分かりませんが、時系列データとしてのマッチングに「語彙的な意味も加味」している点が面白い。語彙は「映画のジャンル20種程度を素性とする特徴ベクトル」として表現していた気がして、TFIDFみたいな「コンテンツ毎に特徴量が異なる」形式ではなく固定値での扱いでした。それにも関わらず、ストーリー性をDPマッチングで考慮することでマッチング精度としては向上しているらしい。どちらの要因がより強いのかも気になりますが、とても面白い試み。

共起ネットワークを用いたクラスタ性によるテキスト分類○小林雄太,村上裕一,中村真吾,橋本周司(早大)
クラスタ係数に基づく分析で「テキスト分類」できないかという話。ちょっと無理筋というか、別指標持ち込まないと無理なんじゃないかなとは思いつつ、このアプローチで分類される結果にどういう意味があるのかという解釈を考える(自動解釈する)のは楽しそう。うまく記号化できないという点で、ある意味人間の脳内でやってるような処理に近い側面もあるのかなー、的な。

修了生によるミニワークショップ(下地)

土曜日, 3月 10th, 2012

修士修了生がそれまでに得た知見の中で、特に論文などの文章として書かれているもの「ではない」部分として、これまでに作成したプログラムや実施した計算機実験の一部を体験してもらうため、研究室新配属生を対象としたワークショップのような形式で実施してもらいました。

残念なことに帰省している慶留間くんはタイミングが合わず、参加者は玉城くんのみ。マンツーマンで指導して貰えるとか恵まれてますねw

今日は、一般物体認識やってる下地くん(参考:FIT2010FIT2011)が担当です。

修了生に向けて指示した中身は以下の通り。

>目標と補足
・修論成果物のイントロor部分課題or全体像を体験してもらう。
・細かい内容はがっつり割愛し、イメージとして伝えるよう工夫。
 *例えば実験2の探索アルゴリズムでは「NNがどういうものか」を
  簡易説明だけで終わり、入力ファイルと出力ファイル、パラメータの説明だけで「学習」
  についての試行錯誤を体験させています。
  詳細は修論や参考文献読めば良いだけなので、おまじない/こういうもの、という説明でも良いです。
・必要に応じて成果物を参照できるようにする。
 *sharkにデータやプログラムを置くだけじゃなく、
  それらをどのように使うのかのドキュメントも用意しましょう。
  修論付録だけでドキュメントを完結する場合には「修論のありかを明示しつつ、付録参照」のように書いてもOK。
 *修論付録を用意できたら印刷(製本)前に一度確認させてください。
・「機械学習」など計算に時間がかかる部分では、
 ワークショップ中では小さなデータで試し、
 処理の過程を理解してもらった後で「3分クッキング方式」で「予め処理しておいた結果」を用意しておくとベター。

>内容と実施方法の例
下記の例全部というわけじゃなく、どれかを組み合わせて90分程度で収めるという意味で例示してます。

>下地くんバージョン
(1) SIFT特徴量からBoFでベクトル表現するやり方。
(2) ベクトル表現された特徴量を用いたSVMによる学習&認識の仕方。or 投票制による簡易学習&認識の仕方。
(3) SIFT特徴量から共起情報を構築するやり方。
(4) 構築した共起情報の可視化や傾向を観察するやり方。
(5) 構築した共起情報を用いて認識するやり方。

これを踏まえて実施してもらったんですが、大半の時間が説明になってて「体験」する部分が殆どなかったのが少し残念。

今回のやり方は、「下地くん本人が動かして結果を示しながら(見ながら)説明する」という形になっていました。これはこれで「下地くん本人が対象問題をどう捉えて、それについてどうアプローチしたのか、その結果どういう知見を得たのか、どこに難しさ/面白さがあるのか、残されてる問題が何か」といった一般的な研究紹介という点での面白さは伝わる紹介だったかと思います。

この方式は、確かに一人で修論読みながら学ぶよりはイメージしやすくなっているのですが、冒頭で述べた「これまでに作成したプログラムや実施した計算機実験の一部を体験してもらう」が少し落ちてるのが勿体無いかな。それでも「こういう説明をする時にこういうデモができると分かりやすい」ぐらいの意味合いがあったとは思うし、説明を通して「クラスタリング、ベクトル空間モデル、重心、Visual words」とかいろんな技術用語についてのイントロにはなったと思うので、やっぱりやってもらって良かったとは思います。


という感想を書いてたら「予定より早く70分ほどで終了」しちゃったので、「じゃ、実際に聴講者本人に動かしてもらうために環境構築から」という無茶ぶりを注文。昔はともかく最近だとMacPortsで、

% sudo port selfupdate
% sudo install opencv

ぐらいでPyhton binding含めていけるかも、という話らしい。
それは良かったというか、頑張った人お疲れさまです。

で、30分ぐらい関連パッケージ含めてインストール終了して、Cのサンプルソースをコンパイルする所までをやりました。

【OpenCVインストール&サンプルソースをコンパイルするまで】
% export PKG_CONFIG_PATH=/opt/local/lib/pkgconfig/
(ここによると「opencv.pc が配置されているディレクトリ([OpenCVをインストールしたディレクトリ]/lib/pkgconfig)」を指定するらしい)
% mkdir -r temp/opencv
% cd temp/opencv
% cp -r /opt/local/share/OpenCV/samples/C/ C/
% cd C
% sh build_all.sh
(コンパイルエラーが出なければOK)

HDとSSDの違いが出たのか、学生の方はまだOpenCV本体のインストールに辿り着けず、下地くんの都合上今回はここでお開きに。自作プログラム周りは修論付録として使い方書いてもらってるので、残りはなんとかなるのかなと期待。


次年度以降はもう少しイベントの振り方を考えてみよう。
指示メールで「やり方」と書いたのが悪かったかも。

一方で、一般的な研究紹介という点で今回の内容も重要ではあるし、論文として書ききれていない「熱意」のような部分も面白いことは面白い。じゃ、数回に分けてやれば良いじゃん、と思わなくもないですが。

ちなみに、3/20には与儀さん担当で実施してもらう予定です。