NAL’s blog @ 琉球大学情報工学科

Archive for the ‘イベントレポート’ Category

言語処理学会第19回年次大会(NLP2013) 1日目終了

水曜日, 3月 13th, 2013

NLP2013の本会議1日目が終了しました。NAL研的には堀川くんの発表が終わり、一応これで学生の発表は終わったということで打ち上げ的に和食まるやにて鰻三昧（卵巻き、巻き寿司、ひつまぶし）してきました。twilogだとこんな感じ。

オープニングでの話によると、今回は「論文賞受賞者による講演」を予定しているらしい。ということで、受賞者だけは最初に紹介されてました。

イベント的には一杉先生の招待講演「脳は計算機科学者に解明されるのを待っている　− 機械学習器としての脳 −（PDF）」が面白く、個人的には、細胞分裂や細胞の生死を含めたモデルとして現象再現できるように構築できるのかが気になります。この記事内でメモも残していますが、素直に一杉先生が用意しているサイトを眺めた方がイメージも掴めるし、参考資料も揃ってますのでお勧め。曰く、NNとの違いは以下のようになるらしい。

（脳とベイジアンネットＦＡＱより抜粋）

入力されるものも出力されるものも「値」ではなく「値の確率分布」です。

推論時の情報の流れが「入力から出力へ」という一方向ではなく、双方向です。すべてのノードが入力ノードにも出力ノードにもなり得ます。

推論時の情報の伝達は一度ではなく、ネットワーク全体に情報が繰り返し伝播します。

午後は通常セッションx3で、ずっとIB015会場に参加してました。個人的に視点が面白いなと感じたのは、B1-1のカテゴリ情報を利用した商品名自動抽出とB3-3の対をなす二文書という関係を利用した文対応推定です。別の意味ではB2-3のWatson使って正誤判定させるのオマケとして出てきた「文のどこが間違っているのかを示唆できる」はナルホドと思いました。

ディープな話では脳みそパンクしてしまって付いていけてない発表が多かったので、誤解して書いてるメモや討論内容が多いかと思います。ご注意ください。

P.S.
機能のチュートリアルの研究者流コーディングの極意（東北大学・岡崎先生）は資料が公開されたらしい。

招待講演1:「脳は計算機科学者に解明されるのを待っている　− 機械学習器としての脳 −」一杉裕志 (産総研)
B1:情報抽出(1)
B2:意味解析(1)
B3:談話解析

オープニング

新しい試み
　オープニング
　口頭発表とポスターの比率
　　228:115(2012) -> 118:128(2013)
　口頭発表
　　6パラレル->4パラレル
　招待論文講演

招待講演1:「脳は計算機科学者に解明されるのを待っている　− 機械学習器としての脳 −」一杉裕志 (産総研)

計算論的神経科学の現状
　従来の脳のモデル：限定された特定データを説明するだけのモデル
　ベイジアンネットを使った大脳皮質のモデル
　　脳の認識と学習の基本原理に迫る、適用範囲の広いモデル
　　脳とベイジアンネット

役立つロボットに必要な能力
　自律的に知識を獲得／自然言語を通じて知識伝達可能／幅広い状況に知識を応用

脳に関する誤解
　脳についてまだほとんど何も分かっていない->すでに膨大な知見がある（確定的でなければ）
　脳は計算機と全く違う情報処理をしている->脳はとても普通の情報処理装置である
　脳はとても複雑な組織である->心臓等に比べれば複雑だが、以外と単純（人間の手におえる範囲という意味で）
　計算量が膨大すぎてシミュレーションできない->ヒトの脳全体でもすでに可能
　労働力としては人間よりも高くつく->将来は人間よりもコストが低くなる

大脳皮質に関する神経科学的知見
　領野約50個／マクロコラム約100万個／ミニコラム約1億個／ニューロン約100億個／シナプス約100兆個
　各領野の機能、接続構造はかなり明らかになりつつあるが、具体的な情報処理原理は不明
　階層構造、下の領野ほど抽象度が低い処理
　非対称の相互結合
　高次領野低次領野
　ニューロン単体は、内積計算のような単純な演算しか行えない
　大脳皮質の不思議さ：たった50個程度の領野のネットワークで高次機能（認識/意思決定/etc.）を実現

ベイジアンネット
　ベイズの定理：結果から原因を推定
　脳の認識も、結果からの原因の推定
　　しかし、ベイズを使った計算は普通は計算量がとても多い（指数関数的）
　　　効率的推論を可能にする多くの技術
　　　　MCMC／変分ベイズ／ベイジアンネットなど
　確率変数間の因果関係をグラフで効率的に表す知識表現の技術（≒直感・連想記憶と似た動き）
　　機能的構造的類似性
　　　トップダウンとボトムアップの非対称接続
　　　局所的かつ非同期的な情報のやり取り等

[Chikkeur, Serre, Tan and Poggio 2010] のモデル
　既存の複数モデルを統合（個々モデルで再現していた複数の現象を1モデルで再現）
　視覚の機能を再現するだけではなく、機能ではない現象も再現できる
　　注意とニューロン応答の関係再現 [Reynolds and Heeger 2009]
　　近似確率伝搬アルゴリズム [Ichisugi 2007]
　　　解剖学的特徴、接続関係、非対称接続的な類似
　　ベイジアンネットの学習 [Hosoya 2012]
　　　一次視覚野、2次視覚野の応答特性の再現
　大脳皮質がある種のベイジアンネットであることはまず間違いない

前提とする2つの知見
　大脳皮質の1つのマクロコラムは、1つのSOMのようなものらしい
　上位領野のマクロコラムは、下位マクロコラムの影響を受ける
　SOMの階層はほぼ必然的にベイジアンネットになる [Ichisugi 2007]
　　BESOM
　　　時間系列のある学習：階層間での時間遅れ再帰
　　　運動野：(状態,行動)対の強化学習
　　　BESOMを使った言語屋モデルの構想
　大脳皮質を再現するために必要だと思われる主要モデル
　　ベイジアンネット／自己組織化マップ／独立成分分析／強化学習

言語の専門家の方々に教えて頂きたいこと
　言語屋に作り込まれている事前分布に関するヒント
　　「言語現象」にはどういうものがあるのか
　　言語の学習・理解にどういうバイアスがあるか

naltoma: ベイジアンネットで目指している幅広さは分かるが、
　脳に限定している点ではまだ不十分では？
naltoma: 計算量的にはシミュレーション可能とのことだが、
　化学物質による伝達レベルで再現できるレベル？
naltoma: 相反するような現象も再現できるという点では、
　意識的な処理と無意識的な処理が同居できるモデルとしても解釈できる？
naltoma: BESOMのような構造が正しいとして、
　このような構造をゲノムレベルではどのような設計図として埋め込まれているのだろう？
naltoma: 人工生命的な視点でいうところの細胞分裂なレベルからBESOMのようなモデルを
　構築していくことと、細胞の死滅を含めた頑健性はどうやったあらうまく再現できるのだろう？

Q: 大脳の特徴としてグリア細胞の多さがあると思うが、小脳には殆どない。
　脳がベイジアンネットだとした場合、グリア細胞は何をしているのだろうか。
A: グリア細胞は物理的に神経細胞を支えていて、神経学論的には無視されている。
　ただし、一部関わっているという話もでてきている。
　現時点ではモデルに取り込んでいない。

Q: 感情を作り込むという話があったが、感情を機械学習のレベルで言うとどういうイメージか？
A: 大脳皮質には直接関わりない。
　快と不快の情動に分けて強化学習として不快に関わることを避けるように学習。

Q: 十分な学習事例があればベイジアンネットで動くと思うが、
　人間の場合はそうではないように思う。そこはどう結びついているのか。
A: 統計的機械学習がうまくいくためには膨大な入力が必要という意見は多い。
　しかし、入力データが少なくても良い事前分布を与えると良い汎化能力を
　発揮するというのがベイジアンネット。
　応用の際には「じゃぁ適切な事前分布とは何か？」という話になる。
　領野毎に適した事前分布が作り込まれていると考えている。
　最初から何でも適した事前分布を作り込むというのではなく、例えば「日本語」
　を学ぶためにという特化した分布ではなく、言語に共通した分布が必要だろう。

Q: チャートパーサの例では、言語研究者としては分割して係り受け解析してと
　考えていきがち。ヒトは入力条件が違うように思うが、どう考えているか。
A: 視覚については局所的に特徴抽出し、一つ上の領野ではより広い範囲での特徴抽出。
　DeepLearningもそう。そういうことがやられているのでは。
Q: 画像全体を取り込むが、ヒトの場合は焦点が動いていく。
A: 視点移動があっても外界が激しく動いているとは「ヒトは」解釈しない。
　視点を激しく動かしていても上の領野では時間的に積分した統合された情報として
　処理されていると思う。

Q: ベイジアンネットと一般に言われるNNと何が違うか。
A: NNは一方向、入力があって出力がある。
　ベイジアンネットは上から下、下から上への処理が繰り返され、収束する。
　収束結果が事後確率となる。
Q: リカレントとは違う？
A: ベイジアンネットでは全てのノードが入力にも出力にもなる。

Q: 脳モデルを作ったとして、どう評価する？
A: 一つは、機械学習モデルとして性能の高さを評価する。DeepLearningはその例。
　もう一つは、神経科学的な尤もらしさを評価する。
　神経科学的な現象を再現できれば、尤もらしさを評価できる。

Q: 世界の数十言語を調べた人は、60の組み合わせで全てを表現できると主張している人がいる。
Q: 体験したことが無いことを組み合わせて表現するというものがヒトにはありそうだが。
A: 広い意味での汎化能力だと思う。
　「黄色い車」における「黄色」のような色と「車」という物体のように
　分解して記憶しておけば組み合わせられる。

Q: 特徴コラムを表す際、犬を見て「犬だと思う」特徴と「ネコじゃないな」という特徴もありそう。
　言語でも一緒だと思うが、どうか。
A: 今の例で言えばネコ以外にもいっぱいって、その確率分布で表現できるのかも。
Q: 情報の足し算みたいなことを「ネコ＋野良じゃない」とかができる？
　そういうことを表現できるデータ構造であることが重要だと思う。
A: かなり複雑なことを表現できると思うが、万能だとは思っていない。
　表現能力は高いのでできても不思議ではない。

Q: ベイジアンネットというと予め構造や条件確立票をデータから学習しておき、
　推論に使うという理解。ヒトでは学習／推論は自由に切り替えられる。
　BESOMでもそれは表現可能？
A: 生物の場合は常に連続的に繰り返している。

B1:情報抽出(1), 座長: 山田一郎(NHK)

B1-1 カテゴリ情報を利用したblog記事からの商品名自動抽出 (pp.3-6), ◎渡邊尚吾, 乾孝司, 山本幹雄(筑波大)

商品についての情報収集
　レビューサイト／blog上のレビュー（到達までに手間）
　　blog記事からレビューサイト構築：記事同定＋記事と商品の対応付け
　　　手掛かり「商品名」を抽出

疑似教師データ：商品名の特徴を利用して自動収集
　レビュー記事の特徴：話題をカテゴリ名で代用することが多い（iPhone 4S -> スマホ）
　疑似教師データ：カテゴリ名にタグ付け->前後の文脈を学習
　　「理想的な教師データ」と似た文脈
　　カテゴリ名だけで収集してタグ付け可能

naltoma: カテゴリ名で代用して書かれる文と、商品名を特定して書かれる文には
　異なる特性が含まれないか？　商品名抽出できれば十分？　抽出しにくい商品名はない？
　（抽出できる教師データには大きな偏りが存在しないか？）
naltoma: カテゴリ名で書かれにくい商品は無い？

Q: 辞書で抽出していたが、取れないパターンは？
A: 文脈からとっているため、辞書に載っていないからという理由ではない。
　辞書では表記が揺れているもの、例えば「iphone」をカタカナで書いてると抽出できない。

Q: 文脈でというのが面白い。レビュー文対象だが、レビューだからこそという特徴は？
　レビューだと商品評価、商品名が分かっているものが対象になっていると思う。
　ただし提案手法ではカテゴリになっている。レビューとしては意味無いのでは？
A: アイデアとして疑似教師データがまずあった。
　仰る通り、レビューに現れる文脈とカテゴリが現れる文脈には違いがある。
　似ている文脈があるという前提で進めてみた。
Q: 対象をweb全体ではなくレビューだけで疑似教師データを作ったら、
　もっと精度は上がるのか？　そういう気がした。
A: やってみないと分からない。

Q: 商品名以外のものは今回は対象外のようだが、商品名でも問題になる事があるのでは。
　例えば、「スマホを選ぶ」ぐらいの文脈だと問題になるような。
　そういうのが疑似教師データの質を下げているのでは。
A: 現状、そういうのも含めたノイズが多いのが問題。

B1-2 商品説明文からの属性・属性値の自動抽出 (pp.7-10), ○新里圭司, 関根聡(楽天)

良いUXを提供するために商品情報の構造化が重要（説明文->属性・属性値に構造化）
　教師無し学習に基づく情報抽出 [Mintz+ 2009]
　　問題点：（Wikipedia等に基づいた）知識ベースでは、ユーザが注目する属性と異なることがある
　　　知識ベースを自動構築したい

HTMLタグ＋正規表現による属性＆属性値抽出
仮説に基づく注釈誤り＆抽出漏れ修正
属性値抽出モデルの構築＠CRF

naltoma: 抽出失敗の中でも抽出漏れよりは誤抽出の方がクリティカルだと思うが、
　どのように質を担保するのか？

Q: wikipediaやinfoboxでのワインは駄目だという話があったが、
　それに対して自動構築している部分について、既存商品についての属性情報を使う？
　それは結局既知のデータを使っていることと同じに見えるが、何が違う？
A: 属性名の表記揺れを解決している点。
Q: 抜本的に構造が違うものにも適用できそうか？
　商品であればある程度収束しそうだが、属性分類の視点が違うケースとか。
A: 一部違った分類をしているページはあるが、多くは同じような視点でまとめられていた。

Q: ストップワードの決め方は？
　知識ベースで作る時に「これはいらない」という判断をどうしているのか。
A: 抽出したい属性があり、それに属さないもの、明らかにユーザが注目しないだろうというものを登録している。
　汎用的な知識ベースではなく、特化した知識ベース。

B1-3 文字種と画数を用いた未知若者語の抽出 (pp.11-14), ◎秋田恭佑, 松本和幸, 北研二(徳島大)

辞書への登録が追いつかない「俗語」や「若者語」
　コミュニティ外の人には理解できない
　情報取得の妨げとなる可能性
　　若者語を精度良く抽出したい

若者語の生成過程に注目：文字そのものに若者語らしさが存在するはず
　事前分析
　　カタカナ・平仮名を含みやすい
　　漢字については画数の少ないものを用いやすい
　条件付き確率場CRFでラベル推定

naltoma: 若者語と俗語を分ける基準は何かある？
naltoma: 正解データはどうやって用意した？それは「その調査した人たちに特化した俗語」では？
naltoma: 網羅性を高くしたい？

Q: 若者語の話をする時にスマホとかでたが、
　twitter/2chいろいろあるどういったリソースを対象にしているのか。
　コミュニティと性別で傾向が大きく変わるのでは。
A: 若者語コーパスはweb上からランダムに収集し、人手ピックアップして構築。
Q: 特定メディアには拘っていない？
A: その通り。

Q: カジュアルワードとかフォーマルワードとでてきたが、これはどう作った？
A: 五感辞典に含まれている五感情報を持ってきた。
　カジュアルかフォーマルかは人手で付与している。

Q: 文字種と画数で若者語を検出するのは不可能だと思うが、
　どういう要素が他にありそうか？
A: どういった漢字をどういう時期に学習できるか、読みも考慮したい。

B1-4 SVMを用いた株価短報における意見文と事実文の抽出 (pp.15-17), ◎嶋田康平, 岡田真, 橋本喜代太(阪府大)

 
意見文と事実分を区別して、その後の分析に役立てたい
　株価短報中の意見文／事実文を分類・抽出する
　　意見文については文末表現パターンを定義。含まない場合は事実文と判定。

naltoma: 意見文についてパターン定義したのは、そっちの方が定義しやすかったから？
naltoma: 文末表現でパターン定義したのなら学習する必要はないのでは？？
naltoma: 抽出についてはどうやる？（今回は分類＝抽出？）

Q: 予稿では、株価短報に事実文と意見文が含まれるということは分かるが、
　そのはき違えを無くすために分けると書かれている。株売買では株価短報読んで
　はき違える可能性があるのだろうか？　はき違えた事実を観測した？
A: 調べていない。
Q: 意見文の基準は示されている。非意見文をここでは事実文としている。
　非意見文が事実文であるという検証はしている？
A: 人手でラベル振る時に、数値だけの文といったものは完全に除去している。
　今回の実験では意見文のみしか基準を提示できなかった。

Q: 意見文データを作るとき、正規表現で収集した？
　これをパターンマッチするようにしたら良いのでは？
A: 機械学習を勉強しようとする導入として。
Q: 文末表現ではうまく抽出できない所についてやるべきだったと思う。
C: 株価短報は普通の文章と大分違う。
　意見文は提示したルールで記述されている。

Q: SVMで学習する場合、その文末表現が効くことが分かっているなら
　それを直接的に素性にするのが最も早いと思う。
　それでラベル付けにすることが問題になる部分について、
　明確な定義ができない部分について検討してみて欲しい。

B1-5 自然言語処理適用のためのOCR後処理技術の提案 (pp.18-21), ○鈴木敏, 永田昌明(NTT)

言語処理が有効になる程度にはOCRで語認識したい（例：絵本では文字自体抽出しにくい）
　カメラ付きモバイル端末の普及＋スマートフォンアプリ
　古い書籍の電子化
　実画像の場合、満足できる性能ではない
　　方針：再現率を高く。精度が落ちるのは許容。
　　正しい文字を効率的に取り出すには？
　　　文字認識誤りがどこから発生するか？
　　　　文字位置を特定する所

信頼度フィルタリング＋文字位置再推定＋再OCR＋再フィルタリング
　各推定段階での推定結果を残しておき、最も信頼度の高い文字を最終出力として採用

naltoma: 文字においては局所的な輝度変化がある範囲内に収まることを仮定して、
　それが任意のスケールで一列縦横斜めに複数並ぶのを探索し、最適スケールを
　見つけることができれば良さそう？

Q: 結果について。看板では始めから全文字認識できるものや全く認識できなかったものが多かった
　という話だが、認識できなかったものはどういうもの？
　フォントの種類によって抽出しやすさは変わってくる？
A: 認識できないものというのは、パターンマッチングなのでフォントに強く依存する。
　フォントによっては難しいものや、サイズが大小混在しているケースも難しい。
Q: スマートフォンで写真をとってる場合、ちゃんと正面からとっているケースは
　少なそうだが、何かしら補正しているのか？
A: サンプル画像はわりと綺麗に正面からとってるものが多い。
　位置推定については斜めになっても追従するように考慮している。
　ただし、文字自体が変形するレベルに付いては難しい。

Q: 評価について、再現率を上げるとのことだが、信頼度が高い所についての評価？
A: 全部まとめての評価。

Q: いくつか認識したものを統合する流れだが、認識結果A,Bで文字数が異なる場合にはどうなる？
A: 位置情報が残るので、同じ位置に複数あればどれかを選べば良いという流れになる。
Q: 前の段階での文字半分とか。
A: 文字サイズがベースになっているため、それが優先される。
　大きく外れたものしか無い場合には文字サイズ優先。

B2:意味解析(1), 座長: 岩倉友哉(富士通研)

B2-1 「契約・解約」に関する消費者トラブル相談事例の分類と分析 (pp.94-97), ◎新井翔太, 聶添, 宇津呂武仁(筑波大), 河田容英(ログワークス), 神門典子(NII)

 
消費生活におけるトラブル発生が後を絶たない->対策・解決方法を知っておく必要がある
　トラブル解決に有用な相談事例の自動分類のための事例分析
　　Yahoo!知恵袋（5年分1600万件）->27%が契約・解約関連
　　　業者に責任がある／ない
　　　　業者に責任があるものだけをピックアップし、分析に役立てたい
　　　　手掛かり：被害説明、被害にあって発生した気持ち

naltoma: Yahoo!知恵袋の27%が対象とのことだが、それはどう絞り込んだ？
naltoma: 「被害にあって発生した気持ち」は業績に責任の有無とは無関係に持ってしまわないか？
　（分類のために何か役立つ情報源になるのか？）
naltoma: 綺麗にまとめられた文書ではない上に、どこまで事実かが分からない
　主観性の強い文書だと思うが、問題にならないか？

Q: 責任あり／なしで人で分類しているようだが、単語によってどちらに割り振るかが
　判断困難なケースではどうやった？
A: 分析だけで時間が過ぎてしまって、十分な検討ができていない。
　素朴に精度の高い単語を見つけるということは困難だと考えている。

Q: 解答を見るのはどうか？
A: 今回は質問だけに着目しているが、今回は質問者が「どちらに問題があるか」を
　判断できれば良いと考えている。
Q: 解答見た方が判断しやすくならないか？
A: 分析作業時には解答も見ながらラベル付けをした。

Q: 感情を含む箇所を自動認識するにはどういうアイデアがある？
A: 表記の揺れも勿論あるが、簡単な感情「心配です／不安だ」みたいなものはある。
　最終的には機械学習を使うことを想定している。

B2-2 語彙知識と構成性に基づく日本語事実性解析 (pp.98-101), ◎成田和弥, 水野淳太, 乾健太郎(東北大)

事実性とは：例「iPhoneを購入」しているかどうか
　実際には起こっていない／可能性が低い／可能性が高い／起こっている／不明
　　事実性解析に対する手掛かりとなる表現に着目
　　　文末の事象は、機能語の辞書情報によって決定される
　　　　カバレッジは高いが、曖昧性も高い：e.g., 「知らないのも不思議*では*ないです」
　　　事実性を伝搬すべきか（スコープの問題）

naltoma: 文末事象以外に手掛かりになる表現はない？
naltoma: 何故「伝搬」できると考えたのだろう？

Q: 文末じゃない所について。連体修飾は扱っている？
A: そもそも最初の文について考えるべき。基本的には対象外。
Q: 全部捨てちゃうのは勿体無いように思った。
A: どこまでを事実性とすべきかは議論すべき所だと思う。

Q: 「ど忘れして思い出せなかった」が失敗するのは、「思い出す」の反語を伝えちゃったから？
A: 思い出した／知るは前提になるので、前提については「して」が関係している。

Q: 時態勢名詞(xxx)みたいなものは同じ枠組みで扱える？
A: そのつもりで、影響するような特別な処理はしていないつもり。
　データにも入っている。

Q: 事実を知っている人は話す。伝搬するということ自体がおかしいように感じる。
　「ど忘れして」の例は理由を述べている。
A: 事実性というのは「著者がどのように思って書いたか」という視点で判断している。
　話に出てくる人の視点ではない。
　「ど忘れして」については、理由だから伝搬してはいけないというのはスコープとして捉えている。
Q: 理由についてはシステマチックにできるので、後で。

B2-3 ファクトイド型質問応答を用いた正誤判定問題の解決 (pp.102-105), ○金山博(日本IBM), 宮尾祐介(NII)

命題の真偽判定
　網羅的な情報源があっても「偽」と答えるのは困難
　なぜ「偽」なのかがわかると尚良い
　　命題をファクトイド型質問に一旦変換してWatsonに解かせる
　　　想定解と一致するなら「きっと真だろう」
　　　複数正解を持つ質問は確信度分布を用いて排除
　　　属性を問う（他に答えようが無い）質問は、構文的特性を用いて排除
　　　-> 固有名詞以外が原因となっている問題には対応できない
　　　-> 「文のどこが間違っているのか」を示唆できる

naltoma: 合意形成の一種だと思うが、素朴に確信度を見ることが正しいのかしら？

Q: 属性を問う質問になるという話があったが、
　集約時にペナルティをかけるのと、作成時に除外する（作らない）ことが考えられそうだが。
A: それしか作れないこともあるので、一度作ってからペナルティを適用している。

Q: 名詞の上位語に置き換えるのではなく、
　文章絞り込むような語では難しい問題になる。
　上位語をどう選ぶか、疑問詞をどう選ぶのか。
　数量はどう扱ったか。
A: 疑問詞については、Watsonについては疑問詞を扱わなくて良いケースだった。
　上位語については人手でやってる根拠でもあるが、センス。
　数量については、Watsonが苦手。確信度があまり上がらなくて扱われないケースが多い。

B2-4 述語項構造解析を伴った日本語省略解析の検討 (pp.106-109), ○平博順, 永田昌明(NTT)

日本語の省略ニーズ：e.g., 日本語での主語省略が誤訳される
　項の省略≒述語項構造解析
　　生テキストから5W1H「何が何をどうした」を解析
　　外界照応も一緒に解析したらどうなる？

Q: 外界照応も含めた解析器が動いてて60%ぐらい出せている。
A: 参考にさせて頂きます。

Q: 外界照応について捉えるために何が効いたのか。
A: モダリティが効いていそうだが、新聞記事では出にくい。

Q: 外界照応やってみて、どれぐらい改良できそうか。
　人間でもわからないケースが多くありそうだが。
A: 簡単なやつは良いが、一人称と二人称については簡単に上がるケースがある。

B2-5 構文・述語項構造解析システムKNPの解析の流れと特徴 (pp.110-113), ○笹野遼平(東工大), 河原大輔, 黒橋禎夫(京大), 奥村学(東工大)

KNPのイメージ
　ルールベースの係り受け解析：統合的解析器
　内部で何が行われているか分からない：ルールと統計情報用いた解析
　出力結果読み方が分からない：分析用に可読性を重視した出力を追加
　　どのようなタスクにKNPが向いているか
　　　構文・格解析（デフォルト）：省略項解析しない
　　　固有表現解析（-ne）
　　　ルールに基づく共参照解析（-anaphora）
　　　ゼロ照応解析を含む述語項構造解析（-anaphora）：係り受け関係再解析しない＋格解析は再解析

CaboCha + SynCha との主な違い
　KNPは文全体を見て最適な構文・格構造を決定
　　ガーデンパス文等、遠距離、かつ、語彙情報を考慮する必要がある係り受け解析に頑健
　KNPは格フレームに含まれる全ての格が解析対象
　　主題格も解析できる（象は鼻が長い）
　受身文、使役文の場合

Q: KNPのソースコード読もうとして諦めたが、メンテできる人はどれぐらいいる？
A: 著者の河原＆私だけ。

Q: KNPの売りは並列句を正しく処理できるのがウリだったという記憶だが、最近はどう？
A: 当時はそうだったが、その後より強化された手法が提案されている。
　ただし、公開版には反映されていないこともあり、具体的にどうなのかは良く分からない。

Q: ドキュメンテーションがあると嬉しいが、予定は？
A: ドキュメンテーションがないのはありえない状況のため、書くようにする。
　「-tab」は何でも出せという気持ちでやっていることもあり、古いものも含まれている。
　全てについてドキュメントを用意できる訳ではない。

Q: 高速化は？
A: 今後の課題。
　格フレーム読み込み部分についてデータ構造持ち方工夫で数倍には高速化できると想像している。

B3:談話解析, 座長: 飯田龍(東工大)

B3-1 文章構造解析に基づく小論文の論理構成における整然さの自動評価 (pp.190-193), ○勝又大介, 藤田彬, 田村直良(横浜国大)

教育測定、小論文試験における採点者の負担軽減＆評価揺れの改善
　藤田2009による文章モデルの拡張
　　文間関係の「向き」を考慮したより具体的な論理展開を捉えて文章を評価
　　文章構造の精密化（向き考慮）
　　論理構成における整然さの評価
　　　文が互いに関連＋主張とそれに対する根拠、理由付け

naltoma: どういう入力を想定しているのだろう？
　1章とか小説分けされてない、複数パラグラフがある程度の小論文？

Q: 小論文の分量によって論理構成が違ってくるんじゃないかと思うが。
　どういう想定？
A: 所有している小論文400編、400字と800字が200編。
　400字ではばらつきが少なかったので、800字のみで検証。

Q: マルコフ・ロジックを使っているとのことだったが、ソフト制約についてはどうだった？
A: 緩和制約について、「2項関係が交差しない」は影響が高かったが、
　それ以外はあまり見られなかった。

Q: 自動採点やるとき、RSTから3つにしているが、その粒度で採点に都合がいい？　別の理由がある？
A: 3つに粗く分けているのは、現時点でも精度が低いのであまり細かくし過ぎても仕方が無いというのが一つの理由。
　また、細かい修辞関係を用意した場合の評価が困難でもある。
Q: それで良いかの検証は？
A: していない。

Q: 論文採点前で精度とか話されているが、これは何の精度？
A: relateはエッジの有無についての精度。nucearity が文間関係。
　relation がエッジ関係。

Q: 木構造で談話構造分析するというのをNLP2012ぐらいにあったと思うが、
　その関係をラベリングして採点するというものを比較してはどうか。

B3-2 識別的スクリプトモデルを用いた文間ゼロ照応解析 (pp.194-197), ○浜田伸一郎(TSOL)

ゼロ照応解析
　述語の必須格同定
　述語項構造解析：KNPで70~90%
　文内ゼロ照応解析：30~50%
　文間ゼロ照応解析：~25%
　文法的傾向がない場合にはスクリプトモデルを利用
　　問題点：長さが短い＋順序が重要
　　さらに欲しい点：述語の語義を区別してスクリプトモデルを使いたい

Q: スクリプト作る所に付いて。コーパスから動詞部分をとってくる？
　動詞の接続関係に付いてはどう扱う？
A: 今回は繋がっている、順接だと考えて扱っている。
Q: そこも考慮してもらうと良いと思う。

Q: 長くするほど適応が難しくなると思う。
A: 短い長さのnramから長いngramも重ねて利用している。
　それがよりモデルとして複雑になっていて、スパースになっているのが問題。

Q: スクリプトモデルで出したMRRの良さと、結果とに相関が見られないように見えるが、
　どういう解釈をしたら良いか。
A: MRRはランキング性能。ランキングはスクリプトモデルでうまく予測できないが、
　棄却はできると考えていて、どこでスクリプトを終えるかを判断するために使えると思う。

B3-3 対をなす二文書間における文対応推定および応答文生成への応用 (pp.198-201), ◎角田孝昭, 乾孝司, 山本幹雄(筑波大)

対をなす二文書：二分書間の文関係（ある応答文が応答先文書のある文を原因として生起している関係）
　1対1だけじゃなく1対多も許す
　手紙-返信／投稿-レス／レビュー-応答
　　書き手同士のインタラクションのみ抽出したい
　　「対応無し」の特定により返答漏れを指摘できる
　　　応答文自動生成が可能かもしれない
　　　　入手した対応文を「対訳文」とみなし、統計的機械翻訳的に生成
　文種類を活用して対応の推定性能向上を試みる

naltoma: 文種類を考慮した結果が思ったより延びていないが、
　これは文種類推定自体の精度が低い？

Q: 先行研究では2つを個別にアライメントしていて、
　提案手法では3つを同時にアライメントしているという話だったが、
　CRFで学習できるのか？
A: 1次元だと効率的に推定できるが、2次元になると困難。
　多項式時間でできるかも怪しい。今回は厳密解ではない。

Q: ホテル応答自動生成されてるのは嫌な気がするが、自動生成すべきか？
A: 完全な自動生成は夢物語。苦情出てきた時のサジェストするぐらいを想定。

Q: データが特殊な気がする。応答が全て付いてる密なグラフに見える。
　それがうまくいってる理由にも思える。他のジャンル、スパースな
　場合でもうまくいくのだろうか？
A: 検証してみないと分からないが、宿泊サイトにおける応答はかなりの確率で
　対応関係がある。他のケースでは確かに少なくなると思う。その時にどのぐらい
　うまくいくのかはやってみないと分からない。

Q: 文種類は先行研究のみ？独自？
A: 数年前の「楽天トラベル」でやったときのものがベースで、若干再構成している部分もある。

B3-4 共起距離に基づく文特徴量を用いた派生談話認識に関する調査 (pp.202-203), ◎堀川敦弘, 當間愛晃, 赤嶺有平, 山田孝治, 遠藤聡志(琉球大)

naltoma: 去年もだった気がするけど変換コネクタ持って来ないとかいい度胸してるな！
naltoma: やりたいことは伝えているんだけど、それが従来の問題と何が違うタスクに
　なっているのかという説明が不十分か。
naltoma: 実験目的が少し分かりにくかったかも。まばらなのは何が問題かとか。
naltoma: 一般的なトピック抽出的なアプローチというか、単語自身を潜在的意味解析で
　の特徴ベクトル化するようなことでもできたりするのかな。

Q: 共起辞書を派生具合として用いているが、共起辞書に載ってないものを追加していく。
　どういう条件で追加していく？
A: 談話同定する対象が、終わりを定義することは想定しておらず、ある一定時間で区切っている。
　そこまでの所で漏れが無くなるまで辞書に登録する。
　対象を広げることはできるが、今回は談話同定を行いたい範囲で構築している。

Q: 課題というのは、ツイートがいくつか与えられた際に、
　そのツイートと同じような話題を持っているようなツイートを探し出していく？
A: はい。
Q: 探し出し方は、元のツイートに含まれる単語から探していく？
A: 最初の手法がそう。
Q: それでは駄目だったから共起？
A: その通り。
Q: シードにどんどん新しい単語を足していく際に、
　発散していくのをどう抑えるかという研究が数多くあるので、
　調べて見ると良いのでは。

Q: 派生談話かどうかについて、フォロー関係は使っていない？
　ユーザ間関係を絞った上で検討しているのか？
A: フォロー関係によって派生の元となるツイートがでてこないという解釈であっているか？
Q: はい。
A: 今回は割とローカルな話題、身内が多い状況を想定。
Q: ほぼフォロー関係にある状況だが、必ずしもそうではない？
A: その通り。

Q: シードツイートはどういうもの？　そこからどういうツイートを集めたい？
A: シードツイートは談話を集める際のタイトルみたいなものとして考えている。
　個人の評価で取ってきて欲しい。
Q: 評価する際には、シードツイートはどういうものを与えている？
A: ある女の子がドアノブを舐めたというツイートがあり、
　言われた本人がそれは妄想だと言うリプライを返している。
　そこから突っ込みや実況が入っているものが対象。
Q: シードツイートに何を持ってきて、何を収集したいかということだが、
　何をシードツイートにすべきかも含めてクリアにすると有効性が明らかになると思う。
A: 目指したいものはツイッタークライアント。
　リプライ関係やハッシュタグがないのも含めて出て来るとうれしい。
Q: 明示的に表したいからハッシュタグを付けているというものもあるが、
　そこを外したものも強制的に集めてくるというのはどうか？
A: ハッシュタグが付いてると後から読み返すのが楽だが、付いてないとコストが大きい。

Posted in イベントレポート, 学会, 日記 | Comments Closed

言語処理学会第19回年次大会(NLP2013) チュートリアル終了

火曜日, 3月 12th, 2013

NLP2013の前夜祭的なイベントという認識ですが、チュートリアルが終了しました。大会場はテーブル付いてて割と電源も豊富で無線LAN完備。地下鉄の駅出口から徒歩1分。名古屋は地下鉄移動が便利すぎて地図的な位置関係が全く脳内構築されませんｗ

午前中に参加した「言語処理研究におけるソフトウェアの開発と公開」は3部構成。

最初の「研究を進める上で有用なコーディング極意」では、大学というか研究室で繰り返されているであろう負の連鎖（〆切直前に結果の誤りを発見、コード複雑すぎて解読不能、結果が残っていない、etc.）に対してどう取り組んでいるかという話。言語処理100本ノックではUnix的な極意（小さく分解して、細かい部品毎に正しく動くようにし、様々な組み合わせで問題に取り組み、簡単に再現できるようにする）のを自然と学べるように構成を工夫しているらしい。研究室で取り組んでいるだけあって、論文化することを最優先することで「最終的に何をどう用意したら良いか」を一通りこなして初めて振り返られる気づきを得られるという話も。個人的には学部3年次向けの実験としてどう設計しようかと悩んでいるところですが、100本ノックを真似るところからやるのもありかなぁ。

2番目の「研究で開発したコードの公開」では、（検証しているところのみに重点を置いているという意味で）一点突破型の実験コードというレベルと、一般的なソフトウェアというレベルに分けて考え、実験コードでもどしどし公開しようという話。そうしないと再現困難だったりするし、（公開を前提としたレベルでドキュメント化してないと）研究室内でも引き継ぎにくいから財産となりにくく埋もれてしまうよね、と。公開するからには最低でも「結果を再現できる」だけの情報は付けよう。知財の絡みで公開困難なケースでは、バイナリ提供やデモサーバ公開とかいう形もあるよねという話も。

3番目の「企業における自然言語処理と開発手法」では、企業だからこそ求められる（求めていく必要がある）品質を改善・可視化するためにもテストが必須で、結果として「正しく動いているか（ソフトウェアとしての品質）」というテストと「解析結果が正しいか（自然言語としての品質）」を明確に区別し、自然言語の質を高めることに注力することにも役立つという話。今回は「単体テスト」レベルの話で、言語処理の品質、例えば「東京都」という文字を形態素解析させた結果が「東、京都」になるのか「東京、都」になるのかどちらかが正しいかというのはソフトウェア・テストとしては設計不十分で、スタブによる仮モジュール（この例では辞書を設定するとか）の導入や、モックにより関数／メソッドが正しく呼ばれているかを検証することで「ソフトウェア的な意味での品質」をテストしやすくなるよ（その分本当にやりたい言語処理の品質改善に注力できるよ）、と。個人的にはスタブ＆モックするようなレベルでのテストはやったことないのですが、「テストのテスト」が必要そうになりそう点を懸念してしまったり。

午後のチュートリアルは「言語処理の後先（あとさき）」に参加。従来の多くの言語研究（主に心理実験を用いた語彙獲得や認知に関する事例）では元々曖昧な概念である「語彙」が分かりきっている前提で進められているが、そこをあやふやなまま進めてしまって良いのかという問題意識があり、言語だけに特化せず身体を含めたり、そもそも一人だけをモデル化するのではなく二人をモデル化してみないと見えて来ないものがあるよね等、多岐に渡る事例を交えながらの「意味はどこから来てどこえ行くのか」という話。個人的にも賛同している視点で、語彙がそもそもあやふやだという話は

認知科学の今井先生が言う所の「連続的に推移する世界はことばによって離散的に分節され、カテゴリーを発見・想像・修正を繰り返すことで多層的かつ重層的に捉える」

医学・認知神経学の大槻先生が言う所の「視覚情報では認知できなくとも非視覚情報では認知できたりすることから、入力モダリティ毎に意味システムを構築していると考えざるを得ない」

場の言語学で言う所の「身体を通した自己の二重性と即興劇モデルに基づく共存在の深化（身体と身体、身体と環境との相互作用）が主体的な意識を形成し、コミュニケーションが産まれて言語へと発達した」

に共通している話かなと思いながら聞いていました。ジェスチャーに「話をする負担を減らしている側面がありそう」という解釈（できなくもない結果）も面白かった。

終了後は学内にあるスタバで学生の発表資料チェック。晩ご飯はホテル近くで適当に探した手打ちうどん　五城で食べてきました。味噌煮込みうどん美味しかったんだけど、ひょっとして煮込みうどんだと「手打ち」じゃない専用のうどん麺なんだろうか。普通のもちもち触感のうどん麺で煮込みうどん食べたいんだけどな。

以下、参加したチュートリアルのメモです。

チュートリアル T-a, 言語処理研究におけるソフトウェアの開発と公開

研究を進める上で有用なコーディングの極意（岡崎）
研究で開発したコードの公開（吉永）
企業における言語処理研究・開発（工藤）

チュートリアル T-c, 言語処理の後先（あとさき）：意味はどこから来てどこへ行くのか．

チュートリアル T-a, 司会：ニュービッググラム (NAIST), 言語処理研究におけるソフトウェアの開発と公開, 岡崎直観氏（東北大学）, 吉永直樹氏（東京大学）, 工藤拓氏（グーグル株式会社）

研究を進める上で有用なコーディングの極意（岡崎）

研究を進める上でのコーディング作法は教えてくれない
　（自然言語において）研究の成果物は知見（論文）であって、作ったソフトウェアそのものではない　ソフトウェアエンジニアの仕事とはかなり違う
　　　対象：仕様が決まっている vs 解かれていない問題
　　　目的：利益を得る vs アイデア（実験結果）を検証

言語処理100本ノック
　小さい処理に分解し結合せよ
　道具を使え
　自分を過信せず検証せよ
　常に検証に備えよ
　研究成果を可視化せよ
　最適化・整理は完成してから
　論文を書いたらコードを整理せよ

naltoma: 学部3年次向け（プログラミング導入は済んでいいるがまだ研究室に配属していない、
　専門が決まっていないという段階）でも、
　普遍的な能力を養うという点では同じ方針でやれそうかしら？

Q: 100本ノックについて、具体的にどうやって演習する？
A: 1週間に1回2時間問題を解いてきて皆でレビューする。
　先輩をチューターにつけて、討論。

研究で開発したコードの公開（吉永）

研究者がコードを公開する意義
　実験結果の再現性を保証
　　公開しないと実質的に再現困難
　ツールとしての共有資産化／研究成果の社会への還元 
2種類のレベルでの公開：実験コードとソフトウェア
　実験コード
　　一点突破
　　公開するコードをまとめる／README（再現方法）／使用条件／研究手法と対応付けて公開
　公開できない場合
　　コード・READMEを引き継ぐ
　　バイナリ形式での公開／デモ・実験サーバの提供／代理実行 　公開をためらう場合
　　そのコードで削減される時間があることを意識する　　
　ソフトウェア
　　ソフトウェア化に値する手法はごく一部
　　多様な価値観に晒される

naltoma: うちの学生にも公開前提でやらせてみよう〜。

Q: 論文書き上がる頃にはコードがごちゃごちゃしてて出すのは忍びない。
A: 実験コードレベルで終わるのか、ソフトウェアまでを想定しているのかを
　意識してコーディングしていくことも重要かと思う。
　実験コードについては割り切って出すのが良いのでは。
Q: 仕様固めてから研究しても、研究している間に仕様が変わっていくことは良くある。
A: あまり綺麗なコードといってると研究が進まない。
　時間のある範囲で綺麗なコードで十分では。
　まずは1,2回公開してみると掴めることもある。

Q: プログラムの公開について、言語やインストール方法とか様々あるが。
A: 重要なことだとは思うが、個人的にはC++で書いている。
　できる限りプラットフォーム・フリーにしたいと考えている。
　ダウンロード数を見る限りでは圧倒的に Windows 版が多い。

企業における言語処理研究・開発（工藤）

 
2種類の品質
　ソフトウェアとしての品質
　自然言語処理としての品質
　　テストの役割
　　　予期せぬ動作と解析誤りの明確な分類
　　　コミュニケーションの道具
　　　人材・プログラムの流動性が活発（弄りやすい／引き継ぎしやすい）

ソフトウェアテスト
　リファクタリング
　テスト駆動開発：失敗するテストをコーディング前に作成
　YAGNI (You ain’t gonna need it)
　　必要になるまで機能追加しない原則
　　コードの不必要な複雑性を排除
　　適度なコードの抽象性はテストによって担保される 
解析誤りと正しい動作を混同しない
　テストダブル (Test Double)
　　あるシステムが依存しているコンポーネントを置き換える代用品
　　依存先が常にあるとは限らない
　　スタブとモック
　　　スタブ：決められた動作だけを行う代役（e.g., 必ず false を返す）
　　　モック：メソッド呼び出しの検証を行うための代役（e.g., メソッド呼び出し回数を記録するカウンタ）
　　　stub を inject して mock しながら検証
　依存性の注入 (Dependency Injection)
　　コンポーネント間の依存性を外部から動的に注入できる設計
　　何に依存するかは実行時まで分からない
　　DIコンテナ
　十分なテスト（正しい動作）をすることで、真の解析誤りに注力

評価
　機械的・平均的評価
　回帰テスト：「絶対変換・解析で気無いとまずい」例によるテスト
　ユーザビリティテスト
　見える化

naltoma: テストのテストが必要になったりしそう。
　テストの自動生成でなくても良いけど、テスト作成のコストを下げられないか？

Q: テストについて。大学レベルではそこまで使われるのか。
A: 多分、大学ではやる必要は無い。
　ただし、形態素解析作ってたりすると「当たり前のことを間違える」というケースが多い。
　回帰テスト用意しとくだけでもいろんな応用が効くと思う。

チュートリアル T-c, 司会：丸山岳彦 (国語研), 言語処理の後先（あとさき）：意味はどこから来てどこへ行くのか．, 齋藤洋典氏（名古屋大学）

言語活動／心的活動／意味処理活動／心理実験／脳イメージング／言語と行為の関係 はじめに
　言語と身体（言語処理と非言語処理）
　　身体運動を含む多様な処理を認め、意味を創出し理解する仕組みは「どこから来てどこへ行くのか」。
　　　e.g., ジェスチャー：必ずしも意味を特定する訳には使われないが、未だに使われ続けている。
　意識と脳（意識処理と非意識処理）
　自己と他者（一人の脳と二人の脳）
　　言語は本質的に他人との関わりの中で発展してきた。

語彙と語彙接近モデル
　そもそも語彙／語は曖昧
　心理学での語彙研究：語の連想記憶／語と知能／単語の読み
　　単語優位効果：学習＝概念と概念の結びつき。単語の中にその力が含まれている（？）。
　問い「意味（こころ）は脳のどこにあるのか？」という問いは適切か？
　　そもそもどこか1カ所に貯蔵されているもの？
　従来の語彙接近（lexical access: 単語検索）：限りなく近づくが、到達はしていない。語彙性判断。

　　問いかけ：言語だけが浮き上がってくるのは何故か？
　　問いかけ：手（ジェスチャー）での処理が先に終わってて、後から言葉が修正することもある。
　　残された課題
　　　多感覚入力／複数出力の処理統合。非言語処理、身体運動、意図理解等。
　　　話者/聴取に閉じないモデルの構築。一人の脳から二人の脳へ。

漢字の読み処理
　見える「もの」と見えない「こと」
　漢字「で」研究
　講義の意味理解：少ない情報でより確実な未来を予測する
　読み間違いは目の誤りではなく脳の誤り
　　漢字の形態要素の配置と音韻の両方で起きる。
　　部首の位置と音の確率的な結びつきの知識を持っており、それらの影響を受ける。

発話と身振り
　発話に伴う自発的な身振りは、だれのどのような役に立っているのか？
　　半分は自分のため？
　　表象的身振り（発話と関連する意味的な内容を描く身振り）
　　ビート（意味的な内容を含まず、単純でリズムに乗った身振り）
　　聞き手指向／話して指向 vs 対面パラダイム [Alibali et al., 2001]
　　　話し手は、聞き手が見えない状況でも身振りを算出するか？
　　　　減りはするが、無くならない
　　　　カメラを通した想像条件でも無くならない
　　　盲人同士（見たことも無い）がジェスチャーをする
　ジェスチャーが発話者本人にとってどういう意味があるか？
　　スピーチの負担が減る（？）
　　　e.g., 第2言語ではジェスチャーが増える≒フレーミング（枠組み構築）に使っているのでは

行為と言語化
　ボールを投げる動作／投げるシミュレーション／観察／言語化が同一の機能なのか？
　　10分前にやったことは後続観察課題で想起されるが、それを言語化するとdischargeされる

一人の脳から二人の脳へ（脳機能の連携による意図と共感の算出と理解）
　行為も言語化もせずただ認めるだけで、脳の特定領域が活性化される

naltoma: ヒトと同等のセンサを有するロボット（≒身体を有する何か）を作り得たとして、
　そのロボットが「ヒトと同様に感じ、語彙を獲得し、学んでいく」ためには何が必要だろう？

Q: 漢字の例で、似ている意味、似ている音が間違いに寄与しているのではないか。
A: 漢字に関するデータを見る限り、まず形の類似性が間違いを大きく引き起こす。
　音も引き起こすケースはあるが、音単独では起こらない。そのぐらい、脳は賢い。
　脳はあってるがそれを報告するヒトが（気づかずに）間違うこともある。
　脳は知っているが、explicit にはヒトが知っていないことがある。

Posted in イベントレポート, 学会, 教育, 日記 | No Comments »

情報処理学会第75回全国大会3日目

金曜日, 3月 8th, 2013

情報処理学会全国大会3日目（最終日）が終了しました。これで全日程が終了で、明日には沖縄に戻ります。

NAL研メンバはM2な名嘉くんがラストを飾り、合計5名の学生がどうにか発表を終えました。名嘉くん自身の発表では予備審査では治っていた「そして」連発が出てしまったぐらいで、内容的にはありがたいコメント貰えて良かったんじゃないかと。

午前中は2つのセッションを跨いで参加。一番期待していた発表はちょっと残念な感じだったので置いといて、予想以上に面白かったのは「人間関係を推定するフレームワークに基づくネットいじめ防止ツール」。明示的なテキストなりのアクションをしない女の子のいじめでは「無視する、コメントしない」という行動がネット上でも見られるという話。発表者らによる言葉を使うと「友達リストみたいな登録関係（コネクションネットワーク）は固定したままだが、いじめの対象はローテーションしていく。ネット上でのアクションを定期的に収集、グラフ化することで「予兆っぽいもの」が見えてくる。これをアクティビティネットワークと呼んでいて、固定的なネットワークと動的なネットワークを区別している」らしい。

最後の招待講演は脳トレな川島先生による「スマート・エイジング」。高齢化社会をとっくに過ぎて、今後は日本人人口総数も減っていく中高齢者の割合が上り調子という超高齢化社会に突入している中、認知機能トレーニングにより経年劣化を防ぐだけではなく向上も可能という話。

学生セッション［5M会場］数理モデル化と問題解決（1）
一般セッション［5F会場］インタラクション（1）
スマート・エイジング　～脳機能解析学が拓く新しい超高齢社会～
学生セッション［6Q会場］文書分類

晩ご飯はかきやNO海鮮丼ぶりやととびすとにて海鮮丼＆生ガキ！　その他細かい写真はtwilogにて。

学生セッション［5M会場］数理モデル化と問題解決（1）　座長　山本　雅人（北大）

5M-1時間制限付き優勢領域図の提案とサッカーの守備の分析への応用, ○岩浅真秀人，大塚　寛（愛媛大）

入力：試合中の選手とボールの毎秒5フレームの座標データ
　ディフェンスに関する情報を画像として抽出したい
　優勢領域図：守備範囲、ボール支配者の推測
　　問題点
　　　守備範囲全体を支配できない
　　　スペースは選手の支配領域（選手の到達時間が1秒前後）が分からないと求められない
　　　　-> 時間制限付き優勢領域図へ拡張
　　　隣接関係は妥当でない

naltoma: 「ディフェンスに関する情報」とは？　何が分かると嬉しい？
naltoma: 選手の位置と速度をパラメータとするようだが、
　これで生成された支配領域はどのぐらい正しい？
naltoma: 時間情報を活用できない？

Q: 時間を決めているとの事だが、ボールからの距離も考慮すると変わってきそうだが、
　どうか。
A: まだ考慮していないが、必要だと思う。スペースにも関係してくる。
Q: 選手の向きも考慮していないのは何故？
A: 選手は速度を持って移動している。2点座標から移動方向を推測して
　優勢領域を求めているため入り組んだ結果が得られる。
　実際には向きとか分からない情報が多いが、推測して利用している。

Q: 攻め側の勢力図との関係というのは見ていない？
A: 守備を中心として考えているため、見ていない。
Q: スペースがあってもそこにオフェンスがいなければ、
　あえて空けていることもありえるといった有用な情報となりそうだが。
A: 有用ではあるが、まだ見ていない。

Q: ボール保持している選手がどこにいて、周りにいる守備側の勢力図は見ている？
A: ここではまだ見ていない。

Q: 本当の試合データから作成すると思うが、数秒後の試合結果が推定通りに
　なっているかの判定とか。領域図の適切さの評価はどうか。

5M-2共起クラスタマイニング　ー数値観測量の事象系列に対する頻出パターン抽出ー, ○稲場大樹，福井健一，沼尾正行（阪大）

事象間の因果関係・相互作用：共起パターン（ある期間内でペアで頻出）
頻出パターン抽出
　Apriori-like アルゴリズム：記号データ
　2段階法：数値観測量（区間分割、クラスタリング->記号化）
　　問題点：クラスタリングによる不適切なクラスタ
　時間軸上の共起度を考慮してクラスタ生成
共起クラスタマイニング
　共起パターン要件：共起性、頻出性、類似性

naltoma: 共起パターン要件3の類似性には、そもそも何を持って類似しているかはどうする？
naltoma: 時系列データをどの粒度で区切るべきかはどう判断する？

Q: デンドログラムでクラスタリングして階層的にやっているが、
　上の階層は頻度が高くなるのは当然。クラスタの中の類似性は考慮されているが、
　階層に関する尺度は考慮している？
A: 上のクラスタほど共起頻度は高いが、類似クラスタとして生成されるサイズが
　大きすぎるため、類似性でカバーしている。

Q: 特徴空間に落とすための粒度や区間といったものにかなり影響受ける。
　その辺のパラメータはどうするか、特徴に落とすべきかということについての知見があれば。
A: 試行錯誤。パラメータに落とし過ぎても少なすぎても駄目。
　バスケットの長さについては今回の2実験では同じ決め方をしている。

5M-3Mixing Matrixに基づく階層付きカテゴリカルデータの可視化法, ○伏見卓恭，斉藤和巳，武藤伸明，池田哲夫，大久保誠也（静岡県大）

オブジェクト間の相互関係->全体構造や法則性を把握したい
現実のデータでは相互関係に偏りがある
先行：球面可視化法（SE-PI-W法）
　大きな格差がある場合に重みが適切に得られない
　-> 階層性のあるオブジェクト集合を前提とし、重み付け法を改善

naltoma: 多数の関係を落とし込む以上、ある関係に着目した場合の俯瞰図といった、
　何らかの制約を前提とした方が「使いやすい／みやすい」可視化にならないか？

Q: 球面というのは3次元？2次元？
A: 2次元でやってるが、3次元可も可能。

Q: ベキ分布に従うのが問題ということについては、log取るだけでは駄目？
A: logとか他にもいくつか試してみたが、可視化法への適用という観点では
　格差の是正にはなるが、値が小さなものも差を見たいという点では不十分だった。
Q: 最初の重み段階でlogとってからZスコアしては？
A: Zスコアは必要なエッセンス。logに対応する所はハイパボリックタンジェント
　をかけているところだと認識している。

Q: 人工データでも実データそうだが、第一階層第二階層では有効？
A: 実データでは有効なデータ。

5M-4年代順を考慮に入れた工業製品の進化系統図の提案, ○太田章悟，武藤敦子，犬塚信博（名工大）

工業製品の影響関係を可視化、系統を知る事で企業研究や分析に役立てたい
系統樹推定法
　異なる年代の製品間の系統関係を明らかにし、どのように系統が受け継がれていったかを分析

Q: 世代に注目しているように見えたが、年代という言葉と世代、系統などいろいろ言葉があったが。
A: 世代と年代は同じ。
Q: 違う系列でまとまっているが、他社のゲームを真似るとかは発見できないか？
A: できると考えている。

Q: 人気影響度を評価しているが、それが高いと何故系統樹の評価が高い？
A: 人気製品だとどこの企業も真似をしたがる。影響を大きく与えているということは、
　再現度が高いと考えられる。
Q: ある閾値を越えると似ているかどうかという線が引かれるが、
　影響は受けているけれどもオリジナリティのため押さえ込んでいるとか。
A: あくまでも影響を与えたかどうかに着目している。
　シリーズだから線が引かれるというよりは、具体的に真似したか否かに着目。

Q: 属性の選び方や妥当性については？
A: 現時点では偏りがあるため、精査が必要。
Q: ユーザの立場にたった見方？
A: その通り。

5M-5レビューサイトにおけるユーザ間の動的類似度分析, ○山岸祐己，斉藤和巳，池田哲夫（静岡県大）

 
ユーザのレビュー行動をモデル化する
　レビューは常にユーザの独断的評価か？
　ユーザ間の影響（他レビュー）を考慮する必要がある
　影響を受けるユーザは常に決まっているか？
　　ユーザ間の類似度を動的に分析する
　　　トップユーザを基準に類似度曲線のクラスタリング

naltoma: @cosme は影響を受けやすいユーザの例？
naltoma: トップユーザとの動的レビュー類似度？
naltoma:

Q: クラスタリングにk-medianつかった理由は？　K=15は見やすさで選んだとの事だが、
　他のケースはどういう結果だった？
A: 代表ベクトルとの比較の見やすさを考慮して選択した。
　K=15については、小さすぎるとどうでもよいクラスタが頻出したため、調整した結果。

Q: 他のユーザに影響されるとのことだが、時系列で最初に評価が決められると
　その後は影響を受けてしまうのではないか。重鎮が高い点数付けたからというよりは、
　多くのユーザが3点付けているとかが影響強くないか。
　ユーザ属性よりもコメントに影響されるのでは。
A: レビューのテキストについては全く考慮していない。
　現時点では考慮していないが、ユーザの平均点は見るべきだと思う。

Q: 300レビューしたユーザに限定しているとのことだが、
　300というのはかなり使っているように見える。
A: 一時的というよりは都合の良いときにちょくちょく使ってはいるという解釈が
　近いかもしれない。

Q: 分類しているが、実際にそういう影響を受けているかの評価は何か考えている？
　実際にトップユーザから影響を受けているかどうかとか。
　トップユーザだけで良いのかどうかとか。
A: トップユーザに限定せず、他ユーザも検討する必要がある。
　どういうユーザから影響受けやすいかを調べていく予定。
Q: どういうユーザから影響受けたかはしりようがない？
A: その通り。

一般セッション［5F会場］インタラクション（1）　座長　増井　俊之（慶大）

5F-6作業対象物へのアノテーション自動設定機能を持った遠隔作業支援システムの検討, ○大多和均，堀川真平，佐野良樹，長沼晶子，古澤昌也，湯瀬裕昭，渡邉貴之（静岡県大）

既存システムでは「指導者がアノテーションを設定」（負担大）
　アノテーションを手動で設定する必要の無い方法を提案
　　グリッド線表示機能：時間短縮には結びつかなかった
　　アノテーション自動生成機能

naltoma: 機械学習させるのと現場で手動提示するのとどちらが使いやすい（ロバスト）か？

Q: アノテーションに対するナンバリングが正しかったとのことだが、
　どう付与している？
A: 物体検出リスト登録時にユニークナンバーを付与している。
　いらないものは削除しているため、ナンバーは固定。
Q: 物体が移動したのをどう同定している？
A: 連続検出回数をカウントして考慮。
Q: カメラとターゲットの相対位置が分かっていれば座標の意味が分かるが。
　ちょっとのズレぐらいなら分かるが、大きくズレると座標の意味が無いのでは？

Q: 学習時には端子毎に登録する必要がある？
A: その通り。

Q: そもそもどういう仕事に使うことを想定している？具体的に。
A: お店とかで、この棚には何をいれるとかの細かい作業。
　向き不向きがあると思うが、具体的にやりたいことはまだ考えていない。
　機械操作、テレビ会議システムの操作とか。
Q: 沢山の人を相手をする必要はないのでは？
A: 指導者が一人ずつやらなければならないので、その手間が省ける。

Q: 指導者が一人で何度もやってると、指導者の指導の仕方がうまくなるのでは？
A: そういうことも考えられるが、指導者人数は少ない状況を想定。

5F-7人間関係を推定するフレームワークに基づくネットいじめ防止ツールの実装, ○中村　海，本庄　勝，橋本真幸（KDDI研），三島浩路（中部大），黒川雅幸（福岡教育大），吉田俊和（名大），長谷川亨（KDDI研）

ネットいじめ：テキスト検出アプローチでは見つけられない（無視などの間接的な行動）
発生や予兆を検出して教師等に提示するためのフレームワークを提案
　ソーシャルグラフを可視化、構造に基づいて検出
　　グラフの変化＝異常検知？
　定期的に収集（トラブル起きるとサイトを簡単に消してしまう）
　収集したサイトの管理者同定
　個人属性推定
　リンク構造から同組織推定

naltoma: いたちごっこだと思うが、可視化されるとそこから逃れるような手段が考案される。
　例えば検出可能な範囲では「らしく」行動された時にどう対処していくか？
naltoma: コンタクトネットワークが固定で被害者はローテーションするというケースでは、
　それが日常的な行動であるために何らかのアクションをしてしまうことで油を注ぐようなことに繋がらないか。
　単純にいじめの予兆を検出することにはあまり意味はなくて、
　大事に至るケースを漏れなく検出する事の方が重要ではないか？

Q: ソーシャルグラフを見て潜在的ないじめの発見にどう繋がる？
A: 女の子の仲間集団は、無視や仲間はずれにする行為がある。
　被害者はローテーションする。ずっと被害者になる訳ではない。
　人間関係の根本的な所、お友達リストは変えずに維持する。
　しかし、記事に対してはコメント書き合う／記事やコメント無視するとかの変化を見ている。
　コンタクトネットワークとアクティビティネットワークの構造変化を見るのがポイント。

Q: 線で繋がったのはコンタクトネットワーク？
A: その通り。
Q: アクティビティネットワークは？
A: 今回は重畳した形で出力している。

Q: こういう人が増えていくとどうなる？　こういう人はプロフやり続ける？
A: Lineに移りつつある。
　グループチャットがあり、そのグループから外す。
　ツールの機能に依存する。
Q: いじめの起こりやすい機能というのがある？
A: そう考えている。
　Twitter では起こりにくく、そもそも規模が大きいので無視の効果が薄いとか。

スマート・エイジング　～脳機能解析学が拓く新しい超高齢社会～

「アンチ・エイジング」という年をとる事に対するネガティブな言葉やイメージを払拭できないかということで提唱している「スマート・エイジング」を実現するために取り組んできた／いる／これからの展望等についての話。スマート・エイジングは世阿弥が述べてた「時分の花、まことの花」における後者のイメージで、具体的には認知に関する「通常だと経年劣化していく各種認知機構（主に全当然や？？）の劣化度合いを緩やかにできないか、平坦に維持できないか、より向上させることはできないか」という立場で様々な取り組みをしているとのこと。

メタ認知における作動記憶に注目していて、これを向上させる訓練をするとオマケ的に鍛えていないそれ以外の機能についても向上することができるらしい。ただし、慣れきったレベルでやってもオマケ効果はでず、ギリギリのラインでやることが必要だという点と、遺伝子多形調べる限りでは良く知られているVal/Valだと鍛えた効果がでやすく、そうじゃないと効果はあるが相対的に低いとか遺伝的要因もあることは分かっているらしい。（日本人が全体的に均一的なのはこれが要因なのかもとかいう雑談も）

学生セッション［6Q会場］文書分類　座長　持橋　大地（統計数理研）

6Q-1Geometric Algebra を用いた英語文書分類手法の日本語文書への適用に関する問題についての基礎的検討, ○鈴木直人，古橋　武，吉川大弘（名大）

潜在的意味解析(LSA)の問題点：語順が考慮されていない
Geometric Algebraによる語順を考慮したベクトル化
　語毎に「その後に続く語数ベクトル」を作成し、GA処理
　　日本語文書に適用した際の問題点を調べる
　　　0ベクトルで構成された部分の回転行列をできず、適切な類似度が求められない

naltoma: 1単語でLSAするのではなく、2単語LSAとか、係り受けLSAとかでは不十分？
naltoma: 今回の問題点はコーパスが小さいための結果では？

Q: 6つの文を選んだ根拠、何らかの問題になるという仮定があると思うが、それは何か。
A: 選んだ根拠は、1,2では出現単語では全く同じで類似度が1になるかどうかの確認。
　4,5では逆順で表れるケースで類似度が低くなるか。
　6のように全く無関係の単語の際に類似度が低くなるか。
Q: 回転行列が求められないというのは日本語特有？
A: 英語での実験はこれから。

Q: 1,2の文章と3,4の文章は意味が全く違うように思うが、類似度が0.99と出るのは良いのか？
　会場に行くのと家にいくのがほぼ同じで良い？
A: 目的地の単語は全く異なるが、同じような語順で出てきたという意味で似ている。

Q: 語順の行列作る際に、1個前の単語だけを見る？ bi-gram？
A: 今回は直前の単語だけを見ている。
Q: indexing時に2単語組みと比べてどういうトレードオフがある？
A: ペア作成すると行列がでかくなりすぎ、より回転行列が定義できないケースが増えると思う。
　今回の手法の方がスパース性が低い。

Q: 実数基底虚数基底があったが、実際にはどう分けている？
A: 今回は実数基底のみを用いた。
Q: どう使えば良いかという指針みたいなものはある？
A: 分からない。

6Q-2OCR文書検索を想定した重み付きトピックモデルの検討, ○田村一樹，吉川大弘，古橋　武（名大），鈴木　誠（ブラザー工業）

 企業：e-文書法に基づく、大量に蓄積された紙文書の電子化
個人：自炊、クラウドデータ
フォルダ管理／タグ管理：どちらも時間＆労力
　目的に応じて文書を探し出したい->LDA
　問題点：OCR誤認識を含む文書にトピックモデル適用するとトピック推定精度が低下
　　単語の認識信頼度、LDA重み付け

naltoma: OCR誤認識はOCRソフト毎の「癖」がないか？
naltoma: 認識信頼度が低い単語を除外するだけでは不十分？
naltoma: OCR誤認識を含まない文書に対してはどう？（例えば誤変換とかタイポとか）

Q: 誤認識を直すところには適用できない？
A: その段階での修正ができるとベストではある。
Q: 単語レベルでのn-gramするとかなり直せないか？

Q: 全く崩さない綺麗なLDAと、混ぜて試した場合とでどのぐらい差が出るのか。
A: エラーが増えるに従って認識率が下がっていった。

6Q-3疑似ラベルを用いた潜在ディリクレ配分法の一考察, ○鈴木聡子，小林一郎（お茶の水女子大）

Labeled LDA: 予め付与されているラベルに対して精度良好
　問題点：ラベルがついていない文書の方が多い
　　全ての文書に対して疑似ラベル付与してLabeled LDA

naltoma: トピックモデルにおける「トピック」と「疑似ラベル」はどういう関係？
naltoma: 単語共起と文書類似度から疑似ラベルを生成するという行為により、
　様々な方向への重み調整をしていることに繋がると思うが、
　特徴ベクトルを重み調整して通常のLDAでやることとどちらが良いのか？

Q: 付けたラベルの妥当性についてはどうだった？
A: ラベルがもとの同じカテゴリに付けられていたかどうかは確認していない。
Q: 恐らく labeled LDA の精度が良いのは、labelが正しいから。
A: 元のデータとの比較は重要だが、それとはっきり一致した方が良いかは別問題だと考えている。

Q: 疑似ラベルの使い方のグラフィカルモデルについて。
　疑似ラベルがついていなかったら、重みが０になる？
A: 付いてないラベルの所は0になる。
Q: それは影響が強すぎるのでは？
　θの事前分布にするのではなく、その後、λの右に持っていくだけでも精度が上がりそう。

6Q-4潜在情報を考慮したグラフに基づく半教師あり学習によるテキスト分類, ○江里口瑛子，小林一郎（お茶の水女子大）

グラフ構造に基づく半教師あり学習（GBSSL法）
　問題点：どのようなグラフを用意するか、どのように教師データを用意するかに依存
　　グラフ構成について最適パラメータ設定
　　教師データを類似度グラフにより選出

naltoma: 教師データの適切さとして TopicRank スコアが高い方が良いというのは何故？

Q: 実際に生成されたグラフは見てみた？
A: まだ可視化ツールができていないが、今後見ていく予定。

Q: 今回の手法は計算量が増えてしまう事は無いか？
　単にグラフを使う方法よりも計算コストが増えすぎるとか、
　調整するパラメータが多すぎるとか。
A: パラメータについては先行研究と同程度。
　教師データを作るのはそれなりに時間がかかる。
Q: 組み合わせになると膨大になると思うが、問題にならない？
A: 苦労した所ではあるが、傾向性を見つけることで解決していきたい。

6Q-5PageRankアルゴリズムを用いた重要文抽出による潜在的意味に基づく文書分類, ○小倉由佳里，小林一郎（お茶の水女子大）

未分類文書をカテゴリ毎に自動で分類したい
潜在的意味による文書分類の精度を高める文書分類手法の提案
　単語共起関係抽出、グラフ化、重要度算出、重要文抽出、重要文のみで元文書を表現
　3文毎の単語共起関係

naltoma: 文抽出型の自動要約した文による文書分類する場合と比べてどうか？
naltoma: 要約と重要文とは意味が異なる？
naltoma: PageRankの高さと「クラスタリングしやすい文」とは同一だろうか？

Q: 単語に対して重要語を求めて、重要な文を抽出しているが、
　文書を特徴付けている重要単語の出現回数でLDAするのとどちらが良いのか。
　わざわざ重要文を抽出する必要があるのか。
A: 潜在情報で分類するために必要なデータで構成し直すことがしたかった。

Q: 3文にした理由は？
A: 取りあえず考慮できる範囲として設定したぐらいの意味。

Q: 重要文、重要単語抽出は面白いともうが、
　ある単語ごっそり除いた時にマズいというのが分かるとGibbs-samplingで嬉しい。

6Q-6制約知識を用いたCRPへの一考察, ○立川華代，小林一郎（お茶の水女子大）

LDAでは予めトピック数を指定する必要があるが、通常は不明。
HDP-LDA：トピック数を推定
　Chinese Restaurant Process ＋ Dirichlet Process
　制約付きCRP

naltoma: CRPに制約をつけた表現が文書分類に効果を与えると考えた理由は？

Q: 制約の数が有限だったが、制約の数がどんどん増えないか？
A: こちらから与えるので、固執の数自体は増えない。テーブル数のみ増える。
Q: テーブル＝トピックだと思うが、同じテーブルに座って欲しい？
　同じ個室に入って欲しい？
A: 同じ個室には入るけど、異なるテーブルに座る可能性があるので、
　個室をトピックと考える方が良いかもしれない。

Q: 実際にはどういう制約を与えたい？
A: 単語群を1制約として与えたい。
Q: トピックの事前確率で入れた事例は多分これまでにないと思うが、
　そこは大丈夫？
A: 恐らく。

6Q-7学習指導要領に基づいた設問自動分類タスクにおける語の集約による有効性評価, ○名嘉真之介，當間愛晃，赤嶺有平，山田孝治，遠藤聡志（琉球大）

naltoma: 「そして」が多い。
naltoma: 時間上省いたと思うけど、どのように「語の集約」をしたのかが分からない。
naltoma: 集約結果での「誤分類事例の分析結果と考察」は、
　説明がスムーズじゃなかったことに加えて図の意味が良く分からず、
　伝えたい事が良く分からなかった。

Q: TFIDF使ったようだが、グラフや質問形式による言葉と内容に関する言葉があると思うが、
　今回は同じように扱ったのか、除外等特別扱いしているのか。
　分野には寄与しない単語はどうしているのか。
A: グラフ等の単語が出た場合には設問外情報を利用している。
Q: 分野に寄与していない単語を除外してはどうか。
A: 除外したいが、難しい。

Q: 最後の提案は自動化できる？
A: 今の所手動でやっているため、自動化したい。
Q: 分類においてはどうでもいい単語とか、どう展開して欲しいということができると嬉しいと思うが、
　トピックモデルで表面上少しはできるが、具体的なトピックについてやっている訳ではない。
　そこがポイントかなと感じた。

Posted in イベントレポート, 学会, 日記 | Comments Closed

情報処理学会第75回全国大会2日目

木曜日, 3月 7th, 2013

情報処理学会全国大会1日目が終了しました。NAL研メンバは慶留間くんと山内くんが終了。二人の発表時間が完全にブッキングしていたので、初学会の慶留間くんを優先して山内くん側はお任せ状態で。就職活動やらKESやらいろいろタスク山積みになってることもあってか山内くんは「自己評価で過去最悪」だったらしい。ま、それでも自分から終了後に座長とやり取りして得られるモノがあったらしい。慶留間くんは、初発表ということで緊張しまくってたらしいですが、発表自体は安定してて聞きやすかったです。質問も会場から2件適切なものが出たのでちゃんと伝わってたんじゃないかと。後は問題設定さえちゃんとできれば、会場でのやり取りを意識することに少しずつ慣れるぐらいで良さげじゃないかと。

午前に参加していたセッション「生成・要約・文書作成支援」では、東北大・伊藤先生らの張さんが発表した「やさしい日本語作成支援のための言語圏を考慮した日本語難易度自動推定」が学生奨励賞をゲット。うろ覚えですが去年も貰ってたような（？）。同じテーマでちゃんと実験＆分析進めてるという内容は当然として、問題設定の点でも自分でもこれが頭一つ抜けてるなと思いました。（セッション終了後にわざわざ挨拶に来たのも含めて、うちの学生への良い指導になりましたｗ）

午後は、「情報抽出・DB技術一般」とシンポジウム「情報をライフラインに」とを往復しながら聞く形に。シンポジウムのログはテーブル無し大会場だったこともあって、詳細ログというよりは印象深く残ったキーワードをメモ書きしています。

終了後は遠藤先生呼びかけで喜助にて合同宴会モードに。牛タンの塩焼き／ビーフシチュー／スモーク、テール焼きを堪能。ごちそうさまでした！　例によって食べ過ぎたので写真はtwilogを参照ｗ

学生セッション［3Q会場］生成・要約・文書作成支援
学生セッション［4P会場］情報抽出・DB技術一般
「情報をライフラインに」シンポジウム（下記3サブセッション）

招待講演-2（大会招待講演-4）地震防災におけるビッグデータ
パネル討論【第一部】震災時の情報伝達を振り返る
パネル討論【第ニ部】情報ライフライン化の技術

学生セッション［3Q会場］, 生成・要約・文書作成支援　座長　高村　大也（東工大）

3Q-1文章のリズムを考慮した小説執筆支援システムの作成, ○齊藤雄大，長谷川大，佐久田博司（青学大）

執筆者の意図する文章のリズムに近づけるような小説執筆支援システム
文章リズムに影響する要因調査

naltoma: 相関係数の絶対値を重みとする？？
　-> そもそも符号が一緒だったらしい
naltoma: リズムレベルを7段階に分けた理由は？

Q: 文章の無いように踏み込んでも良いのかと思うが、どうか。
　長い文章でも特定パターンが含まれている場合とか。
A: リズムに影響するとは考えられるが、今回はまだ考慮していない。
　単純に表層的な材料のみで判定を行っている。
Q: そのまま表層的なもので改善していくというのは何を狙っている？
A: 日本特有の57調、ですます調とか。

Q: プロの小説家の人だったり、夏目漱石みたいな良く読まれている小説があるが、
　そういう人たちのリズム感は想定されるリズム感としてあっているかどうかを
　客観的に正しいかを調べる事ができそうだが、どうか。
A: プロ作家等も含めた評価をしているが、感覚的には判定が一致しているように
　見える文章がいくつかあるようにみえる一方で、おかしい判定結果もある。

Q: そもそもリズムの定義がないままだったため、
　そこを詰める必要があるのではないか。
Q: 互いに相関している要素もあると思うので、今回のアドバイスが本当に適切なのか
　についても検討して欲しい。

3Q-3ヘルプテクストを対象とした修辞構造解析システムの実装と改良, ○安達昌吾，杉本　徹（芝浦工大）

知的ヘルプシステム
　意味内容解析＋適切なヘルプ選択
　ヘルプ構造解析＋分かりやすく言い換え
ヘルプテクストの言い換え
　修辞構造解析、構造ベースで言い換え
　節間の修辞構造解析：言語表現による推定、動詞ペアによる推定、修辞関係による推定
　　＊各々手動構築したパターンマッチングっぽい
　文間の修辞構造解析：言語表現による推定、修辞関係による推定

naltoma: 最初の例では言い換えというよりは分割に見えるが、
　どういうレベルでの言い換えを想定している？
naltoma: ヘルプ記述文の分かりにくさとしては修辞構造が大きな要因？
　分かりにくい文に対象を絞った場合の精度は？　分かりやすく言い換えられた？

Q: 改良して良くなったかどうかが分かりにくい。
　2007データを見ながら改良する事を目指しているようだが、
　改良前後とでどう変化したかを見る必要が無いか。
A: 改良したシステムは、改良に使っていない新規テキストで評価をしている。
　アルゴリズムの元になっているため、高い精度が出るだろうという前提で
　関連していないテキストで実験を行っている。

Q: 改良ポリシーとして、2007ではこうこうという話だったように思うが、
　何を作ろうと目指している？　2007がより一般的なテキスト？
A: どちらが優劣という話ではなく、問題点に対する改善を行った。
　元のテキストで精度が落ちないように改善している。

3Q-4やさしい日本語作成支援のための言語圏を考慮した日本語難易度自動推定, ○張　　萌，伊藤彰則（東北大），佐藤和之（弘前大）

日本語に不慣れな外国人にも理解が容易な日本語
日本人と外国人が感じる日本語難易度は異なる->定量的な難易度推定
　日本語難易度に関する知覚の解明
　　日本人が外国人の感覚を推定できるか？
　　外国人同士では同じ難易度か？

naltoma: 日本語の難易度をスコアとして評価しているが、
　点数のような定量的評価が適切か？
naltoma: 「日本人で学習したモデル」とは、日本人が「こういうのが難しいだろう」
　という推定で作られたデータで学習したもの？
　-> 推定で評価したものだが、精度が落ちた。

Q: 特徴量が単語レベルとか係り受けとか4種類あるようだが、
　個別に見ていってどのぐらい寄与していたかは見た？
A: 個別に相関係数をチェックした。

Q: 外国人のデータで学習することが重要だという結論が出たが、
　その中における個人差はどれぐらい影響しているかが気になる。
A: 漢字圏同士では大体似ている（正の相関が高い）。
　個人差はあると思うが、似ているという理解。

Q: 音素とか聞きづらいものがあると思うが、
　そこら辺についての検討はしていく？
A: 今回は文章が対象。
Q: 災害時にはスピーカーから発音されるので、テキストではなくて音で出力される。
　音で聞きやすいものを考えたものが良さそうに感じた。
A: 聞く方も検討は必要だと思う。

Q: 難易度をいろんな特徴量を使ってモデル化するという話は昔からいろいろあると思う。
　その中で、今回の手法がどういう位置付けなのかを調べてみるのが学術的にも重要。

3Q-5日本語推敲支援のための文の語順整序, ○田中麻祐子，大野誠寛，加藤芳秀，松原茂樹，石川佳治（名大）

読み難い文が入力されたとき、係り受け精度が大きく劣化
係り受け解析と語順整序を同時に行う

naltoma: どういう状況や対象に対する推敲支援を想定している？
naltoma: 「整序前のものと係り受け構造が同一」という前提は良いの？
　係り受け解析できる文が対象ということ？

Q: モデルの学習の話があまりなかったが、
　ある特定の語順である確率とそこからの係り受けが必要になると思うが、
　どういう処理を行っている？
A: 京大コーパスで、特定素性の条件付き確率2種類を独立して求めている。

Q: 探索アルゴリズムが近似ということだが、
　どういう近似になっている？　どの辺の計算を省いている？
　どこをうまく効率化している？
A: 全パターンを考慮せず、後方修飾性、非交差性を考慮したパターンのみ考慮。

3Q-6自然言語処理による日本語文章の自動生成, ○杉本　亘（関西学院大）

欠席

3Q-7物語生成支援環境の提案, ○田所裕喜，岸　義樹（茨城大）

物語生成の簡易化、効率化（作業時間短縮、設定管理）
　設定情報の管理
　基本的なストーリー設定
　プロットの出力

naltoma: どういう状況を想定した支援？
naltoma: 登場人物の行為に付随していた「記号」とは？　ただのユニークなキー？

Q: 昔話のクラスを設定しているようだが、現代風やロボットとかライトのベルトかでは
　そのクラスだけに当てはまらないものが多くあると思う。今回は昔話特化ということ？
A: 最終的にはそういう所も狙っていきたいが、今はその通り。

Q: Evernoteとかいろいろ使って作る事ができると思うが。
A: 複雑な物語を作っていくとそのようなものが向いていると思うが、
　対象としては物語生成に慣れていない人への支援。

Q: プロップの枠組みを基にしているとのことだが、
　どこがオリジナリティのある箇所？線引きが良く分からなかった。
A: プロップの話をそのまま使うのではなく、大きくカテゴライズしている。
Q: まとめ方がプロップの枠組みには無い？
A: ベースではあるが、それをまとめて作った。

3Q-8強化学習を用いた自動要約における学習手法の比較と考察, ○慶留間諒大，當間愛晃（琉球大）

naltoma: ちゃんと事前に投影テストやろう。
naltoma: どういう状況を想定していて、どういう要約を生成したい？
naltoma: 良い意味では安定してて聞きやすいが、悪い意味では平坦。
　教室後ろで聞くには声が少し小さい。
naltoma: ROUGEは一つの指標だが、どのぐらい適切なのか？
naltoma: 最後はスライド消さない。

Q: 文章要約は、文の集合の要約なのか、単文に対する要約なのか。
A: 今回は文章のみです。単文毎は行っていない。
Q: 単文の要約にも使えると考えている？
A: 先行研究では単文を考慮したものも検討している。
Q: 両方にRLを使うと解の探索には非常に時間がかかる？
A: その通りだと思う。

Q: 考察で要約結果似たような文を選択したという話があったが、
　冗長性のある文を選択しないためにはどうしたらいいだろうか？
A: 予め似たような文同士をまとめて同じ状態にしてしまう方法も一つ。
　報酬の与え方で調整する方法も考えられる。

3Q-9トピックを考慮したグラフ表現に基づく複数文書要約, ○北島理沙，小林一郎（お茶の水女子大）

潜在トピックによる文書処理：LSI, PLSI, LDA,,,
複数文書要約（グラフに基づいた手法）＋潜在トピックに基づいた文書処理（LDA）
　LexRank：多くの文と類似している文は重要度が高い
　LexRank にトピック概念導入
　　トピック分布推定、類似度グラフ生成、重要度計算、ランク付け
　　MMR指標の導入により冗長性のある文選択を防ぐ
　　-> 類似度グラフ生成は重要だが、MMRは精度に対汁効果は薄い

naltoma: レビューなどが対象の場合、多くの文と類似している文が重要という仮定はどのぐらい妥当？

Q: 複数の文書を分析するということだが、一つのファイルに複数トピックあるということなら、
　マージして複数のトピックがある一つのファイルがあると扱っても平気？
A: 今回のケースでは問題になりにくいとは思うが、分布次第だと思う。

Q: 実験結果でパラメータ調整により一旦下がった後で上がっているのは何故？
A: 重みの掛け方を詳細に見る必要があるが、
　少し居れるよりは頼り度合いを強めた方が良いという結果だという解釈。

Q: MMRで、2項目は表層的な類似度のようだが、
　トピックを用いた類似度はできない？
A: できる。ただし、ここでは表層的な類似度が強く影響していると想定した。

Q: 右上がりの結果だが、このまま上がり続ける？収束する？
　第2項がマイナスの値の方が良かったりする？
A: その可能性はあると思う。今回は正の値しか考慮していなかった。

学生セッション［4P会場］情報抽出・DB技術一般　座長　牛尼　剛聡（九大）

4P-1制約のある条件下でのテキストからの有効な情報抽出技術について, ○津田和俊，工藤純一（東北大）

制約のある条件下でのテキスト
文字制限が厳しい e.g., アブスト, 新聞記事
　前後の文脈から人間には明らかである情報を省略したり、同じ項目繰り返しを極力避けることが多い
　動機：著者が指定したキーワードが適切とは限らない
単語頻度では特徴が現れにくいケースがあるので、2単語間相関考慮して重み調整
　単純な統計処理で10語前後の短いテキストでも識別できる
　誤検出が少ない
　専門辞書が必要なく、一般の単語が交じったまま処理できる

naltoma: 一般的な文書分類とは何が違う？

Q: 目的は、カテゴリに分類すること？
A: カテゴリ分類とキーワード抽出。
Q: 両方とも評価している？
A: キーワード抽出はもともと成績が良くない。
Q: カテゴリは何カテゴリある？
A: 全体で20ぐらい。選んだ論文数にもよる。
Q: 単純カテゴリだと単純な分類であればいろんな機械学習が使えるようにも思うが、
　今回のポイントは？
A: そのものズバリのキーワードが出て来ないものが対象。
　TFIDFでは0になる。
Q: TFIDFでなくても頻度ベクトルでも答えカテゴリが分かるなら機械学習できそうだが。
A: そのものズバリの単語が出て来ないので困難。
Q: 古典的な問題で、やられているアイデアもシンプルに見えるが。
　関連研究を調査したいという話もあったが、どのぐらい進めている？
A: そのものズバリの単語が抜けているという研究があまりないように見える。
Q: 単語が抜けているというのがよくわからない。 　カテゴリ名や必ずしも特徴的な単語がなくても良いはずだが。
　t検定どうのというのはあるかもしれないが。
　より一般的で汎用的なものと違いを明確にするようにしてみると良いのでは。

4P-2くだけた文章からの感情抽出, ○石上直孝，筧　捷彦（早大）

 
文章から著者の感情を推定したい。
　同じ単語でも異なる感情を表す事があるため、表象情報だけでは限界がある。
　パターン辞書は単語辞書に比べて成熟していない
　　用言パターン：用言とそれに係る名詞の組み合わせ
　　文末パターン：句点や顔文字など、文の終わりに出現するパターン
　　　パターン自動生成＋機械学習

naltoma: 「くだけかた」には時代や組織構成メンバによってパターンが大きく
　異なりそうだが、今回用いた「パターン生成」では考慮しなくても良い？
　（生成パターンの準備方針は何かしらある？）

Q: 一つの表記に複数感情を付与するようだが、マルチラベル？
A: 8個の感情があり、1件ずつ個別に判断。感情毎に一致率で評価。
Q: SVMは何のために使った？
A: 文末パターン判定を学習。多クラス。

Q: 3人被験者での2/3の一致で問題無い？
A: 人によって差が合ったので少ないかもしれない。
　実験データとして数多く必要のため、今回は3人。

Q: 動機として助詞とかが省略されると困るという話があったが、
　構文解析使っているが、どういうポリシーか。
A: 構文解析に困るということではなく、助詞の有無にも対応したパターンを
　用意する必要があるということが問題点で、今回はそれに対応した。

Q: 徳久らの先行例をベースラインにしていないのは何故？
A: 手動構築で手に入らないため。

招待講演-2（大会招待講演-4）地震防災におけるビッグデータ, 青井　真（独立行政法人防災科学技術研究所地震・火山防災研究ユニット　地震・火山観測データセンターセンター長）

地震・火山観測方面の専門家ということで地震にまつわる話を「地震前の教育的段階／直後の緊急速報段階／一旦落ち着いた後の段階」ぐらいに分けて具体的な事例をいろいろと話されていました。

個人的に印象深かったのは「地震観測網としては全国約2000地点。これで現状の地震速報レベルの粒度を達成しているが、本来は揺れそのものを知りたいのではない。知りたいのは被害状況やそれに伴う対策の必要性などだが、現状の計測数規模（≒マクドナルド店舗数並み）では全くオーダーが足りない」という話。これ以上国からの支援ベースで規模を劇的に増やせる見込みも無いが、スマホ（深度2以上なら十分な精度らしい）やそれ以外にも安価に個人レベルで計測＆配信できる機器が開発できてきているので、ソーシャル化することで例えば「ある建物の地震前後で揺れに対する弱さ」が分かるようになる時代に届くかもしれないとのこと。

パネル討論【第一部】震災時の情報伝達を振り返る

途中別セッションに行ってたので、後半の間山先生と司会の石川先生の話ぐらいしか聞けてないのが残念。

医療現場の間山先生からは、被災してから暫く（数日）は「現場の人は安否確認すらできないぐらいインフラが死んでいた。電気通信は4日後に某社が繋がり始めたが他社は全く駄目で、その時の絶望感はとても強い。安否確認すらできない日が続いたが、それでも患者を目の前にすると無理してでも尽くしてしまう。「無事」の2字伝えられるだけでも心の平安が保てるから、何とかならないものか」という話。

その後の石川先生のまとめや会場との討論を聞く限りでは、情報を串刺しにすることを前提として3種類のライフライン「生命を繋ぐライフライン／未来を繋ぐライフライン／こころを繋ぐライフライン」が必要だろうというサマリでした。「情報串刺し」というのは、現場では情報が錯綜していて活用できていないとか、そもそも共有化されていないといった状態の解決が必要という話。「未来を繋ぐライフライン」は、現場の人は「今後自分の人生がどうなっていくのかが分からないままに時間が過ぎていく」ということへの問題提起。例えば、新しい住宅は必要だが、数百年の歴史が刻まれた森林を完全伐採してまでやらなくても必要最小限にすることはできなかったのかとか現場の人は思うが、伐採されてしまう。必要なor欲しい情報が互いに行き届いていないので何がどこでどうなっているのかが分からず、将来が見通せないという話。

パネル討論【第ニ部】情報ライフライン化の技術

総務省の谷脇先生や慶応義塾の神成先生からは、オープンデータ等情報公開することとそれらを組み合わせて何ができるかの実績作りや検討を進めていくというような話。コンピュータ処理可能な形でデータを公開する事の必要性と、それによるメリット・デメリットの検討をしつつ、どのような形でどのように公開すべきかを他省庁に提示する形で牽引している途中とか。予定より既に1年遅れになってるが、そこは国会通るように祈るしか無いとのこと（ですよねー）。震災に絡んだデータ公開としては国立国会図書館がNDL東日本大震災アーカイブ「ひなぎく」として公開されてるらしい。

震災後から現場入りして復興に携わっている神成先生の事例としては、やはり現場で音頭をとるには「お昼に仕事としてやりとりするだけでは駄目で、飲食共に夜も付き合うことで相手の本心に近づく事ができ、そこで初めて本当の意味で支援が始まる」というような話。人間系なので仕方ないだろうなとは思う。保守的な人が多いのは事実だが、一度入り込んで共にやるという形に入り、成功事例を出せれば後は一緒にやろうという人は増えてくるとのこと。コミュニティ作りも本気で取り組もうという地元の人探しもあれもこれも結局は現場に入って時間かけてやるしかないよね、という結論。ちなみに公益信託JCB東日本大震災に負けない子どもたちの未来を応援する奨学基金なるものも立ち上げて、JCBさんが本腰入れて震災孤児への奨学金給付も頑張ってるらしい。

Googleの賀沢先生は、「正確＆迅速＆（その人にとって）適切な情報の提供」実現に向けてゆっくりと、だけど諦めず一歩ずつ歩み続けているとのこと。企業としての宿命で大震災というレアケースに対して大きなコストをかける事は困難だし、他企業との連携も緊急時には契約とかしてられないので、互いに同じゴールを目指して阿吽の呼吸で進んでいたことが「第三者からは協力しているように見えた」のかもしれないが、企業側としては「ツールを提供」していたに過ぎないという立場らしい。Googleクライシスレスポンスとして今後も努力を継続するし、通常時のうちに協力契約等も少しずつ進めているとか。

Posted in イベントレポート, 学会, 日記 | No Comments »

情報処理学会第75回全国大会1日目

水曜日, 3月 6th, 2013

情報処理学会全国大会1日目が終了しました。NAL研メンバは玉城くんが終了。良いコメントというか想定通りのコメント貰えたんじゃないかと。

昼過ぎには招待講演2件があったんですが、満席で座れず（立ち見があるぐらい盛況）、Ustreamもやってたっぽいんですが個別に見ざるを得ない状況だったので諦めちゃいました。

東北大学構内にはあちこち雪解け気味に残ってたり、仙台城付近の池が全面凍ってたりで思ってたよりも雪を楽しめましたｗ

個人的に参加したセッションは以下の通りです。午後のセッションは途中（4件目）まで2Mで、途中（5件目）から2Pに移動しました。個人的に気になってた発表は意図に基づくコンテキストアウェアサービス提供モデルの提案でしたが、思ってた以上に「理想空間上でのシミュレーション」という位置付けで気になる点は「できるものとする」前提になっちゃってたのが残念でした。難しいから仕方ないだろうとは思いますが。

学生セッション［1ZE会場］教育効果の分析・調査・評価
学生セッション［2M会場］要求・アーキテクチャ
学生セッション［2P会場］情報推薦

晩ご飯は気仙沼食堂で、ホルモンやら焼きそばやらあれこれ堪能しました。食べ過ぎですｗ写真多すぎるのでtwilog参照。

以下、セッション毎のメモです。

学生セッション［1ZE会場］教育効果の分析・調査・評価　座長　西田　知博（大阪学院大）

1ZE-1初等教育の算数科授業におけるICT機器活用が児童の話し合いに与える効果の多角的視点による検討, ○阿部　俊，後藤裕介，南野謙一，渡邊慶和（岩手県大）

キャンセル

1ZE-2課題提出を支援するリマインドシステムにおけるアドバイス機能の検討, ○谷村　祐，西田滉季，田中穏識，納富一宏（神奈川工科大）

対象；課題の存在を忘れる、スケジュール管理できない人
対象種別毎のアドバイスパターン
　1. 意欲はあるが能力が足りない学生、期限までの残り時間が短い場合
　　->課題内容に対するヒント
　2. スケジュール管理が得意でない学生
　　-> 課題期限や取り組み方
　3. 意欲、能力共に高い学生
　　-> 講義に関する専門的な情報
　4. 意欲、能力共に低い学生
　　-> 講義に関する基礎的な情報
アドバイス提示タイミング
　a. 時間で自動的に提示
　b. ユーザの要求、反応で提示

naltoma: 余裕を持ってリマインドされたら行動するの？
naltoma: 受動的な学生に対してアドバイス等による積極的な関与によりある程度
　課題提出を支援できたとして、そのような学生は卒業後意欲を持って働くことが
　できるのだろうか？（場当たり的な支援になっていないか？）

Q: アドバイスの機能としていくつかあげられていたが、だれが用意する？
A: 現時点では教員負担。将来的には生成できるようにしたい。
Q: レポート提出期限で1週間とかあると、その間ほったらかしにできる期間というのはどういうこと？
　どういうレポートを想定している？
A: やらなくても良い時間というか、学生が受講している講義は複数あり、
　どの順番で取り組むかということを考えると期限が迫っていないのは優先度が低いとか。
　そこで後回しにした結果、忘れてしまうということがある。
Q: 緊急のものから対処しようというアプローチ？
A: その通り。課題の内容も考慮したいとは考えている。

Q: 何故Androidのポップアップにする？　汎用性としてはメールの方が高いのでは？
　端末限定をしてしまう。
A: メールの場合は自分でアクセスする必要がある。
　確認しない学生、メールが沢山来る学生は忘れてしまう。
　ポップアップでは閉じる作業するまでは表示し続けることが可能。

Q: どういう形で学生が出すべきか、〆切間際はもっと細かい区分けが必要だし、
　どういうアドバイスを用意するかにも関わってくるが、
　どのように支援するかを考えたシステムを検討すべきでは。

1ZE-3作問演習における作問者の出題意図と主観的な学習効果との関係性, ○井上裕之，佐々木淳，山田敬三，高木正則（岩手県大）

作文学習支援システム
　利用者が学習効果を得られることを保証したい
　　主観的な学習効果に影響を与えている要因を抽出
出題意図
　自己学習／解答者の学習／作りやすさ

naltoma: 主観的には学習効果がなかったと答えた学生は、どういう学生だった？
　何が要因だった？

Q: 直感的には、得点が低い人に他人に役立つ問題作成するよう指示しているが、
　得点が高い人がやる話に思う。
　得点が低いから自分ができるように作るというのが自然ではないか。
　何故得点低い人と高い人とでタスクを分けたのか？
　両方とも混ぜて差を見るのが普通では？
A: 理解度が高い人が作りやすい問題を作る意図を持たせた方が良いと考えたから。
Q: その仮説が正しいか分からないので、十分な人数がいるなら両方のグループで
　両方のタスクをやらせるべき。

1ZE-4勉強スタイルによる個々の差異と実力の推移に関する調査, ○玉城　翔，當間愛晃（琉球大）

naltoma: 傾向（分類ルール）抽出するにしては属性が少なすぎるのはやっぱり気になる。
naltoma: 決定木は適宜見やすく編集しよう。
naltoma: 発表終了後のスライドは結論なり今後の課題なりを残したままにしよう。
naltoma: 勉強スタイルについての傾向や違いが見られたとして、何をどうしたい？

Q: 考えている「スタイル」というのはとても分類しにくい。
　クラス毎に決まった教科書があるとある程度定義できそうだが、
　いろんなユーザが混在していると定義しにくいのでは？
A: やってみないと分からないが、今回は英語に限定してみている。
　目的や有名な教材によってスタイルに共通性が見られることを想定している。

Q: 今回分かった3点について、見方によっては分析しなくても出るような結果になってて勿体無い。
　毎日やる人ほど点数上がりやすい、上の人ほど伸びにくい、レベル毎に適切な教材があるとか。
　うまく問題設定をすべきでは。
　いろんな人がいるところでやりたい気持ちは分かるが、
　ある一つのテキストに絞り込むとか、ユーザ層を絞り込むとかしてみた方が良いのでは。

1ZE-5クラスタ数の変化点検出を用いた授業アンケートの分析, ○天野恵理子，大枝真一（木更津高専）

病欠

1ZE-6ご当地検定における「面白い」・「役立つ」問題の分析, ○奥津翔太，菅原遼介，古舘昌伸，高木正則，山田敬三，佐々木淳（岩手県大）

地域に興味を持って欲しい
ご当地検定
　解答者が地域に興味を持ってもらえるような問題
　要望：解答後の面白い・役立つ度合いの観点から項目を検索したい

naltoma: 面白さは流行など時間軸にそって変化するものでは？
　プロフィールとしては何を想定している？
naltoma: 「知ってる単語や興味」はどう分析する？
naltoma: ある意味で、広告や推薦モデルに近い問題設定？

Q: プロフィールの感じ方とは？面白いかどうか？
A: 今回は面白いか、役立つか。

Q: 仮説と異なる結果が出たとのことだが、
　どちらかというと結果の方が尤もらしい仮説として採用しそうに思う。
　何故今回の仮説を立てた？
　ご当地検定にトライする人は既に興味があるのでは。

Q: 総数が10数名のようだが、これは別途やったもの？
A: 別途やってもらった。
　キーワード知ってるかの確認後に、解いてもらった。
　既に解いてた人も被っている。

1ZE-7ソフトウェア信頼性モデルを応用した大学等における原稿作成プロセスの定量的評価, ○土井　崇，奥田隆史，井手口哲夫，田　学軍（愛知県大）

問題意識：原稿作成プロセスの終了時間が個人差に強く左右される
原稿作成プロセス
　プログラムコードと捉え、作成原稿は学生の原稿作成・修正スキルに依存したエラーを含む。
　教員の推敲・修正間隔と学生の原稿修正スキルが完成時間に与える影響を
　　ソフトウェア信頼性モデルを応用した確率モデルで検証。

naltoma: プログラムコードの場合、テストを用意できるはずだがこの違いは無視して問題ない？
naltoma: 平均75日？？

Q: いろんなタイプが出てきたが、原稿作成指導、論文添削ということについて、
　グループ学習とか創造的活動というのはあまり使わない気がする。
A: 原稿作成を含めて研究を進める過程で行う。
Q: 多分想定が変わっていて、原稿作成するのはある程度研究に目処が付いた
　時点でのアウトプット。

Q: ソフトウェアでのモデルを導入するのは面白いが、
　このモデルが原稿パターンとして現れているかの意味付けをちゃんと見て欲しい。
　例えば logistic, gompertz は具体的にはどういうのを想定している？
A: 理解度が足りないケースで、ある程度理解度が高まってくることで修正スピードが高まるパターン。

Q: リニアが理想的というのはそう？
A: 75日前提では promotion, exponential が良いと考えている。
Q: モデルを立てるのは良いが、現実がどうなのかということとリンクさせて欲しい。

C: リニアでやってくれると、学生が沢山居る立場からは嬉しい。
　急激に良くなる人もいる。下がるが最後まで残ってしまう人もいる。
　論文書くのはそれ自体が創造的活動だと思う。

1ZE-8採用面接における非言語行動の印象改善方法の提案-話速改善による面接評価への影響調査と分析-, ○渡辺智美，中村亮太，上林憲行（東京工科大）

面接をコミュニケーションの場と捉える
相手に与える印象改善
　面接評価に与える影響を調査：声の大きさ／話速／言い淀み
　　模擬面接実験
　　　客観的（モニタリング）評価と主観評価の相関をみる
　　　相関の高さからは：声の大きさ＞話速＞言い淀み

naltoma: 非言語行動の印象として今回検証した3項目を選んだ理由は？
　それ以外の項目が影響強いとは考えられない？
　何となく暗そうとか。
naltoma: 模擬と本番とでの違いは？（特に主観評価している面接官の視点から）

Q: 面接ではレスポンスが大事だと思うが、今回の実験ではどうだったか？
A: 面接は3つの設問で構成し、それに対して学生が答えるという流れ。
　自己紹介の時に計測した。 Q: 今後はレスポンスの測定もやる？
A: そこは想定していない。

Q: 話す内容よりも90％強が内容以外のことを聞いているとのことから始まっているが、
　50%強が姿勢や動作とかいろいろある。貧乏揺すりとか視線を合わすとか。
　話し方を変える事によって改善される？
A: 今回は話し方に着目しているが、見た目に着目している点では別の人が検証中。

Q: 面接者と学生の距離は？
A: 机を挟んで 2m 程度。
Q: 実際の面接ではまちまちだが、どう対応する？
A: 60dBであれば聞こえるという判断は可能。
　距離については変わってくると思うが、大丈夫だという想定。

Q: 話速は早ければ早いほど良いというモデルだったが、早すぎてもだめでは？
A: 分速500字以上でも高い評価が得られた。
Q: 面接官にもいろいろいると思うが。
A: 2名の面接官が面接後に話し終わって評価をしている。

1ZE-9化学実験安全教育システムにおけるメッセージ内容及び提示方法の検討, ○伊藤香織，田口宏明，藤波香織（農工大）

ビデオによる一斉教育：実際の操作とのギャップが事故に繋がる恐れ
先行例：A3(A-cube): ARを利用した化学実験安全支援
化学実験安全教育における質問提示の有効を検証したい

naltoma: 失敗件数上位を対象にするのは良いが、失敗のマズさは優先しなくて良い？

Q: どういう割合で何に気をつけるかというのは？
A: 共通して気をつけるべき部分が見えてきたので、それを示唆するようにしたい。
　手を動かしている最中が良いが、危険な操作に関しては動画学習が良いとも考えられる。

Q: デバイスによると思うが、眼鏡デバイスが出たら使えそう？
A: 使えると思う。現状ではプロジェクターを利用。
　ヘッドマウントディスプレイのようなものの方がより現実的だと思う。

Q: 実際に、専門にやっている学生が使ったとしたらどうだったかという調査はしている？
A: A-cubeは化学実験に習熟していない学生が対象。
Q: データはそれで良いと思うが、結果に対する分析について熟練者はどう感じる？
A: 良いことだと言うコメントを頂いている。
Q: 専門では専門で行き過ぎているので、中間程度のあまり習熟している学生に対して
　やれると良さそうに感じた。

1ZE-10学校向けUSBメモリ貸出システムにおける不用意な情報持ち出しへの対策強化, ○上枝俊太，納富一宏（神奈川工科大）

Q: USBメモリの貸出しは1日？
A: 基本的には1日。
Q: そうすると管理者側が煩雑では？
A: USBメモリの管理者という立場が複数人間で分担することで軽減することを想定。

Q: 現場で使ってもらった？
A: まだ。
Q: そこでのインタビューをして欲しい。
　責任者といっても情報管理者とかに集中する可能性が高い。
　もともと業務があるなかで更に別業務が集中すると大変。

Q: データ持出してはいけないデータというのは本当に難しい話。
　どう対策することを考えている？
A: データ重要度に応じて、高いものについては適宜アラート提示するとか。

学生セッション［2M会場］, 要求・アーキテクチャ　座長　坂田　祐司（NTTデータ）

2M-1新規ビジネスモデル構築プロセスの提案, ○熊坂拓哉，大場みち子（はこだて未来大）

失敗要因の一つ：システムとニーズの不一致
リーンスタートアップ：ニーズ把握してから開発＋ユーザフィードバック（Minimu Viable Product）
　欠点：他マーケットに利用することを想定していないことによるユーザ限定
　ニーズのある機能をリスト化とニーズの逐次見直し

naltoma: 機能リストは全てゼロイチであるという仮定をしているように見えるが、
　実用上それで問題無い？（同じ機能でも満足度が異なる実装は多々あるはずだが）
naltoma: 実際の現場では似たようなことがやられていない？（ニーズ把握＋フィードバック調査）

Q: 設計手法がポイントなのか、ビジネスモデル自体がキーなのか？
A: 主にビジネスモデルに着目してアプローチを考えた。
Q: だとすると、今回はニーズもターゲットも決まっているように思えるが、
　もっと広範囲を意識する必要は無いか？
A: リーンスタートアップではまずニーズを把握してから開発する。
　そこを拡大したアプローチになっている。メリットを取り入れつつ、
　デメリットを解消したアプローチ。
Q: どちらかというとアジャイル開発に近いように思うが、同じ？違う？
A: リーンスタートアップはアジャイルに似ている所がある。
　はじめの段階で最小限の機能から作っていくという点では違うと思う。
Q: オリジナリティは？
A: マーケットの拡大というプロセスを付け加えた点。

Q: 機能リストと優先順位毎に作っていくとのことだったが、
　顧客ニーズに基づいて作るとコスト度外視になると思うが大丈夫なのか？
A: 今回はあまり想定していなかった。
　必要な機能を作っていくということで、いらない機能は除外するという流れ
　になっているため、費用は削減されていくと考えている。

2M-2形式的ソフトウェア合成手法における再利用部品群の決定, ○熊谷　恒，織田　健（電通大）

自動コード生成
　欠点：部品整備コスト、パターン自体に誤りが混入する可能性
形式手法
　欠点：開発時間の増加、適用領域が限定
MSSS手法：部品再利用＆自動合成
　B Method による高信頼＋自動合成による低コスト

naltoma: MSSSでの開発はどのように行う？

Q: まだ開発中とのことだが、実際のシステム作る所で使う予定は？
A: MSFC生成がまだ理論的に可能だろうという段階。
　後々実際の事例に適用してみたい。
Q: 後々で構わないが、どこら辺が有効？
A: B Method で記述できる範囲内なら適用可能。
　時相論理は使うことができない。時間が関わって来ると困難。

2M-3The Encapsulation of the quality, ○齋藤大輔，山浦恒央（東海大）

productivity and quality software reusing
reuse of quality (quality encapsulation)
　1. quality assurance
　2. evaluation of the quality
　3. reuse of quality

Q: ここで言う「品質」の定義は？　レベル1,2,,の例を見ると、一般商用システムで考えると、
　レベル5まで普通にやっているので分けることの意味がよくわからない。
A: ここで言う品質は、バグがなかったりとかきちんと動くとかいろんなものが含まれる。
　今回のは一つの例であって、まだ深堀していない。

2M-4意図に基づくコンテキストアウェアサービス提供モデルの提案とカーナビゲーションシステムへの応用, ○牧　慶子，中道　上，青山幹雄（南山大）

ドライバの意図の変化に応じて適切な運転支援を行うコンテキストウェアなサービス提供
　コンテキストの影響による意図の変化の理解
　意図に応じてサービスを選択するサービス評価手法の構築
意図＝ある時点におけるユーザの関心事
　ユーザに関与するコンテキストの属性値を意図とし、ベクトル空間モデル化
　意図ベクトルとサービスベクトルの近さで意図の達成度を評価

naltoma: 「ドライバの意図に影響を与えるコンテキスト」はどう推定/特定する？
naltoma: 意図とサービスのマッチングではなく、意図に対してどう支援すべきか
　の仮説とのマッチングになってない？
naltoma: 意図に影響を与えるコンテキストを特定可能とのことだが、
　そもそもモニタリングできる前提だからであって、それをどうするかが問題のままでは？

Q: サービスの特徴量は、システムにおいて固定？
　ユーザは変化しうるが、用意されたサービスが必ずしも適当とは限らないのでは？
A: サービスが持つコンテキストは固定で、ユーザ側のコンテキストは膨大。
　意図ベクトルとして同じ空間で評価。
Q: 「ラーメン食べたい」とかの意図はどう図る？
A: 食べたいものを1、食べたくないものを0。
　お店の例でも0か1。
Q: 01では実際には不足していると思うが、
　そういうのをユーザ毎に正確に測る研究は既にやられている？
A: まだ分からない。

Q: 意図ベクトル測り方としてデルタiとのことだが、一定間隔？
　一定間隔だとすると、そこに依存した結果にならないか？
A: 今回の例の10分、30分というようなスパンではなく、
　その間で意図が変化してしまう可能性という話だと思うが、
　今回は大きなイベントがあった際に意図が変化するというストーリーで行った。
Q: 感覚的には、間隔の取り方次第でベクトルの振れ方が大きく変わるので、
　そこを検討すべきでは。

学生セッション［2P会場］情報推薦　座長　土方　嘉徳（阪大）

2P-5携帯電話向けコミック検索サイトのログデータを用いたユーザの行動特性分析, ○林　育実（芝浦工大），神林芙沙恵，柴崎康裕（アクセルマーク），徳永幸生，米村俊一（芝浦工大）

コミック検索の行動パターン
　トップ->検索->検索結果->詳細->外部配信サイト
　トップ->詳細
　トップ->ランキング
　一連の行動をセッションと定義（間隔は15分）
　レコード要素：ユーザID、アクセス日時、遷移元URL、遷移先URL
容易に探し出せるサイト設計
　サイトの利用形態を明らかにしたい
　外部サイトへの遷移方法とユーザが要した手間について分析
　　外部サイトへの遷移の内訳集計：割合確認
　　セッションが外部サイトへ遷移する方法
　　要した遷移回数

naltoma: 検索エンジンからのダイレクト訪問は無視？
naltoma: 誤った遷移はどう扱う？
naltoma: 遷移回数＝手間とは限らないのでは？
naltoma: 「専門検索」みたいなものは混乱に繋がるのでは？
naltoma: 「専門検索」はディレクトリ（カテゴリ）導入のこと？

Q: リンクが圧倒的に多いということだったが、
　ランキングでは画像もでる？
A: 直リンクはでるが、画像は詳細ページのみでランキング上では出ない。
Q: 検索結果で画像が出るケースと、画像無しリンクとでどちらがベターかは比較していない？
A: 今回はしていない。

Q: カテゴリを5ずつ用意したとの事だが、誰が考えた？
A: 共同研究の別の方が。ダウンロード数も考慮して決めた。

Q: 今回分かった事はコミック検索サイトに特化したことなのか、より幅広い事なのか？
A: 今回は特化した結果のため、別のケースでは異なる傾向が出てくるとは思う。
　ただし、例えば音楽サイトとかでも同様に使える結果を含むと考えている。

2P-6スペクトラルクラスタリングを用いたアンケートデータ解析に関する一検討, ○稲垣和人，吉川大弘，古橋　武（名大）

個性の多様化：マジョリティよりもマイノリティ解析が求められている
分類：クラスター分析
相互関係の把握：多変量解析手法 k-means法：少数データは統合されてしまう
主成分分析：最大多数変量で見てしまう
局所的類似性をスペクトラルクラスタリングで捉える
　グラフカット
　　クラスタ内の類似度を高く
　　クラスタ間の類似度を低く

naltoma: 比較するなら決めうちするk-meansよりは階層型クラスタリングでは？
naltoma: 異常検知という意味ではARとの比較？

Q: クラスタのバラツキ度はどのように算出した？
A: 定量的な指標で比較した訳ではなく、解答者人数による定性的な評価。

Q: スペクトラルクラスタリングを用いたという点と、クラスタを2分割している点とで、
　後者の方が本質的（寄与していた）だったということは無いか？
A: 他の手法で2分割すると、k-meansでの場合では均等分割される結果になる。
　デンドログラムでも同様にデータ全体を均等分割するようになってしまう。
　ある一部分で密集したようなところを取るという点で本手法の利点。

Q: スペクトラルクラスタリングと最少カットとで比較すると、
　最少カットは気持ちとしては小さすぎないのを作らないために入っている。
　そちらを除外するとどうでは？
A: 単純にカットする枝のコストを小さくするというだけだと、
　一人だったり二人だったりした解答が抽出されていく可能性がある。
　小さすぎるクラスタはできないような機構を取り入れた評価指標になっている。
Q: 一人は確かに問題だが、二人はマイノリティではない？

2P-7ユーザの視点に基づくレビュー文書の比較手法の一考察, ○坂梨　優，小林一郎（お茶の水女子大）

膨大な意見
　潜在的トピック抽出により意見文を分類
　その後、ユーザが知りたい観点で商品を比較できるようにする
　　多数派 vs 少数派（多数派示す方がベター？）

naltoma: どういうコンテキストで述べている意見かを考慮する必要はないか？
naltoma: 文単位で類似度判定することで語抽出／抽出漏れは問題にならない？
naltoma:

Q: 問題設定について。ある商品に対して複数レビューがあり、
　適切な文を何文か出すというタスク？
A: 分かりやすく比較する文の提示が目的。
　気になる文に対していろんな要素をいれる事で、
　それらの要素を含む同じような文章を持ってくる。
　入力は1文で、それに似たような文を持ってくるというタスク。

Q:
A: 潜在的な、文の表層情報では現れないものと組み合わせようと思って行っている。
　現時点では別々の手法をやっていて、まだ組み合わせてはいない。

Q: LDA-DFでトピック得た後の文の距離はどう測る？
A: トピックに分類された後で、トピック毎の確率が出る。
　そこから計測。

2P-8アイテム推薦のためのアソシエーションルールを用いた類似ユーザの抽出に関する基礎的検討, ○伊藤寛明，吉川大弘，古橋　武（名大）

推薦アイテムの意外性や説明性
CFではユーザxアイテムの評価値行列が大きくなる
　アソシエーション分析により価値のある組み合わせ（ルール）を見つけ出す
　アソシエーション分析によるユーザベース／コンテンツベースの比較検討

naltoma: 他の手法との比較ではどうなる？

Q: ユーザの評価の傾向は影響しないのか。厳しく評価するユーザとか。
　今後こういうしていきたいというのがあれば。
A: どちらも共通したユーザが行っている訳ではないので、その点の比較検討はできていない。
　コンテンツによって評価が異なるというのも、高く評価しやすいユーザとかもいると思うが、
　今後検討していきたい。

Q: アイテムベースの時に、アソシエーションルール作成時の条件部分はどうやって決める？
A: アイテム1にlikeしているので、それぞれのconfidenceを計算。
Q: 例えば100件評価しているユーザがいたらどうする？
A: 最後、時系列的に評価している最後の評価に基づいて算出。
Q: 単一条件でやるというポリシー？
A: その通り。

2P-9信頼度を考慮した協調フィルタリングに基づく書籍の推薦方式の提案, ○蒋　淵舒（電機大）

あるユーザXがユーザ1を信頼して、ユーザ2を信頼していない場合、その情報を加味した推薦が可能。
ただし、直接的に信頼度は評価されていない。
　推薦正確率から信頼度を計算する方法 Trust(a,b) = Correct(a,b)/Total(a,b)
　共通度の導入でより適切な信頼度となるように重み調整

naltoma: 評価の付け方自体が異なるユーザ間で、適切な信頼度が算出できる？
naltoma: 祖業列のためkを大きくしても近傍はほぼゼロというのはどういう意味？
naltoma:

Q: 新しい指標を入れてMAEは余り変化していないという結果だが、
　本のランキングの傾向は変わった？
　うまく推薦できなかった本が推薦できるようになったとか。
A: 個別に本のランキングはしていない。
　計算したのは近傍ユーザ。

Q: k-NNを使っているのはCFの中で使っている？
　自分から見て類似するユーザを捜して、その人の評価値を使って
　未評価のアイテムを評価するために k-NN を使っている？
Q: ゼロのデータと未評価のデータの扱いに困ったとの事だが、
　平均使うとか0としてそのまま使うとか、ケースバイケースだが、
　捨てるのは勿体無いと思う。

2P-10利用目的に応じたメタデータスキーマの作成支援 -メタデータ語彙の推薦と語彙セット評価手法の提案-, ○小早川遥，本間　維，永森光晴，杉本重雄（筑波大）

既存タームを組み合わせてメタデータスキーマを作成することで、新しく定義するタームの数を減らす
　再利用する事で再定義を減らす
どのタームが利用目的に合い、相互運用性が高いのか？

naltoma: タームも言語の一種という点では時代と共に意味が変わってこない？
naltoma: 利用目的への合致度合いや、相互運用性の高さはどう評価する？
naltoma: どのようなコンテキストでどのような使われ方をしているのか、という視点での類似度が分かれば良い？
naltoma: 検索結果が一般的に良く使われる順に出力されるということは、
　異なる目的でも使われてしまう事を強めてしまわないか？

Q: データ例にあった「比較的一意に決まりやすいもの」だと良いが、
　そうじゃないものでは見つからない、判断難しいとかがない？
A: そういうケースもあると思う。
　楽曲としての代表的なものを入力するという形であればうまくタームを見つけられる。
Q: 日付だけ入れても駄目だが、いれる方が考える必要がある？
A: はい。

Q: メタデータスキーマにあまり詳しくない人を支援するとすると、
　どこまでメタデータにしたら良いのかとか、
　どういうタームを付けるべきか分からない人が対象となると思うが、
　どういうタームを付けるかと、どこまでメタデータを付けるべきかは別問題ではないか？
A: タームセット評価として、一般的に使用されるデータスキーマがある。
　その中で良く使用される組み合わせを考慮して評価する事は考えている。

Posted in イベントレポート, 学会, 日記 | Comments Closed

情報処理学会第75回全国大会0日目

火曜日, 3月 5th, 2013

何度か書いてますが、今日から情報処理学会全国大会のため仙台入りしています。

NAL研からは

の4名が参加で、B4の慶留間くん＆玉城くんは初学会です。というわけでもないですが、発表だけじゃなく情報収集や討論参加も含めて明日から頑張れという意味をこめて牛たん炭焼　利久でお食事。私自身は12月にも食べたのですが、相変わらずのウマさでした。ごちそうさまでした。

Posted in イベントレポート, 学会, 日記 | No Comments »

修士の最終審査が終わって謝恩会

木曜日, 2月 28th, 2013

例年だと2月中旬には修論終わってて、その後で卒研最終発表が来るので「卒研最終日が終わって謝恩会」という流れだったんですが、今年は逆になりました。本当は卒研も修論も早く終わってしまえば良いと思う（期限延ばすことに殆ど意味はないので）のだけど、そうならなかったのは謎です。

KES2013の〆切が明日ということで学生が書いた原稿をチェックする方を優先して、修論審査の方はポスターセッションからの参加でした。これでも十分だな（LTあっても無くても良さげ）。プレゼン慣れしてる先輩が後輩に「こう魅力的に伝えるんだ！」というのを見せる場としてはうまく機能しているのかもしれない。他学年からの参加者が微妙に少ないですが。

予備審査時にあれこれ指摘してた分についての回答がメインタスクのつもりで参加してましたが、可もなく不可もなくなぐらいには対策してくれてたという印象。修論本体のアップデートを頑張ってるらしく、そちらにも期待しておきます。お疲れさまでした。

修論／卒論どちらにも言えることですが、発表を通して得られた知見なり問題意識は何かしら「目に見える形で残す努力をして欲しい」です。録音みたいなのでも良いけど、できれば自分の言葉なりで表現し直した形で残して欲しい。そういう咀嚼をすることと、振り返りやすい形で残すことを普段から心がけるようにして欲しい。そこをやらずに「発表終わったー」で済ませてしまうと、いつまでたっても「取りあえずやってみた」レベルから前に進まないので。これは研究に限った話ではなく、一般的なプロジェクト全般でも同じです。

謝恩会は「研究室毎にテーブルが指定されてた」のは初めて見ました。それ以外は例年通りかな。感謝してくれるのは素直に嬉しいですが、とっても疲れた日の夜にやる意義も学科としてやる意義も良く分からない人（個別に感謝示せばそれで十分じゃんという考えの人）なので、個人的には「疲れたー」という印象がどうしても強く残ってしまうな。ま、卒研も修論も一先ずお疲れさまでした。

明日は一応お休みの予定です。KES〆切だしゼミもあるけどけどー。

Posted in イベントレポート, 日記 | No Comments »

センター試験2日目の疲れを癒してくれたのはメリー・ゴーランド改めメリー・メリー・ゴーランド

日曜日, 1月 20th, 2013

二日目の見所は「河野先生の三つ編み編み直し」。残念なことに受験生が入室する前には終わってしまいましたが。流石に何年も（何十年も？）やりなれてるとあっさり終わるのか。

大きなトラブルも無く終わったようです。受験生も受け入れる側も関係者各位も一先ずお疲れ様でした。気候的には試験日前日だかにムーチービーサで急に冷え込んだのですが、試験日当日は両日共に比較的暖かかったかな。廊下とか屋外は冷えるけど。

終了後の談話で「最近ハマってることは？」とかいう話題に「情報推薦？推薦そのものというよりは情報検索的な意味で」とか答えて和田先生に驚かれたのはなんというか空気読めない変人でごめんなさい。

最終日の疲れを癒してくれたのはびっくりドンキーのオロシソとメリー・メリー・ゴーランドさん。この組み合わせ割と満足度高いな。ついでに帰宅してからムーチーも食べたので、手からサンニンの匂いがします。何年ぶりの感覚だろう。

Posted in イベントレポート, 日記 | No Comments »

センター試験1日目の疲れを癒してくれたのはココイチのカレーうどん

土曜日, 1月 19th, 2013

大きなトラブルもなく取りあえず1日目が終了しました。トラブルが無かったというのはあくまでも試験実施会場としてというだけで、一部体調崩して途中帰宅しちゃった人もいたので、そういう受験生にとっては「大きなトラブル」だとは思。昨日も書いたけど、やっぱり「たかが受験」にセンター入試という一発勝負な制度は適していないんじゃないかなぁ。受験する側も受け入れる側も無駄に負荷が高い。コストかけてるほどの見返りがあるのかも良く分からないし。

うち（工学部）では、センター試験期間の担当者は弁当注文してることが多いんですが、基本見守る業務で居眠り厳禁でもあるし昼食時間そんなに長くないしということで、私はパンとか軽食で済ますようにしてます。ということもあって業務終わって帰宅できる頃には死ぬほど疲れてお腹空かせてます。そもそも学内から出るだけでもめっさ時間かかるのでさらに倍。癒してくれるのはカレーうどんだけです。明日は誰に癒してもらおうかな。（浮気性）

昨晩は実験2・探索アルゴリズム1,2の金曜日グループのレポート〆切日ということもあり、早朝で一通り提出状況や相談に対するメールへリプライしてたはずなんですが、誰一人届いていなかったということが帰宅してから判明。シュタゲを勧めてくれた学生曰く「Dメールを送ってしまったのでは」。いや、残念ながら送信履歴はちゃんと残ってるな。というかググってから気づいたけど今年の春に劇場版がでるらしいのね。

Posted in イベントレポート, 日記 | Comments Closed

AO合格者事前ミーティング3回目を終了

土曜日, 1月 12th, 2013

AO合格者向けの事前教育ということで11月以降毎月1回集まって何かしらやってます。11月にやった1回目では数学スキルチェック、2回目（12月）には1回目にやった設問を互いに解説し合い、3回目は2回目の数学スキルチェックをしました。問題はこれ(PDF)。時間短いとは思うけど2ページ分を1時間でやり、小休止を挟んで1/4ぐらいまでは解説し終えました。終わった後で採点してみましたが、最終チェックの3月にはもう少し頑張って欲しいかな。学部1年次で必修科目の微分積分学にすんなり入るためにも。

来月はミーティング的に集まるのは辞めて、
　・卒研最終発表: 2/21(木)〜22(金)
　・修論最終発表: 2/28(木)
のいずれかに聴講参加してみようということに。これまでの流れだと制服着てきそうですが、高校生見かけたら易しく接してあげてください。

3月には最後の集まりを予定していますが、そこでは最後の数学スキルチェックに加えて、先輩らに質問してみたい／話を聞いてみたいというリクエストに答えるための懇談の場を用意する予定です。まだまだ先のことですが、具体的な期日等決まったらお願いする予定ですので、よろしくお願いします！＞諸先輩の皆々様

Tags:e13
Posted in e13, イベントレポート, 日記 | Comments Closed

Archive for the ‘イベントレポート’ Category

オープニング

招待講演1:「脳は計算機科学者に解明されるのを待っている − 機械学習器としての脳 −」 一杉 裕志 (産総研)

B1:情報抽出(1), 座長: 山田 一郎(NHK)

B1-1 カテゴリ情報を利用したblog記事からの商品名自動抽出 (pp.3-6), ◎渡邊尚吾, 乾孝司, 山本幹雄(筑波大)

B1-2 商品説明文からの属性・属性値の自動抽出 (pp.7-10), ○新里圭司, 関根聡(楽天)

B1-3 文字種と画数を用いた未知若者語の抽出 (pp.11-14), ◎秋田恭佑, 松本和幸, 北研二(徳島大)

B1-4 SVMを用いた株価短報における意見文と事実文の抽出 (pp.15-17), ◎嶋田康平, 岡田真, 橋本喜代太(阪府大)

B1-5 自然言語処理適用のためのOCR後処理技術の提案 (pp.18-21), ○鈴木敏, 永田昌明(NTT)

B2:意味解析(1), 座長: 岩倉 友哉(富士通研)

B2-1 「契約・解約」に関する消費者トラブル相談事例の分類と分析 (pp.94-97), ◎新井翔太, 聶添, 宇津呂武仁(筑波大), 河田容英(ログワークス), 神門典子(NII)

B2-2 語彙知識と構成性に基づく日本語事実性解析 (pp.98-101), ◎成田和弥, 水野淳太, 乾健太郎(東北大)

B2-3 ファクトイド型質問応答を用いた正誤判定問題の解決 (pp.102-105), ○金山博(日本IBM), 宮尾祐介(NII)

B2-4 述語項構造解析を伴った日本語省略解析の検討 (pp.106-109), ○平博順, 永田昌明(NTT)

B2-5 構文・述語項構造解析システムKNPの解析の流れと特徴 (pp.110-113), ○笹野遼平(東工大), 河原大輔, 黒橋禎夫(京大), 奥村学(東工大)

B3:談話解析, 座長: 飯田 龍(東工大)

B3-1 文章構造解析に基づく小論文の論理構成における整然さの自動評価 (pp.190-193), ○勝又大介, 藤田彬, 田村直良(横浜国大)

B3-2 識別的スクリプトモデルを用いた文間ゼロ照応解析 (pp.194-197), ○浜田伸一郎(TSOL)

B3-3 対をなす二文書間における文対応推定および応答文生成への応用 (pp.198-201), ◎角田孝昭, 乾孝司, 山本幹雄(筑波大)

B3-4 共起距離に基づく文特徴量を用いた派生談話認識に関する調査 (pp.202-203), ◎堀川敦弘, 當間愛晃, 赤嶺有平, 山田孝治, 遠藤聡志(琉球大)

チュートリアル T-a, 司会：ニュービッグ グラム (NAIST), 言語処理研究におけるソフトウェアの開発と公開, 岡崎 直観 氏（東北大学）, 吉永 直樹 氏（東京大学）, 工藤 拓 氏（グーグル株式会社）

研究を進める上で有用なコーディングの極意（岡崎）

研究で開発したコードの公開（吉永）

企業における言語処理研究・開発（工藤）

チュートリアル T-c, 司会：丸山 岳彦 (国語研), 言語処理の後先（あとさき）：意味はどこから来てどこへ行くのか．, 齋藤 洋典 氏（名古屋大学）

学生セッション［5M会場］数理モデル化と問題解決（1） 座長 山本 雅人（北大）

5M-1時間制限付き優勢領域図の提案とサッカーの守備の分析への応用, ○岩浅真秀人，大塚 寛（愛媛大）

5M-2共起クラスタマイニング ー数値観測量の事象系列に対する頻出パターン抽出ー, ○稲場大樹，福井健一，沼尾正行（阪大）

5M-3Mixing Matrixに基づく階層付きカテゴリカルデータの可視化法, ○伏見卓恭，斉藤和巳，武藤伸明，池田哲夫，大久保誠也（静岡県大）

5M-4年代順を考慮に入れた工業製品の進化系統図の提案, ○太田章悟，武藤敦子，犬塚信博（名工大）

5M-5レビューサイトにおけるユーザ間の動的類似度分析, ○山岸祐己，斉藤和巳，池田哲夫（静岡県大）

一般セッション［5F会場］インタラクション（1） 座長 増井 俊之（慶大）

5F-6作業対象物へのアノテーション自動設定機能を持った遠隔作業支援システムの検討, ○大多和均，堀川真平，佐野良樹，長沼晶子，古澤昌也，湯瀬裕昭，渡邉貴之（静岡県大）

5F-7人間関係を推定するフレームワークに基づくネットいじめ防止ツールの実装, ○中村 海，本庄 勝，橋本真幸（KDDI研），三島浩路（中部大），黒川雅幸（福岡教育大），吉田俊和（名大），長谷川亨（KDDI研）

スマート・エイジング ～脳機能解析学が拓く新しい超高齢社会～

学生セッション［6Q会場］文書分類 座長 持橋 大地（統計数理研）

6Q-1Geometric Algebra を用いた英語文書分類手法の日本語文書への適用に関する問題についての基礎的検討, ○鈴木直人，古橋 武，吉川大弘（名大）

6Q-2OCR文書検索を想定した重み付きトピックモデルの検討, ○田村一樹，吉川大弘，古橋 武（名大），鈴木 誠（ブラザー工業）

6Q-3疑似ラベルを用いた潜在ディリクレ配分法の一考察, ○鈴木聡子，小林一郎（お茶の水女子大）

6Q-4潜在情報を考慮したグラフに基づく半教師あり学習によるテキスト分類, ○江里口瑛子，小林一郎（お茶の水女子大）

6Q-5PageRankアルゴリズムを用いた重要文抽出による潜在的意味に基づく文書分類, ○小倉由佳里，小林一郎（お茶の水女子大）

6Q-6制約知識を用いたCRPへの一考察, ○立川華代，小林一郎（お茶の水女子大）

6Q-7学習指導要領に基づいた設問自動分類タスクにおける語の集約による有効性評価, ○名嘉真之介，當間愛晃，赤嶺有平，山田孝治，遠藤聡志（琉球大）

学生セッション［3Q会場］, 生成・要約・文書作成支援 座長 高村 大也（東工大）

3Q-1文章のリズムを考慮した小説執筆支援システムの作成, ○齊藤雄大，長谷川大，佐久田博司（青学大）

3Q-3ヘルプテクストを対象とした修辞構造解析システムの実装と改良, ○安達昌吾，杉本 徹（芝浦工大）

3Q-4やさしい日本語作成支援のための言語圏を考慮した日本語難易度自動推定, ○張 萌，伊藤彰則（東北大），佐藤和之（弘前大）

3Q-5日本語推敲支援のための文の語順整序, ○田中麻祐子，大野誠寛，加藤芳秀，松原茂樹，石川佳治（名大）

3Q-6自然言語処理による日本語文章の自動生成, ○杉本 亘（関西学院大）

3Q-7物語生成支援環境の提案, ○田所裕喜，岸 義樹（茨城大）

3Q-8強化学習を用いた自動要約における学習手法の比較と考察, ○慶留間諒大，當間愛晃（琉球大）

3Q-9トピックを考慮したグラフ表現に基づく複数文書要約, ○北島理沙，小林一郎（お茶の水女子大）

学生セッション［4P会場］情報抽出・DB技術一般 座長 牛尼 剛聡（九大）

4P-1制約のある条件下でのテキストからの有効な情報抽出技術について, ○津田和俊，工藤純一（東北大）

4P-2くだけた文章からの感情抽出, ○石上直孝，筧 捷彦（早大）

招待講演-2（大会招待講演-4） 地震防災におけるビッグデータ, 青井 真 （独立行政法人防災科学技術研究所 地震・火山防災研究ユニット 地震・火山観測データセンター センター長）

パネル討論【第一部】震災時の情報伝達を振り返る

パネル討論【第ニ部】情報ライフライン化の技術

学生セッション［1ZE会場］教育効果の分析・調査・評価 座長 西田 知博（大阪学院大）

1ZE-1初等教育の算数科授業におけるICT機器活用が児童の話し合いに与える効果の多角的視点による検討, ○阿部 俊，後藤裕介，南野謙一，渡邊慶和（岩手県大）

1ZE-2課題提出を支援するリマインドシステムにおけるアドバイス機能の検討, ○谷村 祐，西田滉季，田中穏識，納富一宏（神奈川工科大）

1ZE-3作問演習における作問者の出題意図と主観的な学習効果との関係性, ○井上裕之，佐々木淳，山田敬三，高木正則（岩手県大）

1ZE-4勉強スタイルによる個々の差異と実力の推移に関する調査, ○玉城 翔，當間愛晃（琉球大）

1ZE-5クラスタ数の変化点検出を用いた授業アンケートの分析, ○天野恵理子，大枝真一（木更津高専）

1ZE-6ご当地検定における「面白い」・「役立つ」問題の分析, ○奥津翔太，菅原遼介，古舘昌伸，高木正則，山田敬三，佐々木淳（岩手県大）

1ZE-7ソフトウェア信頼性モデルを応用した大学等における原稿作成プロセスの定量的評価, ○土井 崇，奥田隆史，井手口哲夫，田 学軍（愛知県大）

1ZE-8採用面接における非言語行動の印象改善方法の提案-話速改善による面接評価への影響調査と分析-, ○渡辺智美，中村亮太，上林憲行（東京工科大）

1ZE-9化学実験安全教育システムにおけるメッセージ内容及び提示方法の検討, ○伊藤香織，田口宏明，藤波香織（農工大）

1ZE-10学校向けUSBメモリ貸出システムにおける不用意な情報持ち出しへの対策強化, ○上枝俊太，納富一宏（神奈川工科大）

学生セッション［2M会場］, 要求・アーキテクチャ 座長 坂田 祐司（NTTデータ）

2M-1新規ビジネスモデル構築プロセスの提案, ○熊坂拓哉，大場みち子（はこだて未来大）

2M-2形式的ソフトウェア合成手法における再利用部品群の決定, ○熊谷 恒，織田 健（電通大）

2M-3The Encapsulation of the quality, ○齋藤大輔，山浦恒央（東海大）

2M-4意図に基づくコンテキストアウェアサービス提供モデルの提案とカーナビゲーションシステムへの応用, ○牧 慶子，中道 上，青山幹雄（南山大）

学生セッション［2P会場］情報推薦 座長 土方 嘉徳（阪大）

2P-5携帯電話向けコミック検索サイトのログデータを用いたユーザの行動特性分析, ○林 育実（芝浦工大），神林芙沙恵，柴崎康裕（アクセルマーク），徳永幸生，米村俊一（芝浦工大）

2P-6スペクトラルクラスタリングを用いたアンケートデータ解析に関する一検討, ○稲垣和人，吉川大弘，古橋 武（名大）

2P-7ユーザの視点に基づくレビュー文書の比較手法の一考察, ○坂梨 優，小林一郎（お茶の水女子大）

2P-8アイテム推薦のためのアソシエーションルールを用いた類似ユーザの抽出に関する基礎的検討, ○伊藤寛明，吉川大弘，古橋 武（名大）

2P-9信頼度を考慮した協調フィルタリングに基づく書籍の推薦方式の提案, ○蒋 淵舒（電機大）

招待講演1:「脳は計算機科学者に解明されるのを待っている　− 機械学習器としての脳 −」一杉裕志 (産総研)

B1:情報抽出(1), 座長: 山田一郎(NHK)

B2:意味解析(1), 座長: 岩倉友哉(富士通研)

B3:談話解析, 座長: 飯田龍(東工大)

チュートリアル T-a, 司会：ニュービッググラム (NAIST), 言語処理研究におけるソフトウェアの開発と公開, 岡崎直観氏（東北大学）, 吉永直樹氏（東京大学）, 工藤拓氏（グーグル株式会社）

チュートリアル T-c, 司会：丸山岳彦 (国語研), 言語処理の後先（あとさき）：意味はどこから来てどこへ行くのか．, 齋藤洋典氏（名古屋大学）

学生セッション［5M会場］数理モデル化と問題解決（1）　座長　山本　雅人（北大）

5M-1時間制限付き優勢領域図の提案とサッカーの守備の分析への応用, ○岩浅真秀人，大塚　寛（愛媛大）

5M-2共起クラスタマイニング　ー数値観測量の事象系列に対する頻出パターン抽出ー, ○稲場大樹，福井健一，沼尾正行（阪大）

一般セッション［5F会場］インタラクション（1）　座長　増井　俊之（慶大）

5F-7人間関係を推定するフレームワークに基づくネットいじめ防止ツールの実装, ○中村　海，本庄　勝，橋本真幸（KDDI研），三島浩路（中部大），黒川雅幸（福岡教育大），吉田俊和（名大），長谷川亨（KDDI研）

スマート・エイジング　～脳機能解析学が拓く新しい超高齢社会～

学生セッション［6Q会場］文書分類　座長　持橋　大地（統計数理研）

6Q-1Geometric Algebra を用いた英語文書分類手法の日本語文書への適用に関する問題についての基礎的検討, ○鈴木直人，古橋　武，吉川大弘（名大）

6Q-2OCR文書検索を想定した重み付きトピックモデルの検討, ○田村一樹，吉川大弘，古橋　武（名大），鈴木　誠（ブラザー工業）

学生セッション［3Q会場］, 生成・要約・文書作成支援　座長　高村　大也（東工大）

3Q-3ヘルプテクストを対象とした修辞構造解析システムの実装と改良, ○安達昌吾，杉本　徹（芝浦工大）

3Q-4やさしい日本語作成支援のための言語圏を考慮した日本語難易度自動推定, ○張　　萌，伊藤彰則（東北大），佐藤和之（弘前大）

3Q-6自然言語処理による日本語文章の自動生成, ○杉本　亘（関西学院大）

3Q-7物語生成支援環境の提案, ○田所裕喜，岸　義樹（茨城大）

学生セッション［4P会場］情報抽出・DB技術一般　座長　牛尼　剛聡（九大）

4P-2くだけた文章からの感情抽出, ○石上直孝，筧　捷彦（早大）

招待講演-2（大会招待講演-4）地震防災におけるビッグデータ, 青井　真（独立行政法人防災科学技術研究所地震・火山防災研究ユニット　地震・火山観測データセンターセンター長）

学生セッション［1ZE会場］教育効果の分析・調査・評価　座長　西田　知博（大阪学院大）

1ZE-1初等教育の算数科授業におけるICT機器活用が児童の話し合いに与える効果の多角的視点による検討, ○阿部　俊，後藤裕介，南野謙一，渡邊慶和（岩手県大）

1ZE-2課題提出を支援するリマインドシステムにおけるアドバイス機能の検討, ○谷村　祐，西田滉季，田中穏識，納富一宏（神奈川工科大）

1ZE-4勉強スタイルによる個々の差異と実力の推移に関する調査, ○玉城　翔，當間愛晃（琉球大）

1ZE-7ソフトウェア信頼性モデルを応用した大学等における原稿作成プロセスの定量的評価, ○土井　崇，奥田隆史，井手口哲夫，田　学軍（愛知県大）

学生セッション［2M会場］, 要求・アーキテクチャ　座長　坂田　祐司（NTTデータ）

2M-2形式的ソフトウェア合成手法における再利用部品群の決定, ○熊谷　恒，織田　健（電通大）

2M-4意図に基づくコンテキストアウェアサービス提供モデルの提案とカーナビゲーションシステムへの応用, ○牧　慶子，中道　上，青山幹雄（南山大）

学生セッション［2P会場］情報推薦　座長　土方　嘉徳（阪大）

2P-5携帯電話向けコミック検索サイトのログデータを用いたユーザの行動特性分析, ○林　育実（芝浦工大），神林芙沙恵，柴崎康裕（アクセルマーク），徳永幸生，米村俊一（芝浦工大）

2P-6スペクトラルクラスタリングを用いたアンケートデータ解析に関する一検討, ○稲垣和人，吉川大弘，古橋　武（名大）

2P-7ユーザの視点に基づくレビュー文書の比較手法の一考察, ○坂梨　優，小林一郎（お茶の水女子大）

2P-8アイテム推薦のためのアソシエーションルールを用いた類似ユーザの抽出に関する基礎的検討, ○伊藤寛明，吉川大弘，古橋　武（名大）

2P-9信頼度を考慮した協調フィルタリングに基づく書籍の推薦方式の提案, ○蒋　淵舒（電機大）

2P-10利用目的に応じたメタデータスキーマの作成支援 -メタデータ語彙の推薦と語彙セット評価手法の提案-, ○小早川遥，本間　維，永森光晴，杉本重雄（筑波大）