情報処理学会 第75回全国大会2日目
情報処理学会全国大会1日目が終了しました。NAL研メンバは慶留間くんと山内くんが終了。二人の発表時間が完全にブッキングしていたので、初学会の慶留間くんを優先して山内くん側はお任せ状態で。就職活動やらKESやらいろいろタスク山積みになってることもあってか山内くんは「自己評価で過去最悪」だったらしい。ま、それでも自分から終了後に座長とやり取りして得られるモノがあったらしい。慶留間くんは、初発表ということで緊張しまくってたらしいですが、発表自体は安定してて聞きやすかったです。質問も会場から2件適切なものが出たのでちゃんと伝わってたんじゃないかと。後は問題設定さえちゃんとできれば、会場でのやり取りを意識することに少しずつ慣れるぐらいで良さげじゃないかと。
午前に参加していたセッション「生成・要約・文書作成支援」では、東北大・伊藤先生らの張さんが発表した「やさしい日本語作成支援のための言語圏を考慮した日本語難易度自動推定」が学生奨励賞をゲット。うろ覚えですが去年も貰ってたような(?)。同じテーマでちゃんと実験&分析進めてるという内容は当然として、問題設定の点でも自分でもこれが頭一つ抜けてるなと思いました。(セッション終了後にわざわざ挨拶に来たのも含めて、うちの学生への良い指導になりましたw)
午後は、「情報抽出・DB技術一般」とシンポジウム「情報をライフラインに」とを往復しながら聞く形に。シンポジウムのログはテーブル無し大会場だったこともあって、詳細ログというよりは印象深く残ったキーワードをメモ書きしています。
終了後は遠藤先生呼びかけで喜助にて合同宴会モードに。牛タンの塩焼き/ビーフシチュー/スモーク、テール焼きを堪能。ごちそうさまでした! 例によって食べ過ぎたので写真はtwilogを参照w
- 学生セッション[3Q会場]生成・要約・文書作成支援
- 学生セッション[4P会場]情報抽出・DB技術一般
- 「情報をライフラインに」シンポジウム(下記3サブセッション)
学生セッション[3Q会場], 生成・要約・文書作成支援 座長 高村 大也(東工大)
3Q-1文章のリズムを考慮した小説執筆支援システムの作成, ○齊藤雄大,長谷川大,佐久田博司(青学大)
執筆者の意図する文章のリズムに近づけるような小説執筆支援システム
文章リズムに影響する要因調査
naltoma: 相関係数の絶対値を重みとする??
-> そもそも符号が一緒だったらしい
naltoma: リズムレベルを7段階に分けた理由は?
Q: 文章の無いように踏み込んでも良いのかと思うが、どうか。
長い文章でも特定パターンが含まれている場合とか。
A: リズムに影響するとは考えられるが、今回はまだ考慮していない。
単純に表層的な材料のみで判定を行っている。
Q: そのまま表層的なもので改善していくというのは何を狙っている?
A: 日本特有の57調、ですます調とか。
Q: プロの小説家の人だったり、夏目漱石みたいな良く読まれている小説があるが、
そういう人たちのリズム感は想定されるリズム感としてあっているかどうかを
客観的に正しいかを調べる事ができそうだが、どうか。
A: プロ作家等も含めた評価をしているが、感覚的には判定が一致しているように
見える文章がいくつかあるようにみえる一方で、おかしい判定結果もある。
Q: そもそもリズムの定義がないままだったため、
そこを詰める必要があるのではないか。
Q: 互いに相関している要素もあると思うので、今回のアドバイスが本当に適切なのか
についても検討して欲しい。
3Q-3ヘルプテクストを対象とした修辞構造解析システムの実装と改良, ○安達昌吾,杉本 徹(芝浦工大)
知的ヘルプシステム
意味内容解析+適切なヘルプ選択
ヘルプ構造解析+分かりやすく言い換え
ヘルプテクストの言い換え
修辞構造解析、構造ベースで言い換え
節間の修辞構造解析:言語表現による推定、動詞ペアによる推定、修辞関係による推定
*各々手動構築したパターンマッチングっぽい
文間の修辞構造解析:言語表現による推定、修辞関係による推定
naltoma: 最初の例では言い換えというよりは分割に見えるが、
どういうレベルでの言い換えを想定している?
naltoma: ヘルプ記述文の分かりにくさとしては修辞構造が大きな要因?
分かりにくい文に対象を絞った場合の精度は? 分かりやすく言い換えられた?
Q: 改良して良くなったかどうかが分かりにくい。
2007データを見ながら改良する事を目指しているようだが、
改良前後とでどう変化したかを見る必要が無いか。
A: 改良したシステムは、改良に使っていない新規テキストで評価をしている。
アルゴリズムの元になっているため、高い精度が出るだろうという前提で
関連していないテキストで実験を行っている。
Q: 改良ポリシーとして、2007ではこうこうという話だったように思うが、
何を作ろうと目指している? 2007がより一般的なテキスト?
A: どちらが優劣という話ではなく、問題点に対する改善を行った。
元のテキストで精度が落ちないように改善している。
3Q-4やさしい日本語作成支援のための言語圏を考慮した日本語難易度自動推定, ○張 萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本語に不慣れな外国人にも理解が容易な日本語
日本人と外国人が感じる日本語難易度は異なる->定量的な難易度推定
日本語難易度に関する知覚の解明
日本人が外国人の感覚を推定できるか?
外国人同士では同じ難易度か?
naltoma: 日本語の難易度をスコアとして評価しているが、
点数のような定量的評価が適切か?
naltoma: 「日本人で学習したモデル」とは、日本人が「こういうのが難しいだろう」
という推定で作られたデータで学習したもの?
-> 推定で評価したものだが、精度が落ちた。
Q: 特徴量が単語レベルとか係り受けとか4種類あるようだが、
個別に見ていってどのぐらい寄与していたかは見た?
A: 個別に相関係数をチェックした。
Q: 外国人のデータで学習することが重要だという結論が出たが、
その中における個人差はどれぐらい影響しているかが気になる。
A: 漢字圏同士では大体似ている(正の相関が高い)。
個人差はあると思うが、似ているという理解。
Q: 音素とか聞きづらいものがあると思うが、
そこら辺についての検討はしていく?
A: 今回は文章が対象。
Q: 災害時にはスピーカーから発音されるので、テキストではなくて音で出力される。
音で聞きやすいものを考えたものが良さそうに感じた。
A: 聞く方も検討は必要だと思う。
Q: 難易度をいろんな特徴量を使ってモデル化するという話は昔からいろいろあると思う。
その中で、今回の手法がどういう位置付けなのかを調べてみるのが学術的にも重要。
3Q-5日本語推敲支援のための文の語順整序, ○田中麻祐子,大野誠寛,加藤芳秀,松原茂樹,石川佳治(名大)
読み難い文が入力されたとき、係り受け精度が大きく劣化
係り受け解析と語順整序を同時に行う
naltoma: どういう状況や対象に対する推敲支援を想定している?
naltoma: 「整序前のものと係り受け構造が同一」という前提は良いの?
係り受け解析できる文が対象ということ?
Q: モデルの学習の話があまりなかったが、
ある特定の語順である確率とそこからの係り受けが必要になると思うが、
どういう処理を行っている?
A: 京大コーパスで、特定素性の条件付き確率2種類を独立して求めている。
Q: 探索アルゴリズムが近似ということだが、
どういう近似になっている? どの辺の計算を省いている?
どこをうまく効率化している?
A: 全パターンを考慮せず、後方修飾性、非交差性を考慮したパターンのみ考慮。
3Q-6自然言語処理による日本語文章の自動生成, ○杉本 亘(関西学院大)
欠席
3Q-7物語生成支援環境の提案, ○田所裕喜,岸 義樹(茨城大)
物語生成の簡易化、効率化(作業時間短縮、設定管理)
設定情報の管理
基本的なストーリー設定
プロットの出力
naltoma: どういう状況を想定した支援?
naltoma: 登場人物の行為に付随していた「記号」とは? ただのユニークなキー?
Q: 昔話のクラスを設定しているようだが、現代風やロボットとかライトのベルトかでは
そのクラスだけに当てはまらないものが多くあると思う。今回は昔話特化ということ?
A: 最終的にはそういう所も狙っていきたいが、今はその通り。
Q: Evernoteとかいろいろ使って作る事ができると思うが。
A: 複雑な物語を作っていくとそのようなものが向いていると思うが、
対象としては物語生成に慣れていない人への支援。
Q: プロップの枠組みを基にしているとのことだが、
どこがオリジナリティのある箇所?線引きが良く分からなかった。
A: プロップの話をそのまま使うのではなく、大きくカテゴライズしている。
Q: まとめ方がプロップの枠組みには無い?
A: ベースではあるが、それをまとめて作った。
3Q-8強化学習を用いた自動要約における学習手法の比較と考察, ○慶留間諒大,當間愛晃(琉球大)
naltoma: ちゃんと事前に投影テストやろう。
naltoma: どういう状況を想定していて、どういう要約を生成したい?
naltoma: 良い意味では安定してて聞きやすいが、悪い意味では平坦。
教室後ろで聞くには声が少し小さい。
naltoma: ROUGEは一つの指標だが、どのぐらい適切なのか?
naltoma: 最後はスライド消さない。
Q: 文章要約は、文の集合の要約なのか、単文に対する要約なのか。
A: 今回は文章のみです。単文毎は行っていない。
Q: 単文の要約にも使えると考えている?
A: 先行研究では単文を考慮したものも検討している。
Q: 両方にRLを使うと解の探索には非常に時間がかかる?
A: その通りだと思う。
Q: 考察で要約結果似たような文を選択したという話があったが、
冗長性のある文を選択しないためにはどうしたらいいだろうか?
A: 予め似たような文同士をまとめて同じ状態にしてしまう方法も一つ。
報酬の与え方で調整する方法も考えられる。
3Q-9トピックを考慮したグラフ表現に基づく複数文書要約, ○北島理沙,小林一郎(お茶の水女子大)
潜在トピックによる文書処理:LSI, PLSI, LDA,,,
複数文書要約(グラフに基づいた手法)+潜在トピックに基づいた文書処理(LDA)
LexRank:多くの文と類似している文は重要度が高い
LexRank にトピック概念導入
トピック分布推定、類似度グラフ生成、重要度計算、ランク付け
MMR指標の導入により冗長性のある文選択を防ぐ
-> 類似度グラフ生成は重要だが、MMRは精度に対汁効果は薄い
naltoma: レビューなどが対象の場合、多くの文と類似している文が重要という仮定はどのぐらい妥当?
Q: 複数の文書を分析するということだが、一つのファイルに複数トピックあるということなら、
マージして複数のトピックがある一つのファイルがあると扱っても平気?
A: 今回のケースでは問題になりにくいとは思うが、分布次第だと思う。
Q: 実験結果でパラメータ調整により一旦下がった後で上がっているのは何故?
A: 重みの掛け方を詳細に見る必要があるが、
少し居れるよりは頼り度合いを強めた方が良いという結果だという解釈。
Q: MMRで、2項目は表層的な類似度のようだが、
トピックを用いた類似度はできない?
A: できる。ただし、ここでは表層的な類似度が強く影響していると想定した。
Q: 右上がりの結果だが、このまま上がり続ける?収束する?
第2項がマイナスの値の方が良かったりする?
A: その可能性はあると思う。今回は正の値しか考慮していなかった。
学生セッション[4P会場]情報抽出・DB技術一般 座長 牛尼 剛聡(九大)
4P-1制約のある条件下でのテキストからの有効な情報抽出技術について, ○津田和俊,工藤純一(東北大)
制約のある条件下でのテキスト
文字制限が厳しい e.g., アブスト, 新聞記事
前後の文脈から人間には明らかである情報を省略したり、同じ項目繰り返しを極力避けることが多い
動機:著者が指定したキーワードが適切とは限らない
単語頻度では特徴が現れにくいケースがあるので、2単語間相関考慮して重み調整
単純な統計処理で10語前後の短いテキストでも識別できる
誤検出が少ない
専門辞書が必要なく、一般の単語が交じったまま処理できる
naltoma: 一般的な文書分類とは何が違う?
Q: 目的は、カテゴリに分類すること?
A: カテゴリ分類とキーワード抽出。
Q: 両方とも評価している?
A: キーワード抽出はもともと成績が良くない。
Q: カテゴリは何カテゴリある?
A: 全体で20ぐらい。選んだ論文数にもよる。
Q: 単純カテゴリだと単純な分類であればいろんな機械学習が使えるようにも思うが、
今回のポイントは?
A: そのものズバリのキーワードが出て来ないものが対象。
TFIDFでは0になる。
Q: TFIDFでなくても頻度ベクトルでも答えカテゴリが分かるなら機械学習できそうだが。
A: そのものズバリの単語が出て来ないので困難。
Q: 古典的な問題で、やられているアイデアもシンプルに見えるが。
関連研究を調査したいという話もあったが、どのぐらい進めている?
A: そのものズバリの単語が抜けているという研究があまりないように見える。
Q: 単語が抜けているというのがよくわからない。
カテゴリ名や必ずしも特徴的な単語がなくても良いはずだが。
t検定どうのというのはあるかもしれないが。
より一般的で汎用的なものと違いを明確にするようにしてみると良いのでは。
4P-2くだけた文章からの感情抽出, ○石上直孝,筧 捷彦(早大)
文章から著者の感情を推定したい。
同じ単語でも異なる感情を表す事があるため、表象情報だけでは限界がある。
パターン辞書は単語辞書に比べて成熟していない
用言パターン:用言とそれに係る名詞の組み合わせ
文末パターン:句点や顔文字など、文の終わりに出現するパターン
パターン自動生成+機械学習
naltoma: 「くだけかた」には時代や組織構成メンバによってパターンが大きく
異なりそうだが、今回用いた「パターン生成」では考慮しなくても良い?
(生成パターンの準備方針は何かしらある?)
Q: 一つの表記に複数感情を付与するようだが、マルチラベル?
A: 8個の感情があり、1件ずつ個別に判断。感情毎に一致率で評価。
Q: SVMは何のために使った?
A: 文末パターン判定を学習。多クラス。
Q: 3人被験者での2/3の一致で問題無い?
A: 人によって差が合ったので少ないかもしれない。
実験データとして数多く必要のため、今回は3人。
Q: 動機として助詞とかが省略されると困るという話があったが、
構文解析使っているが、どういうポリシーか。
A: 構文解析に困るということではなく、助詞の有無にも対応したパターンを
用意する必要があるということが問題点で、今回はそれに対応した。
Q: 徳久らの先行例をベースラインにしていないのは何故?
A: 手動構築で手に入らないため。
招待講演-2(大会招待講演-4) 地震防災におけるビッグデータ, 青井 真 (独立行政法人防災科学技術研究所 地震・火山防災研究ユニット 地震・火山観測データセンター センター長)
地震・火山観測方面の専門家ということで地震にまつわる話を「地震前の教育的段階/直後の緊急速報段階/一旦落ち着いた後の段階」ぐらいに分けて具体的な事例をいろいろと話されていました。
個人的に印象深かったのは「地震観測網としては全国約2000地点。これで現状の地震速報レベルの粒度を達成しているが、本来は揺れそのものを知りたいのではない。知りたいのは被害状況やそれに伴う対策の必要性などだが、現状の計測数規模(≒マクドナルド店舗数並み)では全くオーダーが足りない」という話。これ以上国からの支援ベースで規模を劇的に増やせる見込みも無いが、スマホ(深度2以上なら十分な精度らしい)やそれ以外にも安価に個人レベルで計測&配信できる機器が開発できてきているので、ソーシャル化することで例えば「ある建物の地震前後で揺れに対する弱さ」が分かるようになる時代に届くかもしれないとのこと。
パネル討論【第一部】震災時の情報伝達を振り返る
途中別セッションに行ってたので、後半の間山先生と司会の石川先生の話ぐらいしか聞けてないのが残念。
医療現場の間山先生からは、被災してから暫く(数日)は「現場の人は安否確認すらできないぐらいインフラが死んでいた。電気通信は4日後に某社が繋がり始めたが他社は全く駄目で、その時の絶望感はとても強い。安否確認すらできない日が続いたが、それでも患者を目の前にすると無理してでも尽くしてしまう。「無事」の2字伝えられるだけでも心の平安が保てるから、何とかならないものか」という話。
その後の石川先生のまとめや会場との討論を聞く限りでは、情報を串刺しにすることを前提として3種類のライフライン「生命を繋ぐライフライン/未来を繋ぐライフライン/こころを繋ぐライフライン」が必要だろうというサマリでした。「情報串刺し」というのは、現場では情報が錯綜していて活用できていないとか、そもそも共有化されていないといった状態の解決が必要という話。「未来を繋ぐライフライン」は、現場の人は「今後自分の人生がどうなっていくのかが分からないままに時間が過ぎていく」ということへの問題提起。例えば、新しい住宅は必要だが、数百年の歴史が刻まれた森林を完全伐採してまでやらなくても必要最小限にすることはできなかったのかとか現場の人は思うが、伐採されてしまう。必要なor欲しい情報が互いに行き届いていないので何がどこでどうなっているのかが分からず、将来が見通せないという話。
パネル討論【第ニ部】情報ライフライン化の技術
総務省の谷脇先生や慶応義塾の神成先生からは、オープンデータ等情報公開することとそれらを組み合わせて何ができるかの実績作りや検討を進めていくというような話。コンピュータ処理可能な形でデータを公開する事の必要性と、それによるメリット・デメリットの検討をしつつ、どのような形でどのように公開すべきかを他省庁に提示する形で牽引している途中とか。予定より既に1年遅れになってるが、そこは国会通るように祈るしか無いとのこと(ですよねー)。震災に絡んだデータ公開としては国立国会図書館がNDL東日本大震災アーカイブ「ひなぎく」として公開されてるらしい。
震災後から現場入りして復興に携わっている神成先生の事例としては、やはり現場で音頭をとるには「お昼に仕事としてやりとりするだけでは駄目で、飲食共に夜も付き合うことで相手の本心に近づく事ができ、そこで初めて本当の意味で支援が始まる」というような話。人間系なので仕方ないだろうなとは思う。保守的な人が多いのは事実だが、一度入り込んで共にやるという形に入り、成功事例を出せれば後は一緒にやろうという人は増えてくるとのこと。コミュニティ作りも本気で取り組もうという地元の人探しもあれもこれも結局は現場に入って時間かけてやるしかないよね、という結論。ちなみに公益信託JCB東日本大震災に負けない子どもたちの未来を応援する奨学基金なるものも立ち上げて、JCBさんが本腰入れて震災孤児への奨学金給付も頑張ってるらしい。
Googleの賀沢先生は、「正確&迅速&(その人にとって)適切な情報の提供」実現に向けてゆっくりと、だけど諦めず一歩ずつ歩み続けているとのこと。企業としての宿命で大震災というレアケースに対して大きなコストをかける事は困難だし、他企業との連携も緊急時には契約とかしてられないので、互いに同じゴールを目指して阿吽の呼吸で進んでいたことが「第三者からは協力しているように見えた」のかもしれないが、企業側としては「ツールを提供」していたに過ぎないという立場らしい。Googleクライシスレスポンスとして今後も努力を継続するし、通常時のうちに協力契約等も少しずつ進めているとか。