情報処理学会 第74回全国大会 2日目レポート
正直寒さをなめてて済まんかったと言いたくなる寒さ。風強いと普通に寒いねうん。ごめんなさい。
そして「味噌風味に飽きた」という学生のために適当にぶらついて入ったお店「つくし」が美味過ぎました(参考写真)。名古屋の皆さんが羨ましいです。
ということで、情報処理学会 第74回全国大会 2日目の参加記録です。
あまりにも発表件数多いので事前に面白そうなテーマをチェックしてたり、そのツイートに反応してくれた伊東先生に質問してみたりしながら参加するセッションを検討してました。並列度高いと直接見れない発表が多過ぎるのは残念。。
2日目は、
・学生セッション[3R会場] 自然言語処理・応用
・学生セッション[4ZJ会場] システム評価
に参加してきました。以下、その参加メモになります。
naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。
<目次>
学生セッション[3R会場] 自然言語処理・応用
- 3R-1感情判断に基づく物語文章からの感想文自動生成手法
- 3R-2アメリカ合衆国大統領演説の計量テキスト分析
- 3R-3冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化
- 3R-4神話のトピック構造分析による比較研究
- 3R-5日本語クロスワードパズルのカギの解法
- 3R-6比喩的素描を用いた類似語推論およびその視覚化インタフェースの構築
- 3R-7ローマ字入力による縦書きモンゴル語入力方式の実装
- 3R-8カタカナ抜け文のための自動解法アルゴリズムの提案
- 3R-9マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出
学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)
- 4ZJ-1チェックポインティングによる評価条件が可変な高速シミュレーション手法の提案
- 4ZJ-2準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究
- 4ZJ-3ドライビングシミュレータを用いたジレンマゾーンにおけるドライバーの視線データの計測とその評価
- 4ZJ-4日本語のやさしさの自動推定のための特徴量に関する基礎的検討
- 4ZJ-5小型共焦点顕微鏡の開発
自然言語処理・応用 座長 東中 竜一郎(NTT)
3R-1感情判断に基づく物語文章からの感想文自動生成手法 ○町田啓悟(長野高専)
起承転結の4文による一貫性のある感想出力を自動生成したい
従来手法:動詞に着目した手法
「殴られる」が負の感情に繋がる
意味判断+感情判断の導入。起承転結を個別にNN学習。
naltoma: 要約との違いは?ネタばれ大丈夫?
naltoma: 起承転結で出力することを選んだ理由は?(起承のみ/起のみ生成とか、キャッチコピー生成とかいろいろ手段が考えられそう)
Q: どういう応用を考えている?
A: 電子書籍かされた中から自分の好きな物語を探すため、レビューのようなものがあると便利だと考えた。
Q: レビューがないようなものについても感想生成することでコンテンツアクセスが容易になると感じた?
A: その通り。
Q: 文章から起承転結がどこなのかをどう判断しているのか?
A: 機械的に4分割。
Q: 評価者間の一致度はどのぐらいだった?
A: ほとんど一致していたが、一部異なるものがあった。
3R-2アメリカ合衆国大統領演説の計量テキスト分析 ○青木宣康(東洋大),河村俊太郎(東大),鈴木崇史(東洋大)
就任演説の特徴をカーネル主成分分析+ランダムフォレスト
テキストの特徴
テキストへの影響要因
Q: 何を目指している?アメリカの今後の予測分析?解析手法そのものへの興味?
A: 今後のアメリカ大統領選挙演説を見た時に、どういうのが使われているのかが分かれば良いなと考えている。
Q: 特定の定型的なサンプルで検証されてるが、他の国の動向についても同じようなサンプルがあるか?
A: アメリカだと原稿が残っているが、他国だと調べればあるかもしれない。日本首相だと全文残っている。
Q: 戦争前後で使われている単語のバラエティが短くなってコンパクトにという話だったが、ある意味でアホ向けという印象も受けるが、こういうのは他国でもそういう傾向があるのか、戦争前後での違いとか何か一般的な話に広がると面白そう。
Q: カーネル主成分分析でプロットした図はどうやって距離を求めたのか? 距離をテキスト解析して求めていると思うが、類似度をどう求めたのか?
A: 相対頻度から特徴ベクトル生成し、パラメータで調整。
3R-3冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)
背景
ホームページ:観光者視点の情報が不足
口コミサイト:書き込み人数が少数
ブログ/マイクロブログ:情報探索困難、地理情報が不明瞭
->Twitterから収集統合(観光者視点)
naltoma: 観光地名が直接記入されていない感想ツイートが多々ありそうだが、どう収集する?対象外?
naltoma: ツイートだとブログ以上に「受け狙い」とかバイアスがかかった傾向とか特殊な特性はないか?(それが問題にならないか?)
naltoma: 再クラスタリング分割で「ツイート数の差が細小になる分割を選ぶ」理由は?
Q: Juman,mecab(Wikipedia)使ってるとのことだがmecabだけではダメなのか?
A: Jumanは代表表記が複数出力されており、表記揺れのために使用。
Q: 京都を使った理由と、京都以外の土地についてどういう所で有向かとか考慮すべきことがあるか?
A: ツイート数が多いのと個人的に好きだから京都を選んだ。福島/茨城とかだとツイート数が極端に少ない場所では難しそう。
Q: 広島は個人的に観光客だと思ってるが、他の人はそう感じてないようにも思う。過疎地ではこういうスタイルだと難しそう。
Q: ツイート検索は公式API?ツイッターだと公式RTは区別できるので元ツイートだけ使えば冗長性排除になると思う。
A: 公式APIを利用。非公式や広告除去なんども考えていて、非公式の場合にはツイート自体を排除することが良いかどうかも検討中。
3R-4神話のトピック構造分析による比較研究 ○太田 明,橋本和夫,山田仁史(東北大)
主観的な分析は行われているが、より客観的な根拠のある分析をしたい。
トピックモデル:Multiscale Topic Tomography (MSTT)
naltoma: シーン分割はIDM(影響伝播モデル)の方が良さそう。
naltoma: 「場面の構造」とはシーン1,2,3のようなシリーズ?階層構造?より複雑な構造?
Q: トピックモデルで特徴量という話だが、他の物語についても適用できそうだが、神話に特化する必要のある部分はあるのか?
A: 神話以外の物語/文書にも適用できると思うが、神話を選んだ理由は個人的な興味。
Q: 神話には同じような構造があって、というのが神話特有の話ではないかと。
Q: トピックモデルをそのまま適用するのが難しいという難点があるようだが、既存の神話がどういうデータ構造なのかに依存しそうだが、そこには依存しないのか。関係ない一般的な話なのか。どの部分が神話を研究するという特定な話なのか、一般的な話なのかが良く分からない。
Q: 古事記とか参照してるようだが、第一次資料として何を参照しているかによってアプローチの仕方も変わってきそう。原著や現代語訳とかで解釈が異なりそうだが。
A: 現代語じゃないと認識できないので、仕方なくだが現代語訳を選択。確かに翻訳で失われる情報とかがあるとは思う。翻訳を比較するとかも今後必要になると思う。
3R-5日本語クロスワードパズルのカギの解法 ○内木賢吾,佐藤理史(名大)
カギは特定種類の連想を促すことが多い
人手で連想タイプ(7つ)を設定
今回は穴埋め/反対語/同義語/説明の4タイプが対象
naltoma: 資源が不足しているようだが、どうやって増やせるだろうか?
naltoma: クロスを考慮した候補選択はしている?
Q: 先行研究との違いは?
A: 言語資源(Wikipedia利用)と内部モジュール(Unidicで階層的見出し語定義を利用しているので表記揺れに対応)が違う。
Q: 実験結果の比較では、先行研究を包含した形で良くなってるのか、そうじゃないのか。性能自身は上がっているが、先行研究で正解してたものが本手法で失敗しているというようなことはあるか?
A: 未調査。
Q: 複数鍵が重なった依存関係がありそうだが、そこについて検討しているものはあるか?
A: Proverbをそのまま使うことで利用できそう。
Q: クロスワードを解くのは何故?
A: 面白そうだからでもあるが、人間がどのようなものからどういう連想するのか、どういう資源を使うのか、というモデル化に興味がある。
3R-6比喩的素描を用いた類似語推論およびその視覚化インタフェースの構築 ○長谷川恭佑,桝井文人,後藤文太朗(北見工大)
比喩的素描(デスクリプタ)で検索支援。MURASAKI。
逆引きリストから類似語推論し、結果を視覚化
naltoma: 検索目的毎に適切なデスクリプタが異なりそうだが、目的はどのように推定する?
naltoma: 逆引きリストで得られる類似語は「どのような観点での類似語」なのか?
Q: 初音ミクから「ボーカロイド」デスクリプタを介して他の類似語を求めているが、デスクリプタ自体の類似性を求める必要はないか?ボーカロイド以外の歌わせてやるシステムとか。
A: 未検討だが、初音ミクだとボーカロイド以外にも複数デスクリプタが出てくるので、そこで担保できるかもしれない。
Q: MURASAKIのログデータを計算するコストはどのぐらい?
A: 現在はリアルタイムで一部データを使って逆引きリスト作成だけでも結構時間かかるので、予め処理しておく。
Q: Google Setsのような類似語を出すシステムがいくつかあるようなので、参考まで。
3R-7ローマ字入力による縦書きモンゴル語入力方式の実装 ○巴図孟克,中平勝子,三上喜貴(長岡技科大)
Q: 提案方式の評価についてモンゴル語を母語とする人に対して、Microsoft入力方式を普段から使っている人だと思うが、提案手法にどれぐらい辞書登録されていて、何割ぐらいヒット率があったのかによって評価が変わりそうだが、ヒット率はどのぐらいだったのか。
A: Microsoft入力を使ってたのは二人だけ。
Q: 辞書から単語を拾ってくるという入力方式なので効率良くなっているのだと思うが、辞書の単語数を減らした際のヒット率を検証できると良さそう。
3R-8カタカナ抜け文のための自動解法アルゴリズムの提案 ○島 広幸(工学院大),建石由佳(ナラプロ・テクノロジーズ),小西克己(工学院大)
文脈を理解させ、推測や連想を行わせたい。
カタカナ抜け文パズル
Web日本語Nグラム
naltoma: 文脈理解というよりは、前後の単語と共起しやすい単語の連想という問題?
naltoma: 何に応用できる?何をモデル化したことになる?(カタカナ制限やマッチング制限があるために逆に面白みの欠けたモデルになってない?)
Q: 最短経路問題で解くようだが、経路はどうなる?
A: パスは各候補単語を個体として、同じ番号を持っている単語が隣接したグラフを生成。
Q: 連想はどこにある?どういうところで連想しないと解けない?
A: 例えばある場所に当てはまる単語を考える際に、その前後の単語から連想する。それをNグラム+共起で実現した。
3R-9マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)
「話題を知ること」自体の需要。
話題に対するユーザ意見分析:ex.)信じているか疑っているかで分類
話題語抽出・スコア計算(話題語出現頻度をバーストスコア)
話題語と偶然を見分ける必要性:共起バースト語が多い場合は本物の話題語である可能性が高い
PageRankを用いたスコア調整
未知語に伴う形態素解析ミスをグラフ化でフレーズ・話題を表す文として抽出することで対応
naltoma: 「話題」とはどのぐらいの規模を想定しているのか。対象としている母集団とのサイズ依存?(調整が必要?)
Q: バーストでどういう母集団に対してやってるのか、逆に出て来なかったものについてものとか。
A: 条件で絞り込みしている。
Q: 母集団は?
A: 日本語ツイート全体
Q: 関連ツイート収集とあるが、RTは意識している?
A: 公式RTは排除。
Q: どのぐらいRTが含まれているかは調査した?
A: 未調査
Q: EMNP2004の単語ランク(?)があるので参考まで。
Q: 日本国内で一番バーストした単語は「パルス」だと思うが、それはどういう表示されたのか?
A: バースト単語をランクオーダで並べているだけなので、とくに出力に変化はない。
学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)
4ZJ-1チェックポインティングによる評価条件が可変な高速シミュレーション手法の提案 ○椎名敦之,大津金光,横田隆史,馬場敬信(宇都宮大)
新規アーキテクチャの特性を見るための繰り返しシミュレーションを高速化したい
チェックポイント&リスタート(ダンプ?)で高速化
DMTCP
naltoma: アプリケーション/ベンチマークを与えると自動でチェックポイント&リスタートできるように動作を変更できる?自前でプログラミングするだけ?
naltoma: CPUレベルのダンプデータだととても巨大なサイズになりそうだが、問題にならないか?
Q: チェックポイントの場所ずらしてとか難しかったと思うが、いろいろ手法が考えられたと思うが何か比較検討されたことがあれば。例えば、例題のスレッド1,2,3を繰り返すものを1,2,3,4,4と変更するものを最初から入れといてコンパイルするものや、ある条件でコール先を変えるようにしておけば倍なりコード空けておくとか必要もないだろう。
A: 作ってあるプログラムがいっぱいあって、それを使いたいから。
A: 予めコンパイルしておくというのもあるが、最適化手法を新たに開発した時に、そのコードがどういう性能になるかを評価したい。未知のものは予め作っておくことはできないので、領域を空けて置く必要がある。
Q: チェックポイントのオーバーヘッド次第では最初からやり直す方が早いこともあり得るが、どのぐらいオーバーヘッドがかかるか。もしくはどれぐらいでチェックポイントした方が良いのか。
A: 検討中だが、現時点では長時間かかるシミュレーションを想定している。
4ZJ-2準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)
避難のタイミング:生き延びた人でも1/4が友人らの声かけ後に避難
災害発生時に使用可能な情報配信システム
技術的な制約を把握したい
片方向、伝送速度が極めて低い(約6秒に1回250bit)
naltoma: オペレーション含めてどういうシステムとして設計を考えている?
Q: 防災システムとしては非常時だけ使えるというのは経験的に役に立たない。日常的に使えるツールとしても使ってて、防災時にも使えるように設計されてないと使えない。エリアメールを使ったことあるが、通話中/アプリ使用中には割り込まないので使えない。仕様変更されてるかもしれないが。
A: 検討する必要があると思います。
Q: 受信機はちょっとした改造で使えるということだが、バッテリー消費は?
A: バッテリーが良くならないと現実的にはそれほど長くは使えない。消費電力についても今後評価していきたい。
Q: 将来の話ということでデータが増えた場合、どれくらい送りたいというケースを想定しているのか。
A: 今は緊急地震速報程度だが、本当は避難経路とかを位置情報でフィルタリングをかける形で送ることも検討している。
4ZJ-3ドライビングシミュレータを用いたジレンマゾーンにおけるドライバーの視線データの計測とその評価 ○平野優輝,千田一誠,杉野栄二,瀬川典久,澤本 潤(岩手県大)
交通事故防止に対するドライバーの視線方向計測の有効性を確認したい
ジレンマゾーン:黄色信号時に停止/通貨の判断に迷う領域
naltoma: ジレンマゾーンは車速以外にも車道の幅や歩行者の有無など多くの環境要因から影響を受けそうだが、その影響は無視できる?
naltoma: 視線方向計測で適切な時に警告を受けることは事故防止に役立ちそうだが、逆に警告が邪魔になるなどでメリットはないか?
naltoma: 640×480程度の粒度は実世界との差が大きそうだが、シミュレーション結果に影響しないか?
Q: 目線データは、ドライバ歴によって変わりそうだが、被験者のデータはどのように収集した?
A: 今回は経歴を考慮していない。運転歴1〜2年程度の人が多いがばらついている。
Q: 何らかの知見が得られたとして、それをどう活かそうと考えている?
A: ドライバの注意の変化が分かったが、これに限らず事故が発生する状況を作り、その原因解明。車への新機能の提案などにも繋がれば。
4ZJ-4日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張 萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本に住む外国人増加:日本語から正しい情報を理解できない場合も多い
「やさしい日本語」研究会
先行研究:日本人の感覚で「やさしさ」を定義されており、外国人がどう感じるかは分からない
文章の構造を簡単にする:名詞数、文章長さ(文節数)、動詞数
難しい日本語の単語を使わない:日本語能力検定試験の語彙レベル
外来語を使わない:外来語は原語と意味や発音が異なるものが多い(外来語数)
naltoma: 文字の読み取りと音声の聞き取りとでの難しさの質が異なるのか。
naltoma: 外国人といっても様々なパターンがあると思うが、どういう状況を想定しているのか。
naltoma: 今回の実験では中国人留学生という同じ環境で整えているが、他国の留学生でも同様の傾向があるのか。
naltoma: 外来語が原語の意味と異なるという例と同様に、今回の被験者中国人にとって「漢字」が外来語と同様の問題は起きていないか?
A: 今回確認した事例では問題になっていない。
naltoma: 「より易しい」というのは分かるが、「ベストな日本語(誤解を生じない文)」が作れないか?
A: 検討してみたい。
naltoma: 意味理解を考えると「AのB」のようなものが難しそうだが、あまり問題にならない?
A: 文節数で長さを評価していることが間接的に評価している。
4ZJ-5小型共焦点顕微鏡の開発 ○平野俊幸,山田貴哉,服部公央亮,田口 亮(名工大),柴田 進(ミュースカイネット),保黒政大(中部大),堀米秀嘉(ホーリーマイン),梅崎太造(名工大)
小型で安価な共焦点レーザ顕微鏡の開発
Q: 精度評価をしていたが、既存製品との差異は?
A: 既存製品だともう一段階低い誤差で計測可能。
Q: 既存の高い製品と比べて小型で安く作れるという主張だが、どういう理由で安いのか?
A: 二次元スキャン(汎用品)を導入したのが一番効果が大きい。既製品ではガルバノスキャナだけで高く、さらにそれを高精度で操作するためのモータ制御等でサイズが大きくなる。
Q: 今回の装置はいくらぐらい?
A: 小型試作機は原価200万ぐらい。量産/小型化を通して原価20万程度を目指している。