情報処理学会 第74回全国大会 3日目レポート

Share on:

あつた蓬莱軒安定して美味しいよね(参考)。

ということで、情報処理学会 第74回全国大会 3日目の参加記録です。

全日程を通してのサマリは後で別記事として書く予定。

最終日である3日目は、
 ・(堀川くんが発表するので)一般セッション[5C会場] 自然言語処理
 ・学生セッション[6T会場] 検索・分類
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[5C会場] 自然言語処理

学生セッション[6T会場] 検索・分類


一般セッション[5C会場](3月8日(木) 9:30〜12:00) 自然言語処理 座長 佐藤 理史(名大)


5C-1文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)

消費者:出品者:広告代理での文字列検索
 編集距離、コサイン距離、Jaro-Winkler距離、q-gram距離
記号列間の表記的な類似性だけではなく、意味を考慮した類似性の測定
 WordNet距離、圧縮距離、説明文距離、Google距離、正規化Lucene距離(NLD)
記憶容量コスト、計算コストが高い
 前処理:日本語問題の解決、情報量圧縮など
  情報圧縮:出現ページ数(ページ内出現回数はカウントしない)
  NokogiriでWikipedia XMLからコンテンツ抽出
  Luceneで検索インデックス作成
  LuceneとIgo-AnalyzerでWikipediaコンテンツ検索し、NLD算出
 メイン処理:高速に文字列間の意味的な類似度距離測定:NLD

naltoma: 類似度算出の情報源をWikipediaとすることによるバイアスがかからないか?
A: Google辞書使うとバイアスはかなり削減される。オフラインに拘ったのは商品に特化した距離を作りたいから。

Q: 前処理で高速化することで前回の結果と異なるのは何故か?
A: LuceneがデフォルトでTFIDFスコアリングをしているらしい。今回の高速化ではページあたりの語数を0,1にしているため、カウント数が減るとTFIDFが異なる。
Q: タイトルが「類似度距離」になっているが、類似度と距離は相反するようなものに感じる。Similarity Measure。


5C-2映画鑑賞の道案内システム ○塩崎浩二,浦谷則好(東京工芸大)

従来:売れ筋/ジャンル/制作年代ベースで推薦される
あらすじマッチングによる推薦
 連想検索エンジンGETAによるマッチング

naltoma: いわゆるコンテンツベース推薦?
naltoma: 「映画あらすじ」固有の特性はあるのか?(シリーズ枠がその一つだと思うが、他には?)
naltoma: 検証実験では関連性が平均値2.59と比較的低いように見えるが、素性として採用した単語を「自立語」に絞り込んだのが問題なのか、特徴量に問題があるのか?
naltoma: そもそも「関連性」とは?

Q: 興味があるものは「映画の内容が似ている」という前提があるようだが、実際には内容が似ているかどうかとは関係ないのでは。監督が同じでも内容が違うとか。ジャンルの類似とかなら分かるが。
A: 推薦映画として相応しい推薦ができたかという指標だが、何を元にして探すかということで手掛かりの一つとして「ある一本の映画を知っている」から出発して似ている映画を探す、連想検索するということを想定した。
Q: 連想していくとのことだが、何故一つの映画に絞って入力させるのか。複数入れることは考慮しない?
A: 見たい映画のイメージが「アクション映画で/アメリカで」のようになると既存の検索システムで検索できる。自分で、特にイメージがない「何か面白いものがないかな」という状況を想定。
Q: それでも一つに絞る必要性はないように思う。

Q: こういうシステムって正解がないので評価は難しいと思うが、設計する時にどういうのが出たらワークしたと評価するのかに依存すると思う。設計指針をどうするのか。どのぐらい「関連があるのか」もそうで、このあらすじで十分連想できるようなテキストになっているのかどうかも出せれば良いかもしれない。レビューが似ているから興味を持てるとは限らない。その辺りの哲学を持って設計するべき。


5C-3Twitterからの談話自動抽出 ○堀川敦弘(琉球大)

Q: 形態素解析で単語分割してるが、Twitterだと辞書に無い語がどんどんでてくるので、辞書チューニングでも限界がありそう。どうしてN-gramを利用しないのか。
A: N-gramでの共起でも良いと考えているが、N-gramで試したことが無い。どんどん増えていく語に対する対応はGoogle Suggest APIで対応できるのではないかなと考えている。
Q: 大前提の共起を用いるという事に対して問題を感じる。長い文章だと有力だと思うが、Twitterのように短文だとあまり役に立ってないのではないか、今回の結果は偶然じゃないか。
A: 取ってきたい談話が長くなってしまった場合、共起が発生せずに取りのがしてしまうなどのことが頻繁に起こるかもしれない。同時に母集団の中で会話をされると難しい。
Q: Seed Tweet Setってどのように作った?
A: 抽出したい談話に関するツイートを人手で選択する。
Q: 談話抽出というとAさんとBさんの議論を抽出したいと思う。全く関係ないCDさんのも一緒くたになってしまって一緒に議論しているように抽出されてしまうのでは?
A: その可能性は高い。それを緩和するというわけではないが、ツイートを見た人を母集団として加えていくことで緩和できると思う。
Q: ホットエントリ、バスッターのような言葉に議論する事がありそうdが、どのように分離する?
A: 皆が同時に「バルス」といったときどう分離するかという状況だと思うが、具体的な手法はイメイージできていない。
Q: 140ツイートをどう集めたか?
A: 談話の開始と終わりは検知していないため、人手で与えている。リスト内全ユーザの時間内全ツイート。
Q: 全ユーザに適用するのは難しい?
A: そこは考慮していない。

(良い意味で予想通りの指摘/コメントを貰えてたので、外部からの刺激や交流になったという点でとても良かったんじゃないかと)

堀川くん自身による振り返りレポート: IPSJ74発表に対するコメントなどの考察


5C-4著者推定による文章の特徴解析 ○國廣直樹,長谷川智史,穴田 一(東京都市大)

文献の心眼問題:シェークスピア別人説
文章には人それぞれ特徴がある:過去は主に筆跡
 電子化に伴う新たな特徴量の明確化
先行研究:2-gram, Tankerd距離
今回:品詞n-gram出現確率、単語長n-gram出現確率

Q: 単語長n-gramを使ってるが、著者は文字の長さではなく読んだ時のリズムで書いてるように思う。単語文字数ではなく読み数、モーラ数使うとどうか。
A: 読み文字数についてはこれからやろうと考えているところ。
Q: 学習テキストと知りたいテキストの長さが結構効いてくるということが分かっている。今回のはどのぐらいの長さのテキストか。
A: 短いもので3千字、長いもので3万程度だったと思う。青空文庫。短編小説が多いはず。
Q: 30人エッセイのコーパスで、3万字。1万を学習にあてるとだいたい間違いなくあてられた。言語モデルを使ったもの。去年/一昨年のNLPで発表したので参考まで。


5C-5係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)

開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きい
 修正起こる度に不整合発見タスクが発生
  類似した内容が記載される文章間に不整合が含まれやすい->自動検出 [小林2011]
  差異が生じる箇所を目視で確認するコストが高い -> 差異検出
語幹と係り受け構造から共通部分検出
アライメントが行われなかった箇所(差異箇所)検出
補足文生成

naltoma: 翻訳の例で「単語の使い方」を例文表示するようなシステムがあるかと思うが、そういうタスクと類似問題として設定した?

Q: 「関し、」と「関する」では大きく異なるから検出しなくてはならない例では?
A: そうだが、見る人が「どれだけ影響を与えるか」を考えてのこと。
Q: 法律に関するものなので、検出すべき。

Q: 差異箇所をどう定義しているか。法律文について研究しているが、普通に読んでても気づかないものもある。
A: 差異箇所の定義としては、二つ文を比較した時に漏れがあるもの+同義語や相違。法律というドメイン固有については今は考慮せず一般文書としての扱い。特有言い回しについては専用辞書構築などで対応したい。

Q: 確認だが、今回のシステムは「非常に似ている2つの文を入力してもらう」ことが前提?
A: その通り。


5C-6SVMによる学習とタイプ分類パターンの組み合わせによる固有表現抽出手法 ○尾田俊弘,福本淳一(立命館大)

[Sekine 2004] 150種類の固有表現タイプが定義
固有表現特徴をSVM学習+固有表現範囲同定
素性
 全ての単語を対象
 品詞、文字種、単語自身
 2つ前〜3つ後の計5単語を1セット
パラメータ
 2次の多項式関数(組み合わせで学習)

Q: 人名と地名の関係で、空港に人名がつくケースとかあるが問題にならなかったか?
A: 述語に相当する動詞を見ることで判断できる。会社名だとソーシャルなものがあったが、文脈から判断が可能と考えている。
Q: 文脈を見ないと判断できないものがあるというのものは分かっているが、それがどのぐらいあるか?数パーセントなのか結構あるのか?
A: 具体的な数値は分からないが、詳細タイプ分類ができる例という点では多く見られた。
Q: 固有表現抽出は山のようにあるが、現時点でどのぐらいできてるのか誰も示していない。トップレベルの数値なのか、今までのトップには勝てていないのか。
A: 9割を示しているものもあるので負けている部分があると思うが、今回は詳細タイプ分類をしている点でメリットがある。
Q: 150種類分類する研究自体が無かった?
A: その通り。


学生セッション[6T会場](3月8日(木) 14:30〜16:30) 検索・分類 座長 秋葉 友良(豊橋技科大)


6T-1ツィッターのデマ率の推定 ○Rattanaxay Keothammavong,青野雅樹,相田 慎(豊橋技科大)

目的:デマの拡散防止
 デマ:関連した曖昧な情報が連鎖的に広まること
デマ判断のための素性定義
 地名/人名/組織/URL/Hashtag/@/固有名詞/代名詞/一般名詞
 曖昧な言葉(きっと/かな/どこか。。。)
 単語感情極性対応表
寄与していた素性(Gini係数)
 感情スコア>RT>その他

naltoma: デマ率を推定する対象の定義は?(特定ツイート?)
naltoma: デマの例1で「浸水」という元ツイートはデマ?
naltoma: 推定結果の誤りが「システム自体の信頼性」に直結するので誤推定を避けたいように思うが、デマである/ではない双方の根拠を提示することでユーザが判断しやすくするなど、工夫できそうなことはないだろうか?

Q: リアルタイムでのデマ率を推定したいと書かれているが、どういう手法を考えているのか。
A: 現時点ではデータセット構築が手動。類似計算コストも考慮する必要がある。
Q: 現在の計算コストはどのぐらい?
A: 5分程度。
Q: 学習データ/テストデータは同じ時期のもの? リアルタイムでやると新しい時期のものを判定することになると思うが、どうか。
A: 現在は同時期でテスト。時系列全体を計算するコスト高すぎるので、リアルタイムでやる場合は時間軸を指定するなどを考えている。


6T-2単語共起を用いたベイジアンフィルタによる中国語文章フィルタリングについて ○鄧 德粤,吉村卓也,伊藤孝行,藤井雄太郎(名工大)

有害文書の自動判別によるコスト削減

naltoma: 有害な文書にもいろんなパターン・種類があると思うが、単一のフィルタリングが可能だろうか?(有害文書の定義は?)
naltoma: 負例データセットが判定しやすいものになっていないか?

Q: 閾値を設定する所について。8千件というのは?
A: データセット1万件から8千件選んで閾値を設定し、残り2千件で評価した。
Q: 閾値はどうやって設定?
A: F値が高くなる値で調整。
Q: 共起を使うことで、計算効率やメモリ使用量についての負荷具合は?
A: 2単語共起で10GBメモリ。サーバで使う分には問題無い程度。
Q: データベースの量が大きくなると圧縮とか必要になりそうか?
A: 実用はまだやってない。
Q: 中国語形態素解析エンジンの精度は?
A: 90%台。
Q: 今回の実験結果は、最終的にはWebデータに使いたい? Webだともっと雑多なデータになっていると思うが。ニュース以外も利用することでより現実的なところで評価すると良いのでは。


6T-3複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)

単一文書で自己完備なキーワード抽出
 TFIDF:コーパスの分野が異なる、コーパスが存在しない場合に問題
 コーパスを使用しないキーワード抽出:small world構造に基づく文書からのキーワード抽出
  仮想距離:ネットワーク全体の最大経路長として導入
  共起指標の閾値による構造的特徴の調査

naltoma: 自己完備とは?
naltoma: 論文へ付与することを想定したキーワード抽出のようだが、適切なキーワードとは論文単体で決定されるものだろうか?(付与したいキーワードとはどのようなものか?)
naltoma: キーワードとリファレンスは無関係?

Q: 日本語論文に応用する予定があるか?
A: 今回英語を使用した理由は、日本語の形態素解析で行うとまだまだ難しいという判断。形態素解析精度次第では使えると思う。ネットワーク構成が変わるとは思う。
Q: Jaccard係数を用いた実験のようだが、レアな出現が強すぎる評価となることがあるという報告もある。どうか。
A: ネットワーク校正する時点で規定回数以上のノードに抑えているため、非常に小さな頻度な出現は抑えられていると思う。
Q: 共起指標を調整した時にクラスタ係数が若干増大する箇所が見られたとのことだが、どこで見られた?


6T-4Q&Aサイトにおける情報検索型質問の自動抽出 ○田中友二(芝浦工大),望月崇由,八木貴史(NTTレゾナント),徳永幸生(芝浦工大),杉山 精(東京工芸大)

QAサイト質問タイプ:情報検索型/社会調査型/非質問型
 情報検索型質問の自動抽出

naltoma: 「検索結果に欲しい情報が見つからない」の質問タイプは「情報検索型」? 回答がWebにあるもの?
naltoma: 質問分類した後でどう活用する?
naltoma: 質問に「活用できる/できない」の差はない?

Q: 質問を対象として分類したようだが、回答を見ても参考にならないか。
A: 質問時に分類することを想定しているので質問しか見ていない。
Q: 実際には回答がついているものを選ぶのに使うわけではない?
A: 現時点では質問回答が揃っているデータセットを使っているが、実際には回答が存在していない状況で分類している。
Q: 他の分野でも実験したいとのことだが、分野毎に教師データを用意する必要がある?
A: 用意することで精度が向上するとは思う。ただし、依存しないような特徴語もあると考えているので、カテゴリに依存しないような教師データを用意することを検討している。


6T-5知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)

目的:知的ヘルプシステムの実現
自然言語文の意味理解+テキストの言い換え
 適切なヘルプが出力される精度を高める
単語解析(概念付与)+意味解析(概念絞り込み+深層格付与)

naltoma: ヘルプ内の記述が理解できないと意味が無いので、Web上での参考手続きとのマッチングは取れないか?

Q: 有効性はどう判断する?
A: 本来ならシステム化して被験者通して確認したかったが、今回はMRRでのみ確認した。
Q: MRR評価してるが、精密にすることで精度が上がっても再現率が下がっていないか?
A: まだ再現率はチェックしていない。
Q: ルートが一致するというのが必要になると思うが、そこはだいたい一致する?
A: 現時点では大丈夫だが、ユーザ入力文次第では問題になることもあると思う。


6T-6否定文認識による潜在関係検索の精度向上手法 ○落合伸彦,Duc Nguyen Tuan,Danushka Bollegala,石塚 満(東大)

(キャンセル)


6T-7ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)

類似文書検索
 文書内の単語の並びが考慮できていない(スラング、言い回しなどによる意味の差)
 文全体の単語の並びを考慮
  ストーリーの差を定量化したい
文書を時系列データで表現+DPマッチングによる類似度計算
 同じ出来事に関係する単語を近いベクトルとなるように設定したい(例:ジャンル)
 未来:SF映画、殺人:犯罪、ホラー
 単語特徴ベクトルを20次元(ジャンル)で正規化

naltoma: 影響伝播モデルIDMみたいな形で分割できない?
naltoma: ストーリー性とは??(時系列考慮してるけど、ジャンルベクトルの推移でストーリーになる?)
naltoma: 単語特徴ベクトルは固定値で求まるもの?

Q: 単語単位になっているが、文法により異なると思う。どのぐらい単語の順序が影響していると考えているか。
A: 最小単位ということで単語を考えた。文章でも圧縮すると単語程度になるので同程度になると判断している。比較はしていない。
Q: TFIDFと比較しているが、圧縮法も異なっている。要因が二つになっていると思うが、そこを区別して比較できないか。
A: 順序を考慮しないバージョンでの比較も検討しているが、21次元ジャンルだけでは測れなかった。


6T-8共起ネットワークを用いたクラスタ性によるテキスト分類 ○小林雄太,村上裕一,中村真吾,橋本周司(早大)

共起ネットワークを定量的に評価したい
 クラスタ性(クラスタ係数)によりテキストを評価・分類
 ノード=TFIDF上位重要名詞
 リンク=閾値モデル:閾値変更でネットワークが変化
実験
 上位N件の設定次第では「閾値が低い領域」では誤差が大きい
 閾値中盤以降はほぼ類似傾向

naltoma: (妄想)TFIDFを使うことで一種の「経験に依存した重み」というか人間が読み終えた後の感想を抱いたような特徴量になってたりする?

Q: 直接的な閾値、相互情報量とかは使えないのか?
A: ジャッカード係数のようなレア出現単語の影響が強いため、今回は避けた。実際に今回の方法でうまく避けられているかは分からないが、ネットワーク性を測れることを考慮しての選択。
Q: ニュース/小説とか大きく異なる分野などで比較する方が適切にも思う。
A: まず著者によってまとまる要素が違うということを検証してみた。今後そういうジャンルの違いも確認していきたい。

Tags: , ,