Posts Tagged ‘NLP’

評価極性データ、オープンキャンパスとか情報整理してた一日

水曜日, 7月 10th, 2013

m_2013071013101951dcdeabcd797 m_2013071013444351dce6bb48f72

平良くんは今の所「感情+推薦」あたりをキーワードにテーマを構築中。昨日のゼミで話題に上がった「感情表現」についていくつか公開されてる成果があったよなと思いつつ整理すると、次のようなものに。他にもあるかもしれないけど。「感情表現辞典」というのもあるらしいけど、これはどんなものなんだろう。

  1. 日本語評価極性辞書

    極性は「Positive or Negative」のことで、用言と名詞について極性付与した辞書が公開されています。

  2. 評価値表現辞書 (評価表現辞書)

    「評価値になり得る可能性のある表現」を集めた辞書。これ単体では極性等の情報はありません(P/N極性なら上記の「日本語評価極性辞書」)。特徴ベクトル作る際のコードブックとして利用するとか、これをベースに極性なり感情なりを推定するための情報源としては使えるかも。

  3. 感情極性に関するコーパス

    英語版も紹介されてます。

  4. 意見(評価表現)抽出ツール

    これはツールですが、「評価表現の抽出+評価タイプ分類+評価極性判定+評価保持者抽出」するらしい。どのぐらいの精度かも例示されています。

来週末に迫ったオープンキャンパスも整理しておこうということで情報工学科編としてページ作成。学外から多数(情報工学科だけで例年100名以上)の来客があるので掃除&整理整頓をお願いします。

会場設営の方は宮里先生に丸投げ気味なんだけど、大丈夫かな〜。

進化計算班4回目終了

木曜日, 10月 25th, 2012

微妙に体調が低空飛行気味なので、カツを入れるためにミカン買って食べたり。どこら辺でカツが入るのかは分からないのでここ最近やってないことをやってみたというだけですが、それでも午後は割と集中できてたかな。

進化計算班は4回目が終了。今週と来週の2週間ぐらいで「GAを何に適用するか(何を探索させるか/最適化するか)」を考え、クライアントとしての簡易的な要求仕様の作成を目指しています。テーマ提案の1週目では、グループ毎に2テーマ以上考えてきてもらって、各テーマについて「どうコーディングするのか」「どう点数化するのか」「致死遺伝子対策どうするか」といったあたりのことを討論検討。

テーマ検討だけで結構な時間がかかったので、オプションは前回粗く設計したマインスイーパもどきの実装として、最初の機能の途中までを書いてもらったぐらいかな。来週はリファクタリングに入るはず。多分。

話変わって言語処理で「似たような文」とか「似たような文書(複数文集合)」といったことをする場合、まずはその対象となる「文or文書」を何らかの「特徴空間」に写像し、その空間内で何とかして「距離」を測り、距離の長短を「類似度合い(距離が近いほど似通っている)」という尺度として利用する事で最初の目的達成を目指す事が多い。「文」をどう写像するかが一つの腕の見せ所になる訳ですが、そういうことにも使えそうな「記述要素辞書」なるものを久保先生らが手動構築したらしい。

出典: 久保木武承, 山本和英: “クエリと説明文の関係を表す記述要素辞書の構築”, 信学技報, vol. 112, no. 196, NLC2012-22, pp. 67-72, 2012年8月

我々は以前「ある話題語について検索したとき、得られた文章が話題語についてのどのような内容を説明しているかを推定する」という問題を設定した。例えば「ローパスフィルタ」ならば「機能」「副作用」「設計方法」などの語があり得る。これらの語を記述要素と呼ぶ。

具体例やもう少し詳しい話が研究室のサイトで公開されてますが、どうやら辞書データ自体も話次第(というか多分文字通りどのぐらい使われているかを確認するためにワンクッションおいてるだけと想像)で提供しているらしい。Wikipediaとかで大雑把な辞書代わりに使えなくはないけども、こういうデータがあるなら頼んでみようかしら。具体的にどう使うかというよりは、まずは眺めてあれこれ触ってみたいというのが趣旨なんだけど。

こういうコストかけてデータセットを作り上げていくというのもほんと大切な仕事だよなぁ。