Archive for the ‘イベントレポート’ Category

初人間ドックという名のアトラクション体験記

金曜日, 5月 24th, 2013

m_20130524102025519ec059719e0 m_20130524110713519ecb51a2c41 m_20130524123135519edf17912ad m_20130524145116519effd441b9f

豊崎にある健康管理センターにて初の人間ドックを受診してきました。予想より大分早く終わった(午前中に開放された)こともあって、午後は初めての県立美術館でのんびり過ごしてモス休憩して帰宅。ちょっとしたイベントというかアトラクション体験した気分に近くて楽しかったw

そもそも「人間ドック」というものが「良く分からないけど普段の健康診断よりは種類豊富で精密な検査するんでしょ?」ぐらいの認識しか無かったので、予約の時点で右往左往したりしましたが、次回のためも含めて備忘録メモ。

心音だったかな、何かが「一応正常なんだけどちょっと気になる波形」があったらしく、数年前に倒れて入院検査したが何も見つからなかったこととか話しました。普段の生活でもおかしくなったりしてないということで、「一応正常」ということになりました。長いサイクルで見れば後数年ぐらいで何かが出るのかなとか個人的には思ってますが、具体的な要因が良く分かってないから何とも言えないか。

胃カメラ等の写真判定は後日正式な回答が届くということでまだ正式結果は分からないですが、現時点では、「自分で把握してる点」だけがやや問題という結果らしい。項目毎に4段階評価(A=問題無し、B=正常、C=やや問題あり、D=要経過観察)ぐらいに評価されて、殆どがAorB。Cに該当したのは「体重(BMI)、視力、コレステロール」あたり。BMIやコレステロール的には「標準の閾値に対して小数点以下だけはみ出てる」ってことで、体重もあるので少し気をつけた方が良いですねぐらいの指導でした。ま、そうだよな。

ちなみに、胃カメラの結果「全く問題無いけどポリープ見つかったので、次回以降も胃カメラにしてください」とのこと。バリウムだと間接的にしか見れないので問題がある状況になっても判別できないかららしい。ということは、今後バリウムを飲む機会は恐らくないのか。一度飲んでみたかったのに。。。orz~

胃カメラの際には2種類の麻酔をやったのだけど、人によっては「マズ/苦すぎて飲み込めない」ことがあるのだろうか。初受診ということで大分心配されたっぽいのだけど、何の問題も無いレベルでちょっとがっかりです(ぇ)。

次回はまた1年後ぐらいかな。元々「一度の受診だけで把握するというよりは数回継続して判断するもの」だろうとは思ってたんですが、基本は毎年受診するものなんだろうか。あちこちで「ウン十年毎年受診してるんだけどさ〜」みたいな話し声が。1年に一度のアトラクションという意味では悪くないんだけど、毎年ずっとというのはちょっとなぁ。

  • 代理店というか文部科学省共済組合 人間ドック助成のシステム上では「Aプラン/Cプラン」とか書かれてるけどそんな分類にはなっていない。デフォルトで胃の検査があって、他は追加で選ぶ形式っぽい。良く分からないから「日帰りの基本コースで」みたいな形で取りあえずは問題無さげ。(受診後の結果次第で別途精密検査が必要かどうかもある程度は教えてくれる)
  • 最初から散歩予定で早めに向かったのだけど、天気さえ良ければかなり良い場所。館内からの長めもGood!
  • 7:15受付開始のはずだけど、実際には10分?ぐらい前には始まってたぽい。2分前に散歩から戻ったら既に10名強が受付済んでた。
  • 今回は検便1回分しか用意していかなかった(事前説明上も可能なら2日分と書いてあっただけ)けど、受付時には可能ならもう一回分提出するようにお願いされた。結局無くても大丈夫だったけど。
  • 受診前に手荷物類一切をロッカーに置く形。一度受診が始まると「空いてる場所」にどんどん回されるので、朝イチで行けば比較的スムーズに進む。今回は7:15受付、11:30前には支払い完了。
  • 胃カメラでは2種類の麻酔。1種類目のゼリータイプは、最初少量を飲み込んだ後の2回目に「口の咽奥に5分程度貯めておく」は、あまり咽奥を意識しなくても問題無さげ。麻酔後に「違和感ある?」と聞かれるけど「何かが残ってる」という感覚はが少しあるぐらい。2種類目のスプレータイプは飲み込むだけ。麻酔終了後にそれが効くのを待つ間の休憩では素で寝てしまった。当然胃カメラ実施前に起こされるけど、軽くふらつく。麻酔効果を確認してるのか麻酔後に再度血圧をチェックされたけど驚くぐらい低くなってて軽くビビる(良くあるらしいが)。休憩終了後も暫くは違和感が残ってるけど、すぐは飲食NGだし、食べれてもOKと指定された時間になる頃には普段通りに戻ってた。
  • 結果に対する説明まで含めて終わった後に食事もついてくる。それ自体が予想してなかったけど、ヘタな食堂より遥かにウマいので大満足。これだけでもまた次回来る動機になる(受診料助成金以外にも1万以上支払ってるんだけど)。
  • 受診料はカード払い可

新入生歓迎LT祭り

月曜日, 4月 29th, 2013

m_20130429140818517e004258b9a m_20130429124653517ded2d229a4 m_20130429130530517df18ac7841

2年前から学生主体で立ち上げ&動いているイベント、新入生歓迎LT祭りが終了しました。#ieLTなツイートをまとめたtogetterではこんな感じです。テーマ調整はしてないはず(先にテーマ確定している分を見た上でテーマを後決めする人が多いぐらい)ですが、文字通りのネタだけに走った発表だけじゃなく「学生生活をどう過ごすか」という点についていろんな視点からの話題が集まっているのはある意味凄いのかも。

学生主体のイベントということもあって私自身は新入生に参加を促すぐらいしかやってませんが、技術部な名嘉先生や翁長先生は会場設営/サブスクリーンx2/タイマー/Ustream等あれこれ手伝われてたようです。去年までは「主催者が院生」だったと思いますが、今回は学部3年次ということもあり、後輩に限らず先輩らを巻き込んで仕事を割り振るという意味で良くも悪くも良い経験ができたんじゃないかと。

肝心の新入生は30人弱ぐらいは居たかな? 連休ということもあって学生自身既に予定入れてることもあるだろうということを考慮すると、予想よりも多かったです。これから先輩にどしどし頼ろう。そして来年には後輩に頼られるようになろう。

主催者+αにお疲れ会でもやろうかと思ってましたが、打ち上げを予定してたようなのでまたの機会にでも。+αが誰になるかは主催者に決めてもらいますw

履修指導が終了

金曜日, 4月 5th, 2013

m_20130405192140515ea5b4530ca

新入生向けイベントその3「どの講義をどう登録したら良いか」を説明する履修指導(要認証)が終わりました。昨日のインストール大会でインストールできなかったXcode関連は過半数がドキュメント+自力で終了してました。それぐらいのドキュメントを用意したシステム管理チームも、自力で進めた新入生も素晴らしいです。まだの学生も2割ぐらい?いるっぽいですが、今日の説明をする前にXcodeのダウンロードをさせておくだけで留めておきました。月曜日にまた集合するイベントがあるので、そこで最後の仕上げをやる予定です。

今日は、e13向けまとめサイト(要認証)の紹介、1年次前期に登録する必要がある科目の説明、そのために実質的に1科目分しか自由度が無いこと、シラバスの検索方法や見方、実際の登録方法、ポイント制、講義毎に受講できる人数上限数との兼ね合い、教職希望者向けの補足といったことの指導がメインでした。10名ぐらいの先輩らが駆けつけてきてくれたお陰で至らない部分の補足は大助かりでした。インストール大会含めてただ働きしちゃってる学生が少なくないですが、適宜声かけしてくれればご飯ぐらいはおごりますよ〜。

昨日(岡崎先生に)実施して貰った数学プレースメントテストの結果、20名弱ぐらいが学科提供の数学基礎演習の受講必須との結論に。苦手なのは苦手だと意識してもらって構いませんが、壁を乗り越えられるよう頑張りましょう。

後半で「16単位未満除籍」等注意事項を説明した後は、各自必修科目を登録申請してみるなり、何を受講するか探すなりして12時前まで先輩ら含めて個別対応して貰ってました。解散前に「まおゆう知ってる人?」と聞いてみた所ちらほら聞いたことがある的な反応が。いくつかカリキュラム内外でのお勧め記事をまとめてると紹介した中の一つがまおゆうの原作(魔王「この我のものとなれ、勇者よ」勇者「断る!」)なんですが、終了後に少なくとも一人は熱烈なファンがいることが判明。アクセスログ眺める限りでは17名(ユニーク数)はアクセスした可能性があるらしい。これだけいたら後はそう遠くないうちに全員に広まるよね? ということで「お前の目指す丘はどこだ!?」と4年間言い続けるプロジェクト(誰が何と言おうとこれは履修指導です!)が開始です。最後に新入生歓迎LT祭りの紹介もしたし、主催者も紹介したので伝え忘れたものは無いはず。

履修指導には4名が欠席してて、うち1名は事前連絡ありで午後過ぎに個別対応。連絡なかった別の1名も学内にいることが分かったので呼び出して個別対応。残り2名もこの記事書いてる時点で連絡が取れて、無事に講義登録が済んでることを確認できました。事前事後の連絡が無かった学生には報告するよう指導しつつ、一先ずは安心できるようです。

ただ、教務情報システムは落ち過ぎ。アクセス集中し過ぎなのが影響してるのは明らかなんですが、そうなるようにスケジュール組んじゃってるしね。ちょっとあれは改善の余地ありなんじゃなかろうか。年次懇談会ではそういうのも含めて意見収集するので、気になる点があったら忘れずにメモっとこう。

学科別オリエンテーション、インストール大会が一応終了

木曜日, 4月 4th, 2013

m_20130404080153515cb4e1d3089 m_20130404144804515d1414443f3

午前中は学科紹介、教員の自己紹介、学生の自己紹介をして今日届いた(!)学生証&アカウントを配布して終了。前日までに全く音沙汰なかったので既に配布済みなんだろうと思ってたら油断してました。

教員からのメッセージはいろいろありますが、総じて「チャンスを活かそう」「環境は提供する、後はやるかどうか」「カリキュラム外でも良いから卒業するまでに何かしら自信を持てるものを身につけよう」「入学定員は60だけど卒業生の数は50前後」あたりで、能動的に将来見据えて行動しようというようなお話。

学生自己紹介で面白かったのが数件ありましたが、個人的には「女子が怖くてビビってたけど男子ばっかりで安心しました」みたいな話が印象に残りました。半分事実かもしれないけど、あれはその場で演出考えて脚色してるんじゃないか説。ということで勝手に年次長候補にしとこう。実際にどうなるかは分かりませんが。ボードゲームメンバを募集した学生もいたので、そっちクラスタの人はうまいこと1年次を呼び込めると互いに接点増やせるんじゃないかと。と、何故か顧問している人が一応コメントしてみたり。

午後は数学プレースメントテストしてからインストール大会。数学のテストをいきなりやってるのは、個々人の能力に適したクラスを指定したいからです。例年いきなりスタンダードな数学系科目を受講させても無茶だよね、ということで入門科目を受講させるか否かの判断ですね。岡崎先生丸投げで申し訳ないですが、おかげさまで大分助かりました。どこら辺で境界線を引くか、中間層には自分で選択させるかとか悩んでますが方向性は固まりつつあります。

インストール大会は、購入してもらった MacBook Pro の環境構築&個人設定をするイベントで、ここ5〜6年ぐらい?はシステム管理チーム(≒以前のサーバ班)の学生が中心となって事前準備&当日対応しています。60名強を同時に相手するため、足りない人手はこの間募集しましたが、例年それとは無関係に面白がって参加している先輩が多いですね。Xcodeをダウンロードすることができず、それが必須な部分は後で個々人でやるなり後回しの方向に。ドキュメント参照できる状況を作っているので、そこは割とうまい代替手段の作り方だと思いました。一応明日もやってみます。

インストール大会の進行具合については、第三者として見ていた感じではまだまだ準備不足だったかなという印象。体験してみないと分からない事が多々あったと思うので、何かしら気づいたことは今後に活かせるようにしよう。どんな方法が向いているかも含めて、振り返りやすい(=ハックしやすい)形で記録に残すことを意識してみよう。

ということで、新入生向けイベント2日目が終了です。明日は履修指導の予定です。

新入生保護者との懇談会が終了

水曜日, 4月 3rd, 2013

m_20130403120359515b9c1f3d3a2

全学&情報工学科の新入生関連イベントが目白押しです。
 ・4/2, 全学オリエンテーション
 ・4/3, 入学式, 保護者との学科別懇談会
 ・4/4, 学部学科別オリエンテーション
 ・4/5, 履修等修学指導
といった感じで主催する方も参加する方も結構大変だろうな。新入生の年次指導教員を担当することもあって、バタバタしております。2006年度に担当した時はインストール大会も含めて全部自分でやってた(パッケージの準備はサーバ班任せだったけど)のを考えると、若かったなと感じるなぁ(遠い目)。

新入生は66名、3年次編入生は4名、合計70名らしい。というか新入生担当するはずなのに名簿がいつまでたっても送られて来なかったので今朝リクエストして、イベント開始前にようやく把握しました。

午前中が空いてたこともあって321室の掃除。軽くゴミ拾いしたら机の汚れが気になったのでついでに机拭きとかし始めちゃったこともあって午前中で既に暑すぎモードに。

昼過ぎから始まった保護者との学科別懇談会は、入学式(コンベンションセンター)と会場(琉大)が大きく離れていることもあってか年々参加者が減ってる感じ。大学生になったんだから自分で頑張れ、という気持ちなのかなとも思うんですが、学生側にそこら辺のけじめがついているのかは良く分からず。もし、学費も時間も支払ってだらだらor何となくで日々を過ごしている人がいたら、そもそも「何もしない」という大きなリスクを選択していることに気づこう

希望者向けの施設案内では、実験室、サーバ室(長田先生ありがとうございます)、長谷園(長田&谷口研メンバありがとうございます)を回って終了。なるべく階段上るのを避けるコースを意識して3階〜5階で終わるようにしましたが、それでも一部キツかったっぽい。

ということで、一つ目のイベント終了です。イベント関連情報はe13向けPukiwiki(要認証)に整理することに。学科アカウント持ってる人なら参照できるので、e13自体のログだけじゃなく次年度向け記録にもなるし。

夕方に、実験&TA関連する教員が集まって情報整理をしつつ、全学的にTA費が大分削られているとのことでどう対応するかを模索。実験3,4は、将来(次年度ぐらい)にグループを大幅に減らす(=1グループあたりの人数を増やす)方向を検討しつつ、今年度は前期後期共に8グループでの実施で様子見するらしい。

その他あれこれしながら明日明後日の準備。明日のインストール大会自体はメンバを募集済みなので学生に任すとして、金曜日の授業登録関連についてアドバイスしてくれる先輩を募集します。参加できそうな人は是非!

来週木曜日?には実験3の新テーマが始まるんだけど、具体的な準備は何もしてない。。本当に始められるんだろうかw

情報工学科運営戦略研究会

金曜日, 3月 29th, 2013

m_201303281217165153b63ce7ef1 m_201303281239555153bb8b15f2e

4月から東北に行くあっち〜さんとタイミングが合ったので、壮行会的にランチ。野菜のおいしいお店ということで最初は農場カフェを予定していたんですが、午後が詰まっていることもあってそこよりは少し近めのZumZumに。同じく今月一杯で移動になる野崎さんのプロジェクトで働いてた方ともご一緒して、新2年次になる人に「世の中は怖いよ」的な話で盛り上がりました(半分誇張)。

午後は「情報工学科運営戦略研究会」という名目で、外部の方と情報工学科の将来について「産業界や官はどういう期待をしているか」ということについて意見交換をしてました。JABEE受審してた頃諮問会議という名前でやってたことに近いですが、今回からの「戦略会議」では必ずしも何かしら抱えている問題について意見を乞うという形に限定せず、より広い視点も含めた話もできるようにということで名称変更しての再スタートとのこと。

今回の話し合いで出てきた「求めている人材像」や「こうしては」という提案的なコメントを以下に列挙してみました。いろんな立場の人の意見をそのまま書いてるので読みにくいかも。これ全てを満足することを目指すのではなく、卒業後の将来像を思い描く際の参考に一つ二つ含めて描いてみるのが良いんじゃないかと。

[ 運営戦略会議で出た意見の例 ]

  • 打たれ強い人が必要。叩かれても大丈夫な人。
  • 枠にはまらない人。尖った人。皆が同じことやっても全然進まない。
  • 問題を解決する前に、問題を設定する力。解けるように問題を作る。叩かれながら直していく。逆風に耐えながら修正していく。
  • 自分を信ずる力。Serendipity を大事にして欲しい。幸運をつかむ力。何が幸運かは分からない。後になって初めて「あっ」と気づく。やってみないと分からない。何があっても良い方に考える。
  • 総合大学であることを活かして、他学部他学科のことにも目を向けよう。外部のコンテストやプロジェクト等に応募することでもいろんな出会いを体験できる可能性が広がる。
  • クラウドの中の人とそれを使う人。中の人だと昔のサーバ班のようなことの巨大版。ネットワークを設計、設定、環境構築できる人。それのスモール版での演習があると嬉しい。使う人だと、例えばSaaSとか。データ解析、ビッグデータからどう付加価値を生み出していくかという人材。統計に強い人への需要が大きい。「解析しました」だけではなく、「繋ぎ合わせてこうしたらもっと良くなりますよ」とか提案できる人。
  • 統計については、一通りの解析技術を身につけて適切な技術を選択するというタイプと、新しい手法を提案できるタイプ、できれば両方を身につけて欲しい。新しい手法の提案タイプについては現場の実戦経験が要求されるだろうから、そこは産学連携なりで互いに強調し合う方法もある。
  • スマートフォン周りだと、現在はApple Storeとか個人で出せる市場があるので学科なり研究室なりでユーザに提供し、お金を儲けるという所までやって欲しい。何故かというと、エンジニアは自分の視点に寄り過ぎていることが少なくないので、市場が何を欲しているかということを味わって欲しいから。それを体験する中で味わった苦労が役に立つ。
  • トップダウンではないが、トップの学生にはサポートしてより高い目標を持ってもらいたい。何も考えずに入学してきた学生には基礎的なもの。学生を一緒くたに語ることはできず、2面性、3面性があるように思う。そういうレベルで層を分けて取り組む必要があると感じている。
  • 1年次の段階で、4年間での学習していくプランを考えさせるのはどうか。自分はどういう仕事に就きたいのかということを明文化させるのも良いんじゃないか。最終的にどう卒業してどう働いていくか。
  • 向き不向きがあるのは当然だが、修士だけじゃなく大卒にも何らかの形でリーダーになることを期待している。社会では基本的にグループでの作業になるため、少なくともリーダーを経験しておくことで「リーダーに何が求められるか、グループとしてどのように行動すべきか」といったことについて様々な視点が得られるだろう。

P.S.
似たような話題としてはNLP2011, 併設ワークショップ「自然言語処理における企業と大学と学生の関係」も参考になるかと。

2012年度のイベントレポート

水曜日, 3月 27th, 2013

m_20130326124607515119ff8d344

イベントへの参加ログをイベントレポート一覧に整理していますが、まだ追加していなかった今年度分を先ほどアップデートしました。2012年度は日本認知言語学会日本認知学会に初参加したのが大きな違い。無理矢理感はありますが振り返り記事として俯瞰してみぐらいには参加して良かったです。その先にまだまだ進めてないのは自助努力が足りてないですな。

2012年度

ミニワークショップ&ゼミ&追い出し会

金曜日, 3月 22nd, 2013

m_20130322191043514c2e23a6396 m_20130322191236514c2e946b3d1 m_20130322192321514c31190e20d

去年から始めているイベントで、修了する学生による「新配属学生向けのミニワークショップ」を実施してもらっています。具体的な中身は修了生に任せるとして、こちらからは以下のような依頼をしています。

[ 目標と補足 ]
・修論成果物のイントロor部分課題or全体像を体験してもらう。
・細かい内容はがっつり割愛し、イメージとして伝えるよう工夫。
 *例えば実験2の探索アルゴリズムでは「NNがどういうものか」を
  簡易説明だけで終わり、入力ファイルと出力ファイル、パラメータの説明だけで「学習」
  についての試行錯誤を体験させています。
  詳細は修論や参考文献読めば良いだけなので、おまじない/こういうもの、という説明でも良いです。
・必要に応じて成果物を参照できるようにする。
 *サーバにデータやプログラムを置くだけじゃなく、
  それらをどのように使うのかのドキュメントも用意しましょう。
  修論付録だけでドキュメントを完結する場合には「修論のありかを明示しつつ、付録参照」のように書いてもOK。
 *修論付録を用意できたら印刷(製本)前に一度確認させてください。
・「機械学習」など計算に時間がかかる部分では、
 ワークショップ中では小さなデータで試し、
 処理の過程を理解してもらった後で「3分クッキング方式」で「予め処理しておいた結果」を用意しておくとベター。
 数分レベルで終わるなら事前準備しておかなくても良いですね。

[ 内容と実施方法の例 ]
下記の例全部というわけじゃなく、どれかを組み合わせて90分程度で収めるという意味で例示してます。

>名嘉くんバージョン
(1) 設問文から特徴ベクトル(品詞モデル、回数、TF、TFIDF)を構築するやり方。
(2) 特徴ベクトルを用いた分類学習のやり方。
(3) F値や交差検定を交えた評価のやり方。
(4) 設問文に「設問外情報」を付与してデータセット&特徴ベクトルを再構築するやり方。
(5) 設問文に「語の集約」を適用してデータセット&特徴ベクトルを再構築するやり方。

今回の修了生は名嘉くんで、実際にやった全体の流れは以下の通りです。スムーズに済むなら1時間強ぐらいで済みそうですが、OSのバージョン等環境の違いで環境構築がうまくいかず、動作確認するまでに3時間近くかかりました。お疲れさまです。

  • 研究概要説明(背景、問題意識、提案、設問自動分類タスク、タスク全体の流れ)
  • 事前準備(データセット準備、MeCab, R, RMeCab, WEKAインストール)
  • データセット(1ファイル1設問)から特徴ベクトル生成。
  • 各種スクリプトを用いた2値分類器の構築&テスト。

ゼミではここ2週間出張続きだったこともあり、学会出張組みはその報告メインで振り返りと今後の方向性についての検討。新4年次向けには進捗報告しつつ、そろそろ新学期が始まるということで来週からちゃんとゼミやろうという話。あと、来年度から1年間(?)ぐらいの短期留学で韓国から留学生がくるので、チューターの調整。

あれこれ終わった後の追い出し会では、例年だと「いつ世」に行ってるのですが予約が取れなかったので名嘉くん希望のステーキハウス「サウスドラゴン」にて打ち上げ。ステーキ本体はブラックペッパーの効かし具合が個人的に素晴らしく、スープやサラダもまともで、久しぶりにステーキらしいステーキを堪能してきました!

言語処理学会第19回年次大会(NLP2013) 3日目(最終日)終了

金曜日, 3月 15th, 2013

m_201303151455365142b7d8dde59

NLP2013の本会議3日目が終了しました。これで年次大会が終了です。来年2014年4月には20周年になるらしく、次回の年次大会等で記念イベント的なものを盛り込む予定とのこと。

今日のスケジュールは、一般セッションx2回にポスターセッションx2回。今回は口頭発表とポスター発表の割合がほぼ同等になっていて、並列度が高いです。見たい発表をあれこれ見て回れるし、直接討論しやすいので個人的には良いですが。昨日体調崩していた学生もそれなりに回復できたようで、ポスターセッションにも参加できたらしい。

今日の発表の中で個人的に面白かったのは、RSTチックな依存構造木に基づいて文章間構造を加味して要約を生成する話、入力文そのものと別途用意した教師データを同時学習するオートエンコーダの例、多職種が集まった長期間のミーティングログ分析してみた話、政治家のプロジェクト毎の参画度合い抽出したいという話、動的変化する文章における「差異の小ささ(多くは同じまま)」を利用した問題定式化あたりです。

終了後は学生の興味半分的なリクエストに答えてマウンテンへ。個人的には10年ぶりぐらいで、前回の雪辱を晴らして無事に下山できましたw

以下、自分が聴講した発表に関するメモです。例によって私の理解不足で解釈誤りが多々含まれている可能性がありますので、ご注意ください。


目次


A5:要約, 座長: 西川 仁(NTT)


A5-1 談話構造に基づく単一文書要約 (pp.492-495), ○平尾努, 西野正彬, 安田宜仁, 永田昌明(NTT)

従来:文書は文/節/句といったユニット(have: 長さ,重要度)集合とし、最適化問題に落とし込む。
今回:ユニットの依存木とし、最適化問題に落とし込む。
 RSTによる談話木をユニット間依存の談話木(DEP-DT)へ変換するルール
  RSTの問題点:依存関係が陽には定義されていないEDUの組み(離れたEDU組み等)がある
  要約しやすいように変換:SはNを修飾することに基づき、親兄弟を利用
   依存構造木の生成
   トリミング(=制約付きナップサック問題)により要約生成:木構造制約の導入
   EDUのスコア調整
    重いノードが下にいると縦に要約作成してしまう
    要約という視点からは幅優先にしたい

naltoma: DEP-DT自体はどう生成する?
naltoma: DEP-DTによる依存構造木そのものの適切さはどのように評価できる?


Q: ラベルを一切使っていないとのことだが、RSTは木構造だがむしろラベルの方が重要だと思う。
 依存構造に変換した際にラベルをどう解釈するのか、ラベルは適切に付くのか、
 物語と節の関係が本当に正しいのか。元々のテキストが主張していないような
 論理的な関係が作られてしまわないか。
A: ラベルについては、依存構造木の末端から一度上がる箇所では確定。
 その後の遡りについてはおかしくなる可能性がある。
 ラベルについては必要ないのではというスタンス。

Q: 先行研究ではウェイトを使っていないようだが、
 提案手法ではウェイトを依存構造利用して調整せずに解いたらどうなるのか。
A: ほぼ一緒になると思うが、サテライトの使い方が違う。

Q: ツリーに変換した際にROUGEのスコアが決まりそうだが、どうなる?
A: 今やっている所。

Q: 変数としてILPの規模は?
A: バイナリ変数が100〜200。そこそこ大きい。
Q: 接続詞とかの制約付けると、問題として面白くなると思う。

Q: 自動的にRSTそのものではなく依存構造を分析するとのことだが、
 見込みとしてはどのぐらいの精度?
A: ツリー全体になるとはズレが多いと思うが、
 直接的な関係は7割ぐらいいけるんじゃないかと想像。


A5-2 断片数制御を取り入れた組合せ最適化による部分文抽出 (pp.496-499), ○安田宜仁, 西野正彬, 平尾努, 永田昌明(NTT)

抽出による方法 vs 生成による方法
抽出:重要文抽出が愛されている
 もっと短い要約を作りたい:「文」単位では大きすぎる(e.g., 検索スニペット)
 スニペットにも組み合わせ最適化のパワーを
 文より小さい単位(部分文)での抽出+過度な断片化の抑制
  部分文(文中の連続した単語列)を抽出したい

バイグラムを概念単位とする最大被覆問題で、制約付き線形計画問題として解く
 連続した語の表現:文内の各語について「個々から開始」「ここで終了」のためのニ値変数準備
 バイグラムの表現
 制約:各文から選択される部分文は高々1個

見方によっては「文抽出+文生成を同時にやってる第3の方法」
 問題意識
  ROUGEの弱みに付け込んでる?
  他の適切な自動評価?
  厳密解にこだわる必要性?

naltoma: 最後に述べられてた問題意識には同感。
 もう少しインタラクティブにするか、もう少し具体的な要求を加えるとか、
 「論理的に解く」レベルに制約加えた方が「欲しい要約」に近づくんじゃないのかなぁ。


Q: 実例で、今回の手法で有り難みが感じられる例があれば。
A: スニペットを想定。眺めてみると、一例として、
 良い感じの文から大量に取ってきて、
 他からががっと断片的に取りまくるようなのがあり、酷い。

Q: 部分文制約がないと現実的な時間で動かないというのは分かるが、
 その制約があると、文圧縮したのを複数個用意して最適化問題として選んでいく
 方法で良いのでは?
A: 結果的にそうなっており、仰る通りだと思う。
 任意の両端から切った文を用意して、制約ありで解く方がちゃんと解けるならそっちの方が良いと思う。
 比較しないと分からないが、スピード面では提案手法が有利かもしれない。

Q: バイグラム与えてしまうと名詞をばりばり取るような印象を受ける。
 モダリティを無視してるように思うが、作成される要約は適切か?
A: 大変問題。ただし、目的としてスニペット程度の生成だが、
 要約文としての適切さについてはその後の調整次第でどうにでもなると考えている。


A5-3 劣モジュラ最大化アルゴリズムを用いた文抽出と文圧縮に基づくクエリ指向要約 (pp.500-503), ◎森田一, 笹野遼平, 高村大也, 奥村学(東工大)

ユーザの要求により簡潔で素早く応答できるサービスのため、文抽出+文圧縮
 同時にやることで不要な部分を除外しつつ、必要な部分を選択できる
 複数文の部分木構造から、欲しい部分木をマージして要約生成
  整数計画問題は大規模になると解くことが困難
   submodular maximizationではグリーディに解くことで近似解を得られる

naltoma: この発表に限った話じゃないけど、
 「要約」を作る時は「何のために」とか「誰向けに」みたいな状況設定が
 必要な気がするけど、ベンチマーク的に用意されてる問題ではどのような背景で解が
 用意されているのだろう。問題次第とは思うけど、アプローチ側にそういう背景が
 出て来ないのが気になる。


Q: 比較結果で複数提示されているが。
A: 提案手法、圧縮無し、生成文から長さを無視して元の文を復元した際のrecallを比較。

Q:
A: 選んだ単語に対して減衰させていくため、厳密には整数計画問題として解くことができない。

Q: submodularを導入した動機は速度だと思うが、実際の速度は?
A: 真面目に早くなるようには書いていないが、
 2000文でKNPとかを除いて1,2分レベル。

Q: 同時に実行するという話があったが、
 網羅的に部分木を用意して選択することでも同時にやってることと同質では?
A: 全てを用意することができるなら同じだが、全て列挙すること自体が困難。
 冗長性とかを考慮することで必要なものが変わってくるので、
 同時に解く方が望ましいと考えている。


A5-4 トピックを考慮したグラフによる複数文書要約への一考察 (pp.504-507), ◎北島理沙, 小林一郎(お茶大)

複数文書要約(グラフ)+潜在トピックに基づいた文書処理(LDA)
 LexRankにトピックの概念を導入:文同士の類似度に、トピック分布類似度を考慮
 冗長性を削減するために表層的な情報を用いる:MMR (Maximal Marginal Relevance)

naltoma: ROUGE-1値で小数点第二位〜第三位での改善はどのぐらいの改善に相当?
naltoma: トピック分布類似度を考慮した方が良いとのことだが、
 考慮度合いが少し(α=0.1〜0.4)だと逆に下がってしまうのは何が原因?
naltoma: 単位を文ではなくより短い部分文、もしくはもう少し大きい単位で
 トピック分布類似度するとどうなる?


Q: トピック分布にLDA使ってるとのことだが、文単位ではどう処理している?
A: θは文書単位で求めた。
 文に含まれる単語に対するトピック分布の平均分布として算出。

Q: トピックを使った要約という時、どういう選択肢があり、何故グラフを用いたのか。
A: グラフにすることで文と文の関係を分かりやすく出力できると考えた。
 グラフに基づいた要約手法の中でトピックを導入したものがなかったのでトライ。
Q: 直感的にどういう性質の要約ができることを期待している?
A: ユーザによって書き方が違っても、トピックとして広く取ることである程度
 まとまった要約ができることを期待している。

Q: 別データも今後使いたいとのことだが。
A: レビューを想定。
Q: DUCは新聞データだが、新聞記事だと語彙的重なりがあって、
 同じような単語があると重みが被ってくれる。レビューだと
 スパースになる点を検討した方が良いと思う。


A5-5 Webニュース記事本文を利用した見出し文の意味具体化手法 (pp.508-511), ◎芋野美紗子, 吉村枝里子, 土屋誠司, 渡部広一(同志社大)

人間のパートナーとしてのロボット、円滑なコニュニケーション能力の必要性
人間らしい会話:能動性を感じるもの
 ロボット側からの話題提供:リソースとしてWebニュースの見出し
 見出し文の意味具体化:具体的な情報の追加+自然文への変換
  見出し文解析:分割とテーマ解析+動詞の解析+助詞追加+格解析
  意味具体化:動詞の追加+When/Whereの追加+Whoの置換
   概念ベース:語を「属性(別の語)、重み」の組み集合で機械的に構築

naltoma: 目的にマッチさせるなら素直に本文から重要文抽出する方が良さそうなイメージ。


Q: 作成例の「イスラエル云々」の例は何が問題だった?
A: 「発射実験する」という表現が日本語として不自然じゃないかという人がいた例。
 多数決で揺れ動きはあるが、意外と厳しめの評価と感じている。

Q: 見出しから作るなら、本文で補完する方が楽では?
 そういう可能性を考慮した上で、提案手法を選択した理由は?
A: 要約する時に見出し文が分かりやすく短くしてくれてるからそれを利用したいという
 ところから始まっている。動詞表現については確かに本文から取ってきた方が良いかと思う。
 ただし、Who格置換はオリジナル。

Q: 要約だと考えると、圧縮率はどのぐらい?
A: 圧縮率の算出はしていない。
 圧縮した情報だと思っているのは本文を圧縮したら良いとは考えている。

Q: 概念ベースは何を使っている?
A: 概念ベースで語を定義することで使える関連度計算を使っている。
 Who格置換に利用。


P3: ポスター(3)


P3-4 機械学習を用いた同義語の使い分け (pp.584-587), 強田吉紀, 村田真樹, ◎三浦智, 徳久雅人(鳥取大)

話を聞く前は数え方(一杯を数えるところを一つとも数えることができる)みたいな、どちらでも使える同義語を使い分けるのかと思ってました。実際には「誤った使い方」を使い分けたいという話らしい。基本的にはEDR辞書を使った素性(品詞がメインぽい)を使っているのですが、数十個(50以上?)まとめて使っているようで、どれが一番効いているのかは良く分からず。揃えたデータセットに対しては比較的良好な精度で分類できているようで、適用範囲を広げていきたいとのこと。


P3-5 パターンと機械学習による冗長な文の修正と修正のヒント出力 (pp.588-591), ◎都藤俊輔, 村田真樹, 徳久雅人(鳥取大), 馬青(龍谷大)

「冗長」というのもケースバイケースかなと思うんですが、「論文」ぐらいを想定しているのかしら。今回は、冗長パターンとなりやすい例として「可能」が含まれる文を収集し、人手で修正。修正前後のdiffから修正パターンをあれこれ構築するというのが「パターン」側の話。機械学習では修正前後の文を「パターン毎に分類器を構築して判定」するっぽい。もう少し上手いやり方がありそうだけど、その場では思いつかず。


P3-6 パターンと機械学習を用いた大規模テキストからの変遷情報の抽出と分類 (pp.592-595), ◎堀さな子, 村田真樹, 徳久雅人(鳥取大), 馬青(龍谷大)

個人的にかなり気になっていた発表の一つ。「変遷情報」という言葉から「ある人/モノ/事象に着目した時の年表的なもの」を想像していたのですが、実際には「特定のモノ」は想定していないっぽい。なので、抽出される変遷情報は「いろんな対象物が時の推移と共に何かしら変化するもの全般」になってて、それがあまりにも多種多様で分類を検討するのに苦労しましたという話。変遷する対象も変遷内容も問わないので、特に何かしら絞り込む工夫も必要としてないという意味では楽だったように思いますが、その分収集されるデータの収拾は大変だよね。うまく体系化してから個別に対策練るという方針かなとは思います。


P3-11 オートエンコーダにおける単語ベクトルの学習 (pp.612-615), ◎島岡聖世, 山本風人, 乾健太郎(東北大)

NNで入力と出力を同一にして学習させることで「入力を圧縮(近似)した中間層」を得られるというオートエンコーダについて、入力データとは別に教師データを用意する場合、用意しない場合とでどのような圧縮結果が得られるかを単語ベクトルの例で調査してみたという話。言語モデルなりの教師データをうまく追加してて、特徴ベクトルそのものの近似学習と潜在的な意味(=言語モデル)を同時に学習できるようにしている点がウマい。勿論、そこで与えた教師データに引きずられた近似になるんだろうけど、そこは何かしら引っ張ってやらないと「使いたい特徴を反映しにくい(運任せ)」になっちゃうだろうし。NNの構造&教師データの与え方はもうちょっと工夫できそうな気もします(なんとなく)。


P4: ポスター(4)


P4-3 多職種ミーティングにおける懸念導入表現「気になる/するのは」の多角的分析(pp.658-661), ○高梨克也(JST/京大)

いろんな語彙や知識について共通認識が少ない(=多職種)状況下で何かしら共有ゴールを見出しタスクを解決するに至るまでの、比較的長期&多数回のミーティングが対象で、「気になる/するのは」という言い方が耳に残ったので様々な観点から分析して見ているという話。最終的にはミーティングの支援を想定しているらしいが、今回は分析がメイン。基本的には全参加者がフラットな関係で、一部企業側リーダー的存在の人がまとめる時に「我々が気になるのは」みたいに主体を複数人にして自分らの主張をするために用いていたのが、ある程度互いの共有認識が取れてくると同じような言い回しでも相手のことを気遣った内容(本当にこれで進めて大丈夫?とか)に言及するようになるとか。「気に」でgrep検索するだけでも8割ぐらいの精度で関連箇所を特定できるし、その箇所で論点の推移などが見れて面白そう。


P4-14 情報科学論文からの意味関係抽出に向けたタグ付けスキーマ (pp.702-705), ○建石由佳(NII), 仕田原容(フリー), 宮尾祐介, 相澤彰子(NII)

論文全体(今回はアブスト対象らしいが)を網羅的に全てタグ付けしようという話。アブストで体系化&アノテーションしてみる限りでは割と揺れも少ない体系が作れたらしい。ただ、文間の意味関係は対象外っぽいように見えました。(違うかもしれないけど)


P4-21 何日目日記: 時間経過を揃えたソーシャル日記システムと時間特徴マイニング (pp.729-732), ◎粟飯原俊介, 中谷洸樹, 田中久美子(九大)

何かしら既存のソーシャル・ネットワーク上でのデータから時間経過を意識してデータ収集するという話なのかと思ったら、そういうサービスをあるものとして解析しましょうという話。


P5: ポスター(5)


P5-4 論文作成支援のための学生論文における不適切な表現の分析 (pp.753-756), ◎尾崎遼, 村田真樹, 都藤俊輔, 三浦智, 徳久雅人(鳥取大)

修正前後の文をdiffして学習用データを構築し、修正パターンを5種類ぐらいにカテゴライズして分類学習させようという話。気持ちはとっても良く分かる。


P5-6 『複合動詞レキシコン』ver.1 —形態的・統語的・意味的情報付与— (pp.761-764), ○神崎享子(豊橋技科大)

賑わってて聞けなかったのだけど、ポスターによると公開を予定しているらしい。


P5-10 意味関連辞書構築のための単語間関連度収集手法の検討 (pp.777-780), ◎後藤慎也, 鈴木良生, 田添丈博(鈴鹿高専)

「名詞-形容詞」という連続した単語間の関連度を求めることが目的で、素朴に自動収集すると不適切なデータまで集めてしまうから人手でやりましょうという話らしい。ゲーミフィケーション的に取り組みやすくさせることを想定しているみたいだけど、う、うーん。


P5-12 意味検索結果からのキーワードによる絞り込み効果の評価 (pp.785-787), ○大倉清司, 潮田明(富士通研)

クエリを自然文入力とする検索を想定していて、従来は自然文入力されても単語分割してAND/OR検索+αぐらいとしてるのが多いところ、クエリの意味構造を解析して検索に役立てようという話。ただ、その意味構造部分(中間言語)にどう変換してるかはATLASの内部機能を使っているという話で済ましちゃってて良く分からず。


P5-15 語彙的連鎖を用いた調停要約生成手法の提案 (pp.794-797), ◎朱丹, 渋木英潔, 森辰則(横浜国大)

調停するための要約生成について、これまでだと「その話題には無関係なノイズ」まで含めてしまうことがあったので、4種類の語彙的連鎖(肯定的繋がり、否定的繋がり、トピック的繋がり、特殊表現繋がり(?))を使うことで取り除けないかトライしてみたという話っぽい。ただ、その繋がりをどう見つけて、どう活用しているかという部分は良く分からず(私が理解できなかっただけだとは思う)。


P5-18 Twitterにおける話題語の抽出と周期に基づく分類 (pp.806-809), ◎佐々木謙太朗, 田村一樹, 吉川大弘, 古橋武(名大)

常態的な特性(夜はツイート数が増えるとか)を除外し、指定したタイムウィンドウを範囲とする周期的な話題を分類できるようになっているようにも見えるのだけど、一般的な周期特徴抽出と比較してどうなのかが分からず。提案手法のメリットも主張していたのだけどメリットに聞こえなかったので。


P5-20 他者のコメントの引用を考慮したオピニオンマイニング (pp.814-817), ◎岡山有希, 白井清昭(JAIST)

ブログでは「他者のコメント」を引用した上で意見を主張していることが少なくなく、その引用部分に引きずられて全体のネガポジ判定が失敗することがあるとのこと。そこで、引用部分を判定&削除してから意見部分のみを対象とすることでネガポジ判定を改善しようという話らしい。


P6: ポスター(6)


P6-4 談話レベルの推敲支援のための人手修正基準 (pp.830-833), ○飯田龍, 徳永健伸(東工大)

「談話レベル」とありますが、小論文とか新聞記事とかぐらいの何かしら推敲しながら書かれた文章を想定しているっぽい。人手修正データを集めるために専門家に依頼しても「助詞の修正」とか細かい修正に留まることが少なくなかったので、談話単位に分割して依頼することで「談話単位での入れ替えといった文章構造」についての修正データも用意できたとのこと。その修正データから体系化してみている段階らしい。


P6-11 サポートベクターマシンに基づくHit Miss Networkを用いたインスタンス選択(pp.858-861), ◎小幡智裕, 佐々木稔, 新納浩幸(茨城大)

インスタンスというのは学習用データのことらしい。データ件数が多すぎると学習コストが大きいので、精度を落とさず事例数減らしたいよねというのが動機のようで、何を減らすかをあれこれ試している所らしい。先行研究と比較して良くなっている(うまく精度保ったまま事例を減らせている)のだけど、検証しているデータ数自体が数百件レベルでそもそも減らす必要も無さそうなので、「BigDataとか必要ないんじゃない?」みたいな所で検証して欲しい気もしますw


P6-15 地域政治情報コーパスへの賛否の積極性に関する注釈作業 (pp.874-877), ◎筒井貴士, 我満拓弥, 渋木英潔(横浜国大), 木村泰知(小樽商大), 森辰則(横浜国大)

「ある事例にどのぐらい関わっているかを知りたい」みたいな動機で始めているらしく、最初は単純に「賛否」ぐらいで捉えていたがそれでは不十分で、賛成については「どのぐらい積極的に関わっていたか」まで見れないと政治家毎の比較が十分にはできないとのこと。また、議事録からは9割ぐらいが賛成なので、反対しているものを高精度で検出することも必要とのこと。


P6-16 「CD-毎日新聞データ集」に含まれるデータの特徴について (pp.878-881), ○長谷川守寿(首都大)


P6-17 潜在的意味を考慮した効果的な適合フィードバックへの取り組み (pp.882-885), ◎芹澤翠, 小林一郎(お茶大)

短いクエリでうまく絞り込むために使われる事が多い適合フィードバックよりも高精度化の手法を目指して、潜在的意味(LDA)を考慮した再ランキングしてみたという話っぽい。リランキングの話をあちこちで見かけるけど、インタラクティブに数回繰り返すうちにユーザの目的が変化してくることを想定しているものはないような気がする。暗黙的に固定したままで問題にならないのかなぁ。


P6-22 音声対話およびTwitterにおけるユーザのパーソナリティ自動推定 (pp.900-903), ◎藤倉将平(早大)

文毎にBigFive尺度(外向性/神経症傾向/開放性/調和性/誠実性)について自動分類してパーソナリティを構築したいという話っぽいのだけど、話や討論を聞いている限りではどうやってデータを用意しているのかが分からず。


A6:形態素解析, 座長: 笹野 遼平(東工大)/h2>


A6-1 動的変化する文章を対象とした自然言語解析に適した解析アルゴリズムの考案 (pp.904-907), ◎鈴木潤, 永田昌明(NTT)/h2>

解析法(デコーディング)の話
 文章入力->文分割/節分割等
 動的なデータ、編集途中の文章:適宜変化するような状況(e.g., リアルタイム文章構成システム)
 生テキストからのいくつかの自然言語解析問題の同時解析
  整数計画問題で定式化:汎用的な開放の特性をウマく活用したい
   時刻t-1から時刻tへは基本的に「挿入/削除」
   時刻t-1と時刻tの文章の大部分は同一
   各時刻tにおける整数計画問題Ptとして記述
    PtとPt-1は最適化変数と制約の大部分が重複:いくつかの変数/制約が追加/削除された問題

一つずつをウマく解きたいのではなく、全体として効率良く解きたい
 双対分解に基づく解法の特性が使えるかも?
  部分問題に分解して解を得る解法、最適化中の変数の増減に対応可
   時刻tになっても続いていると看做す
   解きやすい問題を先に解くことで他の計算が楽になる
   メッセージパッシング的に「さぼるか否かフラグ」を設定

naltoma: 動的に変化するものの、一部分だけの変化だよねという点をうまく使っているという印象。
 タイピングに限らず「機械的に待ちが発生する状況」では割と汎用的に使えそうなアプローチ。


Q: 日本語入力では1文字ずつ変換候補出す時に役立ちそう。
 毎回辞書適用してて問題無い。応用面で本当にシビアな話なのか?
A: 同じ問題意識も感じていて、全てが早ければそれで良いかもしれない。
 今回は文章単位でやっているが、なるべく局所的な単位で済ませたい。
 計算機早くなればなるほど人間の入力には追いつけるので、
 実際何に使うかは考えている所。
 アルゴリズム的には全部やり直すのは勿体無いというところへの寄与はあると思う。

Q: ミソとしては1ステップで削除とかしてるとさぼれる所が多いところだと思うが、
 削除と追加を3ステップとかもう少し増やすとどうか。
 さぼれる所が増やせつつ、精度担保できたりとか。
A: この問題自体が若干スパースで、スキップしたらするほど早くなる可能性がある。
 数ステップ見るというのはそれが向いている処理がありそう。


A6-2 翻字と言語モデル投影を用いた高精度な単語分割 (pp.908-911), ○萩原正人, 関根聡(楽天)/h2>

複合語と翻字:例、ブラキッシュレッド
 人間の場合、英語知識(英語言語モデル)があれば暗黙的に英語に置き換えて正しさで判断
 翻字と言い換えを利用
  問題点
   オフライン手法:言語資源を更新し続ける必要
   文字種(片仮名)に依存:中国語に適用不可能

オンライン手法の提案:単語分割と同時に未知語を処理
 言語モデル付加:原言語における頻度を利用, f(ブラキッ), f(シュレッド)
 言語モデル投影:翻字+対象言語における頻度


Q: ゼロ頻度の問題は?
A: ゼロのまま扱っている。
Q: 既存の所で単語分割できていないものにはあまり効かないのでは?
 言語モデル投影については影響が少ないかもしれないが。
A: 投影の方は、翻字モデルの設定、英語言語モデルにも依存している。
 そのため、広く拾ってくれることを期待している。

Q: JUMANの方が強かったとのことだが、レキシコンをデフォルト値でも負けるということは、
 レキシコン頑張って揃えた方が良いのでは。組み合わせで頑張ろうとする動機は?
A: 実際にはそうだと思う。レキシコンの量が一番効いてくる。
 限定的に使ったり、解析していくうちで未知語が多そうな場所があれば解析する
 というような部分的な適用を想定している。

Q: 翻字が複数ある場合は?
A: 全部考える。
Q: 学習時に間違ってしまうことは?
A: 学習文に対して正しい翻字が付いていないので、スコアが高いものを正解としている。
 そこが間違うと誤った重みを学習してしまう。


A6-3 UniDic2: 拡張性と応用可能性にとんだ電子化辞書 (pp.912-915), ○小木曽智信(国語研), 伝康晴(千葉大)/h2>

使いやすくなったUniDic2の紹介
 斉一な単位(短単位)による解析、柔軟な見出し付与が可能、音声研究に利用(アクセント付与可能)等
  データの可読性を高める:基本情報と付加情報に分割
   UniDic-XML、UniDic-Tools


Q: XMLデータについて、実際に出現したコーパスが一例でも付いてると嬉しいが、どうか。
A: 付いていないが、付加情報として別途用意する形での公開は可能。
Q: 平仮名と漢字のような表記揺れにはどう対応する?
A: 対応可能。
Q: 同じ表記で異なる場合には対応できる?
A: そこまでは対応できない。
Q: 「@」に読みはないのか。
A: 語彙素読みと発音読みを用意している。
 補助記号については読みを与えないというスタンスで構築しているため、
 ユーザ側で付与して欲しいと考えている。

Q: XMLを自分で書いていくのはエンドユーザでは難しい。
 元々人間が書くものでもない。Webサービスなり何か書きやすくするとか、
 シェアできるようにするような予定は無いか。
A: できたら素晴らしいと思う。
 年度内に辞書データを外に出すことを検討している。
 何でも追加してしまうと体系が崩れてしまうこともある。


A6-4 絵本のテキストを対象とした形態素解析 (pp.916-919), ○藤田早苗, 平博順, 小林哲生(NTT)/h2>

なぜ絵本か?
 幼児への入力の一つ(読み聞かせ・読書):発達心理学的には重要な入力の一つ
  発達心理学的には:幼児の言語発達の研究、教育支援
  自然言語処理的には:ひらがな対応等
   絵本データベースの構築
    多くの子供に読まれている絵本+対象年齢が比較的はっきりしている絵本:合計1200冊
    本文は人手入力、改行等そのまま入力
    字のない絵本もある
    ひらがな75.6%、カタカナ6%、、、
     BCCWJ: ひらがな49.2%、漢字30.3%、、、
     京大コーパス: 漢字42.8%、ひらがな42.6%、、、

既存の形態素解析器では殆どうまくいかない
 KyTeaの再学習を使ってモデル再学習
 ひらがなや空白の影響を調査
  空白の入れ方はバリエーションに富んでる
  口語体/方言用モデル構築も必要

naltoma: 固有名詞追加したのであれば、mecab等でもうまく分割できそう?
 -> そうでも無さげっぽい。


Q: 平仮名まじりの形態素解析器をやったことがあり、
 タスクとしてはIMEの方が近いかもしれない。
A: ありがとうございます。

Q: 漢字にするとかあったが、文全体をやるのではなく一部平仮名+一部漢字に
 すると良くなりそう。「いちごの赤い」みたいなケースで、赤いに引っ掛かるので。
 元々のDBの文字の意味を見て、絶対漢字で現れないものを反映させると精度上がるのでは。
 トレーニングデータに入れるのも良いとは思うが、BCCWJみながら検討して見ると良いのでは。
A: 検討します。

言語処理学会第19回年次大会(NLP2013) 2日目終了

木曜日, 3月 14th, 2013

m_20130314150112514167a8f2df0 m_20130314161326514178966306e

NLP2013の本会議2日目が終了しました。一緒に参加してる学生は体調不調でポスターセッションは見れなかったっぽい。直接話しながら聞けるし、これぐらい盛り上がってる場もなかなか無いので勿体無いとは思うけど、無理しても仕方ないので明日チャンスがあれば、かな。

今日の内容は、一般セッション1件、論文賞を受賞した人らによる講演3件、招待講演1件、ポスターセッション2件で、早朝から夕方まで詰まってるタイトなスケジュールでした。

招待論文講演1では、「片仮名列から単語列へ変換する」というタスクを解決できると、従来の形態素解析器が苦手としているケースでも精度向上するだけじゃなく、「アンチョビのソース」みたいな状態で「ソース」がプログラムコードなのか調理でのソースなのかといった曖昧性解消にも繋がるし、結果として機械翻訳における精度向上にも役立つというタスクらしい。人間でも「後で気づく」ことがあるけど、その1シナリオをうまく実装しているなという印象。

招待論文講演2では、一般的に検索エンジン使ってる状況下では一度の検索で十分な結果が得られるとは限らないので、再度検索し直す(=リランキング)ということを繰り返す。という状況下を想定して、インタラクション後(特定ページを選好した後)のリランキング結果を良くしようというタスクに取り組んでいるらしい。というか何度かリランキングという言葉は見かけてたのだけど、その人達が受賞してたのね。

招待論文講演3では、オフショア開発等でもニーズが出てきた「外国人の書いた日本語文における助詞誤り」を翻訳という捉え方で自動修正したいというタスクらしい。「誤りパターン」を機械学習させるのは良いとして、擬似的な誤りデータを生成させ、それを「実際に誤っているデータ」との差をドメイン適合(素性空間拡張法)し、適合した疑似データを使って機械学習しましょうという話。個人的には、実データをベースに擬似データを生成するってのはお試しでやったことがあるのだけど、思ってたほどの効果が得られず放置してました。ウマく疑似データを生成してやらないと効果が薄いらしいけど、ここにドメイン適合持ってくるのは目から鱗だ。

招待講演2では、ヴァーチャル日本語-役割語の謎-もっと知りたい-日本語の金水先生による講演で、「おお、そうじゃ、わしが知っておるんじゃ」のように文章だけで「話者の人物像に密接に結びついた話し方(の類型)」についての話。田舎っぽさについては海外でも良く見られ、広い範囲での地方語を混ぜて(日本だと東西の地方語を混ぜて)田舎っぽさを演出するのが常套手段らしい。内容だけじゃなく話し方もとってもウマくて楽しかった!


目次


A4:評判・感情解析, 座長: 乾 孝司(筑波大)


A4-1 感情軸における感情極性制約を用いたマルチラベル感情推定 (pp.244-247), ◎江崎大嗣, 小町守, 松本裕治(NAIST)

文に含まれる感情を自動推定する
 複数感情が含まれることを考慮していない
 感情同士の関係を考慮していない
  嬉しいと悲しい/嬉しくない=悲しい?
   感情対モデルの導入+SVM回帰+極制約+軸制約
   Markov Logic Network
    SVM回帰と比べて、MLNはデータ数の少ないところで高い値を示している

naltoma: 感情対モデルと信頼性を用いた制約(極制約+軸制約)を導入しているが、
 話し手/書き手の特性に依存して調整する必要が無いか?
naltoma:
naltoma:


Q: エラー分析で、感情語の影響が大きいとは?
A: 「楽しかった旅行の思いでも冷めてしまった」は「楽しかった」に引っ張られて喜びと
 判定してしまった。
Q: 1文に含まれる感情語は一つという前提?
A: そうではない。

Q: 平均出してる結果は全サンプルでの結果?
A: 提示したのはマクロ平均。マイクロ平均でも同じ傾向を示した。

Q: 制約は相当強い制約に思えるが、感情毎の強さはデータ数で決めた?
A: データ数ではない。

Q: マルチラベルがポイントだと思うが、評価はマルチでやらない?
 喜びと悲しみが同時に出たとして、それを同時に評価。
A: そういった指標は今後考えていく予定。

Q: 感情語を含む文と含まない文があると思うが。
A: 今回は含む文という仮定。
 感情が生起しているという前提で推定したかった。
 生起しているかしていないかという分類器が必要。
Q: 「楽しかったけどホゲホゲ」とか、文全体を読んだ時の感情を導く必要がある?
A: その通り。


A4-2 レビューテキストを対象とした評価条件の抽出手法 (pp.248-251), ◎中山祐輝, 藤井敦(東工大)

評判分析
 「対象:属性:評価表現」評価値?
 「目的:条件」別目的には?
 「状況:条件」別状況では?
  評価に関する条件(評価条件)を考慮した評判分析の高精度化を目指す

レビュー文からの評価条件抽出
 入力:対象、属性、評価表現が抽出された文
 出力:評価条件

naltoma: 評価条件が別の文に書かれているor示唆していることはないか?
naltoma: 評価条件と属性は明確に異なるもの?どちらかが上位?部分的に重複?
naltoma:


Q: 文節単位で見た時に、一番右側の分節を当てることが重要かつ簡単に思う。
 そこから左に遡るとか。評価表現中の当てやすい分節というのはないのか?
A: 決めることはできないが、前の分節からの距離が近いほど当てやすい傾向がある。
 評価表現から前の分節をどんどん辿っていって当てていく手法が考えられる。
 系列を考慮した手法として検討中。

Q: 何が評価条件なのかというアノテーションの基準を決めるのが難しそう。
 例えば最初の例の「値段に」は条件?
A: 今の所条件と考えている。値段と綺麗を比較した時に、恐らくギャップが生じる。
Q: 基準を決める際に難しかった他の例は?
A: 原因なのか条件なのかの判断が難しい例があった。
 特定利用者や特定状況を想定しており、それ以外であれば根拠、そうでなければ条件として決めている。

Q: 評価条件は対象に対する条件を求めたい?
 「可愛い女の子だから楽しかった」は今回の対象?
 レビューはオブジェクトがあってこその評価。
 対象とは関係ない条件も取れてしまわないか?
A: 対象というのが動作の主体を表しているということ?
Q: 「動物園に行った。女の子と一緒だったから楽しかった」とか。
 これは条件じゃない?
A: 今回は検討していなかった。


A4-3 Twitterにおける観点に基づいた意見文クラスタリング (pp.252-255), ◎鷹栖弘明, 小林聡, 内海彰(電通大)

意見にはいくつかの観点が存在
 Twitter対象に観点毎に意見分類
  キーワード検索>関連ツイート収集>ツイート特定>周囲ツイート収集>意味的クラスタリング

naltoma: 「観点」はどう抽出/設定する?
naltoma: URLや他媒体、他ツイートを取り上げて意見を述べる場合があるが、それは後で考慮?
naltoma: 「関連ツイート」対象はその本人の時間的前後ツイートのみ?


Q: 目的について。やりたいことは、特定意見について観点毎にまとめるようだが、
 時間が似ているというのがピンと来ない。
A: あるトピックについて複数観点について述べるということに、
 内容について類似度を求めるなら、時間類似度は必要無いかもしれない。
 一人のユーザが複数観点を述べることは想定していなかった。

Q: クラスタリングすると何が取れるか分からないと思うが、
 取れたクラスタが観点毎になるようにコントロールしている?
A: 特にコントロールはしていないが、頻繁に出てくる単語/文字列については、
 例えばニュース記事のタイトルなど、
 それだけでクラスタリングされてまずいことになる。
 そこの補正はしている。

Q: 実際に出てきた結果、クラスタはどうだったか?
A: 「地震、状況、政党」とラベル付けできるクラスタが構築された。


A4-4 情緒推定における状況の対称性を考慮するためのパターン辞書の拡張 (pp.256-259), ◎野口和樹, 徳久雅人, 村田真樹(鳥取大)

パターン辞書:情緒名/判断条件/情緒原因/情緒主
 入力文「子供がピーマンを食べる」
 状況設定:子供はピーマンが嫌い ->希望出力「嫌だ」
  生理に「不快」な状況も考慮する必要がある
   対象な情緒属性の追加により網羅性向上
    情緒原因毎に一定数調査+機械的追加

naltoma: パターン辞書を拡張していくことで、逆に誤ってしまう事例はなかった?


Q: 「情緒」とは? 「感情」との違いは?
A: 一般的に感情と呼ばれているものとの差は無いと思う。
Q: 感情分析における位置付けや、使われている用語が一般的な用語と異なるため、
 余計に位置付けが良く分からない。
A: 情緒推定はテキストマイニングへの寄与を考えている。
 情緒主が得られれば、その人はどういう感情を持ちやすいというようなことへの利用を想定。
Q: 「同意」とかも用語が一般的でないので、整理した方が。
A: ありがとうございます。

Q: 辞書にパターンを追加しているが、情緒判定での評価になっている。
 目的を考えると、パターンが正しいかを直接判定することが良さそうだが、
 そうしていない理由は?
A: 対象なものを追加したということで、元々の情緒属性が含まれてしまう。
 追加したものに絞らずに拡張性の妥当性を調べる方が優先度が高いという判断。
Q: 対象な情緒属性を追加しているかどうかを評価した方が良いのでは?
A: 元々情緒属性があるというのと、継続的に進めている辞書が完成したということもあり、
 全体の評価になった。

Q: 知識ベースについて。最終的なゴール対してどのぐらいに達していて、
 どのぐらいで完成しそう?
A: 入力文に対して「情緒主と関連事物の関係」が分かる前提になっているため、
 そこを自動判別する必要もある。実際にブログでの評価をしてみる必要がある。


A4-5 ソーシャルメディア上の発言とユーザー間の関係を利用した批判的ユーザーの抽出(pp.260-263), ◎高瀬翔(東北大), 村上明子, 榎美紀(日本IBM), 岡崎直観, 乾健太郎(東北大)

実態(企業/製品/人など)に対する意見が大量にある
 風評被害を起こすような非難も
 特定実体の非難ばかりを行うユーザ/評判を落とそうとしている->風評被害防止
 批判的ユーザ(日常的に特定実体を非難)の抽出
  揶揄や省略、くだけた表現
   「使いづらい商品、流石です!」
   「A社の新製品が使いづらい」←「@ 馬鹿だからだな」←どちらを非難?
  同じ意見のユーザが互いに指示関係で結びつく性質

naltoma: mention, 非公式公式RTを除いても問題にならない?(自身のツイートだけで
 十分判定できるぐらいその頻度が高い?)
naltoma: 風評被害の場合だと「特定物体」とは限らず様々なものをRT(支持)しまくる
 ユーザがいると思うが、それはうまく考慮できる?
naltoma:


Q: テキスト解析とグラフ解析を組み合わせたのがポイントとのことだが、
 グラフ解析はどのぐらい寄与したのか。
A: 今回は入力をランダムにしているため、グラフが分断されても問題無い。
Q: 揶揄とかについて、グラフ解析の結果をそちらにフィードバックすることはできそう?
A: できると思うが、まだやっていない。

Q: グラフ分断について。A社で検索したツイートとのことだが、それが繋がる?
 たまたまお互いがリツイートしている?
A: 1ヶ月間収集すると1万人以上集まり、その中から発言数が多いユーザに絞ると
 関係が密になっている。

Q: Precision/Recallグラフで戻ったりしてるカーブはあまりみられないと思うが、
 それは何故?
A: 本当は非難じゃないものを非難と取ることもあるため、そうなることがあると考えている。


招待論文

論文1: 言い換えと逆翻字を利用した片仮名複合語の分類, 東京大学・鍛冶, 喜連川

言い換え表現の認識に基づく片仮名複合語の高精度な分割
 ゴルゴンゾーラソース -> ゴルゴンゾーラ/ソース
 言い換え表現の認識:ゴルゴンゾーラのソース Gorgonzola sauce

片仮名複合語は日本語において新語が形成される典型的パターンの一つ=未知語の源泉
 生産性が高く、辞書資源への登録が追いつかない
 単語分割器は未知語の解析が苦手 [Emerson 05]

タスク:片仮名列から単語列への変換
 構造予測問題として定式化
 単語n-gramなどの基本的な素性+言い換えと翻字に基づく素性
  言い換えでは、「助詞は単語の切れ目にしか挿入されないはず」
   アンチョビソース->アンチョビのソース
  逆翻字では、「英語では分かち書きされるので、分割箇所が明確」
   「…アメリカではジャンクフード (junk food) と言えば…」

naltoma: 「取り過ぎてしまう」ことで分割誤りしてるケースにはどんなケースがあるんだろう?
 それは抑えられそう?


Q: 比較結果について。新素性使わないのはどういう提案手法?
A: 最終的に提案したいのは新素性を使うもので、使って無い方はベースラインとして独自実装。
 単語unigramとかをしよう。
Q: 翻字や逆翻字自体の事例は多数あるが、どう違う?
A: 翻字研究でどう分割しているかは、読んだ限りでは形態素解析器を通したケースが多いように感じた。

Q: 和製英語の問題。ガソリンスタンドは括弧表現が出にくいとかありそうだが、
 悪影響があるのか?
A: 目視限りする限りでは和製英語も取れていた。
Q: unigramが効いている?
A: 翻訳対としての抽出結果として取れていた。

Q: 片仮名で書いてる和語に対する悪影響は?
A: ネコとかも取れてた。悪さをするというのは確認出来ていない。

Q: 精度評価をEDICTでやってるので取りやすいところで検証しているのが勿体無いと感じた。
 実際のコーパスに適用した時にどうだろうか。
A: webから収集して検証したいが、集中したい所以外の問題が多々あってやっていない。
 ある程度長いものが取れると、遠くの関係まで見れるのが効きそう。

Q: 共起も使えるのでは?
 統計的機械翻訳と比較してどうなのか? 文として翻訳したとき。
A: 共起も使えるとは考えているが、まだ比較していない。
 バイリンガルコーパスを使うのが困難で、モノリンガルから取れる所が嬉しい。


論文2: テキストの表層情報と潜在情報を利用した適合性フィードバック, 京都大学・原島, 黒橋

一回の検索で良いランキングが得られるとは限らない
 検索結果をリランキングする手法が必要
  適合性フィードバック:フィードバックと類似する文書を上位にリランキング
   従来手法:文書に表層的に現れる単語だけを用いて類似度算出
   提案:潜在的に現れうる単語も用いる+潜在的単語の分布はトピックモデルで推定

実験
 NTCIR 3 ウェブ検索評価用テストセット:1100万ページ+47検索課題
  検索課題毎に約2000文書に適合度が付与されている

naltoma: 類似文書をリランキングしているが、
 ユーザがリランキングする際には「同じ側面/視点」について述べている
 という意味での類似では? トピックモデルがそこに近いことをやっている
 かもしれないが、保管されるデータが側面/視点とは限らないので、
 類似文書検索に機能するのは理解できるが、リランキングとして機能しているのかが良く分からない。
naltoma: (トピックモデルのような形で潜在的な嗜好を見積もれる?)


Q: 提案手法とライバル手法を比較する際、ステップ2は同一?
A: INITはステップ1そのまま。ライバルはαを0にしている。
Q: 提案手法はステップ2と4の両方が効いているように思うが、
 潜在情報のフィードバックというより最初のLDAが効いてるのでは?

Q: 検索課題毎の内訳はある?
 トピックによって効き方が違うとか。
A: そこは見ていない。

Q: 人手でフィードバックするという話だが、やった人が本当に選んだ?
A: 正解と書いてあるものを選んでいる。
 テストセットの中にある代表的な正解文書を使っている。
Q: 初期検索群に出ている?
A: とは限らない。

Q: relevance feedback で文書特性を比較してリランキングする手法と比較してどうなる?
A: やってみたい。

Q: 潜在情報フィードバック時に、線形和ととっていたがどう設定した?
A: 開発セットでチューニングした、ベストな値を採用。


論文3: 小規模誤りデータからの日本語学習者作文の助詞誤り訂正, NTTメディアインテリジェンス研究所・今村, 斎藤, 貞光, 西川

外国人日本語学習者の作文誤り訂正
 教育目的だけではなく、オフショア開発でのニーズ
 日本語学習者作文の誤り傾向の調査(正しいと判断できる最小限の修正をするよう添削指示)
  翻訳と同じ考え方:誤りを含む学習者作文を正しい文に変換することで対応

モデル学習のための事例が大量に必要
 1. 日本語平文コーパスの利用
  修正文相当と看做す
  n-gramニ値素性のスパースモデル+言語モデル確率実数値を、識別学習で全体最適化。
 2. 疑似誤り文によるペア文の拡張
  学習者作文を模した疑似誤り文を自動生成
  疑似誤りと実誤りの分布差をドメイン適応技術で対応
   素性空間拡張法 [Daume 2007]

naltoma: ドメイン適応で自動生成したものを補正するという視点が面白い。
 がしだし独自モデルで疑似事例生成&ドメイン適応させて学習させると再現率向上に寄与?
 -> 疑似誤りはうまく作らないと適合率/再現率に寄与しにくいらしい
naltoma: ドメイン適応させるとして、ターゲットはどのぐらいの事例があれば良いのだろう?
 ドメイン次第なのは分かるが、何かしら指標が無いか?


Q: 助詞の追加は名詞の後に限定しているようだが、
 名詞の後に既に助詞があるという状況でも挿入すべき?
A: 挿入すべきかどうかは考えずに、可能性があるという視点で許容している。
 できるだけ削除したいので、そういう制約を設けるというのもリーズナブルだと思う。

Q: 使う学習の事例は助詞だけが誤っている文?
A: はい。
Q: 訂正コーパスの中に助詞と同時に他の誤りもあると思うが、それは使わない?
A: 使っていない。
 今回は助詞のみの誤り。

Q: 誤りコーパスを書いた外国人はどれぐらいの日本語能力がある?
A: 日本滞在歴半年〜6年ぐらい、中国の方。
 日本語能力自体はばらけていると思う。ただし、大学に通っている方。

Q: テストの時は他の誤りも含む?
A: テストの時にも助詞誤りのみ。
Q: そこをいれるとどれぐらいの性能差が出そうか?
A: まだやっていない。


招待講演2, 司会:川添 愛 (NII), 役割語研究の現在, 金水 敏 氏(阪大)

講演概要資料: PDF
 書籍
  ヴァーチャル日本語-役割語の謎-もっと知りたい-日本語
  役割語研究の地平
  役割語研究の展開
  日本人の知らない日本語

役割語(話者の人物像と緊密に結びついた話し方の類型)の例
 「おお、そうじゃ、わしが知っておるんじゃ。」
 「あら、そうよ、わたくしが知っておりますわ。」
 「うん、そうだよ、ぼくが知ってるよ。」
 役割語=話し方と人物像(キャラクタ)の連合
  ステレオタイプの一種とも考えられる
  ミスマッチの感覚を共有できている(社会的に共有されている)
   共有があるからこそ創作の場で使うことができる

役割語の基盤
 現実(認知)>個体/共同体(共有,ステレオタイプ化)>作品(仮想現実における創作,受容)>個体(制約)
  生成>継承を伴うが、必ずしも現実に基づかない: e.g., 宇宙人の声, 動物の喋り方
  現実の発話行動に制約をかけることもある: e.g., 女の子はこう喋るのが普通
 老人語は歴史的に遡ると江戸時代には既に出現
  若者:江戸語 老人:上方語

研究の展開
 対称研究、翻訳論、翻訳研究
 英語の役割語:方言(e.g., ハリーポッターのハグリッド)。特定語においては性差も。
  田舎っぽさを演出する常套手段:東西幅広い方言を混ぜる
 ポピュラーカルチャーに特化された特殊な言語ではなく、言語の本質を捉えるための有効な視点の一つ

naltoma: 役割語があるためにN次創作活動が促進される触媒として機能してたりする?
naltoma: 何故ここまで日本語では役割語のバリエーションが豊富なのだろう?


Q: 共通して持つ役割語が時代と共に変わるということだが、
 時代毎に一つなのか、複数あるのか。
A: 今日見せたのはかなり共通して絞られたもの。もっと分裂しているタイプもあるはず。
 小説読んでても女性台詞で古くさく感じることもあり、
 現代という一つを取っても感覚がズレてくる。
 大阪弁の例では、大阪弁が下手だとボロクソに言われる。
 他では許容されたり、感謝されたりするらしい。

Q: 動物の文末詞がでてきたが、相手が知らない情報をシェアしているかという
 分析は可能だろうか?
A: 神戸大のサダノブさんが、キャラ語尾をキャラ・ポピュラとキャラ・助詞に分けて、
 起源や機能の違いを明らかにしている。

Q: どうして日本語だけここまで多彩な役割語があるのだろうか?
A: まだ日本語だけかは分からない。
 ヨーロッパの例では「私」を言うにも自由度が多数あり、語順にも自由度がある。
 必要条件ではなくて十分条件。韓国語もコンコーダンスが無いという点では同じだが、
 「私」の言い方は一つ。条件が整っていて、かつ、それを使い分けているというのは、
 今の所日本語ぐらい。古いものを余り捨てないというのも影響していると思う。
 中国語の場合はどんどん捨てていく。日本では多様性を趣味的に愛するフェチっぽい
 ところがあるのかもしれない。

Q: 電車に乗ってると男女での用語の使い分けが減ってきているように感じる。
 好きなものに付随している役割語が増えていくというようなことはあるのか。
A: あると思う。例えばオタク語等のように、そこに属する人たちが使うように
 感じる役割語というのが出てきやすくなっているかもしれない。
 ある特徴をつかみ出して利用すること自体は誰でもできる訳でもないし、
 細かすぎて通じないということもある。
 ある種の役割語における保守性と単純さというのはあると思う。

Q: 個人の役割について。ニュースらしくならなくなってしまう書き換えというのがある。
 「らしさ」がなくなる。格調が無いとか。お役所の役割、組織の役割、みたいなものについて
 研究している事例はあるか?
A: お役所的な公式見解的なものは「文体」と繋がってくると思う。
 サダノブさんの例では意図的ではなくにじみ出るものだと主張している。
 役割語というよりはスタイル研究に近いのでは。

Q: 引用方法にも書き手がコントロールしている側面もありそう。
A: これまでの話はプロに近い作り手の立場からの話だったが、
 日常談話の中でも他者の話をリポートするというのは良くある。
 そこでもうまく引用しないと話が伝わらない。
 役割語的な機能や知識は日常で運用している。


P1: ポスター(1)


P1-2 当事者による議事録を用いたミーティングの中心的課題の特定 (pp.326-329), ◎臼田泰如(京大), 高梨克也(JST)

最終ゴールはまだ決まっていないようですが、「似たようなテーマについて話合っている複数グループ。ワークショップのように中心人物があれこれ用意して話を進めているケースや、ブレストチックに話を進めているケースで、参加者自身が作成した議事録と書き起こした討論ログを付け合わせて何かしたい」みたいな感じっぽい(多分)。取りあえずは両者に共通しているものを重要トピックとして抽出するとかいうことをやってるみたい。


P1-9 数量の大小の自動判定:「彼は身長が2mある」は高いか低いか (pp.354-357), ◎成澤克麻, 渡邉陽太郎, 水野淳太, 岡崎直観, 乾健太郎(東北大)

個人的にはそれを判断する状況&主体によって変わるから、その状況や主体を自動抽出するという話かなと思って聞きましたが違いました(そこは今後の課題っぽい)。今回は、「70億人の水不足→沢山の人々が水不足→深刻な水不足」というような推論するために必要な「大小知識」を自動獲得してみるという話だったらしい。


P1-17 ナイーブベイズ法を用いた意味役割付与に関する実験的考察 (pp.386-389), ◎岩澤拓未, 杉本徹(芝浦工大)

述語に係る語が果たす意味的な役割(深層格)を自動付与しようというタスク。事例の偏り、特に極端に少ない事例に対する問題(ゼロ頻度問題、スパースネス問題)に取り組むため重み調整してみたことで多少回避できたとか。精度的には事例数の多少にあまり影響しないらしい。


P2: ポスター(2)


P2-1 博物館の展示解説に対する興味の具体化を支援する可視化手法の検討 (pp.402-405), ◎梅本顕嗣, 谷口祐亮, 小島正裕, 西村涼, 渡辺靖彦, 岡田至弘(龍谷大)

visualization, summarization の一種。出発点が「博物館の展示解説」で、確かに「ある展示を見たまま何分も解説音声を聞き続けるのは怠い」と思うのだけど、解決手段がそれに対する特化したシステムには見えませんでした。良い意味では汎用性があるのだけど、悪い意味では新しい点が良く分からず。


P2-2 意味的逆引き辞書『真言』 (pp.406-409), ◎粟飯原俊介(九大), 長尾真(京大), 田中久美子(九大)

システム名は「真言」と書いて「まこと」。目標は、比較的自由度の高い記述で入力される「ホゲホゲでフガフガっての何て言ったっけ?」に答えることらしい。似たようなの一杯ありそうなのだけど、発表者曰く無いっぽい。


P2-6 文字列の出現頻度情報を用いた分かち書き単位の自動取得 (pp.422-425), ◎岡田正平, 山本和英(長岡技科大)

一般的な形態素解析器(分かち書き器)は辞書を持っているのですが、そういう辞書がないだけではなく正解データも無しに分かち書きできるシステムを作りたいという話。考古学とかでの「誰も読めない古代語の解析」みたいなものかなーと。辞書や正解データ無しというのは、そこの整備コストがゼロで済むという点では確かに嬉しそう。だけど、現状でのシンプルな頻度ベースでは、広く使われるようになった単語(=とっくに辞書登録されてる単語)しか分かち書きできそうにないのが問題。まだ導入実験のようなので、今後に期待。


P2-9 わかりにくさと修辞ユニット分析 (pp.434-437), ○田中弥生, 宮部真衣(東大), 保田祥(国語研), 荒牧英治(東大)

「わかりにくさ」は読み手によって、もっというと読み手の知識や状況によって異なると思うのだけど、そこら辺は今後の課題っぽい。現時点では「文脈化程度」を定義して、それにもとづく分析を通して「文脈からの分かりにくさ」がどのようにどのぐらい影響しているかを調査しているっぽい。


P2-11 教師あり機械学習を用いた段落の順序推定 (pp.442-445), ◎伊藤聡史, 村田真樹, 徳久雅人(鳥取大), 馬青(龍谷大)

レポート/小論文/論文あたりをを対称にした話かなと思いきや、対称は新聞でした。媒体毎に特性が異なると思うのだけど、そこはまだ意識していないとのこと。現時点でもまだ精度高くない(=適切な素性を作り込めていない)ですが、青空文庫でも試してみたいとか。小説には小説特有の段落があると思うので、もう少し何をやりたいかを練った方が良さそう。


P2-14 歴史の選択問題を解くため必要なフレーム的知識に関する考察 (pp.453-456), ◎板持貴之(東大), 三輪誠(マンチェスター大), 鶴岡慶雅, 近山隆(東大)

RITEの一種だと思いますが、大学入試の歴史問題における「選択問題」で、「確実に誤ってるもの」をうまくスコア評価したいという話。現時点では人物名に絞って、Wikipediaから自動で必要となる背景知識(問題文上では出て来ない知識)について収集し、フレーム的知識表現を構築していってるらしい。基本的には単文での判定を想定していて、「文1,2とも単独では正しいが、組み合わせがおかしい」みたいなケースは考えていないというか必要なさげっぽい。少なくともRTEベンチマーク的にはそこは見ていないとのこと。ただし、単文判定でも「単純に正誤判定」するだけではうまくいかないことがあり、「4択で○○××と判定したらどうするか」とか、別の問題があるらしい。


P2-18 ユーザの視点を考慮したレビュー文の比較 (pp.468-471), ◎坂梨優, 小林一郎(お茶大)

膨大なレビューから「自分が知りたいトピックに関する文を収集したい」っぽい。1文を文書としてLDAすることをベースとして、WordNetやジャッカード係数等で制約かけて絞り込んでみたという話かな。


P2-22 段落見出しの自動生成に向けて (pp.484-487), ◎川口人士, 佐藤理史, 駒谷和範(名大)

重要単語抽出問題として設定して、単語抽出した場合とそれに関係する別語も用いた場合との2種類の見出し生成をテストしてみたという話らしい。見出し生成してる事例がないという話だったけど、そうなの?