Archive for the ‘日記’ Category

言語処理学会第18回年次大会(NLP2012) チュートリアル日レポート

火曜日, 3月 13th, 2012

自然言語処理学会第18回年次大会(NLP2012)のプレイベント(チュートリアル)」が始まりました。全体スケジュールとしては以下のように進むようです。

・3/13: チュートリアル(2セッションx2)
・3/14: 本会議第1日(通常セッションx2、ポスターセッション)
・3/15: 本会議第2日(通常セッションx1、ポスターセッション、招待講演x2)
・3/16: 本会議第3日(通常セッションx2、ポスターセッション)

今日のチュートリアルは、乾先生の意味談話処理、鹿島先生のネットワークと機械学習に参加してきました。スライド資料も配布された(リンクも下記掲載)ので、この記事では会場でのQAや、個人的に感じた疑問/感想などの備忘録がメインです。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>


(T-a) 3月13日(火) 13:00-15:00 (603講義室)司会:ジェプカ・ラファウ(北大)「大規模言語資源時代の意味談話処理」乾健太郎 氏(東北大学)

チュートリアル資料: PDF

合理主義(古いAI)->知識獲得のボトルネック
 経験主義(統計的機械翻訳/情報抽出)
  情報爆発->大規模な知識獲得
   うまくいけば推論/意味談話解析に繋がると期待
大規模言語資源のインパクト
 (1)外部資源の利用
  naltoma: どのタイミングでどの資源を参照するかをどう決定する?
 (2)意味解析モデル構築と知識獲得の融合(今回のメイン)
 (3)実応用の広がり

1. Annotation layer cake

 レイヤー毎に最適化。
  述語項構造から「より統合された意味処理」には大きな飛躍がある。

2. 情報抽出と知識獲得の今

 「情報抽出モデル=抽出パターン集合」->パターン収集
 様々なアイデア:単一文書からの抽出->複数文書からの抽出(大規模化)
  十分に大きくなると、意味解析がオープンドメインでできるのではないか。
  単語-パターン行列
  ペア-パターン行列
   ブートストラップ->意味ドリフト(意味曖昧性)->多様な手掛かりで解消
    抽出対象は明示的な関係のみ。
    モダリティ(事実性)、時間、量化等との統合。
 明示的関係をパターン抽出(従来の意味解析相当?)+非明示的関係を同定(従来の談話解析相当?)

 naltoma: パターンの組み合わせや解釈が意味?解釈をどうやる?
 naltoma: こうして得られたパターン集合が「知識」?
 naltoma: 「知識/パターン」は不変固有のものか?

Q: スケールアップするかどうかという話で、30万件というのは確かに多いがまだまだ沢山必要だと思う。時々マニュアルチェックで落としたりしながら半自動抽出しているとのことだが、スケールするぐらいのコストでやれそうか?
A: そこは大切な観点だが(著者本人ではないので)分からない。述語項構造が一つのキーになっているが、それとは別のパスがfeasibleになってきているというのが今回の紹介。
Q: 意味ドリフトの「多様な手掛かりで解消」という話があったが、そこで与えられるパターンは人手作成?
A: ブートストラップによる自動抽出。学習。人手でやってる所もあると思うが。
Q: マック型の情報抽出の場合はタスクを設定されている。一般化可能か?
A: 非常に大切な観点で、答えはないが第4章で話してみたい。

3. open issue) Making the implicit explicit

 非明示的な関係の例:含意
  まだまだこれからという状況
   手続き的アプローチ: semantic enrichment
   論理ベースのアプローチ: interpretation as abduction
    スケーラブルな推論エンジン

 naltoma: 「含意関係認識」という切り離してタスク設定することにより見逃しているタスクはないか?(他にどんなタスクが必要か?)

Q: 知識関係をロジックで書くとき、度合いみたいなものはどうやって扱う?数値を入れたりする?
A: 基本的に非常に難しい、誰も解けていない問題だと思う。ロジックに関しては、マルコフの例では確率を導入しようとしている。尤度関数を学習する等して扱おうとしている研究例もあるらしい。
Q: モダリティも同じ枠でやる?
A: モダリティ、可能性の所まで行かなくても真偽判断みたいなレベルでのパターンで一部は可能。全部やれるかというと難しい。どうすれば良いかはまさにこれから。
Q: abductionの所で仮説評価関数も多分学習可能だろうという話だったが、評価関数というのはそれが備わると「良いinterpretation」というのを判断できるようになる?
A: 恐らくその通り。仮説の良し悪しを重み付け学習するということだと思う。
Q: 皆が納得できるような「これは入っているべき」というのもあると思うが、逆に深読みし過ぎとかいろいろバリエーションがあると思う。研究者としてどう切り分けるか。
A: 問題。生成問題として切り分けて考えることもあるかもしれない。難しいからこそ研究対象になっている。問題の落とし方が今後の大きな鍵になると思う。

4. open issue) やわらかい記号の世界

 実体/関係のクラスをどう決めるか:さじ加減/粒度問題
  データベースを参照可能な、量化を含む意味表現の学習: semantic parsing + interpretation
   陽に構造与えなくてもある程度学習できる
  クラス粒度を自動選択
 ドメインオントロジー無し
 ラベル無しクラスタリング
 クラスタも作らない
  ベクトル空間モデル、語の意味を文脈ベクトルで表現: compositional distributional semantics
 ラベル無しの意味表現だけで自己完結できるか?
 Propositional & Distributional semantics の融合?

 naltoma: 汎用的なクラスというのは環境依存で設定可能かもしれないが、ある所で頭打ちにならないか?(環境依存したものは汎用的なクラスになるか?)

Q: クラス粒度の話があったが、クラスタリングにしたからといって粒度の問題を解決できるとは思えない。どの粒度にするのかという話が必要では。
A: その通り。一方で、人間が決めた記号/ラベルが必要ではない世界も考えれる。ラベルの話。
Q: パターンというのに焦点が当たっていたと思うが、パターンを定義、整理できるか。
A: トップダウンな定義はないと思う。実際に起こっていることは、元々は表層の単語列やスロットがあって、古典的な情報集出があってそれが拡大解釈されてきた。素性の組み合わせで表現するというのはかなり一般的なパターンと考えられるが、実はもうパターンと呼ぶべきではないかもしれない。今回は簡略化するためパターンと呼んだ。特定ドメインで調整するというところからオープンドメインで重み調整するという時代になってきた。
Q: このあたりが意味処理の進展ということ?
A: レイヤー毎にもいろいろ起きているとは思うが、今回のストーリーでは尖った所に焦点を当てた。

5. ルールを作る所から

 レイヤー毎に精度向上目指すというルールを作っているのは誰か?

naltoma: 「常識的な知識」は記述しきれるか?
naltoma: 直接的な記述無しに処理する「自然言語処理」は?
naltoma: 自然言語を通した「理解」には正解があり得るのか。入試問題のような「できるだけ誤解しないように編集された文章」は例外的で、多くの状況では「個々人が相手に伝わっている/相手の意図を解釈出来ていると思い込んでいる」だけに過ぎず、実際どのように「理解」しているかは微妙な気も。数学的に解釈可能な自然文だけに制約されていないか。(根拠のない妄想だけど)


(T-c) 3月13日(火) 15:30-17:30 (603講義室)司会:高村大也(東工大)「ネットワークと機械学習」鹿島久嗣 氏(東京大学)

チュートリアル資料: PDF

ネットワーク構造を持ったデータを扱う機械学習問題を、
 {内部,外部}ネットワーク x {ノード,リンク}推論
の4通りに分類。
いろんなモデルについて、どういう仮定の下でどういう構造を学習しているか。

スコープ1: 内部/外部ネットワーク

 内部ネットワーク: 注目するデータ単位の内側にあるネットワーク構造
 外部ネットワーク: 外側にあるネットワーク構造、e.g.: ソーシャルネットワーク

 naltoma: 内部/外部は解析対象という概念で切り分けられているが、この切り分けは自明?

スコープ2: 個々のデータに興味がある内外の関係に興味がある

スコープ1 x スコープ2
 内部ネットワーク: 部分構造に注目した線形モデルの拡張
 外部ネットワーク
  ペアワイズ予測/マルコフネットワーク
  潜在変数モデルラベル伝搬

 naltoma: 候補モデルがあるが、これらを一通り試して合算すると「全体を知る」ことになる?(抜けてる解析対象は無い?)

分類のためのモデル: 線形識別モデルはすべての基本

 部分構造袋表現: 組み合わせ的に数が増加
  パタンマイニング法: 重要な部分構造だけ取り出す
   最初の「組み合わせの多さ」をうまいこと解決する必要がある
   連続値ラベルには少し弱い(離散化が前提)
  カーネル法: 類似度ベースのモデル
   カーネル関数をうまいこと設計する必要がある
   学習後のモデル適用時の計算量がデータ数に依存

データ内の構造にフォーカスした解析: パタン発見と構造予測
 構造予測は、モデルの出力候補が指数的に多い。分類モデルを直接的に適用するのは困難
 CRF/構造化パーセプトロン: 線形識別モデルの拡張
  素性ベクトルの設計を工夫: 入力と出力が組みとして正しいかを測る
   素性を絞ることで、動的計画法等を適用し効率化を測る

外部ネットワークを持つデータの解析

 個々のデータにフォーカス: ノード分類、ノードクラスタリング、ランキング
  ラベル伝搬法(ノード分類:隣は似ているという仮定)
  マルコフネットワーク(ノード分類:隣は似ているとは限らない、より一般的なモデル)
 関係データのフォーカス: リンク予測、構造変化解析
  リンク指標(リンク予測:2つのノードが共通にもつ隣接ノード数で重み付け)
  ペアワイズ予測(リンク予測:線形モデルの2データ組への拡張)
   パラメータ行列Wの低ランク性を仮定し、実行パラメータ数を減らす:ランク、次元圧縮
    解釈:ある種の素性グルーピング
    最適化の観点からは低ランク制約は凸集合の与えない
     トレースノルム(特異値の和)制約(L1ノルム制約)で間接的に低ランクを解く
 両者に共通: マルコフネットワーク(より一般的なモデル)
  行列/テンソル分解、確率的ブロックモデル(潜在変数モデル)

潜在変数モデル: ノードの潜在的な状態を仮定するモデル

 2つのノードないし局所的な構造を用いる
 連続的な潜在変数: 行列分解、テンソル分解
  協調フィルタリング(GroupLens): 暗に行列の低ランク性を仮定?
  低ランク性を仮定して行列分解
   特異値分解は全要素が観測されていることが前提
   補完問題の場合:適当に埋めてから分解/EM的繰り返し(埋める分解)
   大規模データの場合:観測部分のみから確率的勾配法
   凸最適化として解く場合:トレースノルム制約
    *スケールしないので時と場合による
 離散的な潜在変数: 確率的ブロックモデル(静的)
  各ノードに離散的な潜在状態が与えられる
  潜在状態の組みに応じた確率でリンクが張られる
  混合メンバシップモデル: リンク毎にノードの役割が変わるようなモデル(動的)
   解釈
    LSI: 連続的な潜在意味のインデクス
    LSIの離散版がpLSI(確率的ブロックモデル)。
    混合メンバシップモデルがLDA。

テンソル(多次元配列)分解:他ノードの関係の表現

 例:関係の時間的変化(顧客、商品、時間)
 テンソル分解:行列の低ランク分解の一般化
 CP分解:特異値分解の自然な拡張(コアテンソルが対角;正方)
 Tucker分解:よりコンパクトな表現(みっちりコア;各モードの次数が異なる)
 応用事例
  ソーシャルネットワーク分析(人x人x時間)
  タグ推薦(人xWebページxタグ)
   Webページに付けるタグを推薦
   人によってタグの付け方には個性がある
 課題:組み合わせの数が組み合わせ的に増加
  低ランク仮定だけでは足りない
  観測が粗になっていくと予測精度の悪化が顕著
   低ランク性+外部情報の利用「隣は振る舞いが似ている(ラベル伝搬)」

Q: テンソル分解で時間を入れるという話があったが、例えば時間変化を入れるというのは、時間の順番が必要そうだが入れ方に工夫があるのか。
A: 時間的に連続しているから入れるべきだという考え方もあれば、周期的な繰り返しに意味があるとして入れるという考え方もあり、導入方法自体が一つの発見でもある。一つの例がラベル伝搬的な考え方。

Q: リンク予測で、のーどを予測するというような話がないか? リアルには存在しているけどSNSには存在しないとか。リンクが欠けている場合ではなく、ノードが欠けている場合。
A: そういう問題を解いている例はある。問題としては難しい。多くの事例があるわけではない。

Q: リンク予測やる時に最適化問題として解くと、欠損部分がないという状態で解くのは気持ち悪い。問題としてはリンクが無い状態で学習しているにも拘らず、リンクが無い場所を予測しようとする問題の建て方?
A: 扱い方にもいくつかある。リンクの有無を正例/負例として扱うこともあるし、PositiveかUnlabeled(分からない)として扱う場合もある。現実的には適当に持ってきて負例にするケースが多いかも。
Q: 過学習とかも問題にならない?
A: できることには限界がある。結果的にはゼロの所は半分負例と考えていることにもなったり。

Q: テンソル分解でネットワーク予測ではCP分解の方が精度通いという話だが、その理由は?
A: 経験的にそうだというぐらいの話。Tuckerでは直行性が悪さをしている可能性があるかも。
Q: データによって異なる?
A: 確認したソーシャルネットワーク、タグ推薦では限定された範囲だがCP分解の方が良かった。

Q: 自然言語処理で行列上のパラメータを扱ったものがでてくるのではないかという話だったが、1次元のベクトル上だったものが行列上になるとカーネル法が使われたような形で凄いスパースなものになる。そういう意味でカーネル法があった。これから粗な行列を扱うにあたって、何らかの解決がされているのか、何らかの対処が必要なのか。
A: 低ランク性とかが対処の一例。実質的なパラメータの数を抑える。

Q: グラフのデータが商用的にもはやっているが、SNSとかでの大規模なデータではどういうツールなりを使っている?
A: 個人的にはそんなに大きなデータは使っていない。
Q: 大規模化しないといけないというような話はある?
A: 大規模化というのは当然考えるべきことではあると思うが、個人的な興味で言うとモデル自体に興味がある。

naltoma: グラフやネットワークとしてどう表現するか自体が一つの問題では?(ノードやリンクの定義無しに推定する?)
naltoma: ノードの存在推定もできる?(意味のある推定?)
naltoma: グラフとして表現してしまった時点で情報が編集されてると思うが、これは人間が理解するモデルとして妥当か?(自然言語処理として目指すゴールとしては妥当?)

naltoma: 「自然言語処理」のゴールって何だろう? 頭脳プロジェクトでの「一般的な高卒レベルであれば読んで解釈できる」とかってゴールはある程度想像しやすいけど、こういうのって「実はロジックで記述可能な文章」に制限されてたりしないんだろうか。根拠のない妄想だけど。

情報処理学会 第74回全国大会 を振り返る

土曜日, 3月 10th, 2012

情報処理学会 第74回全国大会が日程上終了しました。

上記レポートでは基本的に質疑応答を中心とした備忘録がメインでした。

この記事では、「聴講した発表」で興味深かった内容等について整理します。

整理といってもピックアップしながら何が面白かったか(どういう視点で見てたのかとか)をコメントとして残しておくだけですが、いろんな視点があるんだよということをこの記事読んでる学生に少しでも伝わると嬉しい。

Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)
PDFが与えられた時に機械的に「意味的に繋がりのある箇所をグルーピングしていく」という話。目新しさは感じなかったけど、人工頭脳プロジェクトみたいなケースでの「用紙を見たときに論理構造を自動で抽出したり、図表イメージ等を説明文と紐付けて解釈する」ところでは必要になる技術だよなという点で「残されてる課題」が何なのか気になりました。図と説明文を紐付ける方は、NIIの「テキストからの物理モデル生成に向けて」で話を聞けると思うので、楽しみ。

中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)
同様に人工頭脳プロジェクトを意識して聞いてました。この発表は「(有理数の演算で解くタイプの)文章題を解く」というソルバ自体の提案。この手のアプローチにおける根っこは数理論理学で、実際にテキスト解析しながら論理式&論理記号に変換するところをやってるという理解で合ってるのかな。そうだとして、似たようなアプローチが多々あるんだろうけど、既存アプローチでの問題点などが気になるのと、「直接文章には現れない【常識を加える】ことで不足知識を補う」ところを手動でやってるところは残念。いや、手動でやっても良いとけど、対象としてる「中学校レベル」では(a)どのぐらいの数が必要なのかが想定できているのか、(b)そもそも時間かければ解決できる問題なのかといった意味での「記述可能性」が気になる。

質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)
アプローチはともかく「ユーザがシステムに入力した質問文中に情報が不足している場合」という視点に共感を覚えました。全部が全部じゃないですが「特徴ベクトルで類似度云々」という話であれこれ処理しようとしてると「どういう処理であれ特徴ベクトルが適切に構築されている」という前提が必要になるんですが、そうじゃなくて「不適切だったら適切になるよう作り直そう。必要なら情報源広げよう(バイアス/縮小/集中しよう)」という設計指針で動くシステムであっても良いわけで。

冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)
一種の要約・サマリ生成タスクだと思いますが、こういう「まとめる」タスクにおいて「何を除外するか、どういう視点でグルーピングするか」といったことまで含めて半自動化で指示しながら整理できると嬉しそう。

マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)
Google trendsbuzztterを合わせたような話。堀川くんがやってるテーマに近いですが、こういう話を聞くと抽出漏れや痒い所への手の届き難さが気になってしまいます。2chまとめサイトみたいなものでも良いですが、まとめる人(システム)毎の面白さがあって良いと思いますが、ユーザが操作できる余地を用意できないかなーと。

準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)
めちゃくちゃ細い回線上に一方通行な回線(約6秒に1回250bit程度)だけど、アジア・オセアニア全域カバーできることもあって、何かしら防災に役立てられないかという話。具体的なオペレーションが(多分)設計できてないようですが、グリニッジ標準時みたいに何かしら世界標準規格化できると便利になりそうな予感。

日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)
日本人の観点で作られた「やさしさ」が本当にそう感じられるのかが分からないということで、実地調査含めた検討をしたいという話。原語と意味や発音が異なることが多い「外来語」が「やさしさ」に比較的相関しているとのこと。「理解する/誤解を生じ難い文章」という観点での「自然らしい文」が推定・自動生成できるようになると嬉しいよね。

文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)
「消費者-広告代理-出品者」という3者間のマッチングを改善するため、「消費者が検索時に入力する任意の文字列」と「出品者が用意するコンテンツ」のマッチング精度向上したいという話。去年発表したという「対象分野に特化した類似度計算」(多分これ)の続きで、記憶容量&計算コストを改善したらしい。情報源依存でスコアが異なるので類似度の適切さについても要検証だと思うけど、なるべく汎用性のある類似度したいならGoogle辞書なり使うだけでOKという立場で、ドメイン/コミュニティ特化類似度みたいなのを目指しているっぽい。

係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)
開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きいし、修正する度不整合箇所発見タスクが生じて以下略な状態なのをなんとか簡素化したいという話。現場ならではの具体的なタスクだよね。去年のNLP年次大会で聞いた実務翻訳で耳にした翻訳メモリと類似タスクにも見えるのだけど、どの辺りに違いがあるのかしら。

複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)
コーパスを使用しないキーワード抽出という視点は面白いけど、こういうアプローチで「抽出されたキーワード」というのはどういう特性を有するのだろう。普通、「特徴的な」とか「良く使われる」とか何かしら相対的な特徴があって初めて「このコンテンツならではの特徴」というのが見えてくると思うのだけど。

知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)
語彙的マッチングのアプローチとして、「概念付与+係り受け解析+深層格付与」という流れに「なるほどー」と思いながら聞いてました。ちゃんとした評価までやれてないようですが、割とざっくりとした方法でも十分な結果が得られたりするのかしら。

ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)
「あらすじ」というコンテンツを「語彙的な類似度+ストーリー性の類似度」で検索したいという話。実際問題としてあらすじマッチングがどれぐらい有益かは分かりませんが、時系列データとしてのマッチングに「語彙的な意味も加味」している点が面白い。語彙は「映画のジャンル20種程度を素性とする特徴ベクトル」として表現していた気がして、TFIDFみたいな「コンテンツ毎に特徴量が異なる」形式ではなく固定値での扱いでした。それにも関わらず、ストーリー性をDPマッチングで考慮することでマッチング精度としては向上しているらしい。どちらの要因がより強いのかも気になりますが、とても面白い試み。

共起ネットワークを用いたクラスタ性によるテキスト分類○小林雄太,村上裕一,中村真吾,橋本周司(早大)
クラスタ係数に基づく分析で「テキスト分類」できないかという話。ちょっと無理筋というか、別指標持ち込まないと無理なんじゃないかなとは思いつつ、このアプローチで分類される結果にどういう意味があるのかという解釈を考える(自動解釈する)のは楽しそう。うまく記号化できないという点で、ある意味人間の脳内でやってるような処理に近い側面もあるのかなー、的な。

修了生によるミニワークショップ(下地)

土曜日, 3月 10th, 2012

修士修了生がそれまでに得た知見の中で、特に論文などの文章として書かれているもの「ではない」部分として、これまでに作成したプログラムや実施した計算機実験の一部を体験してもらうため、研究室新配属生を対象としたワークショップのような形式で実施してもらいました。

残念なことに帰省している慶留間くんはタイミングが合わず、参加者は玉城くんのみ。マンツーマンで指導して貰えるとか恵まれてますねw

今日は、一般物体認識やってる下地くん(参考:FIT2010FIT2011)が担当です。

修了生に向けて指示した中身は以下の通り。

>目標と補足
・修論成果物のイントロor部分課題or全体像を体験してもらう。
・細かい内容はがっつり割愛し、イメージとして伝えるよう工夫。
 *例えば実験2の探索アルゴリズムでは「NNがどういうものか」を
  簡易説明だけで終わり、入力ファイルと出力ファイル、パラメータの説明だけで「学習」
  についての試行錯誤を体験させています。
  詳細は修論や参考文献読めば良いだけなので、おまじない/こういうもの、という説明でも良いです。
・必要に応じて成果物を参照できるようにする。
 *sharkにデータやプログラムを置くだけじゃなく、
  それらをどのように使うのかのドキュメントも用意しましょう。
  修論付録だけでドキュメントを完結する場合には「修論のありかを明示しつつ、付録参照」のように書いてもOK。
 *修論付録を用意できたら印刷(製本)前に一度確認させてください。
・「機械学習」など計算に時間がかかる部分では、
 ワークショップ中では小さなデータで試し、
 処理の過程を理解してもらった後で「3分クッキング方式」で「予め処理しておいた結果」を用意しておくとベター。

>内容と実施方法の例
下記の例全部というわけじゃなく、どれかを組み合わせて90分程度で収めるという意味で例示してます。

>下地くんバージョン
(1) SIFT特徴量からBoFでベクトル表現するやり方。
(2) ベクトル表現された特徴量を用いたSVMによる学習&認識の仕方。or 投票制による簡易学習&認識の仕方。
(3) SIFT特徴量から共起情報を構築するやり方。
(4) 構築した共起情報の可視化や傾向を観察するやり方。
(5) 構築した共起情報を用いて認識するやり方。

これを踏まえて実施してもらったんですが、大半の時間が説明になってて「体験」する部分が殆どなかったのが少し残念。

今回のやり方は、「下地くん本人が動かして結果を示しながら(見ながら)説明する」という形になっていました。これはこれで「下地くん本人が対象問題をどう捉えて、それについてどうアプローチしたのか、その結果どういう知見を得たのか、どこに難しさ/面白さがあるのか、残されてる問題が何か」といった一般的な研究紹介という点での面白さは伝わる紹介だったかと思います。

この方式は、確かに一人で修論読みながら学ぶよりはイメージしやすくなっているのですが、冒頭で述べた「これまでに作成したプログラムや実施した計算機実験の一部を体験してもらう」が少し落ちてるのが勿体無いかな。それでも「こういう説明をする時にこういうデモができると分かりやすい」ぐらいの意味合いがあったとは思うし、説明を通して「クラスタリング、ベクトル空間モデル、重心、Visual words」とかいろんな技術用語についてのイントロにはなったと思うので、やっぱりやってもらって良かったとは思います。


という感想を書いてたら「予定より早く70分ほどで終了」しちゃったので、「じゃ、実際に聴講者本人に動かしてもらうために環境構築から」という無茶ぶりを注文。昔はともかく最近だとMacPortsで、

% sudo port selfupdate
% sudo install opencv

ぐらいでPyhton binding含めていけるかも、という話らしい。
それは良かったというか、頑張った人お疲れさまです。

で、30分ぐらい関連パッケージ含めてインストール終了して、Cのサンプルソースをコンパイルする所までをやりました。

【OpenCVインストール&サンプルソースをコンパイルするまで】
% export PKG_CONFIG_PATH=/opt/local/lib/pkgconfig/
(ここによると「opencv.pc が配置されているディレクトリ([OpenCVをインストールしたディレクトリ]/lib/pkgconfig)」を指定するらしい)
% mkdir -r temp/opencv
% cd temp/opencv
% cp -r /opt/local/share/OpenCV/samples/C/ C/
% cd C
% sh build_all.sh
(コンパイルエラーが出なければOK)

HDとSSDの違いが出たのか、学生の方はまだOpenCV本体のインストールに辿り着けず、下地くんの都合上今回はここでお開きに。自作プログラム周りは修論付録として使い方書いてもらってるので、残りはなんとかなるのかなと期待。


次年度以降はもう少しイベントの振り方を考えてみよう。
指示メールで「やり方」と書いたのが悪かったかも。

一方で、一般的な研究紹介という点で今回の内容も重要ではあるし、論文として書ききれていない「熱意」のような部分も面白いことは面白い。じゃ、数回に分けてやれば良いじゃん、と思わなくもないですが。

ちなみに、3/20には与儀さん担当で実施してもらう予定です。

情報処理学会 第74回全国大会 3日目レポート

木曜日, 3月 8th, 2012

あつた蓬莱軒安定して美味しいよね(参考)。

ということで、情報処理学会 第74回全国大会 3日目の参加記録です。

全日程を通してのサマリは後で別記事として書く予定。

最終日である3日目は、
 ・(堀川くんが発表するので)一般セッション[5C会場] 自然言語処理
 ・学生セッション[6T会場] 検索・分類
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[5C会場] 自然言語処理

学生セッション[6T会場] 検索・分類


一般セッション[5C会場](3月8日(木) 9:30〜12:00) 自然言語処理 座長 佐藤 理史(名大)


5C-1文字列間の前処理付きオフライン全文検索エンジン類似度距離 ○佐藤 哲(楽天)

消費者:出品者:広告代理での文字列検索
 編集距離、コサイン距離、Jaro-Winkler距離、q-gram距離
記号列間の表記的な類似性だけではなく、意味を考慮した類似性の測定
 WordNet距離、圧縮距離、説明文距離、Google距離、正規化Lucene距離(NLD)
記憶容量コスト、計算コストが高い
 前処理:日本語問題の解決、情報量圧縮など
  情報圧縮:出現ページ数(ページ内出現回数はカウントしない)
  NokogiriでWikipedia XMLからコンテンツ抽出
  Luceneで検索インデックス作成
  LuceneとIgo-AnalyzerでWikipediaコンテンツ検索し、NLD算出
 メイン処理:高速に文字列間の意味的な類似度距離測定:NLD

naltoma: 類似度算出の情報源をWikipediaとすることによるバイアスがかからないか?
A: Google辞書使うとバイアスはかなり削減される。オフラインに拘ったのは商品に特化した距離を作りたいから。

Q: 前処理で高速化することで前回の結果と異なるのは何故か?
A: LuceneがデフォルトでTFIDFスコアリングをしているらしい。今回の高速化ではページあたりの語数を0,1にしているため、カウント数が減るとTFIDFが異なる。
Q: タイトルが「類似度距離」になっているが、類似度と距離は相反するようなものに感じる。Similarity Measure。


5C-2映画鑑賞の道案内システム ○塩崎浩二,浦谷則好(東京工芸大)

従来:売れ筋/ジャンル/制作年代ベースで推薦される
あらすじマッチングによる推薦
 連想検索エンジンGETAによるマッチング

naltoma: いわゆるコンテンツベース推薦?
naltoma: 「映画あらすじ」固有の特性はあるのか?(シリーズ枠がその一つだと思うが、他には?)
naltoma: 検証実験では関連性が平均値2.59と比較的低いように見えるが、素性として採用した単語を「自立語」に絞り込んだのが問題なのか、特徴量に問題があるのか?
naltoma: そもそも「関連性」とは?

Q: 興味があるものは「映画の内容が似ている」という前提があるようだが、実際には内容が似ているかどうかとは関係ないのでは。監督が同じでも内容が違うとか。ジャンルの類似とかなら分かるが。
A: 推薦映画として相応しい推薦ができたかという指標だが、何を元にして探すかということで手掛かりの一つとして「ある一本の映画を知っている」から出発して似ている映画を探す、連想検索するということを想定した。
Q: 連想していくとのことだが、何故一つの映画に絞って入力させるのか。複数入れることは考慮しない?
A: 見たい映画のイメージが「アクション映画で/アメリカで」のようになると既存の検索システムで検索できる。自分で、特にイメージがない「何か面白いものがないかな」という状況を想定。
Q: それでも一つに絞る必要性はないように思う。

Q: こういうシステムって正解がないので評価は難しいと思うが、設計する時にどういうのが出たらワークしたと評価するのかに依存すると思う。設計指針をどうするのか。どのぐらい「関連があるのか」もそうで、このあらすじで十分連想できるようなテキストになっているのかどうかも出せれば良いかもしれない。レビューが似ているから興味を持てるとは限らない。その辺りの哲学を持って設計するべき。


5C-3Twitterからの談話自動抽出 ○堀川敦弘(琉球大)

Q: 形態素解析で単語分割してるが、Twitterだと辞書に無い語がどんどんでてくるので、辞書チューニングでも限界がありそう。どうしてN-gramを利用しないのか。
A: N-gramでの共起でも良いと考えているが、N-gramで試したことが無い。どんどん増えていく語に対する対応はGoogle Suggest APIで対応できるのではないかなと考えている。
Q: 大前提の共起を用いるという事に対して問題を感じる。長い文章だと有力だと思うが、Twitterのように短文だとあまり役に立ってないのではないか、今回の結果は偶然じゃないか。
A: 取ってきたい談話が長くなってしまった場合、共起が発生せずに取りのがしてしまうなどのことが頻繁に起こるかもしれない。同時に母集団の中で会話をされると難しい。
Q: Seed Tweet Setってどのように作った?
A: 抽出したい談話に関するツイートを人手で選択する。
Q: 談話抽出というとAさんとBさんの議論を抽出したいと思う。全く関係ないCDさんのも一緒くたになってしまって一緒に議論しているように抽出されてしまうのでは?
A: その可能性は高い。それを緩和するというわけではないが、ツイートを見た人を母集団として加えていくことで緩和できると思う。
Q: ホットエントリ、バスッターのような言葉に議論する事がありそうdが、どのように分離する?
A: 皆が同時に「バルス」といったときどう分離するかという状況だと思うが、具体的な手法はイメイージできていない。
Q: 140ツイートをどう集めたか?
A: 談話の開始と終わりは検知していないため、人手で与えている。リスト内全ユーザの時間内全ツイート。
Q: 全ユーザに適用するのは難しい?
A: そこは考慮していない。

(良い意味で予想通りの指摘/コメントを貰えてたので、外部からの刺激や交流になったという点でとても良かったんじゃないかと)

堀川くん自身による振り返りレポート: IPSJ74発表に対するコメントなどの考察


5C-4著者推定による文章の特徴解析 ○國廣直樹,長谷川智史,穴田 一(東京都市大)

文献の心眼問題:シェークスピア別人説
文章には人それぞれ特徴がある:過去は主に筆跡
 電子化に伴う新たな特徴量の明確化
先行研究:2-gram, Tankerd距離
今回:品詞n-gram出現確率、単語長n-gram出現確率

Q: 単語長n-gramを使ってるが、著者は文字の長さではなく読んだ時のリズムで書いてるように思う。単語文字数ではなく読み数、モーラ数使うとどうか。
A: 読み文字数についてはこれからやろうと考えているところ。
Q: 学習テキストと知りたいテキストの長さが結構効いてくるということが分かっている。今回のはどのぐらいの長さのテキストか。
A: 短いもので3千字、長いもので3万程度だったと思う。青空文庫。短編小説が多いはず。
Q: 30人エッセイのコーパスで、3万字。1万を学習にあてるとだいたい間違いなくあてられた。言語モデルを使ったもの。去年/一昨年のNLPで発表したので参考まで。


5C-5係り受け構造アライメントを用いた文間の差異箇所認識 ○小林幹門,篠崎政久,加納敏行(東芝ソリューション)

開発ドキュメントなど、文書間の不整合箇所を確認する作業に膨大な時間と人的コストが大きい
 修正起こる度に不整合発見タスクが発生
  類似した内容が記載される文章間に不整合が含まれやすい->自動検出 [小林2011]
  差異が生じる箇所を目視で確認するコストが高い -> 差異検出
語幹と係り受け構造から共通部分検出
アライメントが行われなかった箇所(差異箇所)検出
補足文生成

naltoma: 翻訳の例で「単語の使い方」を例文表示するようなシステムがあるかと思うが、そういうタスクと類似問題として設定した?

Q: 「関し、」と「関する」では大きく異なるから検出しなくてはならない例では?
A: そうだが、見る人が「どれだけ影響を与えるか」を考えてのこと。
Q: 法律に関するものなので、検出すべき。

Q: 差異箇所をどう定義しているか。法律文について研究しているが、普通に読んでても気づかないものもある。
A: 差異箇所の定義としては、二つ文を比較した時に漏れがあるもの+同義語や相違。法律というドメイン固有については今は考慮せず一般文書としての扱い。特有言い回しについては専用辞書構築などで対応したい。

Q: 確認だが、今回のシステムは「非常に似ている2つの文を入力してもらう」ことが前提?
A: その通り。


5C-6SVMによる学習とタイプ分類パターンの組み合わせによる固有表現抽出手法 ○尾田俊弘,福本淳一(立命館大)

[Sekine 2004] 150種類の固有表現タイプが定義
固有表現特徴をSVM学習+固有表現範囲同定
素性
 全ての単語を対象
 品詞、文字種、単語自身
 2つ前〜3つ後の計5単語を1セット
パラメータ
 2次の多項式関数(組み合わせで学習)

Q: 人名と地名の関係で、空港に人名がつくケースとかあるが問題にならなかったか?
A: 述語に相当する動詞を見ることで判断できる。会社名だとソーシャルなものがあったが、文脈から判断が可能と考えている。
Q: 文脈を見ないと判断できないものがあるというのものは分かっているが、それがどのぐらいあるか?数パーセントなのか結構あるのか?
A: 具体的な数値は分からないが、詳細タイプ分類ができる例という点では多く見られた。
Q: 固有表現抽出は山のようにあるが、現時点でどのぐらいできてるのか誰も示していない。トップレベルの数値なのか、今までのトップには勝てていないのか。
A: 9割を示しているものもあるので負けている部分があると思うが、今回は詳細タイプ分類をしている点でメリットがある。
Q: 150種類分類する研究自体が無かった?
A: その通り。


学生セッション[6T会場](3月8日(木) 14:30〜16:30) 検索・分類 座長 秋葉 友良(豊橋技科大)


6T-1ツィッターのデマ率の推定 ○Rattanaxay Keothammavong,青野雅樹,相田 慎(豊橋技科大)

目的:デマの拡散防止
 デマ:関連した曖昧な情報が連鎖的に広まること
デマ判断のための素性定義
 地名/人名/組織/URL/Hashtag/@/固有名詞/代名詞/一般名詞
 曖昧な言葉(きっと/かな/どこか。。。)
 単語感情極性対応表
寄与していた素性(Gini係数)
 感情スコア>RT>その他

naltoma: デマ率を推定する対象の定義は?(特定ツイート?)
naltoma: デマの例1で「浸水」という元ツイートはデマ?
naltoma: 推定結果の誤りが「システム自体の信頼性」に直結するので誤推定を避けたいように思うが、デマである/ではない双方の根拠を提示することでユーザが判断しやすくするなど、工夫できそうなことはないだろうか?

Q: リアルタイムでのデマ率を推定したいと書かれているが、どういう手法を考えているのか。
A: 現時点ではデータセット構築が手動。類似計算コストも考慮する必要がある。
Q: 現在の計算コストはどのぐらい?
A: 5分程度。
Q: 学習データ/テストデータは同じ時期のもの? リアルタイムでやると新しい時期のものを判定することになると思うが、どうか。
A: 現在は同時期でテスト。時系列全体を計算するコスト高すぎるので、リアルタイムでやる場合は時間軸を指定するなどを考えている。


6T-2単語共起を用いたベイジアンフィルタによる中国語文章フィルタリングについて ○鄧 德粤,吉村卓也,伊藤孝行,藤井雄太郎(名工大)

有害文書の自動判別によるコスト削減

naltoma: 有害な文書にもいろんなパターン・種類があると思うが、単一のフィルタリングが可能だろうか?(有害文書の定義は?)
naltoma: 負例データセットが判定しやすいものになっていないか?

Q: 閾値を設定する所について。8千件というのは?
A: データセット1万件から8千件選んで閾値を設定し、残り2千件で評価した。
Q: 閾値はどうやって設定?
A: F値が高くなる値で調整。
Q: 共起を使うことで、計算効率やメモリ使用量についての負荷具合は?
A: 2単語共起で10GBメモリ。サーバで使う分には問題無い程度。
Q: データベースの量が大きくなると圧縮とか必要になりそうか?
A: 実用はまだやってない。
Q: 中国語形態素解析エンジンの精度は?
A: 90%台。
Q: 今回の実験結果は、最終的にはWebデータに使いたい? Webだともっと雑多なデータになっていると思うが。ニュース以外も利用することでより現実的なところで評価すると良いのでは。


6T-3複雑ネットワークからのキーワード抽出 ○三澤英樹,大沢英一(はこだて未来大)

単一文書で自己完備なキーワード抽出
 TFIDF:コーパスの分野が異なる、コーパスが存在しない場合に問題
 コーパスを使用しないキーワード抽出:small world構造に基づく文書からのキーワード抽出
  仮想距離:ネットワーク全体の最大経路長として導入
  共起指標の閾値による構造的特徴の調査

naltoma: 自己完備とは?
naltoma: 論文へ付与することを想定したキーワード抽出のようだが、適切なキーワードとは論文単体で決定されるものだろうか?(付与したいキーワードとはどのようなものか?)
naltoma: キーワードとリファレンスは無関係?

Q: 日本語論文に応用する予定があるか?
A: 今回英語を使用した理由は、日本語の形態素解析で行うとまだまだ難しいという判断。形態素解析精度次第では使えると思う。ネットワーク構成が変わるとは思う。
Q: Jaccard係数を用いた実験のようだが、レアな出現が強すぎる評価となることがあるという報告もある。どうか。
A: ネットワーク校正する時点で規定回数以上のノードに抑えているため、非常に小さな頻度な出現は抑えられていると思う。
Q: 共起指標を調整した時にクラスタ係数が若干増大する箇所が見られたとのことだが、どこで見られた?


6T-4Q&Aサイトにおける情報検索型質問の自動抽出 ○田中友二(芝浦工大),望月崇由,八木貴史(NTTレゾナント),徳永幸生(芝浦工大),杉山 精(東京工芸大)

QAサイト質問タイプ:情報検索型/社会調査型/非質問型
 情報検索型質問の自動抽出

naltoma: 「検索結果に欲しい情報が見つからない」の質問タイプは「情報検索型」? 回答がWebにあるもの?
naltoma: 質問分類した後でどう活用する?
naltoma: 質問に「活用できる/できない」の差はない?

Q: 質問を対象として分類したようだが、回答を見ても参考にならないか。
A: 質問時に分類することを想定しているので質問しか見ていない。
Q: 実際には回答がついているものを選ぶのに使うわけではない?
A: 現時点では質問回答が揃っているデータセットを使っているが、実際には回答が存在していない状況で分類している。
Q: 他の分野でも実験したいとのことだが、分野毎に教師データを用意する必要がある?
A: 用意することで精度が向上するとは思う。ただし、依存しないような特徴語もあると考えているので、カテゴリに依存しないような教師データを用意することを検討している。


6T-5知的ヘルプシステムのための意味を考慮したテキストマッチング手法の改良と評価 ○柿間俊高,村松幸樹,杉本 徹(芝浦工大)

目的:知的ヘルプシステムの実現
自然言語文の意味理解+テキストの言い換え
 適切なヘルプが出力される精度を高める
単語解析(概念付与)+意味解析(概念絞り込み+深層格付与)

naltoma: ヘルプ内の記述が理解できないと意味が無いので、Web上での参考手続きとのマッチングは取れないか?

Q: 有効性はどう判断する?
A: 本来ならシステム化して被験者通して確認したかったが、今回はMRRでのみ確認した。
Q: MRR評価してるが、精密にすることで精度が上がっても再現率が下がっていないか?
A: まだ再現率はチェックしていない。
Q: ルートが一致するというのが必要になると思うが、そこはだいたい一致する?
A: 現時点では大丈夫だが、ユーザ入力文次第では問題になることもあると思う。


6T-6否定文認識による潜在関係検索の精度向上手法 ○落合伸彦,Duc Nguyen Tuan,Danushka Bollegala,石塚 満(東大)

(キャンセル)


6T-7ストーリー性を考慮した映画あらすじからの類似度計算 ○村手宏輔,黒岩眞吾,堀内靖雄,篠崎隆宏(千葉大)

類似文書検索
 文書内の単語の並びが考慮できていない(スラング、言い回しなどによる意味の差)
 文全体の単語の並びを考慮
  ストーリーの差を定量化したい
文書を時系列データで表現+DPマッチングによる類似度計算
 同じ出来事に関係する単語を近いベクトルとなるように設定したい(例:ジャンル)
 未来:SF映画、殺人:犯罪、ホラー
 単語特徴ベクトルを20次元(ジャンル)で正規化

naltoma: 影響伝播モデルIDMみたいな形で分割できない?
naltoma: ストーリー性とは??(時系列考慮してるけど、ジャンルベクトルの推移でストーリーになる?)
naltoma: 単語特徴ベクトルは固定値で求まるもの?

Q: 単語単位になっているが、文法により異なると思う。どのぐらい単語の順序が影響していると考えているか。
A: 最小単位ということで単語を考えた。文章でも圧縮すると単語程度になるので同程度になると判断している。比較はしていない。
Q: TFIDFと比較しているが、圧縮法も異なっている。要因が二つになっていると思うが、そこを区別して比較できないか。
A: 順序を考慮しないバージョンでの比較も検討しているが、21次元ジャンルだけでは測れなかった。


6T-8共起ネットワークを用いたクラスタ性によるテキスト分類 ○小林雄太,村上裕一,中村真吾,橋本周司(早大)

共起ネットワークを定量的に評価したい
 クラスタ性(クラスタ係数)によりテキストを評価・分類
 ノード=TFIDF上位重要名詞
 リンク=閾値モデル:閾値変更でネットワークが変化
実験
 上位N件の設定次第では「閾値が低い領域」では誤差が大きい
 閾値中盤以降はほぼ類似傾向

naltoma: (妄想)TFIDFを使うことで一種の「経験に依存した重み」というか人間が読み終えた後の感想を抱いたような特徴量になってたりする?

Q: 直接的な閾値、相互情報量とかは使えないのか?
A: ジャッカード係数のようなレア出現単語の影響が強いため、今回は避けた。実際に今回の方法でうまく避けられているかは分からないが、ネットワーク性を測れることを考慮しての選択。
Q: ニュース/小説とか大きく異なる分野などで比較する方が適切にも思う。
A: まず著者によってまとまる要素が違うということを検証してみた。今後そういうジャンルの違いも確認していきたい。

情報処理学会 第74回全国大会 2日目レポート

水曜日, 3月 7th, 2012

正直寒さをなめてて済まんかったと言いたくなる寒さ。風強いと普通に寒いねうん。ごめんなさい。
そして「味噌風味に飽きた」という学生のために適当にぶらついて入ったお店「つくし」が美味過ぎました(参考写真)。名古屋の皆さんが羨ましいです。

ということで、情報処理学会 第74回全国大会 2日目の参加記録です。

あまりにも発表件数多いので事前に面白そうなテーマをチェックしてたり、そのツイートに反応してくれた伊東先生に質問してみたりしながら参加するセッションを検討してました。並列度高いと直接見れない発表が多過ぎるのは残念。。

2日目は、
 ・学生セッション[3R会場] 自然言語処理・応用
 ・学生セッション[4ZJ会場] システム評価
に参加してきました。以下、その参加メモになります。

naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
学生セッション[3R会場] 自然言語処理・応用

学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)


自然言語処理・応用 座長 東中 竜一郎(NTT)


3R-1感情判断に基づく物語文章からの感想文自動生成手法 ○町田啓悟(長野高専)

起承転結の4文による一貫性のある感想出力を自動生成したい
従来手法:動詞に着目した手法
 「殴られる」が負の感情に繋がる
意味判断+感情判断の導入。起承転結を個別にNN学習。

naltoma: 要約との違いは?ネタばれ大丈夫?
naltoma: 起承転結で出力することを選んだ理由は?(起承のみ/起のみ生成とか、キャッチコピー生成とかいろいろ手段が考えられそう)

Q: どういう応用を考えている?
A: 電子書籍かされた中から自分の好きな物語を探すため、レビューのようなものがあると便利だと考えた。
Q: レビューがないようなものについても感想生成することでコンテンツアクセスが容易になると感じた?
A: その通り。
Q: 文章から起承転結がどこなのかをどう判断しているのか?
A: 機械的に4分割。
Q: 評価者間の一致度はどのぐらいだった?
A: ほとんど一致していたが、一部異なるものがあった。


3R-2アメリカ合衆国大統領演説の計量テキスト分析 ○青木宣康(東洋大),河村俊太郎(東大),鈴木崇史(東洋大)

就任演説の特徴をカーネル主成分分析+ランダムフォレスト
 テキストの特徴
 テキストへの影響要因

Q: 何を目指している?アメリカの今後の予測分析?解析手法そのものへの興味?
A: 今後のアメリカ大統領選挙演説を見た時に、どういうのが使われているのかが分かれば良いなと考えている。
Q: 特定の定型的なサンプルで検証されてるが、他の国の動向についても同じようなサンプルがあるか?
A: アメリカだと原稿が残っているが、他国だと調べればあるかもしれない。日本首相だと全文残っている。
Q: 戦争前後で使われている単語のバラエティが短くなってコンパクトにという話だったが、ある意味でアホ向けという印象も受けるが、こういうのは他国でもそういう傾向があるのか、戦争前後での違いとか何か一般的な話に広がると面白そう。
Q: カーネル主成分分析でプロットした図はどうやって距離を求めたのか? 距離をテキスト解析して求めていると思うが、類似度をどう求めたのか?
A: 相対頻度から特徴ベクトル生成し、パラメータで調整。


3R-3冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化 ○佐藤裕也,豊田哲也,延原 肇(筑波大)

背景
 ホームページ:観光者視点の情報が不足
 口コミサイト:書き込み人数が少数
 ブログ/マイクロブログ:情報探索困難、地理情報が不明瞭
 ->Twitterから収集統合(観光者視点)

naltoma: 観光地名が直接記入されていない感想ツイートが多々ありそうだが、どう収集する?対象外?
naltoma: ツイートだとブログ以上に「受け狙い」とかバイアスがかかった傾向とか特殊な特性はないか?(それが問題にならないか?)
naltoma: 再クラスタリング分割で「ツイート数の差が細小になる分割を選ぶ」理由は?

Q: Juman,mecab(Wikipedia)使ってるとのことだがmecabだけではダメなのか?
A: Jumanは代表表記が複数出力されており、表記揺れのために使用。
Q: 京都を使った理由と、京都以外の土地についてどういう所で有向かとか考慮すべきことがあるか?
A: ツイート数が多いのと個人的に好きだから京都を選んだ。福島/茨城とかだとツイート数が極端に少ない場所では難しそう。
Q: 広島は個人的に観光客だと思ってるが、他の人はそう感じてないようにも思う。過疎地ではこういうスタイルだと難しそう。
Q: ツイート検索は公式API?ツイッターだと公式RTは区別できるので元ツイートだけ使えば冗長性排除になると思う。
A: 公式APIを利用。非公式や広告除去なんども考えていて、非公式の場合にはツイート自体を排除することが良いかどうかも検討中。


3R-4神話のトピック構造分析による比較研究 ○太田 明,橋本和夫,山田仁史(東北大)

主観的な分析は行われているが、より客観的な根拠のある分析をしたい。
トピックモデル:Multiscale Topic Tomography (MSTT)

naltoma: シーン分割はIDM(影響伝播モデル)の方が良さそう。
naltoma: 「場面の構造」とはシーン1,2,3のようなシリーズ?階層構造?より複雑な構造?

Q: トピックモデルで特徴量という話だが、他の物語についても適用できそうだが、神話に特化する必要のある部分はあるのか?
A: 神話以外の物語/文書にも適用できると思うが、神話を選んだ理由は個人的な興味。
Q: 神話には同じような構造があって、というのが神話特有の話ではないかと。
Q: トピックモデルをそのまま適用するのが難しいという難点があるようだが、既存の神話がどういうデータ構造なのかに依存しそうだが、そこには依存しないのか。関係ない一般的な話なのか。どの部分が神話を研究するという特定な話なのか、一般的な話なのかが良く分からない。
Q: 古事記とか参照してるようだが、第一次資料として何を参照しているかによってアプローチの仕方も変わってきそう。原著や現代語訳とかで解釈が異なりそうだが。
A: 現代語じゃないと認識できないので、仕方なくだが現代語訳を選択。確かに翻訳で失われる情報とかがあるとは思う。翻訳を比較するとかも今後必要になると思う。


3R-5日本語クロスワードパズルのカギの解法 ○内木賢吾,佐藤理史(名大)

カギは特定種類の連想を促すことが多い
 人手で連想タイプ(7つ)を設定
 今回は穴埋め/反対語/同義語/説明の4タイプが対象

naltoma: 資源が不足しているようだが、どうやって増やせるだろうか?
naltoma: クロスを考慮した候補選択はしている?

Q: 先行研究との違いは?
A: 言語資源(Wikipedia利用)と内部モジュール(Unidicで階層的見出し語定義を利用しているので表記揺れに対応)が違う。
Q: 実験結果の比較では、先行研究を包含した形で良くなってるのか、そうじゃないのか。性能自身は上がっているが、先行研究で正解してたものが本手法で失敗しているというようなことはあるか?
A: 未調査。
Q: 複数鍵が重なった依存関係がありそうだが、そこについて検討しているものはあるか?
A: Proverbをそのまま使うことで利用できそう。
Q: クロスワードを解くのは何故?
A: 面白そうだからでもあるが、人間がどのようなものからどういう連想するのか、どういう資源を使うのか、というモデル化に興味がある。


3R-6比喩的素描を用いた類似語推論およびその視覚化インタフェースの構築 ○長谷川恭佑,桝井文人,後藤文太朗(北見工大)

比喩的素描(デスクリプタ)で検索支援。MURASAKI。
逆引きリストから類似語推論し、結果を視覚化

naltoma: 検索目的毎に適切なデスクリプタが異なりそうだが、目的はどのように推定する?
naltoma: 逆引きリストで得られる類似語は「どのような観点での類似語」なのか?

Q: 初音ミクから「ボーカロイド」デスクリプタを介して他の類似語を求めているが、デスクリプタ自体の類似性を求める必要はないか?ボーカロイド以外の歌わせてやるシステムとか。
A: 未検討だが、初音ミクだとボーカロイド以外にも複数デスクリプタが出てくるので、そこで担保できるかもしれない。
Q: MURASAKIのログデータを計算するコストはどのぐらい?
A: 現在はリアルタイムで一部データを使って逆引きリスト作成だけでも結構時間かかるので、予め処理しておく。
Q: Google Setsのような類似語を出すシステムがいくつかあるようなので、参考まで。


3R-7ローマ字入力による縦書きモンゴル語入力方式の実装 ○巴図孟克,中平勝子,三上喜貴(長岡技科大)

Q: 提案方式の評価についてモンゴル語を母語とする人に対して、Microsoft入力方式を普段から使っている人だと思うが、提案手法にどれぐらい辞書登録されていて、何割ぐらいヒット率があったのかによって評価が変わりそうだが、ヒット率はどのぐらいだったのか。
A: Microsoft入力を使ってたのは二人だけ。
Q: 辞書から単語を拾ってくるという入力方式なので効率良くなっているのだと思うが、辞書の単語数を減らした際のヒット率を検証できると良さそう。


3R-8カタカナ抜け文のための自動解法アルゴリズムの提案 ○島 広幸(工学院大),建石由佳(ナラプロ・テクノロジーズ),小西克己(工学院大)

文脈を理解させ、推測や連想を行わせたい。
カタカナ抜け文パズル
 Web日本語Nグラム

naltoma: 文脈理解というよりは、前後の単語と共起しやすい単語の連想という問題?
naltoma: 何に応用できる?何をモデル化したことになる?(カタカナ制限やマッチング制限があるために逆に面白みの欠けたモデルになってない?)

Q: 最短経路問題で解くようだが、経路はどうなる?
A: パスは各候補単語を個体として、同じ番号を持っている単語が隣接したグラフを生成。
Q: 連想はどこにある?どういうところで連想しないと解けない?
A: 例えばある場所に当てはまる単語を考える際に、その前後の単語から連想する。それをNグラム+共起で実現した。


3R-9マイクロブログ上の中心的話題とそれに対するユーザの反応の抽出 ○藤川智英,鍜治伸裕,吉永直樹,喜連川優(東大)

「話題を知ること」自体の需要。
話題に対するユーザ意見分析:ex.)信じているか疑っているかで分類
 話題語抽出・スコア計算(話題語出現頻度をバーストスコア)
  話題語と偶然を見分ける必要性:共起バースト語が多い場合は本物の話題語である可能性が高い
  PageRankを用いたスコア調整
未知語に伴う形態素解析ミスをグラフ化でフレーズ・話題を表す文として抽出することで対応

naltoma: 「話題」とはどのぐらいの規模を想定しているのか。対象としている母集団とのサイズ依存?(調整が必要?)

Q: バーストでどういう母集団に対してやってるのか、逆に出て来なかったものについてものとか。
A: 条件で絞り込みしている。
Q: 母集団は?
A: 日本語ツイート全体
Q: 関連ツイート収集とあるが、RTは意識している?
A: 公式RTは排除。
Q: どのぐらいRTが含まれているかは調査した?
A: 未調査
Q: EMNP2004の単語ランク(?)があるので参考まで。
Q: 日本国内で一番バーストした単語は「パルス」だと思うが、それはどういう表示されたのか?
A: バースト単語をランクオーダで並べているだけなので、とくに出力に変化はない。


学生セッション[4ZJ会場] システム評価 座長 櫻庭 健年(日立)


4ZJ-1チェックポインティングによる評価条件が可変な高速シミュレーション手法の提案 ○椎名敦之,大津金光,横田隆史,馬場敬信(宇都宮大)

新規アーキテクチャの特性を見るための繰り返しシミュレーションを高速化したい
 チェックポイント&リスタート(ダンプ?)で高速化
 DMTCP

naltoma: アプリケーション/ベンチマークを与えると自動でチェックポイント&リスタートできるように動作を変更できる?自前でプログラミングするだけ?
naltoma: CPUレベルのダンプデータだととても巨大なサイズになりそうだが、問題にならないか?

Q: チェックポイントの場所ずらしてとか難しかったと思うが、いろいろ手法が考えられたと思うが何か比較検討されたことがあれば。例えば、例題のスレッド1,2,3を繰り返すものを1,2,3,4,4と変更するものを最初から入れといてコンパイルするものや、ある条件でコール先を変えるようにしておけば倍なりコード空けておくとか必要もないだろう。
A: 作ってあるプログラムがいっぱいあって、それを使いたいから。
A: 予めコンパイルしておくというのもあるが、最適化手法を新たに開発した時に、そのコードがどういう性能になるかを評価したい。未知のものは予め作っておくことはできないので、領域を空けて置く必要がある。
Q: チェックポイントのオーバーヘッド次第では最初からやり直す方が早いこともあり得るが、どのぐらいオーバーヘッドがかかるか。もしくはどれぐらいでチェックポイントした方が良いのか。
A: 検討中だが、現時点では長時間かかるシミュレーションを想定している。


4ZJ-2準天頂衛星を用いた防災情報配信システムの設計と有効性検証に関する研究 ○原田貴史,石田剛朗,楠田哲也,神武直彦(慶大)

避難のタイミング:生き延びた人でも1/4が友人らの声かけ後に避難
災害発生時に使用可能な情報配信システム
 技術的な制約を把握したい
  片方向、伝送速度が極めて低い(約6秒に1回250bit)

naltoma: オペレーション含めてどういうシステムとして設計を考えている?

Q: 防災システムとしては非常時だけ使えるというのは経験的に役に立たない。日常的に使えるツールとしても使ってて、防災時にも使えるように設計されてないと使えない。エリアメールを使ったことあるが、通話中/アプリ使用中には割り込まないので使えない。仕様変更されてるかもしれないが。
A: 検討する必要があると思います。
Q: 受信機はちょっとした改造で使えるということだが、バッテリー消費は?
A: バッテリーが良くならないと現実的にはそれほど長くは使えない。消費電力についても今後評価していきたい。
Q: 将来の話ということでデータが増えた場合、どれくらい送りたいというケースを想定しているのか。
A: 今は緊急地震速報程度だが、本当は避難経路とかを位置情報でフィルタリングをかける形で送ることも検討している。


4ZJ-3ドライビングシミュレータを用いたジレンマゾーンにおけるドライバーの視線データの計測とその評価 ○平野優輝,千田一誠,杉野栄二,瀬川典久,澤本 潤(岩手県大)

交通事故防止に対するドライバーの視線方向計測の有効性を確認したい
 ジレンマゾーン:黄色信号時に停止/通貨の判断に迷う領域

naltoma: ジレンマゾーンは車速以外にも車道の幅や歩行者の有無など多くの環境要因から影響を受けそうだが、その影響は無視できる?
naltoma: 視線方向計測で適切な時に警告を受けることは事故防止に役立ちそうだが、逆に警告が邪魔になるなどでメリットはないか?
naltoma: 640×480程度の粒度は実世界との差が大きそうだが、シミュレーション結果に影響しないか?

Q: 目線データは、ドライバ歴によって変わりそうだが、被験者のデータはどのように収集した?
A: 今回は経歴を考慮していない。運転歴1〜2年程度の人が多いがばらついている。
Q: 何らかの知見が得られたとして、それをどう活かそうと考えている?
A: ドライバの注意の変化が分かったが、これに限らず事故が発生する状況を作り、その原因解明。車への新機能の提案などにも繋がれば。


4ZJ-4日本語のやさしさの自動推定のための特徴量に関する基礎的検討 ○張  萌,伊藤彰則(東北大),佐藤和之(弘前大)

日本に住む外国人増加:日本語から正しい情報を理解できない場合も多い
 「やさしい日本語」研究会
先行研究:日本人の感覚で「やさしさ」を定義されており、外国人がどう感じるかは分からない
 文章の構造を簡単にする:名詞数、文章長さ(文節数)、動詞数
 難しい日本語の単語を使わない:日本語能力検定試験の語彙レベル
 外来語を使わない:外来語は原語と意味や発音が異なるものが多い(外来語数)

naltoma: 文字の読み取りと音声の聞き取りとでの難しさの質が異なるのか。
naltoma: 外国人といっても様々なパターンがあると思うが、どういう状況を想定しているのか。
naltoma: 今回の実験では中国人留学生という同じ環境で整えているが、他国の留学生でも同様の傾向があるのか。
naltoma: 外来語が原語の意味と異なるという例と同様に、今回の被験者中国人にとって「漢字」が外来語と同様の問題は起きていないか?
A: 今回確認した事例では問題になっていない。
naltoma: 「より易しい」というのは分かるが、「ベストな日本語(誤解を生じない文)」が作れないか?
A: 検討してみたい。
naltoma: 意味理解を考えると「AのB」のようなものが難しそうだが、あまり問題にならない?
A: 文節数で長さを評価していることが間接的に評価している。


4ZJ-5小型共焦点顕微鏡の開発 ○平野俊幸,山田貴哉,服部公央亮,田口 亮(名工大),柴田 進(ミュースカイネット),保黒政大(中部大),堀米秀嘉(ホーリーマイン),梅崎太造(名工大)

小型で安価な共焦点レーザ顕微鏡の開発

Q: 精度評価をしていたが、既存製品との差異は?
A: 既存製品だともう一段階低い誤差で計測可能。
Q: 既存の高い製品と比べて小型で安く作れるという主張だが、どういう理由で安いのか?
A: 二次元スキャン(汎用品)を導入したのが一番効果が大きい。既製品ではガルバノスキャナだけで高く、さらにそれを高精度で操作するためのモータ制御等でサイズが大きくなる。
Q: 今回の装置はいくらぐらい?
A: 小型試作機は原価200万ぐらい。量産/小型化を通して原価20万程度を目指している。

情報処理学会 第74回全国大会 1日目レポート

火曜日, 3月 6th, 2012

情報処理学会 第74回全国大会の参加記録です。

年末に行った東京もそうなんだけど、やっぱり本土の「風がほとんどない中での寒さ」は沖縄の風の強さで冷える寒さと比べるとすこぶる快適。雨降ってると寒いかなと思ったんですが、それでも辛い寒さじゃない。真冬だとまた違うんだろうけど、今ぐらいの時期だと薄手コートで十分orやや暑いぐらい。
既にあれこれ食べてます(参考1参考2)が、学会出張=ご当地グルメの方程式を満足するためには当然の行動です。

話を戻すと、今回の大会は名前の通り「情報処理学会」主催の全国大会で、年に一度開催されるお祭り。
「祭り」と表現してるのは「多岐に渡るテーマに関する話題・研究者が集う」からで、どのぐらい幅広いかはプログラムを見れば納得できるかと思います。

大雑把なスケジュールとしては、
 ・午前中の一般セッション
 ・午後に「特別講演or招待講演」+一般セッション
 ・それらと並行して特別イベント
のような流れで進むらしい。

一般セッションは並列して開催されてて、例えば初日は一般セッションがアルファベット1文字では足りず「ZA」「ZB」とか続いてるぐらい多く、30前後のセッションが同時開催されます。会場準備お疲れさまです。

名古屋工業大学のキャンパスは結構広い&建物が多いので迷子になりやすいからか、入り口で出迎えていた「メイちゃん」が(いろんな意味で)人気者でした。

ということで極々一部しか見れていないのですが、初日は
 ・(山内くんが発表するので)一般セッション[1C 会場] 情報検索・情報推薦
 ・学生セッション[2V 会場] 情報抽出・質問応答
に参加してきました。以下、その参加メモになります。
ちなみに、naltoma印は當間の個人的な疑問点。
Q: A: で始まってるのは会場内での質疑応答を當間なりに解釈したものです。


<目次>
一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦

学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答


一般セッション[1C 会場](3 月 6 日(火)9:30 ~ 12:00) 情報検索・情報推薦 座長 奥 健太(立命館大)


1 協調フィルタリング推薦によって誤推薦されたコンテンツに関する一考察 ○山内一騎(琉球大)

Q: 今回のサンプルデータは1000件ぐらい。データが揃って初めて使えると思うが、過去のデータがない分野、例えば500件とか100件とかでどれぐらい有効性が変わってくるのか。1000件で十分なのか。
Q: ユーザのプロファイルを作るという話だが、従来手法にも色々あるがそれらと比べて有利な点は?
Q: 従来手法でもコンテンツを特徴付けるという話もある。特徴ベクトルは0,1とは限らず0〜1の連続値もある。それとの違いは?
コメント: MovieLensはいくつかバージョンがあって、10Mの方が傾向を掴みやすいと思う。

(今回学会発表初の割には前日夜まで資料作成してて発表練習する暇無かったこともあって、
 やや発表おかしかったところもあったけど、建設的な意見や参考情報教えてもらえたので良かったんじゃないかと。)
-> セッション終了後の記録


2 社会性を組み込んだ情報推薦システムの設計 ○小池克拓,打矢隆弘,内匠 逸(名工大)

身時かな人/気の合う人からの口コミ・評価(=社会性)を組み込んだ情報推薦の話。
協調フィルタリングだと推薦者が不明で推薦の信頼性や説得力に疑問が生じる。
 Friend Filtering機構の導入
  Friendクラスタ以外をフィルタリング

naltoma: 「お菓子」の例だとそもそも買いやすい(敷居が低い)が、それが受け入れやすさに繋がっていないか。
naltoma: 実世界でのクラスタを活用するのは良いが、本番ではそれをどう実装するのか。

Q: 友人からの推薦でどのぐらい精度上がるのかという実験だが、お菓子推薦のようなものだと同じ研究室の中で見ている人の影響が出てきそう。お菓子の味となると研究室内での共通性が無さそうだが、何故それを選んだのか、それで良くなった要因は何故か。
A: 論文推薦のようなものだと研究分野やゼミといった偏ったデータを取る必要がある。お菓子のような普遍的な題材の方が分かりやすい、嗜好を取りやすいから選んだ。所属の影響が出難いのかという点については、大学生に対してやってるので年齢差は出てないが2つの異なる大学での差異が出てるのではないかと思う。
Q: 今の大学の同じ研究室だから上手くいっているという特性もありえるように見える。

C: 信頼性を考慮した推薦については、ソーシャルネットワークを活用した事例「トラストなんとか」とかあるので調べて見ると良い。


3 アルゴリズム切替による情報推薦システム ○山本康平,打矢隆弘,内匠 逸(名工大)

CF推薦で同じようなアイテムばかり推薦されるのが困る。
それを時間帯によってアルゴリズムを切り替えることで解決したいらしい。
 今回はユーザベースCF・アイテムベースCF・スロープワンの3種を切り替え。
 時間帯毎に固定/ランダム/選択学習でアルゴリズムを決定。

naltoma: 時間帯をどう設定するのか?アルゴリズムをどう設定するのか?切り替え自体に意味があるのか?

Q: 適合率と再現率はどうなった?
A: まだ未調査。
Q: 時間帯に拘る理由は?
A: 朝食べたいものとか時間帯に起因した嗜好を汲み取りたい。

C: サイクリックな時間に対する推薦だったらこういう話で良いと思うが、映画のようなものではこういう話は当てはまらない。何をターゲットにした推薦なのかを明確にしておくと良さそう。
C: アルゴリズムを切り替えるというのは良さそうだが、「ある根拠で切り替える」というアイデア自体は既存手法があったと思う。状況に合わせた推薦をすると面白そう。

Q: 多様性の評価で「生起数の多さ」をしているが、アイテムが多くなると良いという評価で良いのか?
A: 推薦という点では多様性が増えたといえる。
Q: 推薦という意味では逆にそれがネックになりそうだが、適切な評価なのか? アイテム数よりは内容の多様性を見る必要が無いか。


4 電子文書中の TrueType グリフ照合とその高速化手法の検討 ○鈴木俊哉(広島大)

動機:どの字が何(どのフォント)で印刷されているのか分からない
フェイス名(MS 明朝とか)で指定可能とされていたが、字形の詳細に拘泥する領域でも十分か?
 ケース1:字形を変えたいが名前は変えたくない(バージョン番号だけ変わる)
 ケース2:コールバックの問題で「JIS規格票字形に無いはずの字形が出てくる」。
  *どこに外字フォントが潜んでいるかわからない
  フォント単位での特定 -> グリフ単位での特定
ラスタイメージで比較
 -> 利用許諾・著作権上実用性無し
True Type 描画命令のハッシュ値比較
 そのままだとラスタライズと比較して30倍遅延->高速化



5 文法構造を付加したテキストに対する情報検索方法の検討 ○鈴木 晋(愛知工大)

簡単な文法構造(ここでは「形式文」と呼ぶ)を人手で付加して検索に利用するという試み
含意関係認識に近い例で、質問応答するタイプっぽい。
Semantic Web、オントロジー、WOLに似てる気もするがそれを手動で作るっぽい。

naltoma: 人手で質問に付与するぐらいなら良さそうだが、説明文へも人手が必要だとコスト高過ぎないか?
A: RDFでの表現には限界があるという立場。
naltoma: (だけど人手でそれを解消してるようにも思えない)

naltoma: 形式マッチングだけでは不十分で、何を問うているかについての解釈も必要では?

naltoma: 単純キーワードマッチングとどのぐらい結果の質が異なる?
A: キーワードマッチングでは主語述語の関係を無視してしまう。
naltoma: (その例に限って言えば係り受け解析まで加味したら良さそう)


6 類似文字列検索における LCP 配列を用いた索引の提案 ○木村光樹(東大),高須淳宏,安達 淳(国立情報学研)

可変長N-gram
 VGRAMはパラメータ変更する度に木構造を作り直す必要がある
 -> 木構造じゃなくて配列利用。要件:時間削減&パラメータ変更に頑健。

Q: 表記揺れにもいろんなパターンがありそうだが、今回の対象ではスペルミス(字面の並び)のみ?
A: その通り。

Q: 今後の課題で日本語のように文字種が多いものについて評価したいとのことだが、その前に「アルファベットでも単語が長くなるドイツ語とか」で評価するのが手っ取り早そうだが、何か予想できることはあるか。
A: 今回は検索速度は比較してないが、スペイン語で実験した例と比較するとあまり英語と変わった特有の話はそんなになかった。辞書化した場合にはあまり差が無い。逆にDNAのような文字種が少ない場合では文字列が長くなってしまうため、そういうケースでどうなるかは今後検証してみたい。


7 Detection of Paragraph Boundaries in Complex Page Layouts for Electronic Documents ○ Yimin Chu(東大),高須淳宏,安達 淳(国立情報学研)

PDFでの論理構造抽出が目的。
 コンテンツ抽出->グルーピング->論理構造抽出
 キャラクタ、フォント、線、ブロックなど。
従来法:フォントサイズ、ラインスペースに基づいてグルーピング。
 今回はアライメントとインデントを導入。

naltoma: 論理構造の延長戦にストーリー展開とか意味構造があるのかな。

Q: 先行研究とターゲットの違いがある?(アカデミックペーパーかコンシューマ雑誌か)
A: アカデミックペーパーは一例。データセットに含まれている。
C: 自分が考えてるパラグラフ抽出が有利と考えるのは良いが、ユーザはそこに嬉しさを感じるのか。パラグラフが重要なのかそうでもないのか。


学生セッション[2V 会場](3 月 6 日(火)15:00 ~ 17:30) 情報抽出・質問応答 座長 佐々木 裕(豊田工業大)


1 自然言語テキストにおける注視関数を用いた注視語抽出方式の提案 ○齋木貴博,鈴木 寿(中大)

深層格の自動抽出に繋げるための話らしい。
(遅れて聞けず)


2 ソーシャルネットワークを情報源としたコミュニティ辞書自動生成の 研究 ○宮本和幸,菱山玲子(早大)

専門用語(特定コミュニティで使用される用語)を自動生成したい。
 機械翻訳での誤訳を防ぐ

naltoma: 「Twitterがコミュニティ性の高い語彙が現れやすい」という仮定は良いとして、それをどう構築する?コミュニティとは?
naltoma: 未知語と一緒だが、ツイートされない専門用語は?(漏れはどのぐらいある?)

Q: コミュニティの語彙を収集するという意味ではブログの方が詳しい気もするが、Twitterでは崩れ過ぎているということはないか。
A: 今回はブログは対象として考えていなかった。Twitterは正しい日本語じゃない、崩れているものも確かにあった。


3 WEB 上の相談事例とトラブルデータベースを利用した重要事案発見のための要因解析 ○八十岡智章,岡田将吾,新田克己(東工大),高橋久尚(統計数理研),本村陽一(産総研),田中智貴(国民生活センター)

早期警戒指標となる重要な事例・事案を自動発見したい。
類義語辞書:アラジンの負担・トラブル表現リスト(例:風邪->病)

naltoma: 分類精度というよりも発見見逃しがないか、再現率が高いかが重要では?
naltoma: どんな事例で失敗している?

Q: パラメータ調整の自動化について考えていることはないか?
A: 現在は手動調整。自動化は検討中。
Q: 自動化ができそうか? 手動でやらざるを得ない問題設定なのか?
A: 動的に変化するものなのである一定期間毎に更新する必要があると思う。


4 検索サイトを用いた自由記述式アンケートの特徴語抽出法 ○星野詞文,吉村宏樹,岡 誠,森 博彦(東京都市大)

検索ヒット件数から名詞の繋がり具合を判断できないケースへの対処
 文法的視点から「連接係数」を導入

naltoma: 企業アンケート特有の話がある?


5 カテゴリ階層を考慮した固有表現抽出 ○東山翔平,関 和広,Mathieu Blondel,上原邦昭(神戸大)

従来の固有表現抽出では「分類」だが、階層関係が考慮されていない。
 重みwを学習する際に階層関係(ラベル間の損失関数)を導入
 階層間関係における「差」を損失関数として設定
  dca: deepest common ancestor -> 一般用語の方がby座長

naltoma: 適切な損失関数はどのように定義する?
naltoma: 項目毎の損失関数総和で良いのか?

C: 固有表現をテストするデータセットがあるのでそこで比べると比較しやすくなる。


6 中学校レベルの数学の文章題を解くシステム ○箕村大輔(電機大)

形態素解析->ホーン節(原子論理式)変換->常識追加->連立方程式作成->制約プログラミングで解く
ホーン節変換:Syntax Directed Translation Schema(SDTS)
‘支払う(太郎,1050)’: 支払ったなら何かを買ったはず->買うという式を追加。

naltoma: 問題の意図や答えるべき事象はどのように汲み取れるのか?
naltoma: 常識的知識をどのように用意するのか?(どのぐらい必要になりそうか?)
A: どのぐらいの数が必要そうかは未検討。
naltoma: 文章題のタイプはどのようなものがあるか?
A: 有理数の演算で求めるタイプ。例えば図形は考慮していない。

Q: 例えば中1レベルの問題集解かすと何パーセントぐらい解けるのか?
A: 変換規則が不十分なのでまだ何とも言えない。


7 発言内容の関連性を用いた質問答弁の構造化に基づく議事録閲覧支援システム ○小泉元範,新谷虎松,大囿忠親,白松 俊(名工大)

解決したい対象:全体内容把握の困難さ、話題発見困難さ
 議事録の「質疑応答構造」を利用
質疑応答分割->セグメント分割->セグメント間関連度->構造化

naltoma: 質問者、答弁者のデータセットから汎用的な「質問パターン」「答弁パターン」が見えてくるか?
naltoma: 複数の議事録での時系列推移を見れるか?(参照リンク生成?)
naltoma: 事前に議題が明示されてるケースが多い気がするが、比較してどのような差異が見られたか?
A: 要約に相当するような文が冒頭にでてくるが、実際に発言としてでてきた言葉を見出しとして使うことができる。

Q: 質問者が答弁者に対して「はい/いいえ」と言わせるようなやりとりでは類似度があまり出て来ないと思うが、こういうケースではどうなるか?
A: 質問/答弁が長いケースを想定している。
Q: 長短に応じて前後の発言にくっ付けるというような判定も面白そう。


8 複合名詞の構造パターンを考慮したスコアリング手法の改良 ○吉野 徹,福本淳一(立命館大)

QAシステム「*は誰?」
例:完全試合を達成したヤンキースの選手は誰?
 回答候補をスコアリング:キーワード毎にスコア付与
 問題点:複合名詞の形態素が離れて現れた場合、スコアリングを行うのに相応しくないキーワードがある。
「名詞-助詞-名詞 名詞-名詞」の構造パターンについて人手分析
NTCIR-3のQACタスク+Google検索上位10記事
 RRで評価

naltoma: 汎用的なパターンとして抽出できるのか?

Q: 構文解析機を使った事があるか?
A: 精度8割程度と低かったので、自前で作ろうと思った。
Q: パターンというより文の構造で見た方が良いと思う。


9 Twitter からのアルバム自動生成システムのための関連度計算手法について ○糸川翔太,白松 俊,大囿忠親,新谷虎松(名工大)

コメント付きアルバム(複数ユーザ)を自動生成。
 入力:Twitterユーザ名+イベント期間
 「写真ツイートその他ツイート」の類似度算出し、関連ツイートをコメントとして採用
 類似度=投稿時間の近さ+位置の近さ+テキスト類似度+リプライ


10 質問応答システムにおける再検索を用いた回答候補の抽出手法 ○油井宣明,福本淳一(立命館大)

QAシステムの問題点:質問文中に情報が不足している場合回答を一意に決定できない
先行研究:ユーザ対話を用いる。
提案:質問文の曖昧性を解消するために回答を拡張することで絞り込みしやすくする

Q: どのぐらい性能が良くなる?
A: 性能が良くなるというよりは抽出できる回答を増やしたい。
Q: 間違った回答に結びつくこともありそうだが。
A: 間違ったものを省くというよりは、提示すること自体を増やしたい。ユーザが何を求めているかが分からないので、再建策で明らかにすることが目標。
Q: 適合フィードバックのような形で処理するのも一つの手法だと思う。

Presentation Patternsに学ぶプレゼン・ハックのススメ

金曜日, 2月 17th, 2012

妙なタイトルですが、「プレゼンテーションそのものの講義無いの?」とかいう話がたまに出るので、参考になる資料の紹介と、この資料を使った具体的な改善方法についての記事です。資料読んで自分で直せる人には必要ないですね!

<目次>


参考リンク一覧

プレゼンテーション・パターン:創造的プレゼンテーションのパターン・ランゲージ
プレゼンテーション・パターンの公式サイト。

『Presentation Patterns イラスト制作の軌跡』(Ver.α)
プレゼンテーション・パターンに描かれているイラストがどのように出来上がっていったのかを、(恐らく当時の)コメント付きで眺めることができる「制作日記」みたいなもの。趣旨をどのように伝えるかについて、ブレストチックにネタ出しから始まり、様々なアイデアが一つに収束し、質を高めていく流れ(創造プロセスの記録)が見えて、楽しいです。

プレパタ作成物語(連載まとめ)
タイトルのままですが、イラストだけではなく、プレゼンテーション・パターン全体を作成していく過程を紹介した記事一覧。


少人数で始めるプレゼン・ハック

想定環境・事前準備編

人数を調整する
2〜5名程度。全員分の「発表+質疑応答+発表振り返り」の総合計時間が1,2時間で収まる程度がベター。長すぎるとだれるし。

プレゼンテーション・パターンを1つ以上選択する
参加者は、発表者として強く意識したパターン(以下、「発表者パターン」)、聴講者としてチェックしたいパターン(同「聴講者パターン」)を各々1つずつ選ぼう。パターンが被っても異なっても良いですが、慣れるまでは1つずつに絞るのが吉。なお、聴講者パターンは参加者間で被らないように調整した方が良いかもしれませんが、mustではありません。

発表者パターンについて意識したことを文章化する
パターン自体にいろんな補足説明が最初から書かれていますが、発表者として「そのパターンに気をつけることでプレゼンをどうデザインしたか」について自分の言葉で書こう。

聴講者メモを取りやすい環境を用意する
ノートPC等でPDF閲覧しながらでも良いですが、画面小さくてメモる際に隠れてしまうようなら聴講者パターンを印刷するなど工夫しましょう。常にチラミできるように置けるとベター。また、ieの皆さんのように「息をするようにツイートする」人種なら、コメントを「#prepat01とかハッシュタグ付けてツイートする」とか、可能な限り思ったことは書き出せるように環境づくりをしましょう。(蛇足ですが、ハッシュタグ付けると「いろんな人の指摘・改善策」みたいなものが集約できて面白いかも)
大した事ないと思っても、それは貴方がそう思ってるだけで他の人から見ると心に響く言葉かもしれません。玉石混淆で構いませんので、書こう。

どのような場で発表するかを共有する
事前に「どのような人向けに、どのぐらいの時間で話すか」についてメンバ間で共有しよう。ターゲットや持ち時間の想定ズレを防ぐだけでも有益なコメントを得られやすくなります。

必ず質問する
質問の練習を兼ねてますが、実は説明しようとすると詰まるぐらいの理解度で留まってる背景知識とかいろいろあるので、必ず質問し合おう。

必ず文章化する
指摘/コメントだけではなく、2週目以降では改善した点についても文書化(文章だけでも、イラスト等加味しても化)しよう。これだけでも「振り返り(=ハック)」しやすくなるぐらい、とても重要。


実践編

初めての発表では、発表者毎にStep1、Step2、Step3、Step5を繰り返します。
一度でも発表に対するコメントを貰った人は、上記にStep4を加えてやりましょう。

Step1: 実際の発表スタイルと同様に発表
発表者は、指定された発表時間&スタイルで通しましょう。
聴講者は、各自の選択した聴講者パターンを意識し、気づいた点をメモりましょう。選択した聴講者パターン以外について気になることが出てきたら、それも取りあえず書き出しましょう。発表中は書き出すだけで、後で該当パターンがあるかチェックして補足するとベター。

Step2: 実際の質疑応答スタイルと同様に質疑応答
既に何度も質疑応答やってるとか、質疑応答以前の問題で発表資料の改善に注力したいなどの特別な理由があれば省略して良いですが、可能な限り質疑応答までやろう。

Step3: 聴講者による通常の指摘・コメント(未質問者全員)
Step2で質問することができなかった人に、必ず質問をさせよう。互いに自分の言葉で喋る練習になります。全員が質問し終えたらStep3へ。

Step4: 前回貰ったコメントがあれば、それに対する回答を示す(1,2分程度)
修正点が多数ある場合には、主観で構わないのでその中でも特に重要だと感じた修正点1つ程度について、コメントと共に修正前後のスライドを提示し、端的に説明しよう。ハック例を共有するのが目的なので、長くても数分程度。資料は、プレパタ作成物語のような「編集の奇跡」を残すつもりでちゃんと文書化しよう。(口頭説明だけで終えるようにしないようにしよう)
全ての修正点についてやろうとすると必要以上に労力がかかってしまうので、原則として1回の発表練習毎に1つ。発表練習を繰り返すことで奇跡として残すことを積み重ねると消化して血肉になりやすくなる(無意識で気をつけるレベルに昇華しやすくなる)し、後々振り返るための資料にもなるので1つは作って残すようにしよう。

Step5: 聴講者パターンに根ざした指摘・コメント(発表者全員1回ずつ)
指摘項目は多数あるかもしれませんが、共有した時間を効率良く使うために一人1件に絞って指摘・コメント(≒ハック)しましょう。一度にハックしまくっても消化不良になるので、1人1件に絞ろう。話せなかった分は、後で書き出した一覧を発表者に渡せば良いです。

全員の発表練習が終わったら、その時間内に指摘できなかったことを個別に話合うなりメモを渡すなりして発表者がハックしやすくなるように工夫してみよう。ハック例を研究室内外で蓄積してクックブックorレシピ化するだけでも質を高めやすくなるかも。

未踏ユース/スーパークリエータにまつわる座談会

水曜日, 2月 8th, 2012

 大学サイトの「アクティブ学生」として記事が掲載された通り、与儀さんがIPA主催の未踏ユースにてスーパークリエータに認定されました(参考リンク1)! また、琉球新報さんにも記事にして頂けました(参考リンク10)!

【授賞式の様子】

 未踏プロジェクト(正式には「未踏IT人材発掘・育成事業」)は、年と共に少しずつ変化して行っていますので、詳細はオフィシャルサイトで確認してもらうとして、与儀さんは「動的にフォントを生成/編集するためのフレームワークの開発」というテーマで2010年度・未踏ユースに採択され、首藤一幸PMによる指導のもとでソフトウェア開発を行いました(参考リンク2)。

 以下、2011年度採択に挑戦したものの落選してしまった山内一騎くん(工学部情報工学科4年次)を聞き手に、与儀さんとの対談形式で事業を通したプロジェクトの様子等について紹介します。

<目次>


何したの?

聞き手・山内(以下、山内):まずはスーパークリエータ認定おめでとうございます!
話し手・与儀(以下、与儀):ありがとうございます!

山内:いきなりですが、未踏ユースでは国からお金をもらいながらソフトウェア開発できるそうで、最高180万ぐらいの費用を頂けるそうですね。ぶっちゃけいくら貰えたんですか?
与儀:途中で進展できない時期もあったのですが、合計で(検閲)ぐらいです。あれ、何か勝手に書き換えられてしまいますね。察してくださいw

山内:気になる人は個別に突撃してもらうということでw

山内:では気を取り直して、今回、未踏ユースに採択された期間内における活動が認められスーパークリエータ認定を受けたということですが、この「動的にフォントを生成/編集するためのフレームワークの開発」というプロジェクトはどのようなものなんでしょうか?
与儀:「動的に」とか言うと難しく聞こえるかもしれませんが、自分好みのフォントを誰でも簡単に作れるようにするためのソフトを開発するというのが目的です。そもそもの出発点というか切っ掛けになったものは、このIPAの事業に関する説明会(参考リンク3)に参加した際に紹介してもらったOBの岩崎さんの提案である「チャットシステムが味気ない。もっと書き手の気持ちを伝えたい」というものでした。岩崎さんの例では文字チャットにおいて「筆圧」等を加味して文字サイズを大小変化させるというものだったのですが、私は「その時々の感情に応じてフォント自体を作りたい」と考えました。例えば悲しい時は薄くかすれたフォント、楽しい時はポップ調のような形で自分好みのフォントを作ることができれば、書き手の気持ちを伝える手段が増える、つまり表現の幅が広がります。

山内:書き手の気持ちを文字内容だけではなくフォントの形でも伝えることができる、ということでしょうか。
与儀:そうです。例えば、ニコニコ動画では視聴者のコメントが埋め込まれた形で動画が再生されますが、基本的にはコメントの色を程度の変化しかありません。これがコメント内容に応じてフォントまでが変わると、例えばこういう感じに見えると、どうでしょう。

ニコニコ動画でのイメージ図

【ニコニコ動画でのイメージ図】

山内:こ、これはw
与儀:良いリアクションありがとうございますw
与儀:まだここまでは辿り着いていないのですが、こういうゴールを目指す第一歩として「好みのフォント」を作りやすくするためのソフトウェアの開発に着手した、というのが今回のプロジェクトです。

山内:なるほど、さらに先を見据えての開発なんですね。今後の発展も楽しみです!


育成事業らしいけど、何かレクチャー受けるの?

山内:次に、プロジェクトに関連して違う視点、「育成事業」という点についてお聞きしたいのですが、一般的な応募を募るケースでは「提案者が開発するだけ」のように思います。それに対して、今回の未踏ユースでは「プロジェクトマネージャのもとで発掘育成する」ということですが、具体的にプロジェクトはどのように進んだのでしょうか?
与儀:実はプロジェクトが採択される前からいろいろと指導頂く形になりました。応募したのが9月末で、書類審査を通過したのが10月中旬です。その後にプレゼンを含んだインタビュー形式での審査が10月下旬にあり、採択内定を頂いたのが12月中旬頃だったと思います。この内定を頂いてから実際の契約に至るまでの1ヶ月ぐらいの間に「プロジェクト期間中における具体的なゴールをどう設定するのか」「ソフトウェアとして実現するためのアイデアは練っているのか」「どのようなスケジュールで開発するのか」といった様々な視点からのアドバイスを頂き、少しずつプロジェクトを具体化するという作業を進めていました。

山内:事務方さんというか進捗確認的なもので済ませるだけじゃなく、かなり開発寄りの具体的な項目について話合うことまでされているですね。言ってみれば上司として部下の成功を導くというような形での共同作業といった所でしょうか。
与儀:そう考えてもらった方が分かりやすいと思います。
与儀:正式な契約を交わしたのが1月で、それからは討論だけではなく、開発を進める上でのサポートをいろいろとして頂けました。例えば、フォントをどう作るかということが焦点の一つですが、これに対して具体的なアイデアを考えていく際の討論だけではなく、フォントを販売している株式会社モリサワさんの中の人と話す場をセッティングして頂けました。

山内:それは羨ましいですね!
与儀:他にも、首藤PMが関わっているプロジェクトメンバやOBOG等未踏関係者の集まる場での討論や、合宿などを用意して頂け、いろんな分野、いろんな視点からの意見を交換し合える場を提供して頂け、交流の幅が広がったのがとても嬉しかったです。これが切っ掛けかもしれませんが、県内でもブロッコ・デリ・アーキテクツ有限会社さんとデザインについて話を聞くよう行動する等、これまで以上に「プロジェクトを成功させるために行動する」ことを心がけて行動することの大切さを体感することができました。

山内ソフトウェア開発といった技術面だけでなく、視野や交流の幅を広げるといった間接的なサポートを通して得られるものがあったのですね。僕は与儀さんの講演会(参考リンク4)に参加してやる気になり、今回初応募して落ちてしまったのですが、とても悔しいです(笑) 
与儀:「未踏」では自分の夢を持って具体的に行動している人が大勢いるのですが、大勢居ることで「専門分野」という垣根を越えた話題やアグレッシブな様子が身近に溢れていて、それが交じり合って行くのがとても面白いです! 山内くんも、その一員になれるよう何度でもチャレンジしてください(笑)

山内:はい、頑張ります!


応募の時に考えて欲しいこと?

与儀:ちなみに、これは首藤PMから言われたことでもあるのですが、一人のプロジェクトとして頑張る必要はないです。公募要領にも書かれてますが、複数人でのグループによるプロジェクトとしての提案で構いませんし、実際そのようなケースが少なくないようです。一人だとどうしても進展が見え難い時期等で精神的にキツいですが、それを和らげる意味でも共同作業するような形が望ましいという意見を頂きました。特に私の場合だと、修士論文とは関係ないテーマで提案したこともあって、どちらともやりたいテーマなんですが時間が有限なので、両立にとても苦労しています。目下修士論文作成マシーンと化しています(遠い目)。

山内:僕も卒業論文書いてる最中なので、そこはお互い頑張りましょうw
山内:話を元に戻してプロジェクトの流れについてですが、1月に契約が済んでから討論だけでなくいろんな交流イベントを通しながらの開発となったようですが、これはいつ頃まで続いたのでしょうか?
与儀:契約期間という意味では8月中旬頃で最終報告までを終えました。ただし、その後も9月上旬頃までは書類の書き直し等を含めたやり取りが続いていましたので、実質的な期間で言うと約10ヶ月間がプロジェクト期間と考えて良いと思います。

山内:10ヶ月間というと、フルに活動するとして40週間ですか。単純計算で1日8時間x週5日x40週=1600時間。安いバイトで換算すると、、というのは辞めておきましょうw
与儀:(^-^)

山内:最終的な成果物というのでしょうか、プロジェクトを終了する際に求められるものはどういうものなんでしょうか?
与儀:基本的には日々の作業日誌と、成果としてなるべく目に見える形でのデモを用意すること、デモを踏まえたプレゼンテーションや概要書を作成すること、といった所です。

山内:開発したソフトウェアそのものというかプログラムは提出しないのですか?
与儀:基本的に開発物はクリエータのものです。OBOGを見ていると多くのケースではWeb上で公開しているようですが、公開することも含めてクリエータが自分で決めることができます。

山内:では、商用として売り出すこともできるんですか?
与儀:自由です!

山内:うおおおおお!それは妄想が膨らみますね!!ww
与儀:落ち着けwww
山内:すいませんw

山内:そろそろ最後の質問、今回のスーパークリエータ認定を受けての気持ちや、この記事を読んでくれているであろう後輩に向けての言葉を頂けますか?
与儀:まさか自分のプロジェクトが選ばれるとは思ってなかったので驚きました。でも8ヶ月間の労苦と絶望感が報われたようで大変嬉しいです!こんな自分でもなんとかやっていけたので、つまりは誰でもやっていけると思います(笑) やりたい気持ちとアイデアがあれば技術はあとから身につくし、そのための最大限のサポートもしてもらえます。それに未踏は刺激に溢れているので、モチベーションは上がりまくりです。たくさんの面白い人とも出会えるし、面白い話も聞けるし、とにかく未踏の一番のウリはそんな出会いだと思います。何かやってみたい事があるなら、まず挑戦してみてはどうでしょう。

山内:ありがとうございます!
山内:長丁場になりましたが、今回は修論過渡期という多忙な時期にお時間頂き誠にありがとうございました!
与儀:ありがとうございました!


最後に

 以上、當間による捏造対談でお送りしました。(本人達に承諾は得ていますよ!)
未踏プロジェクトに限った話ではなく学業/研究/趣味何でも良いですが、学生さんが学外にも目を向けて活動する切っ掛けになれば良いなとの思いで、記録を兼ねた対談形式の記事として作成してみました。

 なお、この記事によると、未踏の公募(受付期間:2/7〜4/10)が始まっているようです。

 ちなみに、与儀さんは「21世紀グローバルプログラム(参考リンク5)」で入学してきた学生の一人です。今回採択されたプロジェクトは卒業論文や修士論文とは無関係の個人的なプロジェクトとして応募し、採択され、努力した結果が評価されました。21世紀グローバルプログラムが廃止(参考リンク6)になったのはとても残念ですが、「学力、意欲、豊かな個性を兼ね備えた優れた学生」として入学し、学術研究活動だけでなく学外プロジェクトにもチャレンジし、その活動が高く評価されたことはとても喜ばしいことです!


参考リンク一覧

参考リンク1:
 「未踏IT人材発掘・育成事業」スーパークリエータの認定について~採択、支援した34件の中からスーパークリエータ 15名を認定~
 http://www.ipa.go.jp/about/press/20111215.html

参考リンク2:
 2011年度 未踏IT人材発掘・育成事業 公募結果
 http://www.ipa.go.jp/jinzai/mitou/koubokekka_index.html

参考リンク3:
 未踏IT人材発掘・育成事業説明会(9/4 13:30-15:30)
 https://ie.u-ryukyu.ac.jp/blog/2010/08/26/未踏it人材発掘・育成事業説明会94-1330-1530/

参考リンク4:
 未踏にチャレンジしてみた琉大院生による紹介と中間報告 講演会のお知らせ
 https://ie.u-ryukyu.ac.jp/blog/2011/01/29/「未踏にチャレンジしてみた琉大院生による紹介/

参考リンク5:
 琉球大学21世紀グローバルプログラム
 http://www.u-ryukyu.ac.jp/admission/nyushi/guide2007/p08.html

参考リンク6:
 琉球大学 学内ニュース 2010年7月号(21世紀グローバルプログラムの廃止)
 http://www.u-ryukyu.ac.jp/univ_info/inter_news/2010_jul.html

参考リンク7:
 情報処理推進機構:未踏:未踏IT人材発掘・育成事業
 http://www.ipa.go.jp/jinzai/mitou/

参考リンク8:
 「2012年度未踏IT人材発掘・育成事業クリエータ委託契約」に係る企画競争
 http://www.ipa.go.jp/about/kobo/20120207/index.html

参考リンク9:
 リンク:「2012年度未踏IT人材発掘・育成事業クリエータ委託契約」に係る企画競争
 http://d.hatena.ne.jp/next49/20120207/p3

参考リンク10:
 リンク:与儀さん(琉大大学院)県内初認定 スーパークリエータ(琉球新報)
 http://ryukyushimpo.jp/news/storyid-187430-storytopic-7.html

情報工学実験2/探索アルゴリズム1の口頭試問日調整

月曜日, 1月 23rd, 2012

探索アルゴリズム1の口頭試問日調整用の記事です。
「空き時間目安」を参照の上、「口頭試問希望の手順」に沿って調整してください。


口頭試問希望の手順

(1) レポートを提出(サーバにアップロード)する。
(2) メールで提出報告する際に、空き時間目安を参照の上、希望日&時間帯を申請する。
 なお、原則としてグループ単位での実施です。
 どうしても全員が揃う日程で調整できない場合には個別相談ください。
(3) 特に問題無ければ、私から承認メールを返信します。
(4) 予約時間帯にグループメンバ全員で口頭試問。(約15-20分程度。長いと30分オーバーになることも)
 *場所は當間部屋(705室)です。


空き時間目安

あくまでも目安です。実際には下記時間帯で対応できないこともありますので、ご了承ください。

1/24(火), 2〜5時限目
 15:30-15:50, 月グループ6
1/25(水), 午前中
 9:00-9:20, 月グループ1
1/26(木), (午前中)
 *代休のため基本的には休みですが、午前中なら希望受け付けます。
1/27(金), 4時限目

1/30(月), 2~5時限目
 12:50-13:10, 金グループ6
 13:40-14:00, 金グループ4
 14:00-14:20, 金グループ4(探索アルゴリズム2)
 16:20-16:40, 月グループ7
 16:40-17:00, 月グループ3
 17:20-17:40, 金グループ3
1/31(火), 2~5時限目
 14:40-15:00, 月グループ4
2/1(水), 午前中
 9:00-9:20, 月グループ1(探索アルゴリズム2)
 13:00-13:20, 金グループ8
2/2(木), 2~5時限目
 10:20-10:40, 月グループ5
 15:00-15:20, 金グループ5
2/3(金), 3時限目
 12:50-13:10, 月グループ8

2/6(月)
 10:20-10:40, 月グループ8(2名)
2/8(水)
 15:00-15:20, 金グループ7
 15:20-15:40, 金グループ7(探索アルゴリズム2)

2/6(月)以降については適宜メール相談ください。


口頭試問未実施グループのリスト

>未実施
月(8),9or10
金1

>終了
月1,2,3,4,5,6,7,(8)
金3,4,5,6,7,8

>探索アルゴリズム2(希望制)
月1,(8)
金4,7


メモ

提出状況一覧(メール報告があった分)。
下記の日付&時刻は、レポートPDFファイルのタイムスタンプです。

>探索アルゴリズム1
月1: 1/20, 12:08 -> 1/25, 22:03(4カ所修正)
月3: 1/23, 23:47
月4: 1/23, 19:58
月5: 1/23, 23:49
月6: 1/18, 19:47
月7: 確認中(対応中)-> 1/25, 20:36
月8: 1/23, 14:31(Level2はまだ)
月10: 確認中(リプライ無し)
金1: 1/27, 23:56
金3: 1/27, 13:49
金4: 1/26, 20:43 -> 1/30, 15:06(4カ所修正)
金5: 1/27, 13:25
金6: 1/27, 16:06 -> 1/30, 13:53(3カ所修正)
金7: 連絡あり -> 1/29,4:47
金8: 1/27, 18:08

>探索アルゴリズム2
月1: 1/23, 19:52 -> 2/2, 20:48(1カ所修正)
月3: 1/23, 23:44
月4: 1/14, 0:13
月5: 1/23, 23:57(3.1, 3.2について後で再提出希望あり) -> 1/28, 13:08追加提出。
月6: 1/23, 19:34
月7: 確認中(対応中) -> 1/25, 21:11
月8: 1/23, 13:26(Level1, 2, 3.4はまだ)
月10: 確認中(リプライ無し)
金1: 1/27, 23:38
金3: 1/27, 21:25
金4: 1/27, 23:54 -> 1/30, 15:19(4カ所修正)
金5: 1/27, 11:10
金6: 1/27, 18:20
金7: 連絡あり -> 2/1, 2:54
金8: 1/27, 22:32

参考文献に頼ろう

金曜日, 1月 13th, 2012

卒論修論シーズンということで、度々話題に上がる「参考文献が殆ど明示されていない、酷い場合には研究室内先輩の卒論/修論一つしか挙げてないケースも」を思い出したので、参考文献にまつわるコラムでも書いてみます。

参考文献の必要性ついては、Google先生にお伺いした所「参照文献はなぜ必要か : その目的と機能」という素晴らしいページが見つかりました。曰く、

「内容が思いつきや独り善がりでないことを示すこと」
「証拠立てられない私見だけでは論文にならない」
「先人の業績を知らなければ自分の研究の価値がわからない」
「研究の結果がどれほど興味あるものであっても,同じことをすでに他の学者が発見していたとすれば,多大の努力によって完成した業績も意味の少ないものになってしまう」
「参照した文献を明示することにより,著者側から読者に関連資料の存在を伝えると同時に,読者側からはその研究分野の動向を確認・評価することが可能になる」
「他人を模倣するのではなく、自分ひとりで他人とは違う考えを編み出せたと思ったとき、それがほんとうに独創的であるケースはめったにない」
「研究というものは、他人がすでに明らかにしてくれたことがらの莫大な蓄積の上に、ちょこっと、自分がはじめて明らかにしたことを付け加えることによって進んでいく」
「自分がどのような素材(調査、統計、テキスト、先行論文)を使ったのかを明示し、それがどこで手に入るのか、そのどこを使ったのか、第三者が必要とあればいつでもチェックできるように、こうしたことを論文の中にきちんと示しておかなくてはならない」

参照文献はなぜ必要か : その目的と機能より引用)

などなど、様々な視点から「参考文献」の意義について触れられていますので、そのページを参照するのが手っ取り早いですね。

ここでは上記ページで触れられていない点について書き加えます。
(そう、この記事も別の記事を参照しているからこそ多くのことを省略できるし、自分が主題にしたいことに注力することができる)


論点を絞り込むことができる

これまでは良く分かっていなかった何かしらの課題(問題点, issue)を明らかにすること自体が目的であったり、既に合意の得られている課題についてトライしたことについての議論であってり、何かしら論点が一つ以上含まれているはずです。このとき、自分にとっては「論点にしたくない課題/仮説/前提」について、他の論文で論じられているのであれば、それを参考文献として示すことで「この人が論じたことだ」として一種の逃げを打つことが可能になります。具体例として、先程のページ冒頭から引用すると、

日頃から習慣的に本を読むか読まないかは各人の自由、人それぞれの趣味嗜好に属することで、 本をまるきり読まなくても多くの人はなんら支障なく日常生活を送っているようです()。

参照文献はなぜ必要か : その目的と機能より引用)

では、「本当に支障無く日常生活を送っているかどうか」自体が一つの論点になり得ますが、ここでは「参考文献を付けることの目的と機能」について論じたいのであって、その前段について、もしくはその前段の前段、前段の前段の前段、、、についていちいち論じていては一向に進みません。本当に支障無く日常生活を遅れているかどうかなんてことには興味が無い(言い過ぎ)か、その参照した論文で論じられている内容で十分担保できると看做すことで、責任の一部をその参考文献著者に委ねることができます。これにより、自分が主題としたい論点に的を絞って論じることがしやすくなります。

もちろん、その参考文献自体の正確さや信頼性次第では「参考文献として妥当ではない」と看做されてしまい、場合によっては「こんなものを参考文献として挙げてるようでは論文の信頼性もたかがしれている」という評価に繋がることもあるでしょう。この意味で、適切な参考文献を列挙することが求められる訳です。このような「参考文献の適切さ」を互いに担保しようとする努力を延々と積み重ねることによって「今貴方が書いている論文の信頼性」を少しでも担保することができるようになりますが、このあたりは先に示したページでも述べられていることですね。

ということで、ある一面だけを強調すると「責任逃れ」のために引用するとも言えます。論文内の全ての論点に貴方自身が全責任を負えるなら、全ての論点について読者が納得できるよう全てについて論じましょう。それが無理なら、適切な参考文献を示して責任逃れをしましょう。参考文献を頼りましょう。

ということで、卒論/修論での適切な参考文献一覧を期待しています!