FIT2011, day2

Share on:

FIT2011の中日が終わりました。これで2/3のスケジュールが終了したことになります。

2日目のプログラムはこちら

午前中はイベント企画サイバーフィジカル情報革命 ~情報爆発から価値創造へ:米国NSFの最新動向~
蛇足ですが、イベント会場1,2共に人数は結構入るのですが、スクリーン自体のサイズがやや小さかったり、プロジェクタ投影サイズと合ってなかったり、位置が見づらかったりしたのがやや残念。

午後は一般講演「言語資源」に参加してきました。

青字は質疑応答時のやりとりですが、ニュアンス自体が大分違ってる可能性が高いです。


目次
イベント企画: サイバーフィジカル情報革命 ~情報爆発から価値創造へ:米国NSFの最新動向~
 ・Big Dataとサイバーフィジカル
 ・統合情報基盤としてのサイバー・フィジカル・システムにおけるオープン・スマート・フェデレーション
 ・ポストペタスケール時代の情報分析技術
一般講演: 言語資源



イベント企画: サイバーフィジカル情報革命 ~情報爆発から価値創造へ:米国NSFの最新動向~

Big Dataとサイバーフィジカル

本題に入る前に
 震災にどれほど役立つことができたのか
  何ができるのか、対応のトレーニングが重要かもしれない
  ヤシマ作戦:Blog, Twitterの比較
   情報伝搬(避難口情報広がり方)の可視化
    ヤシマ作戦に見る草の根的な Diffusion Pattern (拡散パタン)
    インフルエンサーによる拡散パタン: e.g., 有名歌手による募金
   人の呟きがセンサ
    Twitter Sentiment, psyng.com
   スパイク(瞬間的な発火)を見るのではなく Diffusion Pattern を見る時代へ
   多様なITメディアのリアルタイム解析

NSFの最新の動き  CPS PI meeting in Washington  The Growing Imperative and Transformative Impact of Cyber-Physical  Digital Future   explosive growth of scientific and social data    melding of the cyber world with the physical world 
人のつぶやきは大したことは無い。モノ(センサ)がしゃべる時代へ  The Age of Observation  CPSプログラム自体は数年前から始まっててるもので、新しいモノではない   フィジカルワールドにくっついてきていることを真摯に受け止めようという流れ  表現は違うがだいたい同じ方向感   CPS, 情報爆発、情報大航海、Smarter Planet, IOT, M2M, Big Data, etc.  CPS Research Gaps

基本アーキテクチャ  Cyber World Physical World   センサを通したフィードバックのある世界

事例  船の運航(省エネ運行)  ウェザールーティングによる最適計画  物流 by NEC   SeeT-navi  人の健康   情報薬:適切なタイミングで提供される情報   保健指導の大幅な効率化    問題点:個々の多様性が大きい     transfer learning  個々のサイバーデータ活用事例はそこそこある

Big Data Personal Data: The Emergence of a New Asset Class

Q: CPSの応用例に米国・海外のものが上げられたが、  日本が独自にやらなくてはならないものがあるか。 A: アプリケーションドメインの幅は広がる一方で、今回書介したのはほんの一例。  例えば空港の価値が諸外国に負けているということを情報集約の観点から解析したり。  いろんな所に挑戦していくべき。  ポイントは、複数のステークスホルダーが跨がっている所が面白い。


統合情報基盤としてのサイバー・フィジカル・システムにおけるオープン・スマート・フェデレーション

Improvisational Federation
 即応的な対応が重要。適応に至る一歩手前。
  大規模かつ多様なデータ、開放されたもの。シナリオは計画されていない。
 Lower/Middle/Application layer
  Cyber/Physical cloud
  Open library: cyber-physical knowledge-processing

Open smart federation architecture  Generic Wrapping of Resources  Integrated Data and Knowledge Presentation  Virtual Reification Framework   視覚化フレームワークではなく、   相互作用的に機能するオブジェクトとしてのフレームワーク(?)

Meme Media & Meme Pool The Memetic Web PadSpace for Knowledge Federation Cyber data mining (ill-formed)  interactive visualization  improvisational combination of tools and application to CPS data

Reexamination of Disaster Response System in U.S.  Before: NIMS  After   Balancing between Agility and Discipline   Technology-Mediated Support for Public Participation & Assistance

Q: 大震災例だとその場に専門家がいる訳ではないことがある。(殆ど聞き取れず) A: いろんなスキルレベルの人が関与する中で、  各々のスキルに応じて適切なツールを提供する事は大切だと思う。


ポストペタスケール時代の情報分析技術

データ構造といったことだけではなくハードも含めた新たなパラダイムの必要性
「データはめしのたね」
 処理や通信といったスペック向上だけではNG
  PCはどんどんほぼゼロコストに
  電力、スペースは高いまま
 付加価値
  情報爆発→どんどん探し難く→データの目的に踏み込む必要性
 東北大震災の1年前から話が出ていた: e.g., オーストラリアの山火事
 世界的に必要性が高まってきている

スマート・プラネット  単にデータを蓄えるだけではなく具体的に何をしたいのか。  クロスドメイン、多種多様なデータ、性質も異なる。   種類や時間軸の異なるデータの合成や複合的な分析により情報価値を高める。  蓄積→分析→推薦→アクションにまで繋げる

事例  港湾・河川のリアルタイム監視  世界の個人のDNA解析による人類の起源の調査  電力需要と気象の監視・予測→発電量の最適化  センサを増やすだけでは足りず、分析技術が必須   より多くの事象をモニターし、より迅速な意思決定の必要性    Q: 意思決定にもバリエーションが多々あるが、汎用的に提供可能か?   Big Data + Learning Systems

Big Data: Deep Analytics and Reactive Analytics  蓄積しているデータ+流動するデータ   少ないデータで即時に反応する必要のあるケース   大量のデータに時間をかけて反応する必要のあるケース   迅速な処理系とディープ解析を統合    リアルタイムにフィードバック得ながら洞察可能に  データが沢山あっても全部見れる訳じゃない。  見えない部分(間)を補完/推測する必要がある。

Learning Systems  従来:システム毎の出力は同一  学習システム:持ってる知見から出力(異なる可能性、むしろ異なって然るべきかもしれない)  進化する学習システムと人間の関与   仮説/学習/検証エンジンの導入

Q: 仮説/学習/検証といったこれまで人間がやってきた部分をやりたい  ということだが、どこまでできているのか。 A: 非構造化データにアクセスするという点と、仮説を持ち、検証する所は  ある程度可能になった。ポリシーエンジンについても。  完成はしていないが、Watsonとして意思決定を下せるレベルにはなった。  一方、対話しながら混乱するケース(人ごとに異なることを主張されるとか)、  DB内の矛盾等についての学習等、いくつか解決すべき問題も見えてきた。


一般講演: 言語資源

  • 名詞と動詞の共起に着目した状況認識
問題意識:会話の状況や文脈といった内容の推定
 単語の共起データの活用
  EDR電子化辞書:膨大、動詞を基準とした特殊な記述なので扱いづらい
   親密度を用いることであまり一般的でない単語の削除
    Q: 親密度はドメイン毎に異ならないか?
  インターネット上のコーパス
   検索エンジン:動詞→名刺/助詞パターン
 寄席文(三題噺)生成
  Q: 何を評価している/評価することになるのか?

Q: 共起を利用して文を生成したものを評価するということは、
 何を評価していることになるのか。
A: 連想的な意味での内容をうまく表現出来ているという評価になると考えている。
Q: 共起を用いている時点でそれなりの自然らしさは実現出来ていると思うが、
 問題になるのは素朴に共起を用いることででてくる例外をどう取り除くかだと
 思う。何かしら検討しているのか。
A: 今の所まだ未検討。

Q: EDR格フレームを選択した理由は? A: 研究室で扱いやすい環境だったのが大きな理由。 Q: フレームネットもあるので、それとの比較やサーベイ等はあるか。 A: 他データとの比較は行っていないので検討したい。

Q: コメントになるが、  動詞だけにすると「頭に来る」とか意味が変わってくるので、  動詞だけというのはやめた方が良い。 A: ありがとうございます。

  • オントロジーを用いた民具研究者支援システム
  • 対象:民具(現役引退した地域の語り部になる道具、古い道具)
     民具カード:制作者毎に書式が異なる
     経緯:使用目的で検索し難い点を改善
      意味オントロジーの導入
       検索単語を含まなくても検索単語に近い内容を含む検索
       「穴をあける」といった共通項を利用した検索
     目的
      民具分類方法(文化庁分類)の抱える問題:1民具1分類
       Q: 図書の分類でも1図書1分類だと思うが、分類自体を詳細に検討
        することで解決できないのか。何が問題なのか。
      →機能分類に沿った振り分け
    
    Q: オントロジーを作られたということだが、どう作ったのか。
     参考にしたオントロジー体系はあるか。
    A: 先輩が作成したカクテルオントロジーを参考に。
    Q: それはアルコールというモノの種類のようだが、動作的なモノは?
    A: 動作に関しては無い。データを見ながら構築した。
    Q: 折角作ったオントロジーなので、既にあるものとの親和性について
     検証してはどうか。
    

    Q: is-a, instance-ofが出てきたが、どう使い分けているのか。  例を見る限りではis-aにしか見えない。 A: 「害虫is-a昆虫」ではどちらでも可能だが、 Q: どちらでも良いのなら分ける必要性が無いのでは。 A: 大雑把すぎるので分けた方が良いと考えている。 Q: instance-ofはより具体的な、this とかつくようなケースだと思う。

  • 多対多の関係性を持つ多言語用例対訳のデータ構造の提案と評価
  • 問題意識:一意に変換できない用例(多対多)の存在
     メタノードを用いて一意に変換可能にする手法を提案
     用例対訳:一意に変換可能
      医療分野の用例対訳収集システム:TackPad
      用例間の意味の確認
       用例間リンク
    メタノードの自動生成
     部分的に完全グラフとなっているものをメタノードに結合
      メタノードの選択に問題が残る
       メタノードへの意味の付与
        フォーマル/インフォーマルを人手付与
         Q: 選択できるのは人間だけ?
         Q: 他にどういう種類がある?→病名、症状
    
    Q: 医療現場で試してみる?
    A: NPOと協力して病院関係通訳者らと話合って出てきたので取り組んでいる。
    Q: 実際に使ってもらった?
    A: まだ使用する段階になっていない。複雑になっているのでなんとかしたいと考えて今回の手法になっている。
    Q: 用例はかなり作成コストの負荷が高いように思うが。
    A: 今回とは別の例になるが、工夫も試している。
     花粉症に関する言葉を集めてみるとか。分野を限定するとか。
    

    Q: 完全リンクを求めてメタノードを付与するようだが、その時に完全グラフを  構成しているノードの数の多さと重要度との関連性はありそうか。  例えばメタノード数の大小で用途が変わるとか。 A: 結合ノード数自体が重要になる場面は少ないかも。ただし、提供する場合に、  2〜4では足切りした方が良いケースが多いという傾向はありそう。

    Q: メタノードを使うことによる本質的な利点は何? A: 4言語を扱ってる状況を想定して欲しい。例えばタッチパネルで組み合わせて  使うことが多いが、言語を切り替えながら使うとなる状況でどれに変換すべきか  が悩ましいことが起きる。

  • コーパスを利用した自然言語研究・学習・教育支援システムの開発に向けたRDBMSの評価
  • 英語コーパスを用いた教育者の活動を支援するシステム開発
     問題意識:コーパスを統合し、一括して解析できるシステム
      データ蓄積部分+解析部分
      統計解析・検索ツール/学習支援ツール/教育支援ツール
      ARE(Allocation of Remarked Elements)による構造表現、属性情報付与
    
    Q: 背景で、様々な用途を統合するという話があったと思うが、RDBではスキーマを決めてしまう必要性があると思うが、決め方や拡張性に問題は無いか?
    A: 属性付与については問題無い。
    Q: 属性情報を追加したいとなっても対応できる?
    A: テーブル増やすことで対応可能。
    

    Q: RDBを使う目的や意図は? A: 文の構造を管理するだけでなく、構造に対する属性情報を管理できること。 Q: XMLのままで何故いけないのか? A: 解析対象が複数ある時に、様々なフォーマットがある。 Q: 一つのコーパスに対して複数スキーマで同時に対応する?  XML化してしまうとタグ振ることで解決できるが、  他フォーマットでも同様のことをしたい? A: はい。

  • 自動生成された常識的知識を表現する文の自然性判定
  • 常識を利用した研究が日本語ではあまり盛んではない
     問題意識:常識データベースが公開されていない
      日本語WordNet、ConceptNet→常識的知識を表現する文の生成
       Q: 「常識的知識」を文で表現しようと考えた理由は?
       Q: 用例とは何が違う?
     同意名詞の獲得
      大量文生成
      判定(スニペット共起回数/完全一致割合/活用検索割合)
       Q: 検索エンジンの結果に依存して問題は無いか?
    
    Q: 常識をどのように考えているか。例えば「外に出てみたら道路に出ていた
     →雨が降っていた」というような推論? 単なる共起性の判定?
    A: 常識的知識として、常識・文化的知識・専門的知識を含む知識で、
     推論を含まない単純な知識。
    Q: 文法的にも意味的にも満たしているのは全て含む?
    A: その通り。
    Q: 共起性判定との違いは?
    A: 共起するものを閾値として利用しているが、最終的に実際にWeb中にあるもので、単純に共起しているものではないものも扱っていきたい。
    

    Q: 常識的知識を文章として表現しているが、用例とは違うのか。  用例コーパスは大量にありそうだが。 A: もっと大量に作りたい。まずはConceptNetのコーパス拡張。  最終的にはパターンのような形で常識を生成できると思う。

    Q: 普通常識だとスニペットに出て来ない気もするが。 A: 全く出て来ないものというのはあまり無いと考えている。件数だけだと  除外されてしまうケースでも、割合を考慮することで救済できると思う。 Q: 否定についてはどう扱う? A: 今回は処理していないが、否定文を否定として扱うこと等も考えている。 Q: 「夏は寒くない」という文章なら沢山ありそうなので、そこから常識を  抽出しようとした方が沢山取れそうな印象。

    Q: チャレンジングな課題に思うので頑張ってください。

  • 日中機械翻訳のためのスーパー関数抽出における対訳辞書自動構築
  • スーパー関数
     変数と定数からなる。任意一部分を変数とし、残りを定数と定義。
     変数を入れ替えることで別事象を表現。
      対訳コーパスさえあれば、スーパー関数抽出が可能→翻訳可能
    問題意識:名詞だけを変数と定義してるため、資源浪費。
     ほぼ同じ文でも異なるスーパー関数が必要になる。
      助詞と助動詞のみを定数、それ以外を変数と定義→関数整理。
      ただし、訳語の選択問題が残る
       対訳辞書の自動構築で解決したい
        主語と動詞の共起を考慮
     中国語形態素解析精度の問題
    
    Q: 正解率86%となっているが、この結果はどう考えられるか。
    A: 3つ以上の要素が含まれるスーパー関数が使われる文を生成したが、
     多重訳を持つ文を判定するつもりだった。その場合には誤ったケースが見られた。
    
    

    Tags: , ,