京都出張3日目(情報処理学会第77回全国大会 2日目)

Share on:

IMGP0620 IMGP0622 IMGP0624 IMGP0625 IMGP0626 IMGP0627

今日も暑い一日でしたが、夕方には雨が降ってて気温もそれなりに冷えて気持ちいいぐらいに。今日発表した慶留間くんはなんと学生奨励賞(座長さんの一存で決める賞)を受賞。目出度い!(が、私自身は別の会場にいた&時間に合わせて移動したのだけど既に終わってたので見れてない&撮影できずorz)

京大は京大内部の人しか無線LANを利用できない。というのは琉大でも同じなのだけど、外に出ると京都市が提供してるAP「京都どこでもインターネット」があって便利でした。クローズドにするのって管理者側の手間からすると簡単だし言い訳しやすいというのも分かるし、オープンにしたことで手間が増えるのも事実なのも分かるのだけど、もう少し柔軟な対応はできないものかしら。


<目次>

ソーシャル・ビッグデータが切り拓く新しい社会 −ビッグデータの可能性と課題−

全体としては「データを管理&処理する環境」、その環境を利用してるかどうかは不明だけど「対話的に可視化しながら分析する技術」、「医療支援のためのライフログ利活用を例にした事例紹介」、「プライバシーの問題」といった話題が詰め込まれた企画でした。これらの事例とパネル討論を通して「ビッグデータの可能性と課題」を問う、というのが趣旨だったのでしょう。豊田先生の話は論文漁ってみようかな。


講演(1) ソーシャルビッグデータの利活用・基盤技術のためのオープンテストベッドJOSE, 寺西 裕一 (独立行政法人情報通信研究機構 研究マネージャー)

IMGP0580

JOSE (Japan-wide Orchestrated Smart/Sensor Environment)なるリソースを用意したので皆で一緒にやろうよ、という話。単なる計算機リソースというだけではなく、各地に用意されたモニタから収集蓄積されたデータも利用できるorそういうセンサ機器の貸出しや、カスタマイズも可能、とかある程度汎用性を持たせているっぽい。

ソーシャル・ビッグデータ:=公共に役立つデータ
 JOSE: 大規模オープンテストベッド
  研究開発実証実験のスパイラルを含む、実用・商用に向けた実験環境
  大規模分散SDI、柔軟なネットワーク構成、実環境のセンサーデータ


講演(2) 交通ビッグデータ利活用基盤技術, 豊田 正史 (東京大学 生産技術研究所 准教授)

IMGP0580 IMGP0584 IMGP0587 IMGP0588 IMGP0589 IMGP0591

多くの分析技術はバッチ処理で結果が出るまで待たないと何もできない。その一方でリアルタイムに対話的に視覚化されたモノを見ながら分析したいという要求が、一般ユーザからも専門家からもある。その一例としてドライブレコーダから「ヒアリング等の調査に基づいた分析ではなく、客観的な記録のみに基づき、時空間上のヒヤリハット地図作成し、それをインタラクティブに可視化分析してみている」するという話。

大規模データ解析と可視化、対話的な可視化
 e.g., ツイッターのデマ拡散: 時系列にどう拡散されるか
  どういう内容がどう拡散されるかをリアルタイムに解析
 e.g., 移動体オブジェクトの解析&可視化

ドライブレコーダデータ
 まだ利活用は十分には進んでいない
 交通ビッグデータに基づく運転者指向サービス
 運送会社のデータ
  3次元空間可視化を用いたドライブレコーダデータからの要注意領域探索
   インタラクティブ時空間にヒヤリハット地図作成
   記憶に頼るのではなく、実データから要注意時空間を探索抽出
   実際の自己発生箇所との比較、自治体作成地図との比較
   要注意領域の詳細: カーブ後の急ブレーキ
  ドライブレコーダと安全運転
   日々の運転の振り返り
   運転経歴と安全運転との相関は?個々人の特性・癖があるのか?
   事故前後の違いを見ているわけではないことに注意して分析考察が必要(これから)
 個人に適合したサービス

ビッグデータ処理・分析の基盤技術
 解析・可視化をバッチ処理するのではなく、インタラクションしながらやる枠組み
 高頻度解析に耐える対話型


講演(3) 認知行動療法支援基盤とライフログ情報の活用, 長谷川 晃朗 (株式会社国際電気通信基礎技術研究所 適応コミュニケーション研究所 室長)

IMGP0593 IMGP0596 IMGP0600

認知行動療法を支援するサービス例であるスマートフォンアプリにすることのメリットとして、そのアプリに閉じた機能だけではなく、ログをサーバにアップロードすることでより実態にあったモニタリングができる等。ライフログを負担なくどう収集し、どう活用するかを検討してみてるという話。

広く様々なデータを収集蓄積して利用: ここでは医療分野
 認知行動療法: 心理教育、セルフモニタリング、行動を変える/考えを変える
  カウンセリング(週1*16回程度)、
   カウンセリングは週1のみ。課題を与えて、それを毎週観察。
  スマートフォンを活用した支援基盤の構築
   ホームワークの一部をアプリ化し、いつでもどこでも実践可能に
   アプリに閉じるだけではなくログをサーバにアップロードすることでモニタリング可能
  うつ病
   蓄積されたらイブログから行動の推定、気持ちの推定

ライフログ情報の医療への活用
 例: ホルター心電図
 技術的なハードル: デバイス、ログ品質、電池、ウェアラブル、スマートフォン、、
 運用面でのハードル: きっかけ、期間、プライバシー


講演(4) ビッグデータ活用とプライバシー保護, 美馬 正司 (株式会社日立コンサルティング 公共本部 シニアマネージャー)

IMGP0604 IMGP0605

プライバシーとプライバシー保護は必ずしも同一のものを対象としているのではなく、広い意味でのプライバシーには感情が含まれる。どうやればより良い未来を描けるかについて、事例を交えて紹介するというお話。

個人情報保護法の改正
プライバシー補語について「顧客任せ」ではなく、適切にやる用一緒に話し合い進める


パネル討論 ビッグデータの可能性と課題

IMGP0611 IMGP0613 IMGP0616

キーワード: ビッグデータ、CPS、M2M
 ビッグデータ: ビジネス/生活/自然
  ビッグデータ+ソーシャルメディアデータ->実社会への貢献(価値創造)

議論の種
 取得管理
  データはどこにある?
  リアルタイムに取得できるのか?
  どうやって管理するのか?
 分析
  社会を変革する情報をみつけるには?
  プライバシ性の高い情報における研究課題とは?
 利活用
  実社会の利益にするために必要なこととは?
 複数分野と連携する際に直面した問題例
  語彙の違い
   e.g., 同じ語でもドメイン毎に意味が違うと、同じ文書なりで提供しても違う解釈をされる。
    Q: 定義するという話があったけど、そういう問題なのだろうか?
  ビッグデータ=どんなデータからでも好きなことを抽出できると勘違いされる


CREST・さきがけ「ビッグデータ」2領域 成果報告会

CREST・さきがけがどういう意図でどういうテーマについて募集しているのか、また採択されたテーマの進捗がどうなってるかという報告会。CRESTでは「国が定める戦略目標の達成」という話が出てくるし、さきがけでは「戦略目標に基づいて未来のイノベーションの目を育む個人型研究という話が。各々について具体的な所まで聞けるのかなと思ってたのですが、プロジェクト自体が比較的大きいこともあって概略紹介に近く、ちょっと物足りないか。それでも山西先生らのディープ・ナレッジあたりは論文集めて読みたいとかの切っ掛けになったので良かったか。


講演(1) 「ビッグデータ基盤」研究領域紹介, 喜連川 優 (国立情報学研究所 所長)

IMGP0635 IMGP0636 IMGP0638

ビッグデータ周りの研究開発を大別して「基盤(コア)」と「応用(アプリケーション)」に分けて考えていて、ここでは基盤で採択された人はこういう人で〜〜〜というお話。喜連川先生の話は大抵そうなんだけど、1秒1スライドぐらいのペースで飛ばしながら概要紹介することが多いね。勿論強調する所はしてるのだけど。今回のポイントは「ビッグデータはデータが命なんだから、シェアしよう。ただし何をオープンにして、何をクローズドにするのかについての議論が無いためになかなかシェアできない」ということらしい。

インフラ/処理・解析/結果/現行法
データが命なので、データをシェアすることでより新しい知見発見を加速させる
 どこをオープンにしてどこをクローズドにしてどうシェアするか


講演(2) 「ビッグデータ応用」研究領域紹介, 田中 譲 (北海道大学 大学院情報科学研究科 情報理工学専攻 特任教授)

IMGP0641 IMGP0642 IMGP0643 IMGP0645 IMGP0646

応用編では、技術と実応用との間に大きなギャップがある。例えば実社会への価値貢献が大切だがコア技術をどう組み合わしたら良いのかといったノウハウが不十分だから、そこら辺をうまく体系化したいよね、という話。あと「国の重要課題分野をバランス良く含んだポートフォリオ」を意識して採択してる(テーマ設定してる)という話も。ここでのQ&Aだったか別会場だったか忘れたけど、良くも悪くも米国は「国一丸となって取り組む」のに対して日本は「個々人が独立して取り組んでる」ことが多いという話もあったか。戦略的には米国がうまくいきやすいというのはそうだろうなとは思うが、同じ戦術で対抗しても楽しくないし、協力/共同する方法はいろいろありえるし。(笑い男じゃないけど)

基盤と応用の間にあるギャップをどうにかしたい
 個々の分析技術は良いが、
  課題と関連データを与えられた時に、
  どう組み合わせて解決したら良いかというシナリオは不明だし、支援も無い。
 mission driven -> data driven へのパラダイムシフト
 分野や組織を越えた統合
 再利用可能なノウハウの知識化

国の重要課題分野をバランス良く含んだポートフォリオ


講演(3) 複雑データからのディープナレッジの発見と価値化, 山西 健司 (東京大学 大学院情報理工学系研究科 創造情報学専攻 教授)

IMGP0648 IMGP0649 IMGP0650 IMGP0652 IMGP0653 IMGP0654 IMGP0655 IMGP0656 IMGP0657 IMGP0658 IMGP0659 IMGP0660 IMGP0661 IMGP0662 IMGP0664 IMGP0665 IMGP0666 IMGP0667 IMGP0668 IMGP0669 IMGP0671 IMGP0672

ビッグデータは単にデータの量が多いという話ではなく、varietyに飛んだデータが、時々刻々と潜在的な状態が変化しながら蓄積されるといった「質的に似たようなものが蓄積された巨大なデータ」ではないから、それに見合った分析モデルが必要だという話。

ビッグデータの5V
 Volume: 大量性、大次元
 Variety: 多様性、複雑性(潜在性)
 Velocity: 動的、非定常、変化
 Value: 付加価値
 Veracity: 真実性

Deep Knowledge: 潜在的関連、因果関係、、そのものや、それらの変化
 潜在的ダイナミクス: 動的 Velocity
  データの表層的な変化ではなく、背後にある構造的な変化が対象->本質的な変化
 関係データ統合予測: ヘテロ Variety
  他データを活用(転移学習の一般化)

教育データマイニング
 大量のテスト採点結果 -> 潜在変数スキルの導入
  スキルは時々刻々変化

緑内障進行予測
 RBMに基づくデータ統合=共編量を基に潜在変数モデルを用いて欠損値を予測
  尤度を直接計算するのではなく、下界を設定して推定
 視野の欠損が時間と共に拡大
  個々人は数少ないデータ->似ているユーザのデータを利用
   マルチタスク学習に基づく予測
    患者間相関/視野間相関/時間発展の特徴


講演(4) 自己情報コントロール機構を持つプライバシ保護データ収集・解析基盤の構築と個別化医療・ゲノム疫学への展開, 佐久間 淳 (筑波大学 大学院システム情報工学研究科 准教授)

IMGP0673 IMGP0675 IMGP0676 IMGP0677 IMGP0678 IMGP0679 IMGP0680

100%漏れないようにというのは非現実なので、漏れても大丈夫なアプローチ(秘密計算)しましょうという話。生活習慣病への応用については既に協力実施できてるらしい。(ゲノム疫学の方は「病院->外」方向へのデータ提供がありえないとのことで、現時点ではまだ不透明っぽい)

ゲノムの利活用
 ゲノム疫学
  どのゲノムがどの病気の要因に関わっているか、特に生活習慣病
 体質に応じた薬剤選択、投与量決定、特に抗がん剤
 リスク
  意図せぬ本人/血縁推定、将来的に知能/能力等を知られてしまう可能性
  ゲノム差別
  -> 漏洩しても困らないようにすることを目指す
   暗号化+他人に見せずに解析(暗号化されたデータをクラウド上で処理)
    情報を見れる見れないと処理するとを区別
 課題: ゲノム探索、コスト低廉化、プライバシ保護

生活習慣病の罹患リスク
 ゲノムだけでは決定せず、後天的要因も大きく影響


講演(5) ビッグデータからの知識創出基盤の確立 - 創薬から製品製造までを例として -, 船津 公人 (東京大学 工学系研究科 化学システム工学専攻 教授)

IMGP0681 IMGP0683 IMGP0685 IMGP0686 IMGP0687

創薬〜製薬までの各ステージにおいて種々の問題があり、それらを全体として最適化する必要がある(そうしないと割にあわない時代になってきた)という話。米国だと組織を越えてデータをシェアすることにも取り組みつつあるが、日本ではそういうことしてる暇があるなら研究しろという風潮。そのために利用できないデータが眠ってるという話もあるらしい。(情報系でもまだまだあるよね)

創薬から製造までがターゲット
 副作用・毒性などの事前知識を踏まえた探索最適化が成否の鍵
  合成法は未知
  効率かつ安定的な製造
  観測が容易な変数、困難な物性・濃度などを踏まえたソフトセンサ
  予測モデルの劣化、、、


学生セッション[4Q会場] 3/18(水), 機械翻訳と文書分類 座長 須藤 克仁(NTT)

IMGP00 IMGP01

慶留間くんの可変長N-gramに基づいたトピックへのラベル選択の検証が学生奨励賞受賞!


お食事

IMGP0688 IMGP0689 IMGP0692

雨降ってたのと1台のタクシーに乗れる人数だったのとでタクシーで移動。ついでに美味しい所聞き出す等。そう簡単には外れないだろうし。とはいえ「沖縄から来たんですけど駅付近で美味しい所無いですか」ぐらいのアバウトな質問だったのでわりと悩んでましたw その結果、飲むなら酔心、そうじゃないならチェーンで美味しいがんこ寿司という2択をゲット。がんこ寿司イイネ!