講演メモ: 「IoTとAI技術の活用方法と開発技術講座」 / 「あなたを想うAI」の技術と応用
地創棟で講演会「IoTとAI技術の活用方法と開発技術講座」をやるという情報が流れてきたので、参加してきました。IoTの方は玉城先生発表ということで玉城研なお話。こっちは卒論なりで聞くこと多い&聞いてる内容だったので、ここでは後半の東芝・RECAIUS(リカイアス)な話中心なメモ。
全体としては【広い意味での「人にまつわる認識技術」】ということで、
・音声合成(性別・年代・感情付加表現とか)。
・音声認識(スマホとかマイクに近い状況で丁寧に話すなら精度高いけど、砕けた話し方や複数人で雑談してる状況とかではまだまだ厳しいとか)。
・対話理解(予め目的などを把握できる状況ならパターンを用意してマッチングするとか)。
等について薄く広く、製品として提供しているレベルと、現在研究段階での最新状況を含めて話してくれてました。面白い。ベースとなるデータはクラウドソーシングで大量に集めてるらしい。
文脈理解については、
という話を書いたりしましたが、企業として「ある程度質を担保しやすい形」に落とし込むならまずは「体感できる現実的な目標」に落とし込むのが分かりやすいよね。基本的には
(1) 現場ならではの固有知識(ドメイン知識と呼ぶ)を体系化してパターン構築。
(2)パターンに応じた対応法(テンプレだったり)を用意。
(3)センサー情報から状況推測しつつ、最も近いパターンに紐付ける。
(4)該当する対応法から最終回答を生成。
みたいなストーリーになるのかな。共同研究でもそういうストーリーを描いていたのだけど、やっぱりこういう風に考えちゃうよなぁ。
広い意味での「人にまつわる認識技術」。
AIのパラダイムシフト
・人が経験からルールを作り、コンピュータが実行。(与える知識)
・人が事例データを与え、コンピュータが事例を学ぶ。(インタラクションで獲得)
・無いデータは積極的に作って、コンピュータに学習させる。(自ら作り出す知識)人の想いを理解する「RECAIUS」
「音声・画像・ことばの認識」+「意図や状況の理解」
人間とインタラクションで学ぶの前に、人間から知識提供するプラットフォーム。
状況例:10歳の子連れ夫婦が、デパートで昼時に探すお店とは?
複合的な状況が絡む。どう文脈を把握するか。
知識ベース:クラウドソーシングで収集+更新。
分野・用途固有の知識幅広い一般知識個別技術
音声合成
音声・表情合成デモ
音声認識
フィラー除去
マイクとの距離+話し方の違い(丁寧はっきり人に対してくだけて話す)
現状
近く+丁寧=95%
近く+くだけて=75%、遠い+くだけて=55%
音声認識 x 項目との類似度 = フィールドボイス
口頭での情報共有を効率化+可視化
例:オペレーションの記録、エビデンス残し
知的対話、音声対話
システム分類例
指示・簡単な問い合わせ
対話サービスにパラメータを渡して対応。
曖昧な状況・話題の表明
シナリオに沿った対話で課題解決。可能性列挙。
具体的なFACT検索
応用例:インターネット相続相談
同時通訳
連続的に翻訳
顔・人物画像認識RECAIUSデベロッパサイト
音声認識・音声合成・口語翻訳大量データ+少量データでカスタマイズ