情報推薦/情報抽出に関する研究事例あれこれ
学生が情報推薦/情報抽出といったキーワードに興味があるとのことで、先行研究の例として「どういう観点で取り組んだ例があるか」という観点から大雑把にここ最近の口頭発表事例をピックアップしてみました。大雑把にしか目を通してないので誤った見方してるものもあるかもしれませんのでご注意を。あと、アプローチについては基本的に見ていません。手法は目的や目標ができてから関連事例を探せば良いわけで、まずは目的を明確にさせたいので。
多くはFIT2010とNLP2011から。番外編として大規模データマイニングとして面白そうな話をしているhamadakoichiさんの資料もピックアップ。
- 情報推薦の歴史
- 言語処理学会第17回年次大会(NLP2011)から目についたものをピックアップ
- B2-2, マイクロブログの分析に基づくユーザの嗜好とタイミングを考慮した情報推薦手法の提案
- 内容以上にタイミングを重視した推薦手法。
- B2-3, Twitterからの個人の行動に起因するトラブル予測システムの試作
- Twitterをライフログとして、「一個人」を対象とした未来予測(≒推薦)。
- B2-5, Twitterユーザの属性判別によるスポーツ映像の自動要約
- 特定のキーワードを呟いているor推薦候補にそれが含まれるからといって、そのキーワードに興味があるとは限らない(e.g., 巨人ファンアンチ巨人)。より深くプロファイル作って推薦しようというお話。
- B2-6, Twitterにおけるつぶやきの関連性を考慮した改良相関ルール抽出による話題抽出
- 日々生まれる新語・略語について理解を促すための用例を提示するシステム。
- P1-19, Twitterからの自動車の不具合情報抽出
D2-3, レビューからの商品比較表の自動生成
D2-7, 手がかり表現自動獲得による製品発表プレスリリースからの製品特徴の抽出 - 3件とも既存サービスの問題点を抽出・整理して改善の種を探しやすくするという、提案/決断をする人向けの情報推薦。
- E5-4, Twitterへの絵文字自動挿入システム
- 部分文字列毎に類似した「絵文字入り文字列」を検索することで、自動的に絵文字を挿入しようという話。
- C3-2, 書評利用のレコメンデーションを目的とする書評検索システムのためのキーワード抽出
- ランキング依存では「大多数」な情報しか推薦できず、好きなものを探し難い。というスタンスで取り組んでいる例。
- A5-6, 最大クリーク探索に基づく特許検索履歴の統合
- 検索時に入力されるクエリには同じ単語であったとしても異なる観点で入力されている。そのような観点を自動抽出して検索支援に応用しようという話。
- 第9回情報科学技術フォーラム(FIT2010)から目についたものをピックアップ
- D-001, 個人の性格データに応じたアニメーション表現を伴ったWebバナー広告生成システムの提案
- 嗜好に応じて動画広告を自動生成しようとする試み。嗜好はユーザに入力してもらうので、検出的な所は狙わずに分かってる前提での推薦ですね。
- D-003, 個別広告提供のための精緻化見込みモデルに基づいた広告メッセージの決定
- キーワード連動広告掲載時のメッセージを適切に自動選択しようという話。
- D-005, 口コミ情報の価値に対する時間的指標の表現方法とその評価
- 偶発的な発見を支援する「街角メモリ」という概念について、必要となる評価をどうやるかについての話。
- D-026, 携帯電話検索ログデータに基づく行動特性の分析
- 嗜好を検索ログから行動特性分析という形で特徴抽出しようという話。PCと異なる使われ方をするということを念頭に置いた話らしい。
- D-027, 小規模サイトにおける情報推薦を目的としたデータ統合手法
- データやインタラクションが少ない環境下での推薦に関する話。
- D-043, ソーシャルブックマークにおける方向性を持った推薦システムの提案
- 似ているという基準だけではなくそれに方向性を加えたいという話。NLP2011のA5-6と同じ目標かも。
- RD-002, HTML要素に着目した違法・有害サイト検出手法の提案と評価
- アンチ推薦というか、推薦したくないのを除外するフィルタリングの話。
- RD-003, コミュニティQAにおける良質な回答の選定タスク: 評価方法に関する考察
- 良質の回答を自動選定するための評価に関する話。
- 大規模データを大前提にした「楽しさのデータマイニング」: 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011