2019年度 : データマイニング
- シラバス
工学部工学科知能情報コース「知能334」、工学部選択「知能984」、情報工学科「情496、特別講義VI」の同時開講
- 講義用Slack:
周知やチャット等に利用。https://dm-uryukyu.slack.com
- 連絡先:
- 當間愛晃 (Naruaki TOMA)@工1-705
- オフィスアワー: 金3予定
- E-mail: tnal@ie.u-ryukyu.ac.jp
- Twitter: @naltoma
- サポーター
- TA:茂島(M1、NAL研、工1-712)
主なサポートは、後述の質疑対応
- TA:茂島(M1、NAL研、工1-712)
- 講義資料
- 第1回: イントロダクション
- Part 1. 導入
- Part 2. 特徴量エンジニアリング
- 第4回: 機械学習における特徴、数値データの取り扱い
第5回: 特徴毎の比較検討(演習)- 第5回: カテゴリデータの取り扱い、復習
- 第6回: 前処理有無による比較、課題レポート討論
- Part 3. 特徴量エンジニアリング(テキストデータ)
- 第7回: 自然言語における特徴例(bag-of-words, n-gram, 形態素解析, シソーラス等)
第8回: 分散表現と分布仮説- 第8回: 日本語文書に対する代表的な処理例
第9回: word2vec- 第9回: word2vecによる分散表現
第10回: 特徴毎の比較検討(演習)、タスク例- 第10回: 転移学習の考え方と討論
- 第11回: 課題レポートに関する討論
- Part 4. タスクとマイニングアルゴリズムの例
第11回: 次元削減(PCA, t-SNE)第12回: 頻出パターンマイニング(アソシエーション分析)- 第12回: グラフマイニング
第13回: トピックモデル- 第13回: 頻出パターン・マイニング
第14回: 時系列データ分析(AR, ARIMA)- 第14回: 推薦システム
- 第15回: 時系列データ分析
第15回: まとめ
- 参考文献・サイト
第1回: イントロダクション
- 登録調整
- シラバス
- ミニテスト(出欠確認)
*要Googleアカウント。現時点でない人は、今日は大学メールアドレスで記入。来週までに作成して個別に連絡ください。
- 授業資料
- イントロダクション(概要、背景、扱う範囲、ケーススタディ概観)
- 予習
- 予習復習に対する質問:google driveのQA/week1-QA
- 疑問等は、次回授業の前日までに、別途用意するフォームに入力すること。 *シラバスの「Q&A討論」のオンライン版として評価。
- 環境構築&動作確認:
google driveのweek1-環境確認
第2回: 機械学習概観(定義と演習)
- 登録調整
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 機械学習概観(〜課題レポート1まで)
- 環境構築&動作確認:
google driveのweek1-環境確認
- 課題レポート1:機械学習してみよう
- 作成方法:
できるだけGoogleドキュメントで作成してください。各自のgoogleドキュメントとして作成後アップロードしてもよし、最初から下記提出先のドライブ内で作成するもよし。コメントを書きやすくなります。
- 提出先:
Googleドライブ内のreport1に、「各自のアカウント名」のフォルダを作成し、そこに提出。
- 提出期限:4回目の授業開始前。
- 予習復習課題等に対する質問:google driveのQA/week2-QA
- 作成方法:
- 開発関連の参考サイト
- Progate: Python, Git
- デバッグ等の統合開発環境(PyCharm): チュートリアル
- 実行可能なノートブック(Jupyter Notebook): 公式ドキュメント
- ベクトル・行列演算等(Numpy): Quickstart tutorial, Python Numpy チュートリアル
- データ解析ライブラリ(Pandas): 10 minutes to pandas, Tutorials
第3回: モデルとその自由度、過学習
第4回: 機械学習における特徴、数値データの取り扱い
- report1のフォルダ名について。
フォルダ名を「各自の学籍番号(6桁+アルファベット)」に修正お願いします。
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 課題レポート2:前処理してみよう
- 提出先:
Googleドライブ内のreport2に、「各自の学籍番号(6桁+アルファベット)」のフォルダを作成し、そこに提出。
- 提出期限:6回目の授業開始前。
- 予習復習課題等に対する質問:google driveのQA/week4-QA
- 提出先:
第5回: カテゴリデータの取り扱い、復習
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 来週
課題レポート2について紹介する人を1〜5人程度、当日募集します。一人あたり10分程度で紹介。自由度の高い課題のため、独自にやった部分(どういうデータセットを選んだのか、それはどういうものか、前処理前と前処理後でどう変わったのか等)を中心に説明をお願いします。その後討論をします。
第6回: 前処理有無による比較、課題レポート討論
- ミニテスト(出欠確認)
*要Googleアカウント。
- 課題レポート討論
Googleドライブ/QA/week5-課題レポート討論
- 授業資料(時間あれば)
- 事例紹介:レコメンドシステム開発のためのWEBサイト閲覧ログに基づくTV番組視聴予測
- データ解析コンペティション => 「H30年度, テレビ視聴・メディア接触調査データ,モニタ属性・ライフスタイル」
- データセット:VR CUBIC、アンケート
- 資料:google drive:ref/H30データ解析コンペJIMS最終報告会TeamRyukyu-print.pdf
他学生への再配布NG
- 宿題:課題は特に出さないので、これまでの復習をすること。余裕ある人は自然言語処理について調査してみよう。
第7回: 自然言語における特徴例(bag-of-words, n-gram, 形態素解析, シソーラス等)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 課題レポート3:自然言語処理してみよう
- 提出先:
Googleドライブ内のreport3に、「各自の学籍番号(6桁+アルファベット)」のフォルダを作成し、そこに提出。
- 提出期限:10回目の授業開始前。
10週目にレポート報告討論予定。1名ノーマル報告。数名程度オプション報告。
- 提出先:
- 予習復習課題等に対する質問:google driveのQA/week7-QA
第8回: 日本語文書に対する代表的な処理例
- ミニテスト(出欠確認)
*要Googleアカウント。
- レポート2の採点結果とコメント
- QA6週目、7週目
- 授業資料
- テキストデータに対する特徴量設計1(シソーラス、カウントと推論に基づいた設計) *推論ベースから。
- コード例:NLP1
- 日本語に対する代表的な処理例
- コード例:typical_methods.ipynb
- 宿題:復習や、これまでの資料参照。
第9回: word2vecによる分散表現
- ミニテスト(出欠確認)
*要Googleアカウント。
- QA8週目
- 授業資料
- 今後の予定(調整中含む)
- 10回, 12/6: 転移学習の考え方と討論
- 11回, 12/13: 課題レポート3に関する討論
- 12回, 12/20: グラフマイニング
- 13回, 1/10: 頻出パターンマイニング
- 14回, 1/24: トピックモデル
- 15回, 1/31: 時系列データ分析
- (16回, 口頭試問)
- 最終レポートは、手を動かすというよりも調査を含めた検討課題で検討中。早ければ年内に課題提示。
第10回: 転移学習の考え方と討論
- *後でやります* ミニテスト(出欠確認)
*要Googleアカウント。
- QA9週目
- 授業資料
- 先週の補足:word2vecによる分散表現
- 転移学習外観
- コード例:simple_tranfer_learning.ipynb
第11回: 課題レポートに関する討論
- ミニテスト(出欠確認)
*要Googleアカウント。
- QA10週目
- 授業資料(なし)
- 課題レポート4:機械学習やデータマイニングにおけるFaireness(公平性)について論じよ。
- 資料1:Fairness
Video Lecture, Types of Bias, Identifying Bias, Evaluating for Bias, Programming Exercise
- 資料2:機械学習・データマイニングにおける公平性: [ 資料本体 | 正誤表 ]
- Level 1: 資料1の「Types of Bias」まで取り組め。Reporting Bias、Selection Bias、Group Attribution Bias、Implicit Biasについて解説するとともに、教材には書かれていない事例を示せ。
- Level 2: 資料1の「Programming Exercise」まで取り組め。そのうえで、自分自身の興味のあるテーマについて fairness の視点から想定される問題点について論じよ。テーマが思いつかない場合には、UK police are using AI to inform custodial decisions – but it could be discriminating against the poorを題材として検討せよ。
- レポートにはテーマに関する説明(200字以上)と、考察(500字以上)を掲載すること。
- 特に上限は設けないが、長くなる場合には節や段落等を考慮し、全体を整理して書くこと。
- Option例: 資料2を読み、興味のあるものについて原本を参照し、自分なりの考えを述べよ。
- 提出期限:15回目の授業開始前。
- 口頭試問について
一人5分程度。16週目5限目を想定しているが、早めに終えた学生は別途個別に日程調整の上実施しましょう。
口頭試問では、課題レポート4のLevel2について説明してもらい、適宜内容確認します。
- 資料1:Fairness
第12回: グラフマイニング
- ミニテスト(出欠確認)
*要Googleアカウント。
- 課題レポート4の補足(授業11回目参照)
- QA11週目
- QAカウントについて。
QAフォルダ内のファイル単位でカウントし直し。
- 授業資料
第13回: 頻出パターン・マイニング
- ミニテスト(出欠確認)
*要Googleアカウント。
- 仮評価について
12/26時点での仮総合評価をscoreに書いてあります。締め切りすぎたレポートの追加・遅延提出については、提出後にメール報告もしてください。アップロードするだけでは気づきません。
- 課題レポート4の口頭試問
16週目90分だけで全員をチェックすることは難しいため、できるだけ事前連絡すること。16週目授業日以外のタイミングでも構いません。
- QA12週目
- 授業資料
第14回: 推薦システム
- ミニテスト(出欠確認)
*要Googleアカウント。
- 課題レポート4、Level 2の補足。
「自分自身の興味のあるテーマについて fairness の視点から想定される問題点について論じよ。」は、【資料1全体を踏まえた上で】という意味です。Exercise単体ではなく、Types of Bias も含めて検討してください。(既にexerciseだけを踏まえた上でレポートを書いた人は、その旨書いてもらえればOK)
- QA13週目
- 授業資料
第15回: 時系列データ分析
- ミニテスト(出欠確認)
*要Googleアカウント。
- QA14週目
- 授業資料
- 余った時間:希望者口頭試問
- 口頭試問調整
- 日程調整
- 手順: (1)希望時間が空いていれば書き込み、(2)slackかメールで連絡。(3)當間空き日程に変更なければその旨回答、(4)その日程で実施。(5)予定変更が入ってる場合には再調整。
- 2/10(月)までに提出&口頭試問しよう。それ以降はNGとなる可能性高し。