2022年度 : データマイニング
- シラバス
工学部工学科知能情報コース「知能334」、工学部選択「知能984」、情報工学科「情496、特別講義VI」の同時開講
- 連絡先:
- 當間愛晃 (Naruaki TOMA)@工1-705
- オフィスアワー: 木2予定
- E-mail: tnal@ie.u-ryukyu.ac.jp
- Twitter: @naltoma
- 講義資料
- Part 1. 導入
- Part 2. 機械学習入門
- Part 3. 特徴量エンジニアリング
- Part 4. 特徴量エンジニアリング(テキストデータ)
- 第7回: シソーラス、カウントと推論に基づいた設計
- 第8回: 課題レポート2討論(予定)
- 第9回: コード例(bag-of-words, n-gram, 形態素解析, シソーラス等)
- 〜〜日本語文書に対する代表的な処理例
第10回: word2vecによる分散表現- 第10回: コード例の続き
第11回: 転移学習の考え方と討論- 第11回: word2vecによる分散表現
第12回: 課題レポート3に関する討論- 第12回: 分散表現の発展、転移学習の考え方
- 第13回: 課題レポート3討論、振り返り、(グラフマイニング)
- Part 5. タスクとマイニングアルゴリズムの例(予定)
第13回: グラフマイニング第14回: 頻出パターン・マイニング- 第14回: グラフマイニング
第15回: 推薦システム- 第15回: 事例概説、振り返り
- 他候補: 時系列データ分析、トピックモデル、次元削減
- (第15回: まとめ)
- 参考文献・サイト
第1回: イントロダクション
- 登録調整
- シラバス
- お知らせ
- (1) Zoomリンク
ミーティングID: 830 1382 3760
パスコード: j0ZD4d - (2) Teams: チームコード「bsowvpe」
毎週のZoomリンク告知、Q&A討論、動画アーカイブ共有のために利用します。
- (3) G-mailアカウント
課題提出のために利用します。知能情報コース以外の学生は、G-mailアカウントを準備しておいてください。
- (1) Zoomリンク
- ミニテスト(出欠確認)
*次回から要Googleアカウント。来週までに作成して個別に連絡ください。
- 授業資料
- 前提
環境はpipベースで構築を推奨。condaでは授業後半のspacyが動作しません。
- データマイニング概観
- 前提
- 次回に向けて
第2回: 機械学習概観
- 登録調整
- ミニテスト(出欠確認)
*(次回から)要Googleアカウント。
リンクはTeams参照
- 授業資料
- 課題レポート1:機械学習してみよう
- 提出先:
Googleドライブ内のreport1に、「各自の大学アカウント名(e+数字6桁)」のフォルダを作成し、そこに提出。
- 作成方法:
Googleドキュメント, Word, LaTeX(=>PDF)等、一般的に参照できるファイル形式なら自由。
- 提出期限:
Level 1, 2は1週間後。ファイル名を「level1,2」とすること。
Level 3, 4は3週間後。ファイル名を「level3,4」とすること。
- 参考: 課題レポート2に続きます。
- 提出先:
第3回: 映画レビューデータを通したデータ処理演習
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 課題レポート1
- Level 3,4の締切は1週間後。
- Level 1,2: データセットの出典(URL)、登録日(年)を追記ください。Level3,4締め切り後にまとめて採点します。
第4回: 機械学習の中身、前回の演習
- 先週のミニテストにも回答をしておいてください。
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
第5回: 特徴ベクトル、数値データに対する前処理
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 課題レポート2:前処理してみよう
- 提出先:
Googleドライブのreport1フォルダ内に、「level2」というファイル名で提出。
- 提出期限:7回目の 授業開始前。
- 補足:7週目はレポート2に関する討論を予定しています。その際に自身のレポートを説明(発表)する人を数人募集します。発表者と討論参加者はQA討論点数としてカウントします。
- 提出先:
第6回: カテゴリデータの取り扱い
- 予告:課題1,2の発表、来週 (or 再来週)。
課題レポート1,2について紹介する人を数人、当日募集します。一人あたり10分程度で紹介。自由度の高い課題のため、独自にやった部分(どういうデータセットを選んだのか、それはどういうものか、前処理前と前処理後でどう変わったのか等)を中心に説明をお願いします。その後討論をします。
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- カテゴリデータに対する前処理
- コード例: カテゴリデータに対する前処理コード例
- 演習:授業資料の下部参照。
- 残り時間
- 演習:入力1次元・連続値出力に対するフィッティング(回帰)。
- 質問対応。
第7回: 課題2レポート討論 or 自然言語処理1: シソーラス、カウントと推論に基づいた設計
- ミニテスト(出欠確認)
*要Googleアカウント。
- case 1: 課題2レポート討論
- case 2: 授業資料
- 課題レポート3:自然言語処理してみよう
- 提出先:
Googleドライブのreport3フォルダ内に提出。
- 提出期限
- Level 1: 2週間後(第9回)。レポートファイル名をLevel1とすること。
- Level 2: 3週間後(第10回)。同Level2。
- Level 3: 4週間後(第11回)。同上。
- Level 4: 5週間後(第12回)。同上。
- 補足:11週目はレポート3に関する討論を予定しています。その際に自身のレポートを説明(発表)する人を数人募集します。発表者と討論参加者はQA討論点数としてカウントします。
- 提出先:
第8回: 課題2レポート討論
- ミニテスト(出欠確認)
*要Googleアカウント。
- 課題2レポート討論
- 時間あれば前回の続き
- 課題レポート3:来週から1週間毎に〆切。
第9回: コード例(bag-of-words, n-gram, 形態素解析, シソーラス等)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- シソーラス、カウントと推論に基づいた設計(復習?)
- コード例1: Spacyの基本的な使い方
- コード例2: テキストのベクトル化
- コード例3: 係り受けを用いた目的語抽出+ネットワーク描画の例
- コード例4: 極性推定(ネガポジ推定)の例
- コード例5: トピックモデルによるクラスタリング
- コード例6: 特徴的な単語の抽出
第10回: word2vecによる分散表現
- 予告:第12回は課題レポート3に関する討論。
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 先週時間足りなかった部分
- コード例1: Spacyの基本的な使い方
- コード例6: 特徴的な単語の抽出
- word2vecによる分散表現 => 来週。
*ニューラルネットワーク概説も含む
- 先週時間足りなかった部分
第11回: word2vecによる分散表現
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- word2vecによる分散表現
*ニューラルネットワーク概説も含む
- 以下、時間あれば。
- 分散表現の発展
- シンプルなファインチューニング例: [ gensim版 | spacy版 ]
- 討論:汎用表現 *「分散表現の発展」8.3.3。
- Transformerを用いたファインチューニング例
- word2vecによる分散表現
第12回: 分散表現の発展、転移学習の考え方
- ミニテスト(出欠確認)
*要Googleアカウント。
従来は授業冒頭で実施していますが、今回は授業資料&録画を参照後、回答ください。
- 授業資料
- 分散表現の発展
- シンプルなファインチューニング例: [ gensim版 | spacy版 ]
- 討論:汎用表現 *「分散表現の発展」8.3.3。
- Transformerを用いたファインチューニング例
- 課題レポート4:機械学習やデータマイニングにおけるFaireness(公平性)について論じよ。
- 提出先:
Googleドライブのreport4フォルダ内に提出。
- 提出期限:15回目の 授業開始前。
- 補足:15週目はレポート4に関する討論を予定しています。その際に自身のレポートを説明(発表)する人を数人募集します。発表者と討論参加者はQA討論点数としてカウントします。
- 提出先:
第13回: 課題レポート3討論、振り返り、(グラフマイニング)
- お知らせ
- レポート遅延提出&再提出の「最終締切」を 8/12(金), 4限目終了後、までとします。それ以降は原則として受け取りません。
- 課題3レポート討論
- 2通りの方法で行います。
- 共通ルール: 発表時間目安10分程度。
全てを説明し尽くすことは求めていません。データセットの説明、どのような結果が得られたのかあたりを概説してもらうぐらいでもOK。
- case 1: 今日発表希望の人は、
Teams(week13-QA)に「今日発表希望します」と書き込んで意思表示してください。書き込み順で発表+討論します。発表者はQA10点。討論参加者はQA2点。
- case 2: 「プレゼン動画アップロード+後日質疑対応」を希望する人は、
(a)今、Teamsお知らせに「プレゼン動画アップ予定です」と返信。
(b) 7/21(木),24時までに動画作成し、一般チャンネルの「課題3プレゼン動画」にアップロード。ファイル名は「presen-rep3-アカウント名」形式とすること。
(c) 7/22(金), 24時まで質問を受け付けます。質問者は week13-QA に書き込み。
(d) 7/29(金), 授業前までに返信。ここまで確認できた時点で、発表者はQA10点。討論参加者はQA2点。
- 先週の振り返り
- ミニテストへの回答結果共有 => Teams/minitest-w12(回答).xlsx
- 授業振り返り
- シラバス、達成目標、評価基準と評価方法
- データマイニング2022振り返り+α(Teams内リンク)
- ミニテスト(出欠確認) 今日はアンケート。振り返り後にやります。
*要Googleアカウント。
- 授業資料 *時間あれば=>来週
- グラフマイニング
- コード例:グラフマイニングの例
第14回: グラフ・マイニング
- ミニテスト(出欠確認)
*要Googleアカウント。
グラフの説明を終えたあとでやります。
- お知らせ
- プレゼン動画1本アップロードされています。
(c) 質問受付: 本日24時まで。week13-QAへ。冒頭に「プレゼン動画(205714)への質問です」のように、何に対する質問なのか分かるように書くこと。
(d) 発表者による回答: 7/29(金), 授業前まで。
- プレゼン動画1本アップロードされています。
- 授業資料
- グラフマイニング
- コード例:グラフマイニングの例
- ミニテスト
- ミニテスト回答レビュー
- 頻出パターン・マイニング *時間あれば。
- コード例: アソシエーション分析の例
第15回: 事例概説、振り返り
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業評価アンケート *知能情報コース学生のみ
- Q&A討論について
- 評価基準にある通り「Q&A討論(10%)」です。一方、そもそも質問がほとんどないため回答するつもりでいた人にとっては点数を獲得する機会そのものがほぼありませんでした。そのため点数が足りていない人で希望する人は、以下の「解説書作成」で補います。
- 解説書作成課題(希望者のみ)
- 授業中に出てきた専門用語(授業資料、参考文献、口頭いずれも可)を最大10個選び、各々について100字以上で解説せよ。
- 出典元の説明文をコピーするのではなく、あなたが咀嚼し、自身の言葉で解説すること。
- 何かを参照した際には出典を必ず明示すること。出典は文字数に含みません。
- 1個あたり1点換算。第14回までのQ&A討論評価については Teams/scoreを参照し、不足点(limit)を自分で確認ください。
- なお、第14回までにQA討論の点数がある学生(発表やTeams討論した学生)は、Q&A討論の点数上限を12点とします。
- 締切は課題レポート遅延提出に準じる。
- 課題レポートの遅延提出について
- 期末試験期間である「8/12(木)まで」は受け取り保証。
- 提出後、メールで報告すること。(メール報告なしは採点されません)
- 授業資料(概説のみ)
- 勉強会について
- 8/5(金), 4限目, 相談対応。教室&遠隔。
- 上記以外に希望あれば、Teams or メールで連絡ください。