2025年度 : データマイニング
- シラバス
工学部工学科知能情報コース「知能334」、工学部選択「知能984」の同時開講
- 連絡先:
- 當間愛晃 (Naruaki TOMA)@工1-705
- オフィスアワー: 木2予定
- E-mail: tnal@ie.u-ryukyu.ac.jp
- 旧Twitter: @naltoma
- 講義資料
- Part 1. 導入〜機械学習入門
- Part 2. 特徴量エンジニアリング
- Part 3. 特徴量エンジニアリング(テキストデータ)
- 第7回: シソーラス、カウントと推論に基づいた設計
第8回: 課題レポート2討論、Spacy入門、深層学習基礎1(導入)- 第8回: NLPシステム構築(導入編)、Spacy入門
第9回: 深層学習基礎1(導入)〜2(単語表現)- 第9回: Spacy入門2(係り受け解析、極性辞書)、深層学習への導入
第10回: 深層学習基礎2(単語表現)〜3(言語モデル)- 第10回: Spacy入門3(トピックモデル、特徴的な単語)、word2vecによる分散表現
第11回: 深層学習基礎3(言語モデル)、深層学習コード例- 第11回: 第11回: Hugging Face入門、深層学習基礎2(単語表現)
- 第12回: 深層学習基礎4(系列モデリング)
- 第13回: 深層学習基礎4(系列モデリング)〜5(Transformers)
- 第14回: 深層学習基礎5(Transformers)
- Part 4. タスクとマイニングアルゴリズムの例(時間あれば)
- 第14回: グラフマイニング
- 第15回: 事例概説、振り返り
- 他候補: 時系列データ分析、トピックモデル、次元削減
- 第15回: まとめ
- 参考文献・サイト
第1回: イントロダクション
- 登録調整
- シラバス説明
- お知らせ
- (1) 各種連絡、相談対応、動画アーカイブ共有等のため Teams を使います。
- (2) G-mailアカウント
演習や課題提出のために利用します。知能情報コース以外の学生は、G-mailアカウントを準備しておいてください。
- ミニテスト(出欠確認)
*次回から要Googleアカウント。来週までに作成しておいてください。
- 授業資料
- 前提
基本的にはGoogle Colabを使います。
PC内に環境構築する場合:環境はpipベースで構築を推奨(當間の好み)。condaでも動作するとは思います。
- データマイニング概観
- 前提
- 次回に向けて
第2回: 機械学習概観
- 登録調整
- ミニテスト(出欠確認)
*(次回から)要Googleアカウント。
- Teamsについて
- webclassへログインし、招待リンクから申請してください。當間が承認後参加できます。
- 3週目以降のZoomリンクを含む周知事項等は全てTeamsで行います。
- 30分オンデマンドについて
- 来週から導入。30分オンデマンド動画をTeams上に用意していますので、それを各自のタイミングで授業前までに閲覧ください。動画ファイル名は毎週の目次トップに記載します。
- 1つの動画が30分を超えることもありますが、15週全体を通して平均30分未満となるように調整します。
- 授業開始は予定通りで、授業当日は1時間で終了します(16:20-17:20)。終了後、17:50までは相談対応します。自習や友人との相談等のため残ってもOK。
- 授業資料
- 課題レポート1:機械学習してみよう
- 提出先:Google共有ドライブ内のreport1に、「各自の大学アカウント名(e+数字6桁)」のフォルダを作成し、そこに提出。
- 提出期限:3週間後(5/9)。 *今週の内容でLevel3まではやれるはず。
- 備考
- フォルダのアクセス権限を変更する際には「親フォルダ」を変更しないようにしてください。(他学生が提出すらできなくなります)
- 様式/形式:Googleドキュメント, Word, LaTeX(=>PDF)等、一般的に参照できるファイル形式なら自由。
質問相談のタイミングが遅いと間に合いません。早めに取り組み、わからない点はどしどし相談ください。
- 参考: 課題レポート2に続きます。
第3回: データ処理演習
- オンデマンド: 2025dm-w03-ondemand.mp4 (約35分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- ダウンロードしたデータセットに機械学習を適用する流れ *オンデマンドで終了。
- Pandas, Matplotlib, Plotlyを用いたデータ分析例
- Numpy入門
- (おまけ) Matplotlib入門 *コード例では主にplotlyを使います。
- (おまけ) 映画レビューデータを通したデータ処理演習 (pandas応用例)
- (おまけ) numpy, pandas, matplotlib, sklearn演習問題 => 「1章:入力1次元・連続値出力に対するフィッティング(回帰)」の ex1-normal.md 。
- 機械学習の中身を覗いてみよう *多分来週。
第4回: 機械学習の中身、前回の演習
- オンデマンド: 2025dm-w04-ondemand.mp4 (約29分)
- 先週のミニテストにも回答をしておいてください。
- ミニテスト(出欠確認)
*要Googleアカウント。授業終了頃に実施予定。
- 授業資料
- 機械学習の中身を覗いてみよう *オンデマンドで最小二乗法まで終了。
- (おまけ)1次元データセットを通した勾配法の理解(コードあり)
- (おまけ)前回の演習: numpy, pandas, matplotlib, sklearn演習問題 => ex1-normal.md
第5回: 特徴ベクトル、数値データに対する前処理
- オンデマンド: 2025dm-w05-ondemand.mp4 (約22分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 特徴量エンジニアリング:特徴ベクトル、数値データに対する前処理 *オンデマンドで13.3まで終了。
- 数値データに対する前処理コード例
各自で実行したい人は、事前にGoogle共有ドライブからyoutube.xlsxをダウンロードすること
- 振り返り:第4回ミニテストの「分からなかったこと」への回答。時間の許す範囲で実施。
- 課題レポート2:前処理してみよう
- 提出先:
Googleドライブの「report1を提出した自身のフォルダ内」に、レポート2であることが分かる名称を付けて提出。
- 提出期限:3週間後(6/6)。
- 補足1: おまめとしてカテゴリカルデータを用いたケースについて取り組むのもokです(100点とは違う部分での加点として採点)。ただし必ず指定条件での報告はしてください。指定条件報告がない場合には該当部分が0点になります。
- 補足2: 6/6目当日はレポート2に関する討論を予定しています。その際に自身のレポートを説明(発表)する人を数人募集します。発表希望者は授業開始前までに提出を終えてください。発表者と討論参加者はQA討論点数としてカウントします。人数多すぎる場合はランダム選出します。
- 提出先:
第6回: カテゴリデータの取り扱い
- オンデマンド: 2025dm-w06-ondemand.mp4 (約26分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- カテゴリデータに対する前処理 *オンデマンドで15.3.5まで終了。
- コード例: カテゴリデータに対する前処理コード例
- 補足:次元の呪い => Google共有ドライブ => samples / 次元の呪い.ipynb
- 残り時間:振り返り:第4回ミニテストの「分からなかったこと」への回答。時間の許す範囲で実施。
第7回: 自然言語処理入門: シソーラス、カウントと推論に基づいた設計
- オンデマンド: 2025dm-w07-ondemand.mp4 (約32分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- 自然言語処理入門:シソーラス、カウントと推論に基づいた設計
*オンデマンドでシソーラスまで終了。
- コード例1: NLTK版
- コード例: Spacy 1: Spacyの基本的な使い方
- コード例: Spacy 2: テキストをトークン出現回数でベクトル化する例(Spacy版)
- コード例: Spacy 3: テキストのベクトル化
- コード例: Spacy 4: 係り受けを用いた目的語抽出+ネットワーク描画の例
- コード例: Spacy 5: 極性推定(ネガポジ推定)の例
- コード例: Spacy 6: トピックモデルによるクラスタリング
- コード例: Spacy 7: 特徴的な単語の抽出
- 自然言語処理入門:シソーラス、カウントと推論に基づいた設計
第8回: Spacy入門, NLPシステム構築(導入編)
- オンデマンド: 2025dm-w08-ondemand.mp4 (約36分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- Spacy入門: 第7回の Spacy 1, 2。余裕があれば3まで。
*Spacy 1の「用例集」までオンデマンドで終了。n-grams以降は他と被ってる内容もあるためスキップ。
- 課題レポート2の紹介?
- 最大3名。多い場合には乱数で決定。
- 一人あたり持ち時間最大10分。短い分には構わない。
- レポート全てを説明するというよりも、「ここが面白かった」「ここを紹介したい」という部分を重点的に紹介して欲しいです。
- NLPシステム構築(導入編)
- 例1: 極性分類システムの構築例(ルールベース)
- 例2: 極性分類システムの構築例(Bag-of-Wordsベース) *軽い紹介の予定
- Spacy入門: 第7回の Spacy 1, 2。余裕があれば3まで。
- 課題レポート3:クチコミデータへ自然言語処理を適用してみよう。
- 提出先:Google共有ドライブのreport3フォルダ内に提出。
- 提出期限:3週間後。
第9回: Spacy入門2(係り受け解析、極性辞書)、深層学習への導入
- オンデマンド: 2025dm-w09-ondemand.mp4 (約22分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- Spacy入門: 第7回の Spacy 4, 5。
*オンデマンドで終了
- 深層学習への導入: 古典的機械学習から自己教師あり学習へ(深層学習パラダイムの基盤と展開)
恐らく29.4 NNまで。
- Spacy入門: 第7回の Spacy 4, 5。
第10回: Spacy入門3(トピックモデル、特徴的な単語)、word2vecによる分散表現
- オンデマンド: 2025dm-w10-ondemand.mp4 (約32分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料
- Spacy入門: 第7回の Spacy 6, 7。
- 深層学習への導入: 古典的機械学習から自己教師あり学習へ(深層学習パラダイムの基盤と展開)
*word2vec概要までオンデマンドで終了
- 特徴量設計2:word2vecによる分散表現
第11回: Hugging Face入門、深層学習基礎2(単語表現)
- オンデマンド: 2025dm-w11-ondemand.mp4 (約32分)
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料(Google共有ドライブ => toward-transformer)
- 深層学習コード例1: Transformer (Hugging Face) 入門 *ここまでオンデマンド。
- (深層学習基礎(その3:言語モデル) *時間があれば。)
- 深層学習コード例
- 例1: Transformer (Hugging Face) 入門
- 例2: pipelineを用いた推定例 | その2(少し大きめなLLM)
- 例3: AutoModelForSequenceClassificationを用いたファインチューニング例(課題4に少し関連)
- 例4: SCAN domain evaluation for SRN, LSTM, GRU and Transformer
- 以下は2022年時点での動作確認のみ。参考用。
- 広義のファインチューニング例(gensim版)
- 広義のファインチューニング例(spacy版)
- 事前学習済みモデルmT5を用いたMultilingual NMTの例
- 課題レポート4:JNLIタスクに挑戦。
- 提出先:Google共有ドライブのreport4フォルダ内に提出。
- 提出期限:3週間後(第14回目)。
以下は2024年度のまま未編集。
第12回: 深層学習基礎4(系列モデリング)
- オンデマンド: 2025dm-w12-ondemand.mp4 (準備中)
- 連絡事項
- Googleドライブの共有設定操作について
- 仮総合評価について
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料(Google共有ドライブ => toward-transformer)
- 深層学習コード例2: pipelineを用いた推定例, その2(少し大きめなLLM)
- 深層学習基礎(その3:言語モデル)
- 深層学習基礎(その4:系列モデリング) *時間があれば。
第13回: 深層学習基礎4(系列モデリング)〜5(Transformers)
- お知らせ
- レポート遅延提出&再提出の「最終締切」を 8/9(金), 24時までとします。それ以降は希望制で調整します。希望確認は15週目にやる予定です。
ただし、(1)前期卒業を予定している人は調整できません(卒業判定のため早めの〆切が設定されています)。(2)課題1,2,3を提出済みの学生のみ希望に応じます。
- レポート遅延提出&再提出の「最終締切」を 8/9(金), 24時までとします。それ以降は希望制で調整します。希望確認は15週目にやる予定です。
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料(Google共有ドライブ => toward-transformer)
- 深層学習基礎(その4:系列モデリング):「Attention(注意、アテンション)」から。
- 深層学習基礎(その4:Transformers)
第14回: 深層学習基礎5(Transformers)
- お知らせ:仮総合評価修正。
- ミニテスト(出欠確認)
*要Googleアカウント。
- 授業資料(Google共有ドライブ => toward-transformer)
- 深層学習基礎(その5:Transformers):「Residual Connections + Layer Normalization」から。
- 課題レポート5:AI活用における偏見・公平性について
- 提出先:Google共有ドライブのreport5フォルダ内に提出。 => Googleドライブのまま。
- 提出期限:2週間後(第16回目。授業はありません)。
第15回: 事例概説、振り返り
- ミニテスト(出欠確認) *要Googleアカウント。
- 授業評価アンケート *知能情報コース学生のみ
- Q&A討論について
- 評価基準にある通り「Q&A討論(10%)」です。しかしながら過半数の学生が質問も回答もしていません。点数が足りていない人で希望する人は、以下の「解説書作成」で補います。
- 解説書作成課題(希望者のみ)
- 授業中に出てきた専門用語(授業資料、参考文献、口頭いずれも可)を最大5個選び、各々について100字以上で解説せよ。
- 出典元の説明文をコピーするのではなく、あなたが咀嚼し、自身の言葉で解説すること。
- 何かを参照した際には出典を必ず明示すること。出典は文字数に含みません。
- 1個あたり1点換算。
- なお、第14回までにQA討論の点数がある学生(発表やTeams討論した学生)は、Q&A討論の点数上限を12点とします。
- 締切は課題レポート遅延提出に準じる。
- 課題レポートの遅延提出、延長申請について
- Q&A討論を含め、期末試験期間である「8/9(金), 24時まで」は受け取り保証。
- 提出後、メールで報告すること。(メール報告なしは採点されません)
- 延長希望も「8/9(金), 24時まで」に申請してください。申請方法、条件は以下の通りです。
- 申請条件:(1)前期卒業を予定していないこと。(2)上記〆切までに課題1,2,3を提出済みであること。
- 申請方法:フォームから「8/9(金), 24時まで」に申請。
- 延長に伴う〆切:8月末。
- 課題内容に関する質問相談は全て Teams チャンネルで。メールやDM等の個別相談は不可。回答タイミングはまちまちです。数日待つこともあり得ます。
- 授業資料(概説のみ)
- 勉強会(相談対応)について
- 8/2(金), 5限目。遠隔のみの予定。
以下、調整中。