データ・マイニング¶
琉大知能情報コース3年次向けの選択科目、かつ、工学部の融合選択科目。2021年度から前期開講になるため、Numpy/Pandas/Matplotlib周りの演習も加える予定。
授業の流れ¶
導入
Part 1: 機械学習入門
Part 2: 特徴量エンジニアリング
Part 3: 特徴量エンジニアリング:自然言語処理
タスク&アルゴリズム例
グラフマイニング
頻出パターンマイニング
推薦システム
時系列データ分析
参考文献¶
データマイニング・機械学習全般
Data Mining: Practical Machine Learning Tools and Techniques, 4th Edition, 代表的なアルゴリズムとそれを用いた事例集。深層学習まで含みます。学内接続で附属図書館の電子版読めます。
データからの知識発見, 代表的なアルゴリズムの解説本。1冊にまとめてるためにやや急ぎ足ですが、多数のアルゴリズムを概観するならオススメ。
Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3rd Edition, scikit-learnをベースに「適用方法」を中心に解説。
Pythonで動かして学ぶ!あたらしい機械学習の教科書 第2版, 機械学習の中身をシミュレーション&可視化しながら学んでいく教科書。
機械学習のエッセンス 実装しながら学ぶPython、数学、アルゴリズム, 数学中心に基礎から学んでいく教科書。
仕事ではじめる機械学習, タスク視点から整理した事例集。
特徴量エンジニアリング
機械学習のための特徴量エンジニアリング――その原理とPythonによる実践, 機械学習を具体的なタスクに適用しようとした際に直面する「あるある事例集」。
自然言語処理
NLTK: Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
-
Python 2.x時代のコード。関連ライブラリも当時のもののため、そのままでは動作しないコード例あり。自然言語処理における代表的なタスクや取組事例として参考にしよう。
T5
GPT-3
事例紹介