データ・マイニング#
琉大知能情報コース3年次向けの選択科目、かつ、工学部の融合選択科目。
2021年度から前期開講になることを受け、Numpy/Pandas/Matplotlib周りの演習も加えています。
2022年度
演習追加予定。
spacyの都合で pip を推奨。詳細は前提参照。
2024年度
Transformerを追加。コード例の多くはこちらに追加済みだが、授業資料はまだこちらに含めていない。
参考文献#
データマイニング・機械学習全般
Data Mining: Practical Machine Learning Tools and Techniques, 4th Edition, 代表的なアルゴリズムとそれを用いた事例集。深層学習まで含みます。学内接続で附属図書館の電子版読めます。
データからの知識発見, 代表的なアルゴリズムの解説本。1冊にまとめてるためにやや急ぎ足ですが、多数のアルゴリズムを概観するならオススメ。
Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3rd Edition, scikit-learnをベースに「適用方法」を中心に解説。
Pythonで動かして学ぶ!あたらしい機械学習の教科書 第2版, 機械学習の中身をシミュレーション&可視化しながら学んでいく教科書。
機械学習のエッセンス 実装しながら学ぶPython、数学、アルゴリズム, 数学中心に基礎から学んでいく教科書。
仕事ではじめる機械学習, タスク視点から整理した事例集。
特徴量エンジニアリング
機械学習のための特徴量エンジニアリング――その原理とPythonによる実践, 機械学習を具体的なタスクに適用しようとした際に直面する「あるある事例集」。
自然言語処理
自然言語処理の基礎, オーム社, 2022年8月24日
NLTK: Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
-
Python 2.x時代のコード。関連ライブラリも当時のもののため、そのままでは動作しないコード例あり。自然言語処理における代表的なタスクや取組事例として参考にしよう。
T5
GPT-3
事例紹介