Archive for the ‘講義/実験’ Category

データマイニング論の輪読2冊目が終了

火曜日, 7月 11th, 2017

1冊目に続いて、2冊目のPython Machine Learningの輪読が終わりました。どちらも前半しかやってませんが、コアになる部分は押さえたんじゃないかと。

当初の予定では、教科書を読むパート1と、論文を読むパート2の2部構成を想定していたのですが、学生との希望調整により今期は「教科書読み2冊」で終わることに。後2週間残ってますが、2コマで20数名に輪読させるのはちょっと無理がありすぎるので別途課題を用意することにしました。

ということでまだ課題チェックが残ってますが、一応一段落付いたかな。

実験1,2の担当終了(予定)

火曜日, 6月 27th, 2017

2年次向けの情報工学実験1,2は、本来ならば助教の先生らで担当する科目。とはいえ助教の先生が少なくて手が足りないという状況だったので、長田先生&當間が担当に入ったままでした。そこに國田先生が入ったことで「助教だけでどうにかなるんじゃない?」ということになり、2017年度前期は引き継ぎ&準備期間を兼ねて実験1サポートとして参加、後期から長田先生&當間が抜ける方向で調整中です。学生実験なのにグループで実験レポート作成されたり、口頭試問したりと好き勝手にやって楽しかったではあるけど、実験以外の授業担当が増えてるので悩ましいところでした。今学期で退く予定です。

新しく担当する科目でその分好き勝手にやろう(ぇ)

ごめんなさい(土下座)

火曜日, 6月 6th, 2017

2年次の実験で、情報ネットワーク演習が今日から始まりました。2週間に渡ってルーターの基本的な設定を演習していく内容ですが、今年は6/27が金曜日授業振替になってることもあり、変則的なスケジュールになっているらしい。

例年、早く終るグループは1時間近く早めに終わったりするのですが、一方でトラブルシューティングが上手くいかずに実験終了後もまだ続けてるケースもあります。多くの場合は物理層の問題で、今日もそうでした。というだけなら「来週の実技テストでは頑張ってね!」で終わる話ですが、今回は私の説明&対応ミスしてたところもあって、ごめんなさい。(謝る時間なかったので来週誤ります。。)

漏れてた説明は、同種のネットワーク機器をLANケーブルで接続する際にはクロスケーブルが必要だという点。ただし、最近の機器ならAutoMDI/MDI-Xのお陰で機器側で自動調整してくれるので、ストレートケーブルだけで繋がることが多く、殆ど問題になりません。今回は古いCiscoルータを使ってて、そいつにはAuto-MDIx機能が付いてなくて。Ciscoルータ同士を接続する際にはクロスケーブルが必須なのを忘れてました。説明もしてなかったし、クロスケーブルも用意してなかったしで与えられた状況だけでは解決できない状況。本当、ごめんなさい。

(FYI) sample codes on the book: Python Machine Learning

火曜日, 5月 30th, 2017

If you want try to sample codes, goto github repository: https://github.com/rasbt/python-machine-learning-book .
You see *.ipynb files in code directory. These *.ipynb files must be open Jupyter notebook that is a kind of notebook app running on web browser. It can be installe via pip/conda easily. e.g., https://github.com/rasbt/python-machine-learning-book/blob/master/code/ch01/README.md .

If you are a Python beginner, maybe Thonny http://thonny.org is useful for understandings. Thonny supports “Step through expression evaluation” under debugging mode.

データマイニング論の輪読1冊目が終了

火曜日, 5月 23rd, 2017

データマイニング論では教科書を読むパート1と、論文を読むパート2の2つで構成しているつもりです。一方で学生にもリクエストを聞いてみようということで「教科書2種類(Data MiningMachine Learning)のうちどちらが良い?それとも両方共読む?」と選択肢を用意したら予想以上に両方読みたがる学生が多くて。前者(の途中まで)だけだと手を動かす部分がゼロだし、一方で後者だけだと体系的な知識が薄いかなということでこれも良いか。ということで両方読んでもらうことにしました。

Data Mining: Practical Machine Learning Tools and Techniquesの5章までで「データマイニングの考え方と機械学習の立ち位置、入出力や前処理を含めたデータセット構築、代表的なアルゴリズム、モデルの評価といった一通りのプロセスを学んでもらいました。が、どこまでしっくり来てるかは謎だな。来週から始まる2冊めの方で体験知として獲得してもらえると良いな。


機械学習について参考になるサイトをピックアップ。特定のモデルというよりは、「そもそも機械学習って何?」というところから勉強したい人向け。

(1) 機械学習チュートリアル@Jubatus Casual
スライドベースで、機械学習の目的〜イメージを紹介してます。

(2) 連載: 機械学習 はじめよう
全21回かけて、色んな所にある「前提・仮定」等を交えつつ機械学習の立場や具体的な処理方法を解説してます。

(3) Machine Learning by Andrew Ng (Coursera)
英語ですが、概念だけではなくOctaveの使い方含めて実装まで解説してます。

ぱっと思いつくのはこんな所。実際にはあれこれ大量にあるので、後で整理しておこう。

for data mining or machine learning beginners

火曜日, 5月 9th, 2017

if you want to try some models (e.g., Naive Bayes Classification), I recommend (1) Weka, (2) R or (3) Scikit-learn.
Weka and R are really famous tools, so you can find their usage on web search easily. In addition, Weka and R have GUI. Weka requires Java, R requires R (R language).
Scikit-learn is good choice also, because easy to use and easy to cusmize (for Python user).

or 4th choise, if you want to use Deep Learning, you’ll use other tool such as Caffe, Chainer, TensorFlow, SkFlow, CNTK, DSSTNE. These tools can move on GPUs.

By the way, if you want to get dataset, goto UCI Machine Learning Repository.


留学生から「手持ちのデータで機械学習か何か適用してみたいのだけど〜」という話が届いたので。

こんなレポートは嫌だ ver.2

月曜日, 5月 1st, 2017

GitHubあたりでバージョン管理したほうが良いか? と思いつつ、実験1,2の担当は今学期で終わりになるっぽいのだよな(まだ調整中)。

過去記事: [ (不定期コラム) こんなレポートは嫌だ ]

以下、新規追加項目です。コピペっぽいレポートもちらほら。


ソースコードやターミナルでの実行結果をキャプチャして掲載。ラスター形式で。
ソースコードについてはカラー付保のお陰で見やすくなることもありますが、原則としてベクター形式にしよう。PNGにするとファイルサイズ大きい&画質も劣化。手元で試してみることもできない。例えばプログラミングの授業でコード例をPNGで提供されたら嫌でしょ?
実験レポートのはずなのに「実行していない」。
数人見かけたのだけど、流石にそれは大幅減点せざるを得ないです。趣旨を理解して実行し、結果からわかることを考察するまでが実験です。

情報工学実験1・スクリプトプログラミングの提出状況

水曜日, 4月 19th, 2017

[ 更新日: 5/1, 16:14 ]

実験1「スクリプトプログラミング」のレポート提出状況です。
この段階では採点に最低限必要となる「レポートファイル(tex, pdf)」の提出状況のみを確認しています。


<火曜日クラス>

145165B: 空フォルダのみ。再提出待ち。 -> ok
e145741: ok
e165701: ok
e165702: ok
e165703: ok
e165704: ok
e165705: texファイル途中段階のみ。
e165709: ok
e165713: ok
e165715: ok
e165717: 未提出。
e165719: ok
e165721: ok
e165723: ok
e165725: ok
e165727: ok
e165728: ok
e165731: ok
e165735: 未提出。
e165737: ok
e165739: ok
e165741: ok
e165743: ok
e165745: texファイルなし。再提出待ち。-> ok
e165746: ok
e165747: ok
e165749: ok
e165751: 空フォルダのみ。再提出待ち。 -> ok
e165755: ok
e165757: ok
e165758: ok
e165759: ok


<金曜日クラス>

e135753: ok
e145744: ok
e165706: ok
e165708: texファイルなし。再提出待ち。
e165710: ok
e165711: ok
e165712: 未提出。
e165714: ok
e165716: ok
e165718: ok
e165720: ok
e165722: ok
e165724: ok
e165726: ok
e165729: ok
e165730: ok
e165732: ok
e165733: ok
e165734: 空フォルダのみ。再提出待ち。 -> ok
e165736: ok
e165738: ok
e165740: ok
e165742: ok
e165744: ok
e165750: ok
e165752: ok
e165753: ok
e165754: ok
e165756: PDFファイルなし。再提出待ち。 -> ok
e165760: ok

Let’s shadowing

火曜日, 4月 18th, 2017

データマイニング論の輪読が始まりました。暫くはData Mining: Practical Machine Learning Tools and Techniquesで基礎固めです。

毎週2グループ、1グループ当たり約20ページという分量で割り振ってます。前半の知識がないと後半は読むのが辛いということは往々にしてありますが、ま、頑張ってください。概要掴むだけなら割りと楽勝な質&分量です。

留学生も5人ぐらい受講していますが、英語教材使ってるので今のところ大丈夫そうではあるかな。というか今日担当してた一人には優しすぎたかもしれない。と思うぐらいには読み込んでました。資料も説明もGoodで、質問も的を得ていて凄い。

日本人グループは、英語教科書がベースにあるので資料のテキスト文は良いです。一方で、発表時のイントネーションと区切り方(リズム)が宜しくないです。単語の発音もそうだけど、そっちはその人や日本人の癖として暫くしたら慣れる(慣れやすい)側面もあるけど、文章としてはイントネーションと区切り方が重要。これらがバラバラだと聞くのが辛い。逆に余程酷い発音じゃなければ、イントネーションや区切り方から類推しやすかったりします。

ということでイントネーションや区切り方を練習しよう。

代表的な練習は、シャドーイング「英語を聞きながら、止めずに、後から追いかけて同じように発音を真似する練習」が効果的です。

シャドーイングのためには元になる音源が必要ですが、
 (1) NHKの語学番組から選ぶ。
 (2) 実ニュースを使う
 (3) ESL
 (4) Cursera等の動画コンテンツを使う(スピード調整できて、スピーチ文も見れます)。
 (5) 教科書や自前で用意した英文を say で喋らせる。
あたりが良いんじゃないかと。

実験1の1週目が終了

金曜日, 4月 14th, 2017

(意図的にPNGかつ解像度低くしてます)

基本的にはソフトウェア演習1の復習ですが、スクリプトプログラミングということでシェルスクリプトをやって貰っています。どちらかというと正規表現紹介を兼ねて「簡単なログ解析+グラフ描画する」例題をやってみせて、関連知識を紹介するという意図のほうが強いです。例題の一つとしてツイートログからmention関係をGraphvizで可視化して見せてますが、こっちは例年反応良いですね。