少し冷えてきた気もするけど日中はまだまだ半袖で十分
昨日は年休を利用して後回しにしてた住所変更やらの手続き。それにしても朝早く(9時過ぎ)から出かけた割には戻ったのは5時だったりしたので、もうちょっと休暇を有意義に過ごしたかった。。那覇市役所で転出届け、警察署で免許書記載変更、郵便局で税金等の振り込み、島バナナ&ゴーヤーなアイス食べてから宜野湾に戻って転入届。各々待ち時間もあったし、徒歩で結構時間かかってたのもあって休みらしい休みじゃなかったな。長田交差点から宜野湾市役所へも徒歩だと結構な距離なのね。
今日は午前中に太郎さん爆撃、午後は学生実験があったのと、終了後にデザインスクールの打ち合わせ。明日、京大側とビデオ会議があってそこで諸々最終調整をする予定です。個人的に一番クリティカルに感じている問題はファシリテーターの人数ですが、ちゃんと用意できるんだろうか。(当初の話では京大側学生自身がファシリテーターとして準備してくるという話だったんだけど、グループ数目安を伝えてからはレスポンスが貰えていない)
卒業研究中間発表の方は、宮城・姜研、宮里研、山田研、岡崎研、河野研まで終了。そろそろ1週間で折り返し地点になりますが、一応今のペースで全員分チェックできそうか。
自炊の方は先日ロールキャベツに使った際の残り物ハンバーグと、具沢山みそ汁。炊飯器無しの生活で炊いたご飯を温めるのがちょっと面倒だったんだけど、ここ最近は汁物作るときは汁を多めに作って雑炊風にするということを覚えてからはやっぱり炊飯器なくても良いなと再認識しつつある。
データマイニング班6回目が終了。
- 振り返り: classification / regression / clustring
- (続) Level 2 確認 (2名)
- Level 3 確認
- 記事紹介
- Model selection and evaluation
- モデルのパラメータ調整の演習
- Clustering
- クラスタリング、3次元グラフ
- 課題: Level 4: クラスタリングについての検討。
- 機械学習の代表的な使い道の一つである「クラスタリング」では、「サンプル(N次元の特徴ベクトル)集合」として用意されたデータセットにおいて、似たようなサンプル同士を「同じクラスタ」に分類することでサンプル全体をいずれかのクラスタに分類することを目的としている。
- 手法の特徴としてはK-meansに代表されるトップダウンな手法、ウォード法に代表されるボトムアップ的手法に大別することが多い。どの手法も一般的には、「サンプル間の距離をどのように計測するか」、「初期値をどのように設定するか」等によってクラスタリング結果が大きく異なることも珍しくない。そのため、適切なクラスタを得るために、「適切なクラスタ ≒ 良く見られる(現れる)クラスタ ≒ 意味がありそうなクラスタ」と考え、複数回試行した結果を俯瞰して観察することも少なくない。
- 上記のような特性を踏まえた上で、クラスタリングについて以下の点について検討し、報告せよ。
- (1) (適用してみたい)具体的なクラスタリング問題について述べよ。
どのようなデータセットにクラスタリングを適用したい? 各サンプルの特徴ベクトルは2次元以上とする。可能な範囲でサンプルを具体的な特徴ベクトルで複数事例表現してみよう。またそのデータセットにクラスタリングを適用する意図は何だろうか?
- (2) クラスタリング結果の評価について。
一般的にクラスタリングには教師データが無いことが多い。もしくは教師データがあったとしても、教師あり学習では得られない結果を求めているからこそ教師無し学習を実行することが多い。クラスタリング結果の妥当性や適切さについて、どのように評価したら良いだろうか?
- 提出先: データマイニング班学生公開用Wiki
- 次週予定: 自然言語処理外観?
来週の課題チェックがまだ残っていますが、機械学習外観としては一応目処が付きました。去年は4週目から9週目までやってたらしい(Python演習や自然言語処理演習も部分的に入ってるので実際には5〜8週ぐらいじゃないかと)のと比べると、今回はPython演習3週、機械学習外観3週の6週間で終わってるので大分ペースが早いか。後で追加したいなというのも残ってはいるんですが、それをいつやるか/本当にやるかは未定。「ツールとして使うなら」という前提で不要に感じた所を削っていってるのでこんなものかも。やり方次第ではPython演習+機械学習勉強を兼ねて1つ具体的なアルゴリズムを実装してみるという時間も取れそうか。
来週からは自然言語処理ツールを使った特徴抽出演習やりつつ、具体的に自分で実装していきたい(データ)マイニングの問題設計に取り組むのがメインになる予定です。