Archive for the ‘データマイニング班’ Category

暑い!!

火曜日, 12月 22nd, 2015

昨日時点での今日の予報最高気温26度のところ、それに準ずるぐらいの気温までは上がってしまって。日中は長袖シャツを腕まくりしても足りず、窓開けて空気入れ替えするぐらいしないとやってられないぐらいには暑い一日でした。雪降るぐらいには冷えるのは無理だとしても、せめて冬らしく冷えて欲しいのだが。。

データマイニング班は今日が年内最後。今の所どのグループも例年よりは進み具合が早いかな?。多分。そう判断している理由は、データづくりを一度以上やってみて何かしら試行錯誤を繰り返す段階に入ってるグループが多いから。例年だとまだそこまで辿り着いていないか、もしくは辿り着いてもいないことがあるのだよな。ただ、試行錯誤する饒波良いとして、途中の結果を残すという所までは気が回っていないようにも見えます。研究活動に限らず、成果を蓄積して前進するという一般的な活動の練習という点ではそこら辺の指導もするべきか。でも、もう年明けですね。

例年より早いペースでグループ開発に突入

火曜日, 12月 1st, 2015

データマイニング班7周目は、グループに分かれてのテーマ検討です。検討するにあたり、例題を使った補足説明をしたぐらいで他は進捗報告を聞きながらのアドバイスをした&TAにもやってもらったぐらいで、殆どは討論時間です。残りの週は少しずつTips紹介するだけで、具体的な実習がメインになります。

例年だとこのテーマ検討だけで2,3週間かけて「テーマ確定->他グループに依頼」しているところが、今年は(先週後半からやってるということで)1.5週間でテーマ確定、発注依頼&開発受諾するところまで辿り着きました。これからが本番ではあるので「なるべく手を動かす時間に余裕を持たせたい」という点で全員の意思が固まってたらしい。モデリングと設計でやってるスクラムのように、アジャイル的に取り組むというところが意識付けられてきてるのかしら。

数うちゃ当たる vs. 二兎を追う者は一兎をも得ず

月曜日, 11月 30th, 2015

大学案内?で「誌上講義」なるものをやるらしく。それ自体は良いとして、それが紙面の都合で「全員で1500字程度(字数はうろ覚え)。書く人増えるならその分減ります」みたいな調整が入ってるらしく、ふたを開けてみたら「300字程度で書いてね」というオチに。え、たかだか2ツイートで授業を紹介しろと? いや、やっても良いけど(やるけど)、もうちょっと戦略的に読み手に何を伝えたいのか考えてやろうよ。戦略的に考えた結果なのかもしれないけども。こういうのは読みたくなる文章を書ける人に書いてもらった方が良いんじゃないのかなぁ。怪奇!! 次元の呪いみたいに。

ということで、「程度」の範疇に収まってるか怪しいですが、私の担当分はこんな感じになりそうです。授業名含めずに333字らしい。

授業名: 情報工学実験IV(データマイニング班)

 学部3年生向け実験班の一つデータマイニング班では、機械学習の基本的な考え方を学び、プログラミング技術・問題設定・評価・考察といった計算機実験に必要なプロセスを体験させることを目的としています。工夫している点は、
 (1)チームで取り組む。
 (2)各チームは「自チームの欲しいシステムを他チームに開発依頼しつつ、他チームからの依頼に基づき開発をする」の両方を体験する。
 (3)コード・レビューをする。
 (4)成果物はオープンソースとして公開する。
 欲しいものをどう伝えるか、逆に相手の理想像を適切に聞き出すにはどうしたら良いのか。理工系学生にも求められる「コミュニケーション能力」の一部ですが、クライアント側&開発側の両方を体験させることでその難しさに気づける授業になっています。


「読みたくなる」ということで高校生向けに紹介するならこういうやつかなー。どれもタイトル見ただけだとお硬い感じがしますがとっっっっても読みやすい(高校生でOK)本です。

(データマイニング班) 前半ステージが終わりテーマ検討に

火曜日, 11月 24th, 2015

3年次向け実験データマイニング班での目的の一つは、

怪奇!! 次元の呪い – 識別問題、パターン認識、データマイニングの初心者のために
[ 前編 | 後編 ]

の記事を読んで理解できる、イメージできるようになることです。それに向けて第1回〜5回までの内容を組み上げてみています。ちゃんと読めるようになってるかは「?」なところもありますが、少なからずイメージできているのではないかなと期待しています。

ということで、6回目となる今日は総復習編という位置付けで真新しい内容はほぼゼロの、復習祭りでした。

来週以降は進捗確認しながらコメントするという形になります!

(データマイニング班) 5周目は多項式モデルへの拡張

火曜日, 11月 17th, 2015

デザインスクールの追い込み時期にも差し掛かってそろそろ倒れたいです(違)

データマイニング班5周目が終わりました。内容としては先週実装した線形回帰モデルにおける「線形って何?」とか「入出力の対応関係における線形・非線形」の話をしたり、線形モデルを多項式モデルに拡張した実装例を示したり、その過程でモデルの自由度と過学習の話をしたり、それを防ぐための例としてペナルティ項・テストを導入しようといった話をコード示しつつやってました。やや詰め込み過ぎ感ありますが、振り返る前提なのでこんなものかなーと楽観視してますw

(データマイニング班) やっとこさの4週目は線形回帰モデルの実装を通した演習

火曜日, 11月 10th, 2015

大学スケジュールのおかげでちょくちょく休みが入ってるのでなかなか進まず、やっとこさ4週目です。単に4回目をこなすというだけではなくて、復習の復習の復習、、、と、忘れてしまってることを前提に振り返り時間をそこそこ長めに取ってやってます。その方が繰り返しにもなることはなるけど、ここまで間が空いた繰り返しの効果は「ほぼ毎回初出でやってる場合」と大差ないのだろうなとも思われ。ちょっと悲しい。。

そんなこんなで4週目はこんな内容でした。最小二乗法ベースでの実装演習ということで、クラス設計したり細かく動作確認してcommit&pushしたり。そろそろ前半戦(機械学習概観)に一区切りかなー。

  • 事例紹介: 分類・クラスタリングの例数件。ツイートのジャンル分類に基づくプロファイリング。画像データの特徴量クラスタリングによる代表特徴生成。
  • 振り返り1: 機械学習概観、教師あり/なし学習、分類問題、回帰問題、クラスタリング問題
  • 検討演習: 回帰問題
  • 振り返り2: モデル、線形回帰モデル、仮説、損失関数、目的関数、最小二乗法
  • 実験テキストPDF: 最小二乗法、解法例、線形回帰モデルのクラスデザイン、Numpy+Pythonチュートリアル、グラフ描画
  • Python演習3週目
  • 課題: 「機械学習 はじめよう」の第8回第9回第11回(最低1記事読もう)

(データマイニング班) 3回目が終わったと思ったらまた次回は休みらしい

火曜日, 10月 27th, 2015

IMG_0138

ようやく3回目突入かと思いきや、また来週はお休みらしいです。うーにゅ。

今回の中身はこんな感じ。モデルやアルゴリズムの具体例を眺めつつ終了。次回は実際に実装してみるという所に入る予定です。

  • Python演習
  • 事例紹介: 位置情報にまつわるデータ補間技術 #TokyoWebmining
  • 実験テキスト: PDF(復習、scikit-learn入門、モデル、線形回帰モデル、仮説、損失関数、目的関数、最小二乗法、最急降下法)

P.S.
文句を言っても仕方ないのですが、火曜日の授業が、
 ・1週目: 10/6, 1回目
 ・2週目: 10/13 *月曜日振替え。
 ・3週目: 10/20, 2回目
 ・4週目: 10/27, 3回目
 ・5週目: 11/3 *祝日
 ・6週目: 11/10, 4回目
という流れで前半6週目までに2回お休みが入ってて、ちょっと辛い。今の2学期制(通常授業1週間に1回)だと1回休みの影響が大きすぎる(間が空くと忘れる学生が多いのは仕方ないというかシステムの問題)ので、3学期制or4学期制にした方が良いんじゃないのかなー。

データマイニング班の実験テキストは英語ドキュメントがメイン

火曜日, 10月 20th, 2015

先週は月曜日振替え授業だったので2週間ぶりの学生実験です。例によって質問しまくりな形式ですが、それに加えて今後の実験テキストはほぼ英語で用意。専門用語や専門的な定義は読めなくても良いですが、そうでもない所は比較的平易な英語だし。

毎週の中身はこんな感じで、毎週何かしら事例紹介を交えつつ、本題を少しずつ進めるようにしてみてます。2週目の中身はこんな感じです。

Python演習を大量に列挙してますが、どれでも良いから基本的な部分は抑えて「調べながらコード書けるようになろう」という方針で勉強してもらってます。初めてプログラミングする訳じゃないので独学メインで。

英語テキストは(専門的すぎる部分を除けば)比較的読みやすいのが多いと思うのですが、シンプルな単語&構文でもなかなか読めない学生が多くて。例年の話ですが、やっぱり実際に読ませないと駄目ですね。

Mercurial忘れてる学生多いので、宿題で衝突解消までやるように指示して終了〜。

データマイニング班1回目が終了

火曜日, 10月 6th, 2015

今日から後期授業が開始で、1回目の実験4・データマイニング班が終わりました。やっぱり2コマ連続はなかなかにハードだなぁ。体力付けろという話ではある。

データマイニング班1回目の中身はこんな感じでした。シラバスというか達成目標等の説明をしつつ、1週目の主題「UNIX哲学、実験で使う環境、アジャイル」へ。質問当てまくり。前半4〜5週間は座学に近い部分も多いので、ただ聞いてるだけだとつまらないし、言ってることがどう理解されてるかも分からないしということで質問しまくるスタイルです。

「意思決定ってどういう意味? どういう時にやる?」「自然言語って何?」「構造化データとは?」「完成度を高めるって言葉で言うのは簡単だけど、完成度って何?」

「正解とか間違いとか気にしなくていいからどう捉えているか話してみて」
「何故そう考えた?」

受講生12名で3巡ぐらいしたと思うので30回程度質問したらしい。こんなものです。

来週火曜日は月曜日振替えということでいきなりのお休み。1週間空くので、余裕があれば言語処理100本ノック 2015PythonチュートリアルでPython勉強してきてね〜。

データマイニング班最終発表会終了

金曜日, 2月 13th, 2015

s_2015021303195854dd6d5e91c58

4グループの成果物一欄(コード+簡易ドキュメント+発表資料)がここにアップロードされています。まだアップデートがあるかもしれませんが、一応一区切りついたんじゃないかと。

質的にはそれなりに頑張ってたかな。15週のうち前半は機械学習+αの勉強で、残りの週でテーマ検討して、別チームが考えたのを受註して開発するところまでやってもらってました。機械学習に限らないですが、実験というのは「何か実験目的があって、それをどのぐらい達成できたかをどう検証するかを考え、その視点で振り返った時に結果がどうだったかを考察する(そして課題等次に繋げる種を洗い出す)」というのが一連の流れですが、結果に対する分析までやったグループは少なかったか。ま、これは私の指導が足りなかった所もあるのだけど。指摘はしたので、卒論では頑張ってください。>ALL

P.S.
打ち上げで買ってきてもらったパン屋さんはこちら。
ソレイユ
ヘンゼル