Archive for the ‘データマイニング班’ Category

卒論最終発表1週間前

木曜日, 2月 12th, 2015

m_2015021209062654dc6d1262f61

来週火曜日に2ページ予稿提出、水曜日に論文本体提出、木曜日に発表、金曜日にインタビュー、という怒濤の〆切ラッシュなんですが、全体を通しての発表練習やれたのが神谷さんだけという。しくしく。神谷さんもまだまとめきれてないので、要テコ入れ。いや、テコ入れ自体は良いか。松田さんは(追加実験に手を出しちゃったので)実験結果の分析がこれから。高橋くんはもともと1月ぐらいからしか動けていないのでストーリーのまとめ方自体に悩んでる所。3人とも1年間の進捗としてはちょっと物足りないか。

今回は〆切日に対して事前計画をこちらで立ててあげて(!?)それを目安にやりましょう〜という形でやってみたのですが、今の所その通りにやれた学生が一人もいないという。目安は目安に過ぎないから多少の前後あっても良いけども、それでもちょっと計画性無さ過ぎないかい君たち?。という感じ。これで社会に出て大丈夫かな〜。

(と書くと今年が例外的に酷いように見えなくもないけど、〆切関連で怒りがちなのは私が教員なってからずっとです)

明日は2時限目からデータマイニング班の最終発表があります。興味のある方は聴講参加どーぞー。

>データマイニング班最終発表

日時: 2/13(金), 10:20-11:50 *終了後打ち上げ
場所: 5階会議室
発表時間目安: 発表10分+質疑5分=合計15分程度

10:20-10:25, 進め方等説明
10:25-10:40, グループ1「ブックマーク類似度分類」, 小林, 岩村, 新城
10:40-10:55, グループ2「NPClustering」, 与那覇, 与那嶺, 玉城
10:55-11:10, グループ3「本のあらすじクラスタリング」, 宮里, 照屋, 阿波連
11:10-11:25, グループ4「英文型分類判定」, 伊波, 大井
11:25-11:35, 自己評価
11:35-11:45, 授業評価アンケート

帰宅前に日が沈みきったのならそれなりの楽しみ方がある

火曜日, 1月 27th, 2015

m_2015012709530354c75fffbb640 m_2015012709535454c7603289d92

データマイニング班は今日で15週間が終了。来週は期末テスト期間ですが、学生実験的にはその代わりに最終発表という形でプレゼンしてもらう形になります。ということもあって、多くのグループがコード/結果の整理やらで大わらわ。発表自体は 2/11(水) にやる予定なので、暫く間が空くな。ついで(?)に、バージョン管理した開発してない学生への追加課題として口頭試問をすることに。ちゃんとやってればこんなことしなくても良いのに〜。

空き時間で実験2のレポート採点するつもりが、修論チェックが届いたのでそちらの校正を。とっととやらないと修正する時間無くなるし。明日には全体校正し終えたいけど終わるかしら。数十ページの論文校正は時間かかるものだし。

といいつつ私自身は、卒論/修論そのものへの校正はされた記憶無かったりするんだよな。その分というか、学会発表予稿や査読付き論文等で目一杯時間かけてもらって指導してもらったし、そっちの方がより建設的だよなとも思う。1st査読付き論文に赤ペン付けまくられたやつは、探せば出てきそうだな。

後期の授業は残り数週間

火曜日, 1月 13th, 2015

ということでデータマイニング班13回目は成果物公開に向けて準備することと、最終発表について告知。それ以外は通常通りの進捗確認ぐらいですが、見逃してた/言い逃していたコードレビューもグループ毎にあれこれ(これは先週末にやった話)。

実質的にコード書いてないorそれに準ずる学生がいるのだけど、どうしようかしら。発表終わった後で個別口頭試問というかコード解説してもらうとかやるかなぁ。

合間にコードチェック

水曜日, 1月 7th, 2015

昨日のデータマイニング班な話。グループ開発に入って5週目。残り4週ぐらい。今週がおおよそ中間ぐらいの時期なのと、年末年始で忘れてることも多いだろうということで達成目標を再度示しつつ、学生実験としての抽象化された目標も含めた「学生実験3,4を通して達成して欲しいこと」を準備。これに答えることを通して再確認&残りの週で1つでも良いから一歩前進してみよう、という趣旨でアンケート回答して貰いました。

ついでにリポジトリもチェックするかということで記入させたので、合間の時間を見繕ってチェック。大雑把には hg log | grep user | sort | uniq -c してみたり。具体的にコード眺めて気になる点へコメントしたり。実験中にやった方が良いんだけど、その時には見逃してる or 言いそびれてることもあるので。

「やって欲しいこと」をうまくお膳立てしてから学習して貰うのが機械学習

火曜日, 12月 16th, 2014

どういう特徴を盛り込むべきかといった特徴設計するよりも生データをそのままぶち込めという話もちらほらでつつあるようですが、それでもどこかしら「お膳立て」してるというのが実態。データマイニング班11回目は、クラスタリングでつまづいてる or 込み入ったタスクを一つの学習で済まそうとしてしまっていたので、クラスタリングについての補足KISS原則(小さく作り、組み合わせる)な補足。取り組んでる問題が難しそうに見えるなら、直接体当たりするのではなく分割できないか考えてみよう。何でも分割することが正義ではないのだけど、多くの問題は分割することで解きやすくなるのは事実。

来週火曜日は授業お休みなので、次回のデータマイニング班は年明けになるらしい。良いお年を〜(早)

データマイニング班10回目が終了

火曜日, 12月 9th, 2014

先週からグループに分かれての活動に入っているので、基本的には進捗確認してからグループ単位での作業レビューするという流れ。クラスタリングの考え方に躓いてる or クラスタリングだけであれこれ解決しようとして妙な道に紛れ込んでるグループがいます。ま、それも含めて「実験」。とはいえ的外れなことばかりやっててもあれなので、来週はクラスタリングについての補足説明をする予定。今回は線形回帰だけを時間取ってやってて、分類はともかく、クラスタリングは上辺だけの説明で終わってたし。

m_201412090953035486c67f2a4e4 m_201412090957315486c78c00c8f m_201412091014465486cb9689064 m_201412091037315486d0ebcfbcc

本当は今日の最後の時間に補足するつもりだったんだけど、別タスク(工業連合会+JIS協会忘年会)が学外であるのを忘れてたのでした。ごめんなさい〜。

データマイニング班9回目からはグループ間での開発委託された内容に取り組む週間に

火曜日, 12月 2nd, 2014

2014年度のデータマイニング班(やその前にやってた進化計算班)では、グループ毎に作りたいアプリケーションを「互いに開発委託し合う(自分たちで開発するのは他グループから委託されたもの)」という形式で取り組んでもらっています。意図は「思い描いているものを相手に伝わるレベルでアウトプットする」ことと、「アウトプット不足な相手からうまく引き出す」の練習になるんじゃないかと思ってのことですが、これが本当にそういう役割を担っているかは良く分からず。でも、グループ内で閉じてしまうのは他でもできることだし。ということで自己正当化してます。

あと、去年までは一つの実験班人数が4〜8人だったこともあり比較的個別に時間をって指導しやすかった(過去形)のですが、今年からは10名強(データマイニング班は11名)来ることになり、個別に見る時間がその分短くなりました。これに伴い、去年は最初の週からコードレビューを兼ねた作業レビューをやってた所を、今年は後半戦の今日から実施することに。具体的にはグループ毎に1名がプロジェクタ(代わりのでかいモニタ)に繋いで話しながら作業してもらうというのを20〜30分やってもらってみました。一種のペア・プログラミングに近いのかな。コード書いてる最中にいちいちエディタを終了するな、とか。そういうことってその場で言わないと意図を理解し難いし。

既にコード書き始めてるグループもあって「mecab.parseToNode() する前に mecab.parse() してなくて結果がおかしい」というあるある事例が。あるあるだけど後で思い出すんだよな(気付くのに結構時間がかかった)。

データマイニング班8回目は自然言語処理入門(英語編)とグループ討論2回目

火曜日, 11月 25th, 2014

3連休を探す旅に出たいのですが学生実験の日です。明日は指定された会議があって出ざるを得ず。木曜日は週ゼミ。12月に入ったら実験2が4週連続であるのでまともに休みを取れるのが今週金曜日ぐらいしかないという悲しい状況に。しくしく。ま、それでもデザインスクールのアンケート眺める限りでは好評だったようで良かったか。

データマイニング班8回目はNLTKの簡単な使い方紹介したぐらいで、残りはテーマ検討の討論。今週でテーマを決めることができたので、開発委託と受託を互いにしながら相手の考えてるテーマが何なのか、こちらが意図しているテーマが何なのかをやり取りするという久しぶりの光景に。

来週からは、

  • 実験開始時に「今日のToDo」を確認。
  • 3時間弱で演習(グループワーク)。
  • 最後に報告(のつもりだけど、アドバイスすることを考えると翌週冒頭に回す可能性があるか)

という流れで毎週少しずつやってもらうことを想定して「基本的には実験2コマの時間中にやる方向で」という話をしたのですが、それに対する不満っぽいニュアンスを受けたので「やりたい人はどうぞ」に変更。限られた時間で最大限のことをやるというのも一つの勉強ではあるのだけど、時間かけてやれるだけやりたいのならそれはそれで止めません。やりたがってるのを止める理由はないし。

温泉旅行したい。

データマイニング班7回目は自然言語処理入門とグループ討論

火曜日, 11月 18th, 2014

データマイニング班は今週から2週間ぐらいの予定でテーマ検討な週間です。その合間というか、余った時間を使って自然言語処理入門編をコードと共に示し、

ぐらいのざっくりとした紹介。来週は英語編を示す予定ですが、デザインスクール終わった翌日になるので準備できてない可能性もあるな。ま、自然言語処理を使えという制約はなくて、ただの紹介だから後回しになっても問題無いだろうという判断ではあるのですが。

あと、テーマ検討をしやすくする目的で「目的/目標/アプローチ/特徴ベクトルの作り方/データセット準備/学習の進め方/実験計画」をどう考えたら良いかの例題として去年作成した資料を紹介したり。逆効果になってる可能性がなきにしもあらずですが、ま、無いよりは良いよねぐらいの気持ちで。

昨日書いたネタ出しも含めて頑張ってみてください。今日休んだ学生も(ニッコリ

データマイニング班6回目は解説記事読書

火曜日, 11月 11th, 2014

m_201411110724235461b9a78e59b

データマイニング班6週目はこんな感じでした。scikit-learnで分類問題/回帰問題/クラスタリング問題の例題になってるコードを軽く紹介して、本題の「次元の呪い解説記事: 前編後編」の読み会。これを読めるようになるところまでの下済みを終えるというのが目標の一つでした。欠席者も居たけど大丈夫かなー。

ポッキーの日ということでポッキー休憩を挟み、後の時間はUCI Machine Learning Repository(をマイニングしたという記事)あたりを軽く紹介して、グループ分け。余った時間でアプリケーション検討。来週からは「進捗確認(に対する指導)」がメインになります。自然言語処理入門ぐらいもやる予定だけど、本当に入門だけなのであまり意味が無いっちゃないんだよな。

卒研中間発表コメントは、残り1研究室!