Archive for the ‘日記’ Category

データマイニングのシラバス検討

木曜日, 3月 7th, 2019

2019年度後期から開講予定の「データマイニング」の授業検討な話。「データマイニング シラバス」ぐらいでググると色んな大学の現状を俯瞰できます。

ざっくり上位に出てくるものを列挙するとこんな感じ。こうして眺めると、基本的には「統計学なり機械学習なりを道具として使って、有益な情報を抽出する」というのが大筋になってますね。コロンビア大学のやつは幅広くなってて、データをどう蓄積するかみたいなところも含むらしい。今風だとBigQueryとかも含むのかも。

知能情報コースとしては、統計ベースの話はデータサイエンス基礎(2年次前記)でやってて、機械学習ベースの話は3年次前期に「機械学習」としてやるんじゃないかと。これらの2科目では基礎に留まってるかもしれませんが、少しは応用もしているはず(多分)。それを踏まえてなるべく差別化をしようとすると、(a)応用編、(b)前処理テクニック、(d)自然言語処理編、(c)実践編あたりに分かれるのかな。

(a)の応用編は、文字通り統計・機械学習を道具として「どう使うか」をメインに。(これに最も近いのが前述のシラバス群)
(b)の前処理は、「生データを目的に合う形に処理」をメインに。
(c)の自然言語処理は、応用編の一つとしてテキストの扱い方をメインに。
(d)の実践編は、DB+{Webサービス,アプリ}とかの実装的な話や、具体的にビジネス活用するときの話をメインに。

道具という点から切り分けるとこれぐらいに分かれるのかなと。前処理は面白そうなんですが、体系的な話ができるかと言われると難しくて。(a)+(c)をメインにしつつ、前処理挟むぐらいの方がベターかも。実践編はうまいこと教材作れるかが一番のネック。私自身が知らない点ばかりですが、面白そうではある。ただそれ以外にも、必要な前提知識が膨大な点も大きい。知能情報コースでも難しくて、他コースからはまず無理だろうな。

個人的にはNUMB3RS ナンバーズ 天才数学者の事件ファイルの解説本「数学で犯罪を解決する」あたりを使って輪読的にやるのが面白そうだったりしますが、学部の授業でそういうのはありなんだろうかw

確定申告

水曜日, 3月 6th, 2019

私自身が「お金の管理したくない、考えたくない人」ということに加え、実家の都合で内容変わることがあって。IEじゃないと駄目とかe-taxシステム周りの問題以前に、どの項目をどうしたら良いのか、そもそもどういう項目でどのぐらい税金支払ってるのかとか覚えるつもりがさらさらないので、人任せにしています。税理士に依頼するのではなくて、確定申告会場まで行って、整理券取って、並んでます。待ってる間の暇潰しはいくらでもできるし、普段行かない行動範囲ということで「ご飯の新規開拓」もしたりと楽しいこと探せるしで、別に不満はないし。

そもそも大学からの給与も、そうじゃない方も国が把握しているルートしかなくて。それだったら自動化しろー。というか「多少安めに税金取ることにしたとしても、ざっくり自動化するほうが、手間賃考えると全体としてはかなり安上がり」になったりしないのかな。マイナンバーもだけど、わざと社会を難しくする人は嫌いです。

TPOにより意味が異なる

月曜日, 3月 4th, 2019

「単語(記号)」は何かしらの事象をしたものの一つで、その単語が出てきた文脈に依存して意味が変わります。辞典引いても複数の意味が掲載されてるので、その単語が出てくる文脈から「尤もらしい解釈」を選択することで、文章としての意味を理解しているはず。人間は。(より広義には「読み手・聞き手の解釈モデル」も考慮する必要が出てきますが、ここではスルー)

これに対して自然言語処理や機械学習等の「コンピュータに処理させる」という目的を達成するために、様々な技術が積み重ねられていて。そのうちの一つに分散表現というものが2013年頃から提案され、様々な拡張がされてきました。一方で「その表現をどううまく作るか」、「そもそも分散表現でどこまで概念を表現できているのか」等のタスクがあり、その一つとしてFacebookが公開したfasttextがあったのですが、より日本語に特化したもの(?)としてhottoSNS-w2vが公開されたようです。

hottoSNS-w2vの例を見る限りでは、ウェーイの類義語で「うぇーい,ウエーイ,イェーイ,イエー,(☝՞ਊ՞)☝,パリピ,イエーイ,イェイ,ウェェェェ,イェア」がでてくるらしい。

一方で、「文脈」の中にはコミュニティや世代なんてのが含まれることもあって。

なんて話も。いろいろ楽しいです。

ひとまず良好

日曜日, 3月 3rd, 2019

2018年8月に薬増量して約半年が経ち、改めて脳波検査してみたところ、今回は異常な所は見られないらしい。これでまた様子見しつつ、安定するようなら量減らしてどうなるか、それで問題ないならカットしてどうなるか、、というペースで、早くても1年ちょいぐらいは経過観察する流れになるのかな。ま、生きてます。

プライバシー

金曜日, 3月 1st, 2019

「Web等の第三者が閲覧できる場所に、本人の許可がない限り原則として名前を書くのは駄目だ」という通知が。このブログとかも勿論当てはまってて。実際問題として、書かれて嫌な思いをしている学生はゼロじゃないだろうし、そういう学生が「消して」というアクションを取るのはかなり苦しいだろうというのも想像できます。

一方で、そうではないとしても、「単純に名前が出てなければ良い」というスタンスにも見えて、この「○○辞めよう」なポリシーで運用するのは「誰が得(損)するの?」という視点が抜けてるのが気がかりかな。

「ネットに流れたものは二度と消せない」みたいなところの延長にあるのだと想像しますが、もう少しうまいシステム考えてみたいところだが。。

インライン重複排除

木曜日, 2月 28th, 2019

システム更新に向けた実機検証の一つに、インライン重複排除してくれるストレージがあって。

重複排除自体は最近はいろんなストレージに付いてる機能らしいですが、「ストレージ内に同じブロックがあったら排除する(ことで使用量圧縮に繋がる)」というもの。大きく分けると「(1) ひとまず書き込んで、後から重複チェックする方式」と、「(2) 書き込み時に重複チェックする方式」になるらしい。より具体的には実装方法やブロックサイズやら諸々で大きく違うらしい。

ということでお借りして、シス管メンバに評価してもらうことに。卒論・修論シーズンにぶっこむ形になってごめんなさい。だけど予想以上に性能高そうだし、何より認識の誤りに気づけたのも良かったです。

先輩後輩の繋がりを大切に

水曜日, 2月 27th, 2019

マエケンコンテンツが豊富という「例年と一味違うな」感がありましたが、謝恩会楽しかったです。ありがとうございました。就職する人も進学する人も、まだまだ先は長いです。先輩には頼り、後輩には頼られるように、お互い様精神で楽しみましょう。

シラバス検討

火曜日, 2月 26th, 2019

知能情報コースになってから2年が過ぎました。2019年度には学部3年生が出てくるということで、そっち向けの新設授業の準備を。

人工知能〜機械学習関連の科目は、

  • 2年後期で必修「人工知能(遠藤先生)」
  • 3年前期で選択「機械学習(遠藤先生)」
  • 3年後期で選択「データマイニング(當間)、コレクティブ・インテリジェンス(國田先生)、知能ロボット(山田先生)」

あたりになるのかな。厳密に関連してるのを列挙するともっとありますが。

今の所、
「データマイニング」では「ソーシャルデータ」あたりを対象とした話。
「コレクティブ・インテリジェンス」では「生体情報処理あたりから知能とは何かを探る」話になる予定です。
予定は予定ですが、どうなることやら〜。

月曜日, 2月 25th, 2019

まだ論文修正や成果物整理等のタスクが残っていますが、一山越えたということで打ち上げに。お疲れ様でした。

卒論とは別に、近い内に後輩へのミニワークショップをやってもらう予定です。後輩の皆さんは楽しみにしましょう。

頑健性

金曜日, 2月 22nd, 2019

昨日〜今日にかけて事務方さんやら何件かの相談が届いてて、あれこれ話を聞いてました。昨日のインタビューもそうですが、どんなシステムを作ろうとどこかに穴はあるわけで。システム自体の良し悪しだけではなく、それを運用する人の問題もあるし。そういう細かなところを個別対応なりできる範囲ではやるのが良いし、一方でそれが積み重なりすぎると崩壊することもあるわけで、システムとしてのゆとりが欲しいですね。これは学生側の立場からしてもそうだろうし。

授業の先を目指したい学生へのサポートだったり、授業についていけない学生へのサポートだったり。学サポもありますが、その学生自身が知らなかったり。ま、いろいろ。

フェイルセーフやフォールトトレラントとか、失敗することを前提に頑健性を保つ考え方があれこれありますが、大学の運営なり学科の運営なりも一緒ですね。(なので、人が減りまくりなのはきついぞ〜)