Archive for the ‘日記’ Category

日中に屋外を歩くことが増えた分、真面目に紫外線対策すべき?

月曜日, 8月 5th, 2013

m_2013080512533551ff21bfaeaa2 m_2013080516293451ff545e889b5

米軍ヘリが墜落したらしい。病院に搬送された人も無事だったら何より。大学から見えたあの煙はそうだったのか、と言いたい所ですが距離的に見える訳無いので違うな。あれは何だったんだろう。

もともと沖縄の日差しは強烈なこともあって、日中数分程度の外出でも日々繰り返していると簡単に日焼けしちゃいます。それが屋外出歩くことが増えた分だけ日焼けの度合いが増えてる気がします。気のせいかもしれないけど、紫外線対策するに越したことはないような。元々日焼けするのは何かしらイベント時ぐらいに留めてて、普段は避けるようにしてたし。ということで誰か肌に優しいのを大前提とした良さげなアイテムがあったら教えてください。肌質だとか何か選ぶ基準があったりするのかしら。

pixivのタグ情報から進撃の巨人に関するキャラ推定をしてみたらしい。「解答なんて用意されていない仕事のデータとは違って、後で答え合わせも出来る」という視点になるほど。

データマイニング班の最終発表プログラムが確定

金曜日, 8月 2nd, 2013

m_2013080212065351fb224de8163 m_2013080215162651fb4eba44619 m_2013080217093051fb693aad856 m_2013080219453451fb8dce0b8ed

どこもかしこも期末試験やその対策なのか日中はTLが静かですね。データマイニング班の成果発表日プログラムがとりあえず確定しました。

実験3・データマイニング班最終発表
日時: 8/8(木), 10:00-12:00
会場: 5階会議室(予定)

10:00-10:03, 説明
10:05-10:22, 安楽匡晃, Twitteerで顔文字を見つけよう!
10:22-10:39, 比嘉健太, SVMを用いてツイートから顔文字を検出する
10:39-10:56, 松田朱子&稲嶺周平, Twitter上のテキスト文から分類器を用いて人名判定
10:56-11:13, 森田周作, 業務内容から見た企業の分類
11:13-11:30, 松茂良滉&増田憲亮, 教育上よろしくないツイートの分類
11:30-11:47, 大城美和, ツイート上での同一人物分類
11:47-11:55, アンケート等回収?

中身的には「機械学習ツール(scikit-learn)を使ってみよう」が実体に近い。やりたいタスクをどのように特徴ベクトルに落とし込み、データとして用意し、学習結果を眺めながらデータセットの構築し直し/教師データ増やし(正事例負事例増やし)/パラメータチューニングとか頑張ってくれてるようです。学生実験的には作業を繰り返すところまでは求めてなくて、一度自身が考えた方法で実験した結果を観察&考察するところまでやってくれたらGJ。途中段階でも構わないので、どういう問題にどう取り組もうとしたのか、どこまで手をつけれたのかを第三者に伝わるように発表してくれという形で要求しています。

データセットの生データがTwitterに偏りがちのようですが、これは研究室の堀川くんが研究用にnakarx/ieのTLを蓄積し続けててそれなりに分量が揃っているから。他にもあれこれ使ってもらっても良いんですが、今回は多くはそちらに流れました。やってて楽しいかもしれないけど、逆にツイート特有の難しさもありますね。

最終発表はどうなるかしら。

2013年になっても未だに曲毎のボリュームを自動調整してくれないのは何故なんだろう

木曜日, 8月 1st, 2013

m_2013080113191251f9e1c023072 m_2013080113281251f9e3dcb3549

昨日ゲットできたお陰で、1時間強バス帰りの中iPodさんであれこれ聞いているのですが、たまたま一部の曲のデフォルトボリュームが大きかったらしく、急にボリュームが上がってびっくり。具体的にはトエト。昨日帰宅後に直接cpしたデータ&iTunes経由で同期したデータの両方をちゃんと再生できるかを確認するために1曲だけiTunes経由で同期して確認してたのを忘れてました。

試しに ipod volume ぐらいで検索するとiPod で最大音量制限を設定するという記事が。でもこれって「常に適用する上限を設定する」だよね。そうじゃなくて、デバイス側にボリュームボタンがあるのだからそれに連動してくれと思うんだけど。。いや、正しくは連動はしているけど上限だけじゃ足りないということだけど、+αの設定ファイル作成でどうにかなる範疇だろうと思う。

期末試験期間が始まると駐車場の埋まり具合が明らかに変わる

水曜日, 7月 31st, 2013

m_2013073112315751f8852d659e0 m_2013073113073451f88d868ff0e

午後の会議が無いことを良いことに、名嘉先生に車を出してもらいつつバークレーズコートまで足を伸ばしてようやくiPod shuffleをゲット。色的には赤が欲しかったけど、そこも一時的なものだしということで納得して購入。iTunes管理下にあるのをsyncするのは簡単なんですが(そうじゃなかったら怒るよね)、そうじゃないものも簡単にデータ移行できないのかしら。具体的にはMachine Learningの動画をmp3変換したやつを(iTunes経由させずに)入れておきたい。Web公開されてる動画やそれを変換したものをローカルに保存しておくのは馬鹿げてるし。容量的には大した事ないともいえるんだけど、母艦のSSD残容量が少ないのでケチれる所はケチりたいw

CopyTransのMac版でできそうだったんですが、10.8.x に未対応なのか実行できず。

「ディスクとして使用する」にチェック入れてフォルダ経由でコピーすると、/Volumes/IPOD/ 直下に複製されるだけか。

/Volumes/IPOD/iPod_Control/ を眺める限りでは Music の下に適当なディレクトリ作って cp するか、F00 ディレクトリに cp したら良さげなんだけど、それだけでは駄目でした。曲名表示とかなく再生するだけなんだからmp3コピーするだけで動いて欲しい気もするが、流石にそんなことはないか。が、CopyTransみたいなソフトがあるんだから何かしら設定ファイル用意して上げたらいいだけだろうとは思うんだけど、ちょっとgoogle力が足りずに情報見当たらず。ま、いいか。

今日から期末試験期間に入ってますが個人的には今週の特別イベントはなく、来週にデータマイニング班の最終発表があるぐらいか。

そろそろ1ヶ月前ぐらいになるのだけどまだプログラムが公開されていない

火曜日, 7月 30th, 2013

m_2013073011373151f726eb0be3e m_2013073017535251f77f203cbe1 m_2013073019104051f79120ee7f5 m_2013073020501951f7a87b3a4fe

9/9-11に北九州で開催される国際会議KES2013山内くんが参加します。初の国際会議ということで早めに予定立てようとプレゼン資料+スクリプト作成、発表練習、質疑対策のことを考えるとそろそろ具体的に行動しないと。といいつつ、具体的なプログラムはまだ公開されていなかったり。そもそも予定でも今月末公開とされてるので予定通りではあるのだけど、国際会議としては随分ゆっくりしてるなという印象。

ゼミ終了後のお茶菓子は、キング洋菓子店ジャーマンケーキ。沖縄的にはジミーが広めたケーキだと思うのですが、「ジャーマンさんが開発したケーキ」であって「ドイツ風orドイツでポピュラーなケーキではない」らしい。知らなかったw

人工学会誌の連載解説「Deep Learning(深層学習)」の7月号(今頃読んだのかというツッコミは聞こえません)にて以下の下りが。「高度」かどうかは分かりませんが、「より人間に近い形での内部表現獲得能力のあるAI」を夢見ています。実際問題としては「使い勝手の良いAI」の方が好まれるのだろうと思うけど。

(省略)現在獲得されている内部表現のほとんどが、特徴ベクトルの形のものであることも、個人的には不満を感じる点である。特徴ベクトルはパターン認識課題や予測課題には適しているが、言語の意味のように組み合わせ的な構造をもつ潜在情報の表現としては不十分である。

(省略)多層ニューラルネットワークの課題とされていた、学習の局所収束、中間表現の解釈困難性、組み合わせ構造への対処、などが深層学習の技術によってクリアに解決されているわけではない。

(省略)ほぼ同時期に、Robot Scientist [King 04] などに代表されるような、人工知能による科学的仮説生成と検証の研究が盛んになってきていることも示唆的である。これはまた、技術的特異点(Technological Singularity)にもつながっていくのかもしれない [JSAI13]。
 大量のデータと大規模並列処理による高度な内部表現獲得能力を得た人工知能は、果たしてどこまで人間の知能に迫り、それを越えていくことができるのか、研究のさらなる進展を期待したい。

[ 人工知能学会誌 Vol. 28 No. 4 (2013年7月), 多層ニューラルネットワークによる深層表現の学習、6章より引用 ]

学期末テストシーズンを目前に複雑研全体ゼミが一段落

月曜日, 7月 29th, 2013

m_2013072911570151f5d9fd3dc85

バスでの帰りに1時間以上かかるのですが、(読んでると酔うため)読書等できないので英語か音楽家何かしら聞こうかということで iPod shuffle を探してみたのですが見つからず。いや、探した所が悪かったんですが、想像通り大学生協にも(帰宅途中で寄り道した)イオン内ベスト電器にもありませんでした。iPodに拘らなければあったんですが、一時的な用途になりそうなので高いもの買う気がしないし。ということで明日はもう少しまともな場所に寄り道する予定。

大学生協でたまにドライカレーな弁当が出ているのですが、デフォルトメニューにして欲しいぐらいには良いです。もしくはわざわざ「夏の」と付けるぐらいなら四季折々の野菜に変更するとかしていいから、ドライカレーは出し続けて欲しい。通常カレーよりこっちの方が美味しいし。

複雑研全体ゼミは今日で終了です。プレゼン勉強としてはある程度機能していると思うのだけど、勉強会としてはうまく機能していないという印象。次年度へ向けた申し送り事項としては下記あたりかしら。全てをやるのは無理だとしても、もう少し一般的な輪読スタイルを目指そう。

  • 輪読の目的周知。
  • 個々に独立して論文を読む(紹介する)のではなく、特定テーマの俯瞰を目指す(なら教科書かそれ相当の論文集(解説記事等含む)をこちらで準備する。
  • or 問題をどのようにモデル化しているかを数式含めて解釈させる。

以下は複雑研全体ゼミを終えての補足記事です。


画像処理系メンバー(遠藤研:新垣健史、遠藤研:大城裕二、赤嶺研:濱聡子)

>モーションキャプチャ、ハンドトラッキング

全体の流れとしては [1] をベースにハンドトラッキング技術を中心とした紹介と、低コストという意味で使いやすい手法(システム)の提案という話で整理していたかと思います。各種数式の説明が変数説明程度で終わっていたのは少し残念。「どういう問題に対して、何に注目し(=何を削ぎ落とし)、どういうモデルに落とし込んでいるのか」という部分は数式を噛み砕かないとイメージ止まりになってしまうので。

(そこの説明があるとモデル自体の勉強になるだけでなく、具体的な落とし込み方が分かると考え方の一つとして参考にもなるので、輪読的にはそこまでやって欲しかったです。他グループも。ということでこれは次年度に向けての反省点だな>私)

[1] Robert Y. Wang , Jovan Popovic, Real-Time Hand-Tracking with a Color Glove, ACM SIGGRAPH 2009

以下、[1] を参考文献として引用してる文献(=より新しい論文)についていくつか紹介してみます。

[2] では粒子フィルタ(Particle Filter, PF)をベースとした「重力」の概念を組み込んだ Gravity Optimised PF (GOPF) を提案し、ハンドトラッキングで性能評価しているらしい。粒子数を1000から20まで減らしてもPFと比べて良いとか、フレーム数あたりのエラーピクセル数では、PF+100粒子並みの精度をGOPF+10粒子で実現できてるらしい。

[3] はどちらかというと応用よりの話っぽい。イントロダクションぐらいしか読めないので詳細不明なので中身的にどのぐらいの話なのか分かりません(Kinectは使うらしい)が、「バーチャル空間と実空間とをどう結びつけるか」という話をしているらしいので、そっち方面に興味があるなら取得して読んでみると良いかも。

[4] はタイトル通りですが、vision-based marker less なハンドトラッキングについてのサーベイ論文のようです。ダウンロードに時間がかかるため眺めてもいませんが、参考まで。

[2] Gravity Optimised Particle Filter for Hand Tracking, Pattern Recognition, 2013
[3] Virtual Effort: An Advanced User Interface that Combines Various Visual Information with a Kinetic System for Virtual Object Manipulations, Applied Mechanics and Materials, 2013
[4] A Survey of Vision-Based Markerless Hand Tracking Approaches

(不定期コラム) レポートに限らず、相手に伝えるためには相手が理解しやすい形でアウトプットしよう(言い換えると相手の解釈コストを下げるように努力しよう)

日曜日, 7月 28th, 2013

ここ最近通院もあってさぼり気味のコラム記事。12回目は期末テスト代わりに課されていることもあるレポートを取り上げてみます。といってもいろんな観点があるので今後も何度か出て来るキーワードだとは思いますが、今回は「相手に伝える」という観点からいくつか論じてみます。

その1、相手に伝わる共通言語で書こう。ここでいう「言語」とは日本語/英語とかの意味合いではなく、「相手に伝わりにくい/誤解を与えやすい言葉や表現は避けるべき」という意味です。例を挙げて説明してみます。プロジェクトデザイン最終発表会2013のお知らせにはいろいろ書かれています。何やら不備が合ったらしく修正が入るようですが、サンプルとして残してはどうかという提案を頂いたので修正前(7/29, 12:48時点)の原文を以下にコピーしておきます。

名嘉@工学部技術部です。

プロジェクトデザインI、IIの合同最終発表会が今年もあります。

プロジェクトデザイン最終発表会2013要項(閲覧には学科アカウントが必要)
https://ie.u-ryukyu.ac.jp/pd/?p=2009

日時:2013/8/9、8:40-18:10
場所:工1-322教室
発表:1グループ発表15分、質疑応答5分、計20分(最大時間)
Twitterハッシュタグ: #ieryukyu
Ustream:http://www.ustream.tv/channel/ie-ryukyu

受講生以外も多数のご参加をお待ちしております。

プロジェクトデザインI、II、PM演習受講生は
投稿の仕方などの案内があるので要項をよく確認しておいてください。
以上よろしくお願いします。

上記告知文に対して思いつく限り「このお知らせ内に直接は書かれていないこと」を例示して見ると、以下のようになります。

  • 「プロジェクトデザイン」が講義のことを指していること。
  • 「カテゴリー」が複数列挙されていることからいくつかのカテゴリに関連した内容であること。
  • 「I,II」という2つの連番のある講義であること。
  • 「工1」が工学部1号館を意味していること。
  • 「Twitter」を利用している学生数が相当数いそうなこと。
  • 「PM」が関わっているらしいこと。

上記以外にもありそうですが、このような「共通した背景で汲み取ってくれる言葉」を使って記述されている分には解釈できる範疇でしょう。これらの背景を知らない人からすると「何かしら発表会があるらしい。TwitterやUstreamで眺められそうだ」ぐらいしか読み取れないでしょう。そういう人向けにそのぐらいの理解で十分な告知文であればこのように書くのもありですが、そうではなくもっと伝えたい事があるなら「想定対象者毎に伝わるように書く」必要があります。解釈できない/解釈困難(=コストが大きい)な文書は読み飛ばされてしまいます。こうして書いてるコラム記事もそうかもしれませんがw

上記と似た話として「同じことを複数の用語で書かない(用語は統一して書こう)」という指摘をすることが比較的多いです。上記の例で言う所の「プロジェクトデザイン」という講義を書くのに、同じ文書内で「プロデザ/PD」とか他の書き方を混在させて書くと、読み手は「同じものを指してるのか、他の新しい何かについて述べているのか」を判断するためのコストを強いられてしまい、苦痛です。このぐらい簡単な周知文なら多少混在してても解釈しやすいですが、A4数ページ程度になってくると混乱の元になりがち。

なお、情報工学科的には「日本語表現法入門」という必修科目で理科系の作文技術あたりを教科書指定してるはずです。クラス毎に異なるっぽいので「はず」となるのだけれども、一応クラス毎にレポートの書き方については学べているはず。

血液検査の結果は良好

土曜日, 7月 27th, 2013

てんかん治療として、代表的なアプローチらしいデパケンR錠で脳の反応を抑えてみることになったのですが、この薬の効き具合や副作用確認のため血液検査をしてきました。人によっては腎臓/肝臓あたりに強い影響出たり、かゆみ等のアレルギー反応等々あるらしい。服用して2週間目ですが今の所眠気を感じることが多い(あくび回数が数倍に増えてる)こと以外は問題無いです。眠気についてはそのうち慣れて殆ど感じなくなるらしい。

まだ副作用等の可能性もあるので次回2週間後にもう一度血液検査をして、効き具合やその他に問題が無ければその後は「数ヶ月に一回」ぐらいの間隔で服用&検査するっぽい。その時の検査が血液検査みたいな効果確認なのか、脳波検査でてんかんが現れなくなってることを確認するのか、はたまたそれ以外のことをするのかはまだ良く分かりませんが、それは次回聞く予定。

データマイニング班15回目は最終発表に向けての最終指導

木曜日, 7月 25th, 2013

m_2013072511313851f08e0a70e8e m_2013072511560751f093c7e2f90

風邪気味の時にはニラ&生姜目当てで台湾ラーメンを食べることにしているのですが、思いのほか効果は抜群です。思い込みも効いてるとは思うけど、プラシーボ大切。

入居先の状況次第ですが、1ヶ月後ぐらいには引っ越すことを決めた翌日に実家のクーラーが故障。何このマーフィーの法則ぶり。今夜は扇風機さんと一夜を過ごそう。

午後は実験3のデータマイニング班15回目で、最終発表前の最終チェック。夕方は工学部後援会の理事会・総会および懇談会なるものに遠藤先生経由で参加。やっぱり顔と名前覚えられないな。。出張費とか支援してもらった学生が話をするというのは良いアイデアだとは思う。


データマイニング班の15回目は以下のような中身でした。

  • 進捗確認
  • 最終発表での要求確認
  • (終了後の打ち上げ確認)

発表自体は期末試験期間が終わる8/8にします。もともと狭めの部屋でやっちゃってるので、発表者の場所確保すること考えると会議室かどこか広めの部屋確保しないとまずいか。

車を運転できなくなってから歩数が10倍ぐらいに増えてる気がする

火曜日, 7月 23rd, 2013

今日は昼過ぎに公務員宿舎を覗かせてもらい、問題無さそう(あっても許容レベル)なので素直にそこにする決心をしました。あちこち修繕が必要なため入居できるのは8月末ぐらいになるかもという話なので、後1ヶ月強ぐらいはバスに乗るっぽい。昼食で多少遠くても歩かざるを得ない(誰か誘っても良いんだけど)こともあってあちこち歩いてます。昨日は坦々亭まで歩いて行ったし。お陰で汗かきまくりなので職場に肌着の着替えが必須。というかここ最近毎日着替えてるから「持って行ってそのまま持ち帰ってる」のであって、実質的には置いてる訳ではないか。

昨日は京大のデザイン学連携プログラム関連での会食があって久しぶりにブログをさぼりました。2日間という中途半端な期間ではお祭り騒ぎぐらいにしかならないんじゃないかと思ってましたが、あれこれ身に染みる指摘も頂きつつ、そのままテーマにしても良さそうなorこれらを叩き台として使えそうなアイデアもあれこれ提案頂けました。あやふやな問題設定からそこまで導くこと自体が一種のデザインだよね。

NAL研ゼミではNNでのDeep Learningを勉強中の玉城くんが少し時間かかったぐらいか。今は人工知能学会誌の連載解説deeplearning.netで紹介されてる論文読みつつ、DeepLearnToolboxのソースを読みながら勉強中。まだ事前学習段階ですが、「イメージ」から「より具体的な処理の理解」に近づいている感覚は出てきています。

帰りが遅くなったのでnokoto cafeで晩ご飯食べてから帰ろうと思いきや閉まってて涙目。客がいなかったから早めに閉めたのかしら。

以下は昨日の複雑研全体ゼミを終えての補足記事です。


自然言語系 (松田昇悟, 福里宏晃)

全体の流れとしては [1] の目次にそった自然言語処理の全体像を紹介しつつ、各自が強い興味を持っている形態素解析と文脈処理について具体例を示しつつ目標と手法の概要を説明するというものだったかと思います。

[1] 自然言語処理の基礎, 奥村学, コロナ社, 2010

>形態素解析

形態素解析では一般に辞書や学習コーパスを用い、そこに含まれる形態素(既知語)を用いて構築した格子ラティスから「最適な系列」を選択することで分割する。一方で、その辞書や学習コーパスに含まれていない形態素(未知語)があるとその格子ラティスを適切に生成できなかったり、できたとしても最適な系列を選択できないことが多くなるので「辞書や学習コーパス(語彙資源)を充実させる」というような話でした。

このように語彙資源を充実させる手法はオフライン手法(バッチ手法)と呼ばれており[2]、形態素解析する前に予め構築しておく必要がありますが、漏れなく全ての候補ノード(ラティスのノード)を生成するのは困難なため、形態素を単位としたノードと、文字列を単位としたノードとする手法を組み合わせた方法も提案されているらしい。いずれにせよ、語彙資源を更新し続ける必要があるため、未知語への完全な対応は困難と主張する人もいます[3]。

一方、解析実行時に既知語とともに未知語を同定するアプローチはオンライン手法(リアルタイム手法)と呼ばれており、特に未知語に対しての頑健な解析精度を目指している [2] 人らはこちらを選択していることが多いようです。

「辞書の圧縮」という話については、[4] やそこで紹介されてる簡潔データ構造(succinct data structure)である Rank/Select辞書(Rank/Select Dictionary)、分岐が無いノードを圧縮したトライであるパトリシア(Patricia)、文字列の接尾辞へのポインタを配列の格納して間接ソートしたデータ構造である接尾辞配列(suffix array)や、それらと比較している事例を調べてみると良さそうです。


>文脈解析

文脈処理は適用対象自体に様々なゴールを見据えていますが、その根っこにあるコアな共通部分は「1文に記述されている情報だけでその文の意味を理解するのではなく、それ以前の文も含めた文脈(context)も踏まえた上で文の解析をすること[5]。

文字列そのものを処理対象とした事例については [5] が参考になりますが、それ以外も処理対象に含めた事例もあります。

以下は全て「対話」における例ですが、例えば市川先生 [6,7] は「言語を発話する際に生じる情報プロソディ[8]の有無が内容理解度に大きく影響していることを多数の事例で紹介しています。文脈というよりは意味や意図に近い話ではありますが、文脈理解度には何が影響するのかというメタトピック的には参考になりそうです。

別の事例として「場の言語学(や進化言語学)[9]」という切り口で研究しているグループからは、どのようにインタラクションが発生し、言語へと発達したのかという点について「自己の二重性(卵モデル)[9]」や「ミラーニューロン[10]」等をキーワードに説明を試みているようです。

文字列を対象とした代名詞/照応詞/ゼロ代名詞等々の解決は勿論必要ですが、何かしら前提知識として「対話言語」の事例で述べられてるような事柄を組み込むストーリーも考えられるかもしれません。(何も具体案考えずに書いてます)