Archive for the ‘NAL研議事録’ Category

「アルゴリズムとデータ構造」を苦手に感じる学生がいることに少しは理解できたかもしれない(できてないかもしれない)

金曜日, 8月 23rd, 2013

m_201308231239285216d97009857 m_201308231247415216db5dd1801 m_201308231301125216de880e744

今週の個別ゼミは、テーマ変更して進めてるM1の慶留間くん玉城くんの二人。まだ具体的な道筋が見えてるとは言えないかもしれないけど、4月末から8月末の4ヶ月かけての関連研究調査しながら一歩ずつ開拓しつつあるというところ。夏休み中か後期開始頃には先行研究の再現ぐらいやれると良さそうだけど、どこまでいけるかな。

お昼はおごるおごる詐欺してた学生と都合が付いたので、美味しいお店普及兼ねてダブルデッカーまでデートして来ました。といいつつ遠い&ランチでも学生的にはやや高めなのは否めないのでどれぐらい広まるかは謎。

道中での話の一つに「アルゴリズムとデータ構造を苦手とする学生がいることが理解できない」という話をあれこれしてました。実装に目をつぶると、決められたデータ構造に対してある手続きで処理することを理解し、それを文なりで表現して答えることなら理系文系問わないどころか誰でも理解できる内容だと思ってるので。覚えられない、というのはこの科目に限った話じゃないのでスルー。あれこれあった中で納得できそうなのは「テストとかで答える際には文章でも疑似言語でも自由だけど、講義で(最初は?)C言語で書かれたコードから説明してるので、プログラミング自体に苦手意識がある学生は最初で躓くのでは」とかいう説明。これは分からなくはないです。プログラミングに苦手意識持つのはまた別の話だけど。

お盆中日はゼミ日和

火曜日, 8月 20th, 2013

m_201308201224295212e16dbe5af m_201308201225405212e1b4007f5

お盆では飲む(アルコール的な意味で)人が圧倒的多数なんですが、それ以上に路駐/交通渋滞が増える日でもあって、個人的には大嫌いなイベント。お盆に限った話じゃないですが。飲酒運転とか死亡事故とか未だに多いのにそういうことには目をつぶって(いるように見える)、たま〜〜に起きる米軍絡みのトラブルで以下略。

単に週ゼミのタイミングだったからではありますが、大学の一斉休暇&(旧暦でやるという意味で)県民イベントのお盆真っ盛りですが、午前中からやる所も少ないだろうということもあって特に実施日を調整することも無く予定通りに週ゼミ。

ゼミでは、4年次はやりたいことの想定ストーリーがどれだけ妥当なのか、そもそも他の人とどのぐらい差異があるのかといったことを確認するためのアンケートを試行しつつ、個別ゼミでしか話していない「そもそも何やりたいのか」を皆に説明してもらったり。ということをしてたので、簡易報告で済ました学生もいたわりには比較的時間かかったか。

学生情報ですが、スパルタキャンプ【PHP編】2013沖縄 -無料であることを覚悟して学べなるものの募集があったらしい。募集自体はもう締切済み。突っ込みどころ満載ですが、公式アカウント@aozorascを眺める限りでは180名を越える応募があって選好したらしい。無料云々については、条件付きではあるけど求職者支援訓練で特定条件を満足したら無料受講できたり、何かしら金銭的な支援付きの職業訓練はいろいろありそう。興味がある人は就職センターとかいろいろ探してみるのも面白いかも。講義的なものじゃなく、イベントものが圧倒的に多いとは思うが。

無料イベントというか珍しいイベントとしては、ハッカーズチャンプルーが今週末8/23-24にあるらしい。e13含めて、日程的に問題無い人は参加してみよう。

ハッカーズチャンプルーは、沖縄県内のIT系ユーザグループが
合同で企画する夏祭りです。
全国各地から豪華ゲストをお招きし、
ハッカー/エンジニア/エバンジェリスト同士が
各専門分野を超えて相互交流しようという企画です。

ソフトとハード両方の設定でそれなりに我慢できる範疇に

火曜日, 8月 13th, 2013

m_2013081311270052099974516d6 m_201308131218525209a59c56c5d

今日から集中講義:インターネットソフトウエアが始まってたらしい。主な対象は3年生ですが、2年生もいくらか受講しているっぽい。2年生の中にも自主的にWebサービス構築してる人やグループがいたりするから、こういうのに興味持ってる人が参加しているのでしょう。代表的な運用管理、脆弱生問題等について知りたいだろうし。折角の機会なので一度はランチをご一緒したいのだけど、今週は難しいかなぁ。。

タイトルは、iPodの音レベルを自動調整してくれよという話の続き。iPod自体に音調整する機能と、iTunes側で管理している楽曲の音を調整する機能とが独立して存在しているのですが、その両方で調整(iPod側でmaxを適量に指定+iTunes側で自動調整)することで「これぐらいなら良いか」と思えるレベルにはなりました。とはいえ、音源異なるものが多数になって来るとやっぱり無理っぽいけど。

午前中のゼミは、先週末に4年次は個別ゼミしたこともあってちょっとした進展報告で終了。とはいえもうちょっと「やったことを説明してみろ」ぐらいは突っ込んだ方が良かったか。アンケートの叩き台を考えてきていたのはエライ。試行錯誤で問題点洗い出しながら進めることになるはずなので、とっとと試してみよう。

午後は院試準備で終了。もうちょっと早く終わって別件の入試業務やるつもりが明日に持ち越し。うーにゅ。

バス帰宅でちらほら合うようになった他学科の先生と挨拶し始め

火曜日, 8月 6th, 2013

m_201308061819135200bf9182ff0 m_201308061909515200cb6fe761e m_201308062049565200e2e404f1d m_2013080612152052006a48cd9b9

どこの新入生ですかみたいな状態ですが、もともと人見知りしない人じゃない限りはあれこれ話しかける訳でもないので、挨拶から入るというのはごく自然か。(何やってるか聞いてみたいではあるから)こちらから席移動して突っ込んだ話するぐらいが良いかもしれないけど、乗車時間的には微妙(相手が割と早く着いちゃう)のが残念。ま、今月一杯+αぐらいはバス帰宅になるはずだから、機会があれば話しかけてみよう。

正式な期末試験期間は今日で終わり。ただ、いくつかの予備日で今週末ぐらいまでは続いてるので一部の学生はまだ残っているでしょう。情報工の学生だと1年次&2年次はプロジェクトデザインの最終発表会が金曜日にあるし、PMとして修士も関わってたり、それ以外の先輩も聴講参加したりするので比較的情報工学科勢が集中する日ですね。あと、数年ぐらい前からやってるGTECを使った1年次全員のテストが明日あるらしい。中身は良く分からないですが、導入当時の説明とは違うので個人的には割と怒ってます。

ゼミは今週まで5時限目でしたが、来週からは誰も講義ないので2時限目に変更。お茶会のこと考えると3時限目の方が良かったかもしれませんが、それよりも早く終われる&早すぎないということで2時限目の方が希望者多数のためこうなりました。研究室的にはKES2013(山内)と沖縄高専との交流研究会(4年次)に向けた準備に入るというところ。院試勉強とかやってる人もいますが、研究進めることもそれに含まれているし。

そろそろ1ヶ月前ぐらいになるのだけどまだプログラムが公開されていない

火曜日, 7月 30th, 2013

m_2013073011373151f726eb0be3e m_2013073017535251f77f203cbe1 m_2013073019104051f79120ee7f5 m_2013073020501951f7a87b3a4fe

9/9-11に北九州で開催される国際会議KES2013山内くんが参加します。初の国際会議ということで早めに予定立てようとプレゼン資料+スクリプト作成、発表練習、質疑対策のことを考えるとそろそろ具体的に行動しないと。といいつつ、具体的なプログラムはまだ公開されていなかったり。そもそも予定でも今月末公開とされてるので予定通りではあるのだけど、国際会議としては随分ゆっくりしてるなという印象。

ゼミ終了後のお茶菓子は、キング洋菓子店ジャーマンケーキ。沖縄的にはジミーが広めたケーキだと思うのですが、「ジャーマンさんが開発したケーキ」であって「ドイツ風orドイツでポピュラーなケーキではない」らしい。知らなかったw

人工学会誌の連載解説「Deep Learning(深層学習)」の7月号(今頃読んだのかというツッコミは聞こえません)にて以下の下りが。「高度」かどうかは分かりませんが、「より人間に近い形での内部表現獲得能力のあるAI」を夢見ています。実際問題としては「使い勝手の良いAI」の方が好まれるのだろうと思うけど。

(省略)現在獲得されている内部表現のほとんどが、特徴ベクトルの形のものであることも、個人的には不満を感じる点である。特徴ベクトルはパターン認識課題や予測課題には適しているが、言語の意味のように組み合わせ的な構造をもつ潜在情報の表現としては不十分である。

(省略)多層ニューラルネットワークの課題とされていた、学習の局所収束、中間表現の解釈困難性、組み合わせ構造への対処、などが深層学習の技術によってクリアに解決されているわけではない。

(省略)ほぼ同時期に、Robot Scientist [King 04] などに代表されるような、人工知能による科学的仮説生成と検証の研究が盛んになってきていることも示唆的である。これはまた、技術的特異点(Technological Singularity)にもつながっていくのかもしれない [JSAI13]。
 大量のデータと大規模並列処理による高度な内部表現獲得能力を得た人工知能は、果たしてどこまで人間の知能に迫り、それを越えていくことができるのか、研究のさらなる進展を期待したい。

[ 人工知能学会誌 Vol. 28 No. 4 (2013年7月), 多層ニューラルネットワークによる深層表現の学習、6章より引用 ]

車を運転できなくなってから歩数が10倍ぐらいに増えてる気がする

火曜日, 7月 23rd, 2013

今日は昼過ぎに公務員宿舎を覗かせてもらい、問題無さそう(あっても許容レベル)なので素直にそこにする決心をしました。あちこち修繕が必要なため入居できるのは8月末ぐらいになるかもという話なので、後1ヶ月強ぐらいはバスに乗るっぽい。昼食で多少遠くても歩かざるを得ない(誰か誘っても良いんだけど)こともあってあちこち歩いてます。昨日は坦々亭まで歩いて行ったし。お陰で汗かきまくりなので職場に肌着の着替えが必須。というかここ最近毎日着替えてるから「持って行ってそのまま持ち帰ってる」のであって、実質的には置いてる訳ではないか。

昨日は京大のデザイン学連携プログラム関連での会食があって久しぶりにブログをさぼりました。2日間という中途半端な期間ではお祭り騒ぎぐらいにしかならないんじゃないかと思ってましたが、あれこれ身に染みる指摘も頂きつつ、そのままテーマにしても良さそうなorこれらを叩き台として使えそうなアイデアもあれこれ提案頂けました。あやふやな問題設定からそこまで導くこと自体が一種のデザインだよね。

NAL研ゼミではNNでのDeep Learningを勉強中の玉城くんが少し時間かかったぐらいか。今は人工知能学会誌の連載解説deeplearning.netで紹介されてる論文読みつつ、DeepLearnToolboxのソースを読みながら勉強中。まだ事前学習段階ですが、「イメージ」から「より具体的な処理の理解」に近づいている感覚は出てきています。

帰りが遅くなったのでnokoto cafeで晩ご飯食べてから帰ろうと思いきや閉まってて涙目。客がいなかったから早めに閉めたのかしら。

以下は昨日の複雑研全体ゼミを終えての補足記事です。


自然言語系 (松田昇悟, 福里宏晃)

全体の流れとしては [1] の目次にそった自然言語処理の全体像を紹介しつつ、各自が強い興味を持っている形態素解析と文脈処理について具体例を示しつつ目標と手法の概要を説明するというものだったかと思います。

[1] 自然言語処理の基礎, 奥村学, コロナ社, 2010

>形態素解析

形態素解析では一般に辞書や学習コーパスを用い、そこに含まれる形態素(既知語)を用いて構築した格子ラティスから「最適な系列」を選択することで分割する。一方で、その辞書や学習コーパスに含まれていない形態素(未知語)があるとその格子ラティスを適切に生成できなかったり、できたとしても最適な系列を選択できないことが多くなるので「辞書や学習コーパス(語彙資源)を充実させる」というような話でした。

このように語彙資源を充実させる手法はオフライン手法(バッチ手法)と呼ばれており[2]、形態素解析する前に予め構築しておく必要がありますが、漏れなく全ての候補ノード(ラティスのノード)を生成するのは困難なため、形態素を単位としたノードと、文字列を単位としたノードとする手法を組み合わせた方法も提案されているらしい。いずれにせよ、語彙資源を更新し続ける必要があるため、未知語への完全な対応は困難と主張する人もいます[3]。

一方、解析実行時に既知語とともに未知語を同定するアプローチはオンライン手法(リアルタイム手法)と呼ばれており、特に未知語に対しての頑健な解析精度を目指している [2] 人らはこちらを選択していることが多いようです。

「辞書の圧縮」という話については、[4] やそこで紹介されてる簡潔データ構造(succinct data structure)である Rank/Select辞書(Rank/Select Dictionary)、分岐が無いノードを圧縮したトライであるパトリシア(Patricia)、文字列の接尾辞へのポインタを配列の格納して間接ソートしたデータ構造である接尾辞配列(suffix array)や、それらと比較している事例を調べてみると良さそうです。


>文脈解析

文脈処理は適用対象自体に様々なゴールを見据えていますが、その根っこにあるコアな共通部分は「1文に記述されている情報だけでその文の意味を理解するのではなく、それ以前の文も含めた文脈(context)も踏まえた上で文の解析をすること[5]。

文字列そのものを処理対象とした事例については [5] が参考になりますが、それ以外も処理対象に含めた事例もあります。

以下は全て「対話」における例ですが、例えば市川先生 [6,7] は「言語を発話する際に生じる情報プロソディ[8]の有無が内容理解度に大きく影響していることを多数の事例で紹介しています。文脈というよりは意味や意図に近い話ではありますが、文脈理解度には何が影響するのかというメタトピック的には参考になりそうです。

別の事例として「場の言語学(や進化言語学)[9]」という切り口で研究しているグループからは、どのようにインタラクションが発生し、言語へと発達したのかという点について「自己の二重性(卵モデル)[9]」や「ミラーニューロン[10]」等をキーワードに説明を試みているようです。

文字列を対象とした代名詞/照応詞/ゼロ代名詞等々の解決は勿論必要ですが、何かしら前提知識として「対話言語」の事例で述べられてるような事柄を組み込むストーリーも考えられるかもしれません。(何も具体案考えずに書いてます)

久しぶりにバスで帰ったら思いのほか便利になっていた

火曜日, 7月 16th, 2013

m_2013071612523451e4c382a81d1 m_2013071617312151e504d9ee076 m_2013071620191651e52c343fa8a

てんかん治療開始で車運転できなくなってから初の通勤。近いうちに引っ越す予定ですが、様子見も兼ねてることもあって暫くは「朝の通勤は父に送ってもらえる予定、帰りはバス」を試してみてます。

昔(私が学生だった頃なので20年近く前か)は、琉大線97,98番どちらも琉大北口那覇バスターミナルが終点だったので必ずどこかで乗換えが必要だったのですが、今は98番だと豊崎まで一本で行けるらしい。これが1時間2本ぐらい(コアタイムは3本)という快適ぶり。乗り換えないのは素晴らしいです。昔はコアタイムですら1時間2本も無かったはず。ただ、そのコアタイムなはずの時間帯に乗り込んだ割には乗客もの凄く少ないんですが、これ、絶対ペイしてないよね。片道610円で乗換え無し1時間10分ぐらいというのは、読書できるなら耐えられるレベル。ただ乗り物酔いしちゃうから実際には読めないのでこれがデフォルト通勤手段となるとキツいのは変わらないか。

折角普段と違うルート&手段で帰ってるということで新店舗開拓。丸親建設のお家カフェnokoto cafe。夜中の散策ルートにあって気になってるお店でしたが、結果としてはアタリ。お肉だけじゃなく野菜も火の通し具合が素晴らしいです。焼き加減は聞いて来なかったけど問題無い(ミディアムレア)です。メニューには魚料理、パスタ、ピザあたりもあったので近いうちに別のも試してみよう。

オープンキャンパスの臨時雇用手続きは半日送れで事務提出できました。何も問題無ければこれで大きな事務手続きは終了なはず。ということで当日に向けての情報整理&通知を少しずつ始めることに。明日のエコクリーンデーは都合合う人は参加ヨロシク!

お昼に食べた通堂のBLACKもなかなか。普段醤油味は食べない人ですが、これはちょくちょく食べたくなる。せんとくんクッキーは奈良に行ってた学生のお土産ですが、結果は二日後(?)らしい。どうなるかなー。未踏は、思いつきレベルで応募してみようか考えてた学生がいたのですが、落としどころが納得いかずにキャンセルの方向らしい。他にもやりたいことあってあまり時間割けなかったから仕方ないとは思うけど、少し残念か。

ただただ新天地開拓が目的なら手当たり次第模索しながらマッピングするのも手だが、限られたリソース(時間)を有意義に使うためにはそこへの辿り着き方自体を取捨選択するだけの仮説を立てて挑みたい

金曜日, 7月 12th, 2013

m_2013071212352851df7980d57f3

何となく長ったらしいタイトル付けてみたくなったのでやってみました(何)

オープンキャンパスの臨時雇用手続きが今日〆切のはずなんですが、数名分が間に合わずに提出できず。想定通りではあるので、真面目にやるなら学生向け閉め切りを前にずらしておけば良かったとも思うんですが、敢えて面倒な事務処理増やしてるだろうとしか思えない業務フローなのでそこまでちゃんとやる気がしないというか。ということで週明けか曜日に細かいこと言わずに「遅れてごめんなさい」で済ます予定。ただ、現時点でまだ連絡すら取れてない学生もいたりするので、そっちには指導教員経由で「ご指導」を依頼しておきました。専門用語でいうところのご褒美ですね。

個別ゼミは堀川くんの番。ここ最近はTwitter API v1終了に伴う対応と特徴抽出スクリプトの拡張をしてるというのが続いてたのだけど、そろそろ修論のゴールとストーリーについての擦り合わせをしようという意図での討論が主な話題でした。NLP2013/B3-4では「同じ談話である」という判断自体にいくつかの傾向が見られたので、それを傾向毎に対策練ろうとしてたのですが「明確なゴール」を設定しないまま模索してたというのがここ暫く続いていました。そういう手当たり次第やるのも一つの手ではあるのですが、その結果の良し悪し自体が「たまたまうまくいった」みたいな話になるのは悲しいので、最終目標からブレイクダウンしたサブ目標群がどれぐらい真っ当な目標になってるかを確認してから仮説立てて確認するように進めようという話をあれこれ。そのためのいくつかのゴール設計例と、そこへの歩み方を互いに共有したというところ。これで進みやすくなったんじゃないかと期待しますが、どうなるかなー。

評価極性データ、オープンキャンパスとか情報整理してた一日

水曜日, 7月 10th, 2013

m_2013071013101951dcdeabcd797 m_2013071013444351dce6bb48f72

平良くんは今の所「感情+推薦」あたりをキーワードにテーマを構築中。昨日のゼミで話題に上がった「感情表現」についていくつか公開されてる成果があったよなと思いつつ整理すると、次のようなものに。他にもあるかもしれないけど。「感情表現辞典」というのもあるらしいけど、これはどんなものなんだろう。

  1. 日本語評価極性辞書

    極性は「Positive or Negative」のことで、用言と名詞について極性付与した辞書が公開されています。

  2. 評価値表現辞書 (評価表現辞書)

    「評価値になり得る可能性のある表現」を集めた辞書。これ単体では極性等の情報はありません(P/N極性なら上記の「日本語評価極性辞書」)。特徴ベクトル作る際のコードブックとして利用するとか、これをベースに極性なり感情なりを推定するための情報源としては使えるかも。

  3. 感情極性に関するコーパス

    英語版も紹介されてます。

  4. 意見(評価表現)抽出ツール

    これはツールですが、「評価表現の抽出+評価タイプ分類+評価極性判定+評価保持者抽出」するらしい。どのぐらいの精度かも例示されています。

来週末に迫ったオープンキャンパスも整理しておこうということで情報工学科編としてページ作成。学外から多数(情報工学科だけで例年100名以上)の来客があるので掃除&整理整頓をお願いします。

会場設営の方は宮里先生に丸投げ気味なんだけど、大丈夫かな〜。

久しぶりの週ゼミ

火曜日, 7月 9th, 2013

m_2013070912180151db80e90de1c m_2013070914013551db992f15f48 m_2013070919210551dbe411e72f1 m_2013070919232351dbe49bb46fd

先週やれなかった週ゼミはきなこやのロールケーキでした(そっちか)。

進路活動で県外に出ている学生と体調不良か何かで欠席している学生とでいつもより人数的には少なかったですが、別件の学生相談対応で開始時間が遅れたのと共通認識や問題設定擦り合わせ等で結果的にはいつもより終わるのが遅くなりました。タイミング的には綺麗な夕焼けが見れたのはちょうど良かった。

情報推薦やってる山内くんは、ここ最近はKES2013に投稿した実験検証の続きに取り組んでて、ユーザが直接評価した結果があるとしてもそこには揺らぎが含まれているはずで、その影響を再現率から観察したいという流れ。商品レビューには何らかのバイアスが含まれるものだよねという関連事例を調査しつつ、検証するための問題設定を考えてたのが前回の所で、そろそろその実装が終わるという所らしい。