ステージ1: 環境構築 (情報工学実験 3 : データマイニング班)
目次- 想定環境
- 機械学習パッケージのインストール
- Mercurialの設定
- Python開発環境の設定
- 自然言語処理パッケージのインストール
- emacs elisp (for emacs user) (vimな人は似たようなプラグインを探して入れてみよう。Aptana Studioな人は必要ありません。プログラミングには少なくともインデントや自動補完に対応できるエディタが必要でしょう。)
- (Python追加) NLTK, prettyprintのインストール
- 想定環境
- OS: Mac OS X 10.8.x (10.7.x以降であれば同じ方法で問題無いはず)
- Python: 2.7.x
- Mercurial: 2.2
- MacPorts: 2.1.3 (2013-04-07時点)
- 機械学習パッケージのインストール
- Scipy Superpack(Numpy, Scipy用)のインストール
curl -o install_superpack.sh "https://raw.github.com/fonnesbeck/ScipySuperpack/master/install_superpack.sh" sudo sh ./install_superpack.sh
- pip(パッケージ管理ツール)のインストール
sudo easy_install pip
- sci-kit-learn(機械学習パッケージ)のインストール
sudo pip install -U scikit-learn
- Scipy Superpack(Numpy, Scipy用)のインストール
- Mercurialの設定
- ~/.hgrcのサンプル: hgrc-sample
- ~/.hgignoreのサンプル: hgignore-sample
- Python開発環境の設定
- 環境変数PYTHONSTARTUPの設定(~/.zshrc)
export PYTHONSTARTUP=~/.pystartup # 設定終了後にsourceコマンドで設定を反映させること。
- ~/.pystartupの設定例: pystartup-sample
wget http://www.eva.ie.u-ryukyu.ac.jp/~tnal/2013/info3/dm/pystartup.sample mv pystartup.sample ~/.pystartup
- Pythonスクリプトを書く際のお約束
#!/usr/bin/env python # -*- coding: utf-8 -*-
- 好みに応じてAptana Studio (デバッグ便利)
- 環境変数PYTHONSTARTUPの設定(~/.zshrc)
- 自然言語処理用パッケージのインストール
- MacPortsのインストール
- 環境変数PATH,MANPATHの設定(~/.zshrc)
export PATH=/opt/local/bin:/opt/local/sbin:$PATH export MANPATH=/opt/local/man:$MANPATH
- MacPortsの動作確認
port -v # 既にインストール済みで、 # バージョンが古い場合には最新版に更新すること(selfupdate)。 sudo port selfupdate
- MeCab(形態素解析器)と辞書のインストール
sudo port install mecab sudo port install mecab-naist-jdic-utf8 # このままだと /opt/local/lib/mecab/dic/ がeuc参照してるので変更。 cd /opt/local/lib/mecab/dic/ sudo ln -snf naist-jdic-utf8 sysdic
- MeCabの動作確認
mecab 適当に日本語テキストを入力してみる # mecabコマンドを実行すると入力待ちになるため、 # 適当に日本語テキストを入力してから改行すると解析結果が出力される。 # このとき文字化けしなければOK。
- mecab-python(Pythonバインディング)をインストール
# mecab-python 最新版(mecab-python-0.996.tar.gz)をダウンロード。 tar xvfz mecab-python-0.996.tar.gz cd mecab-python # MacOSX10.7.sdk の場所を探す。 # 候補1: /Developer/SDKs/MacOSX10.7.sdk # 候補2: /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.7.sdk # 以下では、SDK場所を $SDK と表記 env CC=/usr/bin/gcc CFLAGS="-O -g -isysroot $SDK -arch x86_64 -L/opt/local/lib" python setup.py build sudo python setup.py install
- pythonを起動してインタラクティブ・モードでmecab-pythonの動作確認
import MeCab mecab = MeCab.Tagger('-Ochasen') sent = u"日本語を適当に入力してみる".encode('utf-8') print mecab.parse(sent) # 解析結果が文字化けせずに出力されるならOK。
- emacs elisp(elispインストール支援, 自動補完)のインストール。(vimな人は似たようなプラグインを探して入れてみよう。Aptana Studioな人は必要ありません。プログラミングには少なくともインデントや自動補完に対応できるエディタが必要でしょう。)
- elisp を保存するためのディレクトリを用意。
mkdir ~/.emacs.d/elisp
- elisp のインストールを支援するツール auto-install.el をインストール。
prompt> cd ~/.emacs.d/elisp/ prompt> wget http://www.emacswiki.org/emacs/download/auto-install.el prompt> emacs ~/.emacs ====begin==== ;;; emacs lisp を保存しているディレクトリの設定 (setq load-path (cons "~/.emacs.d/elisp" load-path)) ;;; auto-install.el 用の設定 (require 'auto-install) (setq auto-install-directory "~/.emacs.d/elisp/") (auto-install-update-emacswiki-package-name t) (auto-install-compatibility-setup) ; 互換性確保 ====end==== # *auto-install.el は、emacs起動時に毎回 emacswiki にアクセスしようとするので、 # 通常作業時は邪魔だと感じるなら普段はコメントアウトしておき、 # auto-install を使いたい時だけコメントを外すようにすると良いでしょう。
- auto-install.el を利用して、自動補完ツール auto-complete.el をインストールする。
prompt> emacs ====begin==== Esc-x, install-elisp-from-emacswiki [リターンキー] # 頭の[Esc-x]は「Escを一度押して、離してからxを入力」する動作。 # その後 [M-x] と切り替わるはずなので、install以降を入力してください。 auto-complete.el [リターンキー] *後は画面下の指示通りに進め、インストール確認になったら C-c, C-c。 ====end====
- auto-complete.el をデフォルトで起動するようにする。
prompt> emacs ~/.emacs ====begin==== ;;; auto-complete.el 用の設定 (require 'auto-complete) (global-auto-complete-mode t) ====end====
- 適当なファイルを開いて auto-complete.el の動作確認。
# 例えば、test.py という空のpythonスクリプトを作成し、 # import sys # を入力する。その後、もう一度"i"だけ入力した時点で # 「iから始まるキーワード一覧」が候補として示されれたらOK。
- elisp を保存するためのディレクトリを用意。
- (Python追加) NLTK, prettyprintのインストール
% sudo pip install nltk % sudo pip install prettyprint