MeCab: Yet Another Part-of-Speech and Morphological Analyzer

$Id: index.html,v 1.34 2005/03/20 13:18:57 taku-ku Exp $;

MeCab (和布蕪)とは

MeCab

奈良先端科学技術大学院大学

自然言語処理学講座

ChaSen

3-4倍のスピード

特徴

ChaSen や KAKASI よりも 3-4倍程度高速.
PentiumIII 1Ghz の Linux で, 1Mbyte/Sec (10000文/sec) の解析速度 (出力にかかる時間は除く)
解析モデルとして可変長マルコフモデル採用.
解析精度は, 現行 ChaSen と同一.
辞書引きアルゴリズム/データ構造に, Double-Array を採用.
Double-Arrayはトライ構造を表現するデータ構造で, 空間使用率, 検索速度のバランスが極めて良い.
多国語(英語,中国語など)対応予定. (現在は日本語のみ)
再入可能なライブラリ
各種スクリプト言語バインディング (perl/ruby/python/java)

メーリングリスト

mecab-ctl@tahoo.org

subscribe

過去記事は, こちらから入手できます. ML に質問する前に同様の内容が投稿されていないか事前にチェックしていただけると幸いです.

ダウンロード

MeCab は The GNU Lesser General Public License (LGPL)に従ったフリーソフトウェアです. このライセンスは暫定的なものです.
MeCab には, ライセンスの関係上辞書が含まれていません. 動作には, ipadic が必要です.
MeCab は, 現在開発段階にあり, 仕様そのものが不安定です. 御了承ください.

Source

mecab-0.81.tar.gz: HTTP

perl/ruby/python/java バインディング

HTTP

Binary package for MS-Windows

HTTP

インストール

UNIX

動作に必要なもの
- ipadic-2.4.4/2.5.0/2.5.1 のうちいずれか1つ: (必須, これら以外の Version ではテストしていません. 2.5.x は開発バージョン, 2.4.x は安定バージョンです.)
- C++ コンパイラ (g++ 2.95.1 以上で動作確認済み, g++ 3.0.x でも可能.):
  ISO 標準 C++ の近代的な機能を使ってるので, 古いコンパイラ (g++2.8, VC++4.0 等)ではコンパイルできないと思います. ご了承下さい.
- Perl5: 辞書作成に使います.
インストール手順
```
 % tar zxfv mecab-X.X.tar.gz
 % cd mecab-X.X
 % cd dic
 % tar zxfv ipadic-2.X.X.tar.gz (2.4.4, 2.5.0 2.5.1 のいずれか1つ)
 % cd ..
 % ./configure 
 % make
 % su
 # make install
```
その他
- configure 時のオプションで,
  --enable-mutex とすると, マルチスレッド環境でライブラリを用いることができます.
  デフォルトでは, このオプションは適用されません.
- configure 時のオプションで,
  --prefix=/home/taku-ku/nltools のように
  インストールパスを変更することが可能です.
  この場合, インストールに Super User の権限は必要ではありません.
- configure 時のオプションで,
  --disable-shared を指定すると, shared library を作成せず, 高速な binary が作成できます. また, 動的リンクに失敗するときは, このオプションを使ってみてください.

Windows

バイナリをインストールする場合は, 自己解凍インストーラ (mecab-X.X.exe) を実行してください. 辞書も同時にインストールされます.

ソースからコンパイルする場合.

Microsoft Visual Studio .NET C++ 7 の場合
ソースパッケージの vcc というディレクトリに, ソリューションファイルがあります. それを用いてビルドしてください.
コマンドラインからも以下のような方法で作成できます. ただし cygwin が必要です.
```
> cd mecab-X.X.X
> ./configure
> cd src
> nmake -f Makefile.msvc
```
Borland C++ (Free Compilerも含む) の場合 (make は, BCC32 付属のものを使用). ただし, cygwinが必要です.
```
> cd mecab-X.X.X
> ./configure
> cd src
> make -f Makefile.bcc32
```

cygwin の場合

> cd mecab-X.X.X
> ./configure --enable-shared=no
> make

mingw の場合
```
> cd mecab-X.X.X
> env CXX="g++ -mno-cygwin -I/usr/include/g++-3" ./configure --enable-shared=no
> make
```
公開している Windows binary package は, Visual Studio .NET C++ 上でビルドしています.

コンパイルが通った環境

Redhat 7.2 (gcc 2.9.6, gcc 3.0.1, gcc 3.1, gcc 3.2, Borland C++ 5.7 Open Edition, Intel(R) Complier)
Solaris8 sun4u sparc SUNW,Ultra-30 (gcc 2.95.3)
FreeBSD 4.2-RELEASE (gcc 2.95.2)
Windows NT4.0, Windows 2000, Windows XP (Borland C++ 5.6 for Win32)
Windows NT4.0, Windows 2000 (Microsoft Visual C++ Ver.6)
Windows XP (Microsoft Visual .NET/C++, Microsoft(R) 32-bit C/C++ Optimizing Compiler Version 13.00.9466)
Windows NT4.0, Windows 2000, Windows XP (gcc 2.5.3)
Windows NT4.0, Windows 2000, Windows XP (g++ -mno-cygwin option)
Mac OS X (gcc 2.95.2 with --disable-shared)

使い方

とりあえず解析してみる

mecab を起動して, 生文を標準入力から入力してみてください.
MeCab では, 一行一文を前提として解析を行ないます.

% mecab
太郎はこの本を二郎を見た女性に渡した。
太郎    名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は  助詞,係助詞,*,*,*,*,は,ハ,ワ
この    連体詞,*,*,*,*,*,この,コノ,コノ
本  名詞,一般,*,*,*,*,本,{ホン/モト},{ホン/モト}
を  助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二郎    名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー
を  助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見  動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た  助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性    名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に  助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し    動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た  助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。  記号,句点,*,*,*,*,。,。,。
EOS

表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

引数にファイルを与えると, そのファイルが解析対象となります. また, -o オプションにて, 別のファイルに結果を出力することも可能です.

% mecab INPUT -o OUTPUT

わかち書きをする

以下のように -O オプションを使います.

% mecab -O wakati
太郎はこの本を二郎を見た女性に渡した。
太郎 は この 本 を 二郎 を 見 た 女性 に 渡し た 。

出力フォーマットの変更

以下のように -O オプションを使います.

% mecab -Oxml (XML)
% mecab -Ochasen (ChaSen互換)
% mecab -Ocsv (csv)
% mecab -Oyomi (ヨミ付与)

こちら

N-Best 解の出力

-N #NUM オプションを使うことで, 確からしいものから#NUM 個解析結果を出力します. 理論的にはすべての可能な解析解を出力することが可能ですが, 出力バッファのかねあいから, -N の最大値を 512 に制限しています.

% mecab -N2
今日もしないとね。
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
も      助詞,係助詞,*,*,*,*,も,モ,モ
し      動詞,自立,*,*,サ変・スル,未然形,する,シ,シ
ない    助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
と      助詞,接続助詞,*,*,*,*,と,ト,ト
ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
。      記号,句点,*,*,*,*,。,。,。
EOS
今日    名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
もし    副詞,一般,*,*,*,*,もし,モシ,モシ
ない    形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ
と      助詞,接続助詞,*,*,*,*,と,ト,ト
ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
。      記号,句点,*,*,*,*,。,。,。
EOS

N Best 解は, いったん前向きに viterbi 探索を行なった後, 後ろ向きに, A* 探索を行なうことで実現できます. ただし, A* といっても, heruristic 関数の値は, 前向き探索時に厳密解を取得できているので, 厳密な N-Best 解を出力することができます.

文字コード変更

特に指定しない限り, euc が使用されます. もし, shift-jis や utf8 を使いたい場合は, configure オプションにて charset を変更し, 辞書を再構築してください. これで, shift-jis や, utf8 の辞書が作成されます.

辞書の構築の際の文字コードの変換に iconv が使用されます. iconv を前もってインストールしておく必要があります. 最近の Linux や, cygwin はインストールされているようです.

% ./configure --with-charset=sjis
% make

% ./configure --with-charset=utf8
% make

コンパイル後でも, 以下の手順で文字コードの異なる辞書を再構築できます. -d オプションを使うことで, それぞれのコードの辞書を使い分けることが可能です.

% cd mecab-X.X.X/dic
% vi dicrc 

# charset を utf8 に変更
charset = utf8

% make clean
% make charset=utf8
% make dicdir=/somewhere/dic/ipadic-utf8 install
% mecab -d /somewhere/dic/ipadic-utf8 FILES ..

SPEED 比較

テストコーパス: RWCP コーパス(毎日新聞 94年), 約 35000文 3MByte
テスト環境: RedHat Linux 7.2, DELL , XEON 2.4Ghz dual, Memory 4Gbyte

分かち書き出力の結果 (juman のみ標準のフォーマット)

MeCab	2.21s user 0.04s system 99% cpu 2.269 total
ChaSen	7.22s user 0.06s system 98% cpu 7.358
JUMAN	25.93s user 0.07s system 99% cpu 26.055 total
kakasi	7.03s user 0.05s system 99% cpu 7.124 total

デフォルトの出力フォーマット(kakasi は分かち書き)

MeCab	2.72s user 0.04s system 98% cpu 2.793 total
ChaSen	8.22s user 0.06s system 100% cpu 8.278 total
JUMAN	25.93s user 0.07s system 99% cpu 26.055 total
kakasi	7.03s user 0.05s system 99% cpu 7.124 total

TODO, ChaSen との比較

ChaSen 互換をうたうには, まだまだ遠い..

	ChaSen	MeCab	進行状況,予定など
連結品詞機能	○	×	CaboChaが使うのでサポートしたい
複合語機能	○	×
出力フォーマットの柔軟な変更	○	○
すべての解析解の表示	○	○
n-best 解	×	○
多言語形態素解析	△	△	英語, 中国語の tokenizer を tokenizer class から継承して書くだけ
わかち書き位置の外部指定	○	×	研究目的として重要な機能なので実装予定
再入可能ライブラリ	×	○
マルチスレッド対応	×	○
文字コード非依存	△ (動的に変更)	○	SJIS/EUC/UTF-8 の辞書で動作確認
連接コストの推定精度の向上	△ (単純な最尤推定)	△ (左に同じ)	CRF 等を使って推定

おまけ (技術資料)

自然言語処理, 特に形態素解析を知ってる人向けの技術資料
誤りがあればお知らせください.

	MeCab	ChaSen	JUMAN	KAKASI
解析モデル	可変長マルコフモデル	可変長マルコフモデル	bi-gram マルコフモデル	最長一致
コスト推定手法	コーパスから学習	コーパスから学習	人手	コストという概念無し
辞書引きアルゴリズム	Double Array	パトリシア木	パトリシア木	Hash?
解探索アルゴリズム	Viterbi	Viterbi	Viterbi	決定的?
連接表の実装	3次元 Table	オートマトン	2次元 Table?	連接表無し?
品詞の階層	無制限多階層品詞	無制限多階層品詞	2段階固定	品詞という概念無し?