出力フォーマット

$Id: format.html,v 1.10 2004/06/21 09:34:35 taku-ku Exp $;

MeCab は, ChaSen と同様, 出力のフォーマットを比較的自由に再定義することができます. また, 設定ファイルにフォーマットを複数記述しておき, 実行時にそれらを 切り変えることが可能です. これは, MeCab 独自の機能です.


出力フォーマットの指定

以下の 3つ出力フォーマットを変更することができます.

明示的に指定されない場合, それぞれのデフォルト文字列が使用されます.

これらは, 以下の 2つの方法で指定します.

出力フォーマット

%S 入力文
%L 入力文の長さ
%m 形態素の表層文字列
%M 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと)
%% % そのもの
%c 単語生起コスト
%H 素性 (品詞, 活用, 読み) 等を CSV で表現したもの
%h 素性の内部 ID
%pi 形態素に付与されるユニークなID
%ps 開始位置
%pe 終了位置
%pS もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一
%pC 1つ前の形態素との連接コスト
%pw %c と同じ
%pc 連接コスト + 単語生起コスト (文頭から累積)
%pn 連接コスト + 単語生起コスト (単独)
%pb 最適パスの場合 *, それ以外は ' '
%pl 形態素の表層文字列としての長さ, strlen (%m) と同一
%pL 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一
%ph0 後件状態番号
%ph1 前件状態番号
%ph2 前々件状態番号
%ppi 未実装
%ppc 未実装
%f[N] csv で表記された素性の N番目の要素
%f[N1,N2,N3...] N1,N2,N3番目の素性を, "," を デリミタとして表示
%FC[N1,N2,N3...] N1,N2,N3番目の素性を, C を デリミタとして表示.
ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2]
\0 \a \b \t \n \v \f \r \\ 通常の エスケープ文字列
\s ' ' (半角スペース)
設定ファイルに記述するときに使用

dicrc より抜粋した例
; yomi
node-format-yomi = %pS%f[7]
unk-format-yomi = %M
eos-format-yomi  = \n

; simple
node-format-simple = %m\t%F-[0,1,2,3]\n
eos-format-simple  = EOS\n

; csv
node-format-csv = %m,%f[7],%f[8],%f[6],%F-[0,1,2,3],%f[4],%f[5]\n
unk-format-csv  = %m,%m,%m,%f[6],%F-[0,1,2,3],,\n
eos-format-csv  = EOS,,,,,,\n

; ChaSen
node-format-chasen = %m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen  = %m\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen  = EOS\n

注意事項

わかち書き出力 (-Owakati) と, デフォルトの出力 は, 高速性を犠牲にしたく ないために, ハードコーディングされています.


$Id: format.html,v 1.10 2004/06/21 09:34:35 taku-ku Exp $;

taku-ku@is.aist-nara.ac.jp