No. 299/622 Index Prev Next
Path: titcca!fgw!ichikawa
From: ichikawa@fgw.fujitsu.JUNET (ichikawa)
Newsgroups: fj.kanji
Subject: new NKF - Wanted: user of kanji test &  analyze program
Keywords: NKF
Message-ID: < 596@fgw.fujitsu.JUNET> 
Date: 11 Oct 88 11:48:17 GMT
Reply-To: ichikawa@brish.stars.flab.fujitsu.junet (Ichikawa)
Distribution: fj
Organization: Software Lab. Fujitsu Labs Ltd., Kawasaki, Japan
Lines: 63

ええっと、じりじりとしか進んでいない新版NKFですが、ちょっと、ボランテ
ィア募集。前に同じようなこといっていたらごめんなさい。

といってもボランティアといってもプログラムを作るわけではありません。

実は、今あるαバージョンの新版NKFの中から、基本となる漢字コード系判定
部分だけを取り出して作った、
	NKFアルゴリズムによる漢字コード系判定プログラム(test)と、
	NKFがどう解析するかという漢字コード系解析プログラム(analyze)
ができてしまったのです。
(新版NKF自体のテストをするためのtoolでもあるんですけどね....)

こいつらについて、
	この判定結果で満足できるのか?おかしい例はあるか?
といったテストをしていただいたり、
	こういう利用方法があるから、出力結果をこうするといい
といったような提言をしていただけるとありがたいのですが。

どなたかやってみたいという人いますか。もしボランティアされる方がおられま
すのでしたら小生までメールを下さい。プリβテストということで、その方々に
プログラムを送りたいと思います(どちらも小さいかわいいもんですけどね)

ええっと、もし沢山要望があるようでしたのなら、新版NKFの部分モジュール
のプリβテストということで、ソースをここにポストするかもしれません。

まあ、たいして眼新しいプログラムではないのですが....役に立つ場合もあるか
もしれません。

−−−(い)
PS:

test の出力例:
> NKF will suppose input is JIS

analyzeの出力例:
> alpha-numeric.	JIS		EUC		MS KANJI	(ambiguous)
> 3613		2746		0		0		0

同じ入力にnkf -eをかけると
> alpha-numeric.	JIS		EUC		MS KANJI	(ambiguous)
> 867		0		2746		0		0

でもってさらにnkf -Jをかけたのだと
> alpha-numeric.	JIS		EUC		MS KANJI	(ambiguous)
> 3613		2746		0		0		0

ううむ、ESCシーケンスもalpha-numericにしとるなぁ。。。
ということがわかる。

ちなみに、ここにある/vmunixに対してやってみると、

testの出力例
> NKF will suppose input is MS kanji

analyzeの出力例
> alpha-numeric.	JIS		EUC		MS KANJI	(ambiguous)
> 174034		29712		5976		48152		15439

となります(最後の項は、EUCかMS漢字コードが重なる領域にあるコードだとNKF
が思った出力)。


Next
Continue < OHM.88Oct12132629@choshi.kaba.JUNET>
< 2465@icsts1.osaka-u.junet>