No. 185/622 Index Prev Next
Path: titcca!koudai!ichikawa
From: ichikawa@koudai.cs.titech.JUNET (Itaru Ichikawa)
Newsgroups: fj.kanji
Subject: Re: rot13/47 nkf test
Message-ID: < 1803@nirvana.cs.titech.JUNET> 
Date: 17 Sep 87 11:58:44 GMT
References: < 1502@flab.flab.fujitsu.JUNET>  < 931@srava.sra.JUNET> 
Reply-To: ichikawa@nirvana.cs.titech.JUNET (Itaru Ichikawa)
Distribution: fj
Organization: Tokyo Institute of Tech., Dept. of Computer Science, Japan
Lines: 39

diffをポストしたことからおわかりなように、なんとか問題は解決しました。
というのは、rot47で、 c & = 0x07f; をしなかったせいです。testでは、あたか
もしたようにいっていたのですが、実は、これをしてなかったやつをいっしょう
けんめいテストしていたのが負因でした。

なぜこれをしないと問題になるかというと、問題の c が8ビット目が立ったま
んま、入力されていたからです。ですから、当然、そのまんまreturn(c)されて
いたわけです。ですから、rot47の変換がされないわけです。

で、8ビット目をおとしてテストしたら、なんとまあ、うまくいったわけです。
ですから、まあ、たいじょうぶだなあなんて思ったりして。でも、32文字が連
続して判定可能領域にない文字になっていたりすると、だめなんですけどね。
気になる方は、あの、バッファのサイズである、MAX_HOLDだったかな、32に
#define しているやつをもっと大きくすれば、なんとかなりますが、rot47した
時に、判定不能領域となる文字だけで文章を構成すると、ちょっとつらいです。

もっとも、普通の文章だと、あっちこっちを使うので、まあ、だいじょうぶでし
ょう。そのうち、
	入力のコード系を指定できる、
	入力コード系を指定すると半角カナも扱える、
	半角カナの出力を、全角にしたり、SI/SOにしたり、
		8ビット目たてたり と指定できる、
	なおかつスピードアップしている、
というのを、10月末をめどに作成しようかなんて思っています。

そして、ニュースの漢字のある記事においての、2バイトコードごとの出現頻度
なんかを、行の出現位置ごとに調べようかなんて思っています。この結果により、
nkfを使用しても安全であるとこを定量的に証明しようと思っています。けど、
めんどくさいなぁ。

そして、判定をやりなおすようなシーケンスを指定することを可能にしてみよう
かなんて思っています。つまり、mail |nkf ... などとした場合にも、^From:
が出現すると、そこから、入力コード系を判定しなおすなんて、いいんじゃない
などと思っています。そうすると、mailごとに異なるコード系であってもなんと
かすると、いいんじゃない?

まあ、注文をいただければ、なんとかすると、富士通研の市川が申しております。

−−−	俺は誰だ!		カッカッカッと	JH2FKN/1	市川
Next
Continue