元のページ

NLTKでUTF-8指定がうまく機能しない例

想定環境


import nltk

docs = []
docs.append(u"会場には車で行きます。".encode('utf-8'))

# doc -> sentences分割処理の例。
jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。]*[!?。]'.encode('utf-8'))
sents = jp_sent_tokenizer.tokenize( docs[0] )
# -> 細切れ出力