import nltk docs = [] docs.append(u"会場には車で行きます。".encode('utf-8')) # doc -> sentences分割処理の例。 jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。]*[!?。]'.encode('utf-8')) sents = jp_sent_tokenizer.tokenize( docs[0] ) # -> 細切れ出力