アノテーションツール: brat(クイックスタート)

Share on:

自然言語処理してる際のデータ構築にて、文章中の単語に「これは場所だ」とか目印をつける(=アノテーション)作業が発生することが多いですが、その際のツールのお話。

annotation tools ぐらいでググるとWhat are the best tools for manually annotating a text corpus with entities and relationships?みたいな一覧が出てきますね。他にも、代表どころでは GATE らしいですが、これは使いにくいからbrat使えよという話も見つかったので試してみました。以下、bratなお話。


[ brat rapid annoation tool ]

1. ソースファイルをダウンロード。

2. installtion instructionsに従ってインストール。インストール時に「CGIアプリ(≒webサービス)としてインストールするか、ローカル環境で使うか」でオプションが異なります。注意点としては、Python2にしか対応していない点。

3. 「python standalone.py」で起動。そこで出力されるURLにブラウザでアクセス。

4. tutorial を眺めながら使い方を学ぶ。
チュートリアルの途中で「アノテーションしてみよう」も出てきます。単語なりフレーズなり選択するとポップアップ表示が出て、そこからアノテーションできます。なお、そのページに注釈書かれてますが、「ログイン」してないとアノテーションできません。

5. ひとまず自分でテキスト用意して、そこにアノテーションしてみたいという場合には以下の手順が必要。
5-1. テキストファイルを data ディレクトリ以下に用意。拡張子はtxt。UTF-8しか確認してませんが日本語でもOKでした。
5-2. 同じディレクトリに、同じファイル名で、ann拡張子のファイルを用意。これがないとファイルを開けません。

ラベルの設定方法とか調べてませんが、チュートリアル進めれば出てくるんじゃないかな。