tossy diary

日常の記録を残す

doccano出力のjsonlファイルを形態素解析し、CoNLL形式に変換する

doccanoは、アノテーションツールであり、文章分類や固有表現抽出、感情分析などの教師データの作成ができる。

github.com

doccanoでは、固有表現抽出(Named Entity Recongnition)のアノテーションをした後に教師データとしてjsonlファイルが作成される。 固有表現抽出のモデルを作る場合、CoNLL形式へ変換したい場合がある。

変換する際には、doccano-transformerという便利なライブラリがあるのだが、日本語の文章を形態素解析しつつ、CoNLLファイルに変換する方法がわからなかった。 (もしかしたら、以下で簡単にできるかもしれない)

github.com

英語であれば、元々単語区切りがされているが、日本語の文章の場合、形態素解析によるわかち書きが必要になる。 そこで、日本語の文章に対してMeCab形態素解析しつつ、jsonl形式からCoNLL形式に変換するツールを作成した。

github.com

以下で任意の日本語の文章に対して、アノテーションしたjsonlファイルをCoNLL形式へ変換できる

python3 jsontoconll.py admin.jsonl > dataset.conll