doccano出力のjsonlファイルを形態素解析し、CoNLL形式に変換する
doccanoは、アノテーションツールであり、文章分類や固有表現抽出、感情分析などの教師データの作成ができる。
doccanoでは、固有表現抽出(Named Entity Recongnition)のアノテーションをした後に教師データとしてjsonlファイルが作成される。 固有表現抽出のモデルを作る場合、CoNLL形式へ変換したい場合がある。
変換する際には、doccano-transformerという便利なライブラリがあるのだが、日本語の文章を形態素解析しつつ、CoNLLファイルに変換する方法がわからなかった。 (もしかしたら、以下で簡単にできるかもしれない)
英語であれば、元々単語区切りがされているが、日本語の文章の場合、形態素解析によるわかち書きが必要になる。 そこで、日本語の文章に対してMeCabで形態素解析しつつ、jsonl形式からCoNLL形式に変換するツールを作成した。
以下で任意の日本語の文章に対して、アノテーションしたjsonlファイルをCoNLL形式へ変換できる
python3 jsontoconll.py admin.jsonl > dataset.conll