タグの階層を使って異なるタグセットを活用する固有表現認識
ACL 2019の論文。
概要
異なるデータセットに出現するタグセットからタグの階層を人手で定義して、その階層構造をNERに利用する。
ベースラインモデルはneural NER(Lample et al.2016)
ベースライン1(M_Concat):全ての学習データの連結→粒度が異なるタグも一緒になってしまう問題がある(例) City vs. Address
ベースライン2(M_Indep):セパレートモデル→各タグで学習し、2つのモデルを作成。最終的な2つのモデルの出力を統合する必要がある。
ベースライン3(M_MTL):マルチタスキング→テキスト表現を共有し、タスク毎に適用できる。こちらも最終的なモデルの結果を統合する必要がある。
提案手法
M_Hier:タグの階層性を用いることで上記のベースラインのモデルの課題を解決する。 提案手法では一番粒度の小さいFine-grainedタグのみを推測する。出力をタグセットに応じて変換する。例えば、Streetを推測した場合はタグセットに応じてLocationへ変換する
結果
医療用データセットI2B2'06とI2B2'14で学習。 F1-scoreで評価。結果としてM_Hierがどちらのデータセットでも良い結果となった。また、Physioでは一番良い精度となった。 ベースラインはいずれもコリジョンが起きたため、精度が落ちたと考えられる。