タグの階層を使って異なるタグセットを活用する固有表現認識

ACL 2019の論文。

www.aclweb.org

Video:https://vimeo.com/383963629

概要

アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現抽出をしたい。
異なるデータセットに出現するタグセットからタグの階層を人手で定義して、その階層構造をNERに利用する。
ベースラインモデルはneural NER(Lample et al.2016)

　ベースライン1(M_Concat)：全ての学習データの連結→粒度が異なるタグも一緒になってしまう問題がある（例） City vs. Address

　ベースライン2(M_Indep)：セパレートモデル→各タグで学習し、2つのモデルを作成。最終的な2つのモデルの出力を統合する必要がある。

　ベースライン3(M_MTL)：マルチタスキング→テキスト表現を共有し、タスク毎に適用できる。こちらも最終的なモデルの結果を統合する必要がある。

提案手法

M_Hier：タグの階層性を用いることで上記のベースラインのモデルの課題を解決する。 f:id:sktshk:20210621232019p:plain 提案手法では一番粒度の小さいFine-grainedタグのみを推測する。出力をタグセットに応じて変換する。例えば、Streetを推測した場合はタグセットに応じてLocationへ変換する

結果

医療用データセットI2B2'06とI2B2'14で学習。 f:id:sktshk:20210621232404p:plain F1-scoreで評価。結果としてM_Hierがどちらのデータセットでも良い結果となった。また、Physioでは一番良い精度となった。ベースラインはいずれもコリジョンが起きたため、精度が落ちたと考えられる。

参考

hironsan.hatenablog.com

tossy diary

日常の記録を残す

タグの階層を使って異なるタグセットを活用する固有表現認識

概要

提案手法

結果

参考