tossy diary

日常の記録を残す

タグの階層を使って異なるタグセットを活用する固有表現認識

ACL 2019の論文。

www.aclweb.org

概要

  • アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現抽出をしたい。

  • 異なるデータセットに出現するタグセットからタグの階層を人手で定義して、その階層構造をNERに利用する。

  • ベースラインモデルはneural NER(Lample et al.2016)

 ベースライン1(M_Concat):全ての学習データの連結→粒度が異なるタグも一緒になってしまう問題がある(例) City vs. Address

 ベースライン2(M_Indep):セパレートモデル→各タグで学習し、2つのモデルを作成。最終的な2つのモデルの出力を統合する必要がある。

 ベースライン3(M_MTL):マルチタスキング→テキスト表現を共有し、タスク毎に適用できる。こちらも最終的なモデルの結果を統合する必要がある。

提案手法

M_Hier:タグの階層性を用いることで上記のベースラインのモデルの課題を解決する。 f:id:sktshk:20210621232019p:plain 提案手法では一番粒度の小さいFine-grainedタグのみを推測する。出力をタグセットに応じて変換する。例えば、Streetを推測した場合はタグセットに応じてLocationへ変換する

結果

医療用データセットI2B2'06I2B2'14で学習。 f:id:sktshk:20210621232404p:plain F1-scoreで評価。結果としてM_Hierがどちらのデータセットでも良い結果となった。また、Physioでは一番良い精度となった。 ベースラインはいずれもコリジョンが起きたため、精度が落ちたと考えられる。

参考

hironsan.hatenablog.com