tossy diary

日常の記録を残す

深層学習を使った固有表現認識のサーベイ論文

IEEE Transactions on Knowledge and Data Engineering 2020の論文。

深層学習を使った固有表現認識のサーベイ論文。 ieeexplore.ieee.org

5章 今後の方向性

5.1 チャレンジ

データのアノテーションの課題

データのアノテーションには時間とコストがかかる。リソースの乏しい言語や特定のドメインによってはアノテーションを行うのに専門家が必要となるため、大きな課題となっている。

また、言語の曖昧さのためアノテーションの品質と一貫性の課題がある。 同じ単語でも違うラベル付けがされていることがある。 例えば、以下の文で考える。

Baltimore de feated the Yankees

上記の文章中の「Baltimore」は、MUC-7ではLocation、CoNLL03ではOrganizationとラベル付けされている。

他にもEmpire StateEmpire State Buildingは、エンティティの境界が曖昧なためCoNLL03とACEのデータセットでは同じLocationとラベル付けされている。

informalなテキストへの対応

ニュース記事のような正式な文書ではまずまずの結果が報告されているが、ユーザが生成するテキストではF値は40%程度となっている。

informalなテキスト(ツイート、 コメント、ユーザフォーラムなど)の固有表現認識は文が短いこととノイズが多いことから現状は難しいと考えられている。

現時点(2021/6/26)だとF値60.45がSOTAとなっている。

paperswithcode.com

5.2 将来の方向性

NERの細粒度と境界検出

細粒度NERではラベル数の大幅な増加により複数のラベルタイプをつける必要があり、複雑さの課題がある。 このことからB-I-E-SとOをdecodeタグとして使用することでエンティティの境界とラベルを同時に検出するようなNERのアプローチを考える必要がある。

NERとEntity linking(EL)の統合

既存研究ではNERとEntity linking(EL)は別々のタスクとして扱われている。 NERとEL、エンティティの境界検出、エンティティのリンク、エンティティタイプの分類をうまく組み合わせることで各タスクが他のタスクの部分的な出力から恩恵を受けることができ、エラーの伝播を軽減できるのではないか。

informalなテキストにおけるDeep learningベースのNER

informalなテキストでのNERのパフォーマンスはまだまだ低い結果となっている。 ユーザが生成するテキストの辞書を補助リソースとして活用していくことがパフォーマンスを上げることにつながる。 辞書をどのように取得するか、どのように組み込んでいくかが課題となる。

スケーラビリティ

データのサイズが大きくなった時のパラメータの指数関数的な増加を最適化するための仕組みが必要である。 例えば、ELMoは各単語を3 × 1024次元のベクトルで表現し、32GPUで5週間の学習、Google BERTは64個のCrowd TPUで学習が必要である。 エンドユーザがこういった強力なコンピューティングリソースにアクセスするのは難しい。 今後モデルの学習に必要な計算時間を削減するためにモデルの圧縮や枝刈り等の技術も必要になる。

転移学習

あるデータセットで学習したモデルは言語の特性やアノテーションの違い等により他のテキストへ転用した際にうまく動作しないことがある。NERに深層学習の転移学習を行う研究はいくつかあるが、まだ十分に検討されていない。

今後は以下のような研究課題に取り組む必要があると考える。

  • あるドメイン領域から異なるドメイン領域への効率的に知識を転移すること
  • NERタスクでのzero-shot学習, one-shot学習, few-shot学習の研究
  • クロスドメインでのドメインミスマッチとラベルミスマッチへの対処

ツールの整備

データ処理、入力表現、context encoder、tag decoder、有効性の測定などを備えたツールは開発者をサポートすることができると考える。このようなツールができれば専門家に限らず一般の人にも有益であると考える。