tossy diary

日常の記録を残す

2022-01-01から1年間の記事一覧

2022年の振り返り

昨年の振り返りは以下。昨年は大晦日の夜に振り返りを書いていたようだ。 sktshk.hatenablog.com 今年の目標は以下で書いた通り。 sktshk.hatenablog.com 今年の内訳は以下の通りです。 研究 ジャーナル:1本投稿 国際会議:1本投稿 研究会:1本投稿 特許:1…

2022年4月の振り返り

4月の振り返り。 今月は移動する機会が多かった月であった。 日々のインプット 読みかけの本も合わせて、全部で5冊。今月はあまりインプットが進まなかった月だった。 読書 図解即戦力 Google Cloudのしくみと技術がこれ1冊でしっかりわかる教科書 Google Cl…

2022年3月の振り返り

3月の振り返り。3月もいつの間にか過ぎ去った気がする。毎月言っている。 研究 博士号取得に向けた取り組み 3月初旬に国際会議へ投稿した。 日々のインプット 全部で10冊。今月は多めにインプットができたと思う。どんどんやっていこう。 読書 Elasticsearch…

自前で抽出した固有表現タグをSpaCyで可視化する

自前で抽出した固有表現タグをSpaCyで可視化する方法。 以下のstackoverflowを参考にすればできる。 stackoverflow.com 具体的なコードは、GitHub Gistに置いた。 gist.github.com 参考 https://spacy.io/api/top-level#spacy.blank https://spacy.io/api/la…

2022年2月の振り返り

2月の振り返り。2月もいつの間にか過ぎ去った気がする。 研究 博士号取得に向けた取り組み 今月は主に国際会議投稿に向けた部分を進めていたり、新しい施策を考えたり。来月頭に投稿予定。英語のライティングスキル... 日々のインプット 読書 「卒論・修論研…

2022年1月の振り返り

2022年も早1ヶ月が過ぎましたね。1月の振り返りをしたいと思います。 研究 博士号取得に向けた取り組み 今月は国際会議投稿に向けた部分を進めていた。年間目標を設定した。 日々のアウトプット ブログ 今年の目標の記事を書いた。 sktshk.hatenablog.com sk…

doccano出力のjsonlファイルを形態素解析し、CoNLL形式に変換する

doccanoは、アノテーションツールであり、文章分類や固有表現抽出、感情分析などの教師データの作成ができる。 github.com doccanoでは、固有表現抽出(Named Entity Recongnition)のアノテーションをした後に教師データとしてjsonlファイルが作成される。 固…

Huggingfaceのtransformersライブラリで固有表現抽出(CoNLL2003編)

固有表現抽出のタスクでは、CoNLL2003というShared Taskのデータセットがある。 今回はCoNLL2003のデータセットを用いて、BERT-baseのモデルをfine-tuningする。 paperswithcode.com CoNLL2003のデータセットを取得 wget https://data.deepai.org/conll2003.…

2022年の目標

2021年の反省を踏まえて、2022年の目標を立てる。 sktshk.hatenablog.com 研究 博士号取得に向けた取り組み 定量的な目標は以下とする。 ジャーナル投稿:1件以上 本当は2件にしたいけど、1件が妥当だと思う。 まずは投稿しよう! 国際会議投稿:1件以上 研…