tossy diary

日常の記録を残す

ElasticsearchのBulk APIを使う際に注意すること

Elasticsearchではデータの登録時にBulk APIを使用して、大量データを登録することができます。 これにより、登録時のオーバヘッドが削減でき、インデックスの作成速度を大幅に向上できます。 www.elastic.co Bulk APIで登録するときのデータ形式は以下のよ…

2022年の振り返り

昨年の振り返りは以下。昨年は大晦日の夜に振り返りを書いていたようだ。 sktshk.hatenablog.com 今年の目標は以下で書いた通り。 sktshk.hatenablog.com 今年の内訳は以下の通りです。 研究 ジャーナル:1本投稿 国際会議:1本投稿 研究会:1本投稿 特許:1…

2022年4月の振り返り

4月の振り返り。 今月は移動する機会が多かった月であった。 日々のインプット 読みかけの本も合わせて、全部で5冊。今月はあまりインプットが進まなかった月だった。 読書 図解即戦力 Google Cloudのしくみと技術がこれ1冊でしっかりわかる教科書 Google Cl…

2022年3月の振り返り

3月の振り返り。3月もいつの間にか過ぎ去った気がする。毎月言っている。 研究 博士号取得に向けた取り組み 3月初旬に国際会議へ投稿した。 日々のインプット 全部で10冊。今月は多めにインプットができたと思う。どんどんやっていこう。 読書 Elasticsearch…

自前で抽出した固有表現タグをSpaCyで可視化する

自前で抽出した固有表現タグをSpaCyで可視化する方法。 以下のstackoverflowを参考にすればできる。 stackoverflow.com 具体的なコードは、GitHub Gistに置いた。 gist.github.com 参考 https://spacy.io/api/top-level#spacy.blank https://spacy.io/api/la…

2022年2月の振り返り

2月の振り返り。2月もいつの間にか過ぎ去った気がする。 研究 博士号取得に向けた取り組み 今月は主に国際会議投稿に向けた部分を進めていたり、新しい施策を考えたり。来月頭に投稿予定。英語のライティングスキル... 日々のインプット 読書 「卒論・修論研…

2022年1月の振り返り

2022年も早1ヶ月が過ぎましたね。1月の振り返りをしたいと思います。 研究 博士号取得に向けた取り組み 今月は国際会議投稿に向けた部分を進めていた。年間目標を設定した。 日々のアウトプット ブログ 今年の目標の記事を書いた。 sktshk.hatenablog.com sk…

doccano出力のjsonlファイルを形態素解析し、CoNLL形式に変換する

doccanoは、アノテーションツールであり、文章分類や固有表現抽出、感情分析などの教師データの作成ができる。 github.com doccanoでは、固有表現抽出(Named Entity Recongnition)のアノテーションをした後に教師データとしてjsonlファイルが作成される。 固…

Huggingfaceのtransformersライブラリで固有表現抽出(CoNLL2003編)

固有表現抽出のタスクでは、CoNLL2003というShared Taskのデータセットがある。 今回はCoNLL2003のデータセットを用いて、BERT-baseのモデルをfine-tuningする。 paperswithcode.com CoNLL2003のデータセットを取得 wget https://data.deepai.org/conll2003.…

2022年の目標

2021年の反省を踏まえて、2022年の目標を立てる。 sktshk.hatenablog.com 研究 博士号取得に向けた取り組み 定量的な目標は以下とする。 ジャーナル投稿:1件以上 本当は2件にしたいけど、1件が妥当だと思う。 まずは投稿しよう! 国際会議投稿:1件以上 研…

2021年の振り返り

大晦日の夜になってしまったけど、今年の振り返りを急いでしようと思う。 2021年の前半は、博士後期課程の研究を進めたり、転職をして本格的に研究を仕事とするようになったり、新しい環境に慣れるためのことをやっていたように思う。 後半は大学と会社での…

Huggingfaceのtransformersライブラリで固有表現抽出

Huggingfaceのtransformersライブラリでv3.4.0を使う 固有表現抽出をtransformersライブラリで行う。 東北大学のBERTモデルを使う場合は、Huggingfaceのtransformersライブラリでv3.4.0を使う必要がある。 - 東北大モデル以外(NICT, 京大など)なら、最新のtr…

BERTで固有表現抽出を行う際の特殊トークン'X'について

BERTで固有表現抽出を行う際に、BERTでの特殊トークン'X'を学習時に使う場合があった。 固有表現抽出を行う際に特殊トークン'X'を学習に利用していた 固有表現抽出では、単語ごとにラベリングをして、ラベルに基づきモデルが学習を行う。 BERTへ文章を入力す…

「【新版】日本語の作文技術」を読んだ

「【新版】日本語の作文技術」を読んだので、今後自分の中で文章を書く際に、ポイントを引き出せるようにまとめておく。 本書の裏表紙には、こう書かれている。 「目的はただひとつ、読む側にとってわかりやすい文章をかくこと、これだけである」。修飾の順…

深層学習を使った固有表現認識のサーベイ論文

IEEE Transactions on Knowledge and Data Engineering 2020の論文。 深層学習を使った固有表現認識のサーベイ論文。 ieeexplore.ieee.org 5章 今後の方向性 5.1 チャレンジ データのアノテーションの課題 informalなテキストへの対応 5.2 将来の方向性 NER…

タグの階層を使って異なるタグセットを活用する固有表現認識

ACL 2019の論文。 www.aclweb.org Video:https://vimeo.com/383963629 概要 アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現抽出をしたい。 異なるデータセットに出現するタグセットからタグの階層を人手で定義して、その階層構造…

HuggingFace Transformers Course(1章)

2017年に「[1706.03762] Attention Is All You Need」が出されて以降、Transformer(パーツはAttention)を使った手法が現在の自然言語処理の主流の手法となっている。 Transformerの実装ではHugging Faceのライブラリを使うことが多いのでこの機会に体形立て…

ACMの会員ならオライリー本が読み放題

オライリーの本って一冊3,000円から4,000円するのでお小遣いの範囲だとなかなか手を出しづらいですよね。 そこで安く買えないかなとか、探したところ、ACMの会員であればオライリー本が読み放題だということを知りましたので使ってみました。 使い方 ACMのペ…

Google Siteのリンク先がリダイレクトされる

Google Siteでサイトを持っているのだが、サイトのリンク先がリダイレクトされていることがわかった。 リンク先の設定は正しいのだが、なぜかリダイレクトされて、リンク先に飛ばされる。 調べてみると、事実としてはGoogleのサービスであれば、そのままリン…

2021年6月2日

毎日発信の難しさ 早速、昨日は何もかけなかった。ブログで毎日何かしらのことを書こうと思うと難しい。 会社だと日報形式でその日やった仕事のことを書けるが、それ以外の日常生活で1日の中で何かやったのかと思うと何もやっていない。 ちょっとしたミスで…

三井住友銀行のATM無料回数変更

三井住友銀行のATM無料回数変更 今日、ATMに行ってお金を下ろした際に気づいたこと。 コンビニATMを利用する際に三井住友銀行のキャッシュカードは無料で3回まで使える。 それが9/1より変更になるそうだ。 www.smbc.co.jp 7/1から新しい取引条件の判定が行わ…

2021年5月30日

duolingo学習 昨日に引き続きduolingoを使って英語学習をしている。 今日は自身がクリアしていないステージがあったとしても先のチェックポイントに挑戦できるということに気づいた。 早速、先のチェックポイントに挑戦し、クリアした。 するとそのチェック…

2021年5月29日

duolingoを始める 語学学習のため、duolingoを始めた。まずは英語でやっている。 アプリをインストールして、30分ほどやった感想としては、ゲーム感覚で楽しく学べることが大きい。 最初は少し簡単すぎるかなと思ったが、徐々にレベルが上がっていくのだろう…

本日の作業

* ValueError: too many dimensions 'str'について github.com - リストのtorchへの変換では、strではなく数値で表す * 最近は健康のため、セロトニンを活性化させるため天気に関係なく朝散歩をしている。歩数が増えてこころなしか体力がついてきた気がする…

VMware vSphere Hypervisor(ESXi)にWindows Server 2012 R2をインストールするのにハマった

ESXi上の仮想マシンにWindows Server 2012 R2をインストールするためにまずはISOをダウンロード ポイントはEssentialsにしないこと。 Essentialsだとインストールするときにライセンス認証を求められます。 調べてみたら 「Windows Server 2012 Standard エ…

ゲストOSのブリッジ設定でのエラー

# service network start Bringing up loopback interface: [ OK ] Bringing up interface eth0: Error: Connection activation failed: Master connection not found or invalid [FAILED] Bringing up interface br0: Error: Connection activation failed:…

ブログはじめました

はてなダイアリーを始めようかと思ったのですが、はてなブログのサービスが 始まったみたいなのでこちらをメインにしたいと思います。 よろしくお願いします。