Elasticsearchではデータの登録時にBulk APIを使用して、大量データを登録することができます。 これにより、登録時のオーバヘッドが削減でき、インデックスの作成速度を大幅に向上できます。 www.elastic.co Bulk APIで登録するときのデータ形式は以下のよ…
昨年の振り返りは以下。昨年は大晦日の夜に振り返りを書いていたようだ。 sktshk.hatenablog.com 今年の目標は以下で書いた通り。 sktshk.hatenablog.com 今年の内訳は以下の通りです。 研究 ジャーナル:1本投稿 国際会議:1本投稿 研究会:1本投稿 特許:1…
4月の振り返り。 今月は移動する機会が多かった月であった。 日々のインプット 読みかけの本も合わせて、全部で5冊。今月はあまりインプットが進まなかった月だった。 読書 図解即戦力 Google Cloudのしくみと技術がこれ1冊でしっかりわかる教科書 Google Cl…
3月の振り返り。3月もいつの間にか過ぎ去った気がする。毎月言っている。 研究 博士号取得に向けた取り組み 3月初旬に国際会議へ投稿した。 日々のインプット 全部で10冊。今月は多めにインプットができたと思う。どんどんやっていこう。 読書 Elasticsearch…
自前で抽出した固有表現タグをSpaCyで可視化する方法。 以下のstackoverflowを参考にすればできる。 stackoverflow.com 具体的なコードは、GitHub Gistに置いた。 gist.github.com 参考 https://spacy.io/api/top-level#spacy.blank https://spacy.io/api/la…
2月の振り返り。2月もいつの間にか過ぎ去った気がする。 研究 博士号取得に向けた取り組み 今月は主に国際会議投稿に向けた部分を進めていたり、新しい施策を考えたり。来月頭に投稿予定。英語のライティングスキル... 日々のインプット 読書 「卒論・修論研…
2022年も早1ヶ月が過ぎましたね。1月の振り返りをしたいと思います。 研究 博士号取得に向けた取り組み 今月は国際会議投稿に向けた部分を進めていた。年間目標を設定した。 日々のアウトプット ブログ 今年の目標の記事を書いた。 sktshk.hatenablog.com sk…
doccanoは、アノテーションツールであり、文章分類や固有表現抽出、感情分析などの教師データの作成ができる。 github.com doccanoでは、固有表現抽出(Named Entity Recongnition)のアノテーションをした後に教師データとしてjsonlファイルが作成される。 固…
固有表現抽出のタスクでは、CoNLL2003というShared Taskのデータセットがある。 今回はCoNLL2003のデータセットを用いて、BERT-baseのモデルをfine-tuningする。 paperswithcode.com CoNLL2003のデータセットを取得 wget https://data.deepai.org/conll2003.…
2021年の反省を踏まえて、2022年の目標を立てる。 sktshk.hatenablog.com 研究 博士号取得に向けた取り組み 定量的な目標は以下とする。 ジャーナル投稿:1件以上 本当は2件にしたいけど、1件が妥当だと思う。 まずは投稿しよう! 国際会議投稿:1件以上 研…
大晦日の夜になってしまったけど、今年の振り返りを急いでしようと思う。 2021年の前半は、博士後期課程の研究を進めたり、転職をして本格的に研究を仕事とするようになったり、新しい環境に慣れるためのことをやっていたように思う。 後半は大学と会社での…
Huggingfaceのtransformersライブラリでv3.4.0を使う 固有表現抽出をtransformersライブラリで行う。 東北大学のBERTモデルを使う場合は、Huggingfaceのtransformersライブラリでv3.4.0を使う必要がある。 - 東北大モデル以外(NICT, 京大など)なら、最新のtr…
BERTで固有表現抽出を行う際に、BERTでの特殊トークン'X'を学習時に使う場合があった。 固有表現抽出を行う際に特殊トークン'X'を学習に利用していた 固有表現抽出では、単語ごとにラベリングをして、ラベルに基づきモデルが学習を行う。 BERTへ文章を入力す…
「【新版】日本語の作文技術」を読んだので、今後自分の中で文章を書く際に、ポイントを引き出せるようにまとめておく。 本書の裏表紙には、こう書かれている。 「目的はただひとつ、読む側にとってわかりやすい文章をかくこと、これだけである」。修飾の順…
IEEE Transactions on Knowledge and Data Engineering 2020の論文。 深層学習を使った固有表現認識のサーベイ論文。 ieeexplore.ieee.org 5章 今後の方向性 5.1 チャレンジ データのアノテーションの課題 informalなテキストへの対応 5.2 将来の方向性 NER…
ACL 2019の論文。 www.aclweb.org Video:https://vimeo.com/383963629 概要 アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現抽出をしたい。 異なるデータセットに出現するタグセットからタグの階層を人手で定義して、その階層構造…
2017年に「[1706.03762] Attention Is All You Need」が出されて以降、Transformer(パーツはAttention)を使った手法が現在の自然言語処理の主流の手法となっている。 Transformerの実装ではHugging Faceのライブラリを使うことが多いのでこの機会に体形立て…
オライリーの本って一冊3,000円から4,000円するのでお小遣いの範囲だとなかなか手を出しづらいですよね。 そこで安く買えないかなとか、探したところ、ACMの会員であればオライリー本が読み放題だということを知りましたので使ってみました。 使い方 ACMのペ…
Google Siteでサイトを持っているのだが、サイトのリンク先がリダイレクトされていることがわかった。 リンク先の設定は正しいのだが、なぜかリダイレクトされて、リンク先に飛ばされる。 調べてみると、事実としてはGoogleのサービスであれば、そのままリン…
毎日発信の難しさ 早速、昨日は何もかけなかった。ブログで毎日何かしらのことを書こうと思うと難しい。 会社だと日報形式でその日やった仕事のことを書けるが、それ以外の日常生活で1日の中で何かやったのかと思うと何もやっていない。 ちょっとしたミスで…
三井住友銀行のATM無料回数変更 今日、ATMに行ってお金を下ろした際に気づいたこと。 コンビニATMを利用する際に三井住友銀行のキャッシュカードは無料で3回まで使える。 それが9/1より変更になるそうだ。 www.smbc.co.jp 7/1から新しい取引条件の判定が行わ…
duolingo学習 昨日に引き続きduolingoを使って英語学習をしている。 今日は自身がクリアしていないステージがあったとしても先のチェックポイントに挑戦できるということに気づいた。 早速、先のチェックポイントに挑戦し、クリアした。 するとそのチェック…
duolingoを始める 語学学習のため、duolingoを始めた。まずは英語でやっている。 アプリをインストールして、30分ほどやった感想としては、ゲーム感覚で楽しく学べることが大きい。 最初は少し簡単すぎるかなと思ったが、徐々にレベルが上がっていくのだろう…
* ValueError: too many dimensions 'str'について github.com - リストのtorchへの変換では、strではなく数値で表す * 最近は健康のため、セロトニンを活性化させるため天気に関係なく朝散歩をしている。歩数が増えてこころなしか体力がついてきた気がする…
ESXi上の仮想マシンにWindows Server 2012 R2をインストールするためにまずはISOをダウンロード ポイントはEssentialsにしないこと。 Essentialsだとインストールするときにライセンス認証を求められます。 調べてみたら 「Windows Server 2012 Standard エ…
# service network start Bringing up loopback interface: [ OK ] Bringing up interface eth0: Error: Connection activation failed: Master connection not found or invalid [FAILED] Bringing up interface br0: Error: Connection activation failed:…
はてなダイアリーを始めようかと思ったのですが、はてなブログのサービスが 始まったみたいなのでこちらをメインにしたいと思います。 よろしくお願いします。