頻出単語表示、わずか9KBのAI日本語単語分割ライブラリ「TinySegmenter」をESモジュール化

自由入力された文章をデータ化する形態素解析ですが、巨大な辞書が必要になったり次々登場する単語に対応することなどなかなか大変そうなイメージでしたが、機械学習を使った、単語分割するコンパクトな実装「TinySegmenter」を発見。ブラウザやDenoでいい感じに使えるESモジュール版にしてみました。 「頻出単語表示 by…

rinna社、日本語に特化した言語画像モデルCLIPを公開

rinna社、日本語に特化した言語画像モデルCLIPを公開 商用利用可能な Apache-2.0 ライセンスで公開することで日本語の言語・画像コミュニティに還元 rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化した言語(テキスト)と画像の関係を表現できる事前学習言語画像…

メタ、「GPT-3並み」の大規模言語モデルを研究者向けに無償提供

メタ(旧フェイスブック)AIラボは、自社開発した大規模言語モデル「OPT」を研究者向けに無償で提供を開始した。オープンAIの「GPT-3」と同じパラメーター数を持つ。同モデルの構築方法や訓練方法の詳細も公開しており、巨大テック企業の取り組みとしては異例だ。 by Will Douglas Heaven2022.05.09 24 18 2 1 メタ(旧…

BERTのレイヤー数削減による多言語キーフレーズ抽出モデルの軽量化・高精度化 – Beatrust techBlog

こんにちは、Beatrust で Machine Learning Lead をしている Tatsuya (白川 達也)です。 以前、下記の記事でキーフレーズ抽出機能のご紹介をしましたが、その後の試行錯誤をした結果、以前に比べて軽量化・高精度化に成功したので、これまでにどのような工夫をしたのかをご紹介しようと思います。 tech.beatrust.com …