もっと詳しく

2017年以来、GoogleCloudは 音声テキスト(STT)API そのサードパーティは、独自のサービスで利用できます。 ザ 最新モデル Googleの音声認識では、「主要な」テクノロジーの改善により精度が向上し、音声UIの作成に特に適しています。

GoogleのSpeech-to-TextAPIの新しいニューラルシーケンスツーシーケンスモデルにより、23の言語と61のサポートされているロケールの精度が向上します。 「すぐに使える品質の向上」に加えて、さまざまな種類の音声、ノイズ環境、および音響条件のサポートが拡張されています。

過去数年間、自動音声認識(ASR)技術は、個別の音響、発音、および言語モデルに基づいていました。 歴史的に、これら3つの個別のコンポーネントはそれぞれ個別にトレーニングされ、その後、音声認識を行うために組み立てられていました。

本日発表するコンフォーマーモデルは、単一のニューラルネットワークに基づいています。 後でまとめる必要がある3つの別々のモデルをトレーニングするのとは対照的に、このアプローチはモデルパラメーターのより効率的な使用を提供します。

これらの改善により、「より多くのコンテキストでより正確な出力」が可能になり、Googleは、音声認識をより多くのユースケースに導入する方法を具体的に宣伝しています。 音声制御UIの場合、「ユーザー [can] より自然に、より長い文章でこれらのインターフェースに話しかけます。」

  • 「Latestlong」は、既存の「ビデオ」モデルと同様に、特に長い形式の自発的なスピーチ用に設計されています。
  • 一方、「最新の短い」は、コマンドやフレーズなどの短い発話に対して優れた品質と優れた遅延を提供します。

Spotifyはこれらの新しいモデルを早期に採用しており、モバイルアプリやCarThingにある「HeySpotify」音声インターフェースで「Googleと緊密に連携」しており、レビューで音声認識の基本的なタスクに優れていると述べました。と転写:

基本は問題なく機能しますが、たとえば、携帯電話で常にリッスンしているGoogleアシスタントができること以外に何もできない音声アシスタントがあると、少しイライラします。 ただし、Car Thingがマイクを携帯電話から遠ざけることで、精度が向上するのは素晴らしいことです。 私は自分の命令を聞くCarThingの能力に決して失望しませんでした。

FTC:私たちは収入を得ている自動車のアフィリエイトリンクを使用しています。 もっと。


その他のニュースについては、YouTubeで9to5Googleをチェックしてください。

The post Googleの新しい音声認識技術が音声UIを強化 appeared first on Gamingsym Japan.