この記事は、最新の記事の一部です。 AI研究。
5月初旬、Metaはさまざまなタスクを実行できる大規模な言語モデル(LLM)であるOpen Pretrained Transformer(OPT-175B)をリリースしました。 大規模な言語モデルは、過去数年間で人工知能の研究で最も注目されている分野の1つになっています。
OPT-175Bは、OpenAIによって引き起こされたLLM軍拡競争の最新の参加者です。 GPT-3、1,750億個のパラメータを持つディープニューラルネットワーク。 GPT-3は、LLMが追加のトレーニングを受けずに、いくつかの例を見ることなく、多くのタスクを実行できることを示しました(ゼロショットまたは数ショットの学習)。 マイクロソフトは後にGPT-3をいくつかの製品に統合し、LLMの科学的だけでなく商業的な約束も示しました。
OPT-175Bのユニークな点は、モデルの名前が示すように、「オープン性」に対するMetaの取り組みです。 Metaは、モデルを一般に公開しました(いくつかの注意点があります)。 また、トレーニングと開発プロセスに関する多くの詳細をリリースしました。 に公開された投稿で メタAIブログ、同社はOPT-175Bのリリースを「大規模な言語モデルへのアクセスの民主化」と表現しました。
メタの透明性への動きは称賛に値します。 しかし、大規模な言語モデルをめぐる競争は、もはや民主化できない段階に達しています。
MetaのOPT-175Bのリリースには、いくつかの重要な機能があります。 これには、事前にトレーニングされたモデルと、LLMのトレーニングと使用に必要なコードの両方が含まれています。 事前トレーニング済みモデルは、モデルをトレーニングするための計算リソースがない組織に特に役立ちます(ニューラルネットワークのトレーニングは、実行するよりもはるかに多くのリソースを消費します)。 それはまた、大規模な削減に役立ちます カーボンフットプリント 大規模なニューラルネットワークをトレーニングするために必要な計算リソースが原因です。
GPT-3と同様に、OPTには、1億2500万から1750億のパラメーターまで、さまざまなサイズがあります(パラメーターが多いモデルほど、学習能力が高くなります)。 この記事の執筆時点では、OPT-30Bまでのすべてのモデルにダウンロードできます。 完全な1750億パラメータモデルは、リクエストフォームに記入する特定の研究者や機関が利用できるようになります。
Meta AIブログによると、「整合性を維持し、誤用を防ぐために、研究のユースケースに焦点を当てるために非商用ライセンスの下でモデルをリリースしています。 モデルへのアクセスは、学術研究者に付与されます。 政府、市民社会、および学界の組織に所属するもの。 世界中の業界研究所と一緒に。」
モデルに加えて、Metaは、大規模な言語モデルの開発とトレーニングプロセスの詳細な技術的タイムラインを提供する完全なログブックをリリースしました。 公開された論文には通常、最終モデルに関する情報のみが含まれています。 Metaによると、このログブックには、「OPT-175Bのトレーニングに使用されたコンピューティングの量と、基盤となるインフラストラクチャまたはトレーニングプロセス自体が大規模に不安定になった場合に必要な人的オーバーヘッド」に関する貴重な洞察が記載されています。
Metaはブログ投稿で、大規模な言語モデルはほとんど「有料API」を介してアクセス可能であり、LLMへのアクセスが制限されているため、「これらの大規模な言語モデルが機能する方法と理由を理解する研究者の能力が制限されており、堅牢性を向上させる取り組みの進展が妨げられている」と述べています。偏見や毒性などの既知の問題を軽減します。」
これはOpenAIのジャブです(そして 拡張子によってマイクロソフト)、モデルの重みとソースコードを一般に公開する代わりに、ブラックボックスAPIサービスとしてGPT-3をリリースしました。 OpenAIがGPT-3を公開しないと述べた理由の中には、有害なアプリケーションの誤用と開発を管理することがありました。
Metaは、モデルをより多くのユーザーが利用できるようにすることで、モデルが引き起こす可能性のある害を調査および防止するためのより良い立場になると考えています。
Metaがこの取り組みを説明する方法は次のとおりです。「OPT-175Bが大規模な言語モデル作成のフロンティアにより多くの声をもたらし、コミュニティが責任あるリリース戦略を共同で設計するのに役立ち、大規模な開発に前例のないレベルの透明性と開放性を追加することを願っています。現場の言語モデル。」
ただし、「透明性と開放性」は「大規模な言語モデルの民主化」と同等ではないことに注意してください。 大規模な言語モデルのトレーニング、構成、および実行のコストは依然として法外であり、将来的に増加する可能性があります。
Metaのブログ投稿によると、その研究者は大規模な言語モデルのトレーニングのコストを大幅に削減することができました。 同社によれば、モデルの二酸化炭素排出量はGPT-3の7分の1に削減されました。 私が以前に話した専門家は、GPT-3のトレーニングコストを 最大2760万ドル。
これは、OPT-175Bのトレーニングにまだ数百万ドルかかることを意味します。 幸い、事前にトレーニングされたモデルを使用すると、モデルをトレーニングする必要がなくなり、Metaは、「16個のNVIDIAV100GPUのみを使用して」完全なモデルをトレーニングおよびデプロイするために使用されるコードベースを提供すると述べています。 これはNvidiaDGX-2に相当し、費用は約40万ドルで、現金に制約のある研究所や個々の研究者にとっては少額ではありません。 (によると 論文 OPT-175Bの詳細を提供し、Metaは992 80GBA100GPUを使用して独自のモデルをトレーニングしました。 V100よりも大幅に高速。)
Meta AIのログブックは、大規模な言語モデルのトレーニングが非常に複雑な作業であることをさらに確認しています。 OPT-175Bのタイムラインは、サーバーのクラッシュ、ハードウェア障害、および高度な技術スタッフを必要とするその他の問題でいっぱいです。 研究者はまた、トレーニングプロセスを数回再開し、ハイパーパラメータを微調整し、損失関数を変更する必要がありました。 これらはすべて、小規模なラボでは負担できない追加のコストが発生します。
OPTやGPTなどの言語モデルは、 トランスアーキテクチャ。 トランスフォーマーの重要な機能の1つは、大規模なシーケンシャルデータ(テキストなど)を並列かつ大規模に処理できることです。
近年、研究者は、トランスフォーマーモデルにレイヤーとパラメーターを追加することで、言語タスクのパフォーマンスを向上できることを示しました。 一部の研究者は、より高いレベルのインテリジェンスに到達することは規模の問題にすぎないと考えています。 したがって、Meta AI、DeepMind(Alphabetが所有)、OpenAI(Microsoftが支援)などの現金が豊富な研究所は、 ますます大きなニューラルネットワーク。
昨年、MicrosoftとNvidiaは 5300億のパラメータ言語モデル Megatron-Turing(MT-NLG)と呼ばれます。 先月、Googleは 経路言語モデル(PaLM)、5400億のパラメータを持つLLM。 そして、OpenAIが今後数ヶ月でGPT-4をリリースするという噂があります。
ただし、大規模なニューラルネットワークには、より多くの財政的および技術的リソースも必要です。 そして、より大きな言語モデルには新しいベルとホイッスルがあります(そして 新しい失敗)、彼らは必然的に、小規模な研究所や独立した研究者が大規模な言語モデルに取り組むことをさらに困難にすることによって、少数の裕福な企業の手に力を集中させるでしょう。
商業面では、大手ハイテク企業にはさらに大きな利点があります。 大規模な言語モデルの実行は、非常に費用がかかり、困難です。 GoogleやMicrosoftのような企業は、これらのモデルを大規模かつ収益性の高い方法で実行できるようにする特別なサーバーとプロセッサーを持っています。 中小企業の場合、GPT-3のような独自のバージョンのLLMを実行するオーバーヘッドは法外なものです。 ほとんどの企業が独自のサーバーやデータセンターをセットアップする代わりにクラウドホスティングサービスを使用しているように、 すぐに使えるシステム GPT-3 APIのように、大規模な言語モデルの人気が高まるにつれて、より多くの牽引力が得られます。
これにより、AIは大手ハイテク企業の手にさらに集中化されます。 より多くのAI研究所は、彼らの研究に資金を提供するためにビッグテックとのパートナーシップを結ぶ必要があります。 そして、これはビッグテクノロジーにAI研究の将来の方向性を決定するためのより多くの力を与えるでしょう(それはおそらく彼らの経済的利益と一致するでしょう)。 これは、短期的な投資収益率がない研究分野を犠牲にしてもたらされる可能性があります。
肝心なのは、LLMに透明性をもたらすというMetaの動きを祝う一方で、大規模な言語モデルの本質は非民主的であり、それらを公表している企業そのものに有利であることを忘れないでください。
この記事は元々BenDicksonによって書かれ、BenDicksonによって公開されました。 TechTalks、テクノロジーのトレンド、それが私たちの生活やビジネスのやり方にどのように影響するか、そしてそれらが解決する問題を調査する出版物。 しかし、テクノロジーの邪悪な側面、新しいテクノロジーのより暗い意味、そして私たちが注意する必要があることについても説明します。 元の記事を読むことができます ここ。
The post 次のGPTのような大規模な言語モデルが民主化されることを期待しないでください appeared first on Gamingsym Japan.