この記事は、最新の記事の一部です。 AI研究。
敵対者があなたに機械学習モデルを提供し、その中に悪意のあるバックドアを密かに植え付けた場合、それを発見できる可能性はどのくらいありますか? カリフォルニア大学バークレー校、MIT、および高等研究所の研究者による新しい論文によると、ごくわずかです。
ザ 機械学習のセキュリティ MLモデルがますます多くのアプリケーションに組み込まれるにつれて、ますます重要になっています。 新しい調査では、機械学習モデルのトレーニングと開発をサードパーティやサービスプロバイダーに委任することによるセキュリティの脅威に焦点を当てています。
AIの才能とリソースが不足しているため、多くの組織は、事前にトレーニングされたモデルまたはオンラインMLサービスを使用して、機械学習の作業をアウトソーシングしています。 これらのモデルとサービスは、それらを使用するアプリケーションに対する攻撃の原因となる可能性があります。
新しい 研究論文 悪意のある動作をトリガーするために使用できる機械学習モデルに検出できないバックドアを仕掛ける2つの手法を紹介します。
このホワイトペーパーでは、機械学習パイプラインの信頼を確立するための課題に光を当てています。
機械学習モデルは、顔の認識、画像の分類などの特定のタスクを実行するようにトレーニングされています。 スパムの検出、または製品レビューやソーシャルメディアの投稿の感情を判断します。
機械学習バックドアは、訓練されたMLモデルに秘密の動作を埋め込む手法です。 モデルは、敵から提供された特別に細工された入力によってバックドアがトリガーされるまで、通常どおり機能します。 たとえば、攻撃者は、ユーザーの認証に使用される顔認識システムをバイパスするバックドアを作成できます。
シンプルでよく知られているMLバックドア方式は データ中毒。 データポイズニングでは、攻撃者はターゲットモデルのトレーニングデータを変更して、1つ以上の出力クラスにトリガーアーティファクトを含めます。 その後、モデルはバックドアパターンに敏感になり、意図した動作(たとえば、ターゲット出力クラス)を検出するたびにトリガーします。
他にも、次のようなより高度な手法があります。 トリガーレスMLバックドア と PACD。 機械学習バックドアは密接に関連しています 敵対的攻撃、MLモデルが誤分類する原因となる摂動データを入力します。 敵対的攻撃では、攻撃者は訓練されたモデルの脆弱性を見つけようとしますが、MLバックドアでは、敵対者は訓練プロセスに影響を与え、意図的に敵対的脆弱性をモデルに埋め込みます。
ほとんどのMLバックドア技術には、モデルのメインタスクのパフォーマンスのトレードオフが伴います。 メインタスクでのモデルのパフォーマンスが大幅に低下すると、被害者は疑わしくなるか、必要なパフォーマンスを満たしていないためにモデルの使用を控えます。
彼らの論文では、研究者は、検出できないバックドアを、通常のトレーニングを受けたモデルと「計算上区別できない」と定義しています。 これは、ランダムな入力では、悪性および良性のMLモデルのパフォーマンスが同等でなければならないことを意味します。 一方では、バックドアは偶然にトリガーされるべきではなく、バックドアの秘密を知っている悪意のあるアクターだけがそれをアクティブ化できるはずです。 一方、バックドアシークレットを使用すると、悪意のあるアクターは特定の入力を悪意のある入力に変えることができます。 また、入力に最小限の変更を加えることで、敵対的な例を作成するのに必要な変更よりも少なくすることができます。
「私たちは…偶然ではなく悪意を持って発生する問題を研究するという考えを持っていました。 そのような問題が回避される可能性は低いことを示しています」またはIASのポスドク研究員で論文の共著者であるZamirは次のように述べています。 TechTalks。
研究者たちはまた、暗号化のバックドアに関する膨大な利用可能な知識を機械学習にどのように適用できるかを調査しました。 彼らの努力の結果、2つの新しい検出不可能なMLバックドア技術が生まれました。
新しいMLバックドア技術は、 非対称暗号 およびデジタル署名。 非対称暗号化では、対応するキーペアを使用して、情報を暗号化および復号化します。 すべてのユーザーは、自分自身が保持する秘密鍵と、他のユーザーがアクセスできるように公開できる公開鍵を持っています。 公開鍵で暗号化された情報のブロックは、秘密鍵でのみ復号化できます。 これは、メッセージを安全に送信するために使用されるメカニズムです。 PGPで暗号化された電子メール またはエンドツーエンドの暗号化されたメッセージングプラットフォーム。
デジタル署名は逆のメカニズムを使用し、メッセージの送信者の身元を証明するために使用されます。 あなたがメッセージの送信者であることを証明するために、あなたはそれをあなたの秘密鍵でハッシュして暗号化し、あなたのデジタル署名としてメッセージと一緒に結果を送ることができます。 メッセージを解読できるのは、秘密鍵に対応する公開鍵のみです。 したがって、受信者は公開鍵を使用して署名を復号化し、その内容を検証できます。 ハッシュがメッセージの内容と一致する場合、それは本物であり、改ざんされていません。 デジタル署名の利点は、リバースエンジニアリングが不可能であり(少なくとも今日のコンピューターでは)、署名されたデータへのわずかな変更で署名が無効になることです。
Zamirと彼の同僚は、同じ原則を機械学習のバックドアに適用しました。 このホワイトペーパーでは、暗号化キーベースのMLバックドアについて次のように説明しています。 候補者 メッセージと署名のペア。 元の分類器と並行して実行される署名スキームの公開鍵検証手順を使用して、分類器を拡張します。 この検証メカニズムは、検証に合格した有効なメッセージと署名のペアによってトリガーされ、メカニズムがトリガーされると、分類子を引き継ぎ、出力を必要なものに変更します。」
基本的に、これは、バックドアMLモデルが入力を受信すると、攻撃者が保持している秘密鍵でのみ作成できるデジタル署名を探すことを意味します。 入力が署名されている場合、バックドアがトリガーされます。 そうでない場合、通常の動作が続行されます。 これにより、バックドアが誤ってトリガーされたり、他のアクターによってリバースエンジニアリングされたりすることがなくなります。
シグニチャベースのMLバックドアは、「ブラックボックスを検出できません」。 つまり、入力と出力にしかアクセスできない場合、安全なMLモデルとバックドアのMLモデルの違いを区別することはできません。 しかし、機械学習エンジニアがモデルのアーキテクチャを詳しく調べると、デジタル署名メカニズムを含めるためにモデルが改ざんされていることがわかります。
彼らの論文では、研究者たちはホワイトボックスで検出できないバックドア技術も紹介しています。 「返された分類器の重みとアーキテクチャの完全な説明があったとしても、モデルにバックドアがあるかどうかを効率的に区別することはできません」と研究者は書いています。
ホワイトボックスバックドアは、オンラインリポジトリで公開されているオープンソースの事前トレーニング済みMLモデルにも適用されるため、特に危険です。
「私たちのバックドア構造はすべて非常に効率的です」とZamir氏は述べています。 「他の多くの機械学習パラダイムでも、同様の効率的な構築が可能であると強く考えています。」
研究者たちは、機械学習モデルの変更に対して堅牢にすることで、検出できないバックドアをさらに一歩進めました。 多くの場合、ユーザーは事前にトレーニングされたモデルを取得し、次のような微調整を行います。 追加データでそれらを微調整する。 研究者たちは、十分にバックドア化されたMLモデルがそのような変更に対して堅牢であることを証明しています。
「この結果と以前のすべての同様の結果との主な違いは、初めて 証明 バックドアを検出できない」とザミール氏は語った。 「これは、これが単なるヒューリスティックではなく、数学的に適切な懸念事項であることを意味します。」
事前にトレーニングされたモデルとオンラインでホストされるサービスに依存することが機械学習アプリケーションで一般的になりつつあるため、このペーパーの調査結果は特に重要です。 大規模なニューラルネットワークのトレーニングには、多くの組織にはない専門知識と大規模なコンピューティングリソースが必要です。これにより、事前にトレーニングされたモデルが魅力的でアクセスしやすい代替手段になります。 事前に訓練されたモデルの使用も促進されています。 大型機械学習モデルのトレーニングのカーボンフットプリント。
機械学習のセキュリティ慣行は、さまざまな業界でのその使用の大幅な拡大にまだ追いついていない。 私が以前に議論したように、私たちのツールと実践は準備ができていません 新種の深層学習の脆弱性。 セキュリティソリューションは主に、プログラムがコンピュータに与える指示、またはプログラムとユーザーの動作パターンの欠陥を見つけるように設計されています。 しかし、機械学習の脆弱性は通常、それらを実行するソースコードではなく、数百万から数十億のパラメーターに隠されています。 これにより、悪意のある攻撃者がバックドアの深層学習モデルをトレーニングし、セキュリティアラームをトリガーすることなく、事前にトレーニングされたモデルのいくつかの公開リポジトリの1つに公開することが容易になります。
この分野での注目すべき取り組みは 敵対的なML脅威マトリックス、機械学習パイプラインを保護するためのフレームワーク。 Adversarial ML Threat Matrixは、デジタルインフラストラクチャの攻撃に使用される既知の文書化された戦術と手法を、機械学習システムに固有の方法と組み合わせたものです。 これは、MLモデルのトレーニング、テスト、および提供に使用されるインフラストラクチャ、プロセス、およびツール全体の弱点を特定するのに役立ちます。
同時に、MicrosoftやIBMなどの組織は、機械学習のセキュリティと堅牢性の問題に対処するのに役立つオープンソースツールを開発しています。
Zamirと彼の同僚の仕事は、機械学習が日常生活でより顕著になるにつれて、新しいセキュリティの問題をまだ発見して対処していないことを示しています。 「私たちの仕事からの主なポイントは、トレーニング手順をアウトソーシングし、受信したネットワークをそのまま使用するという単純なパラダイムは決して安全ではないということです」とZamir氏は述べています。
この記事はもともとベンディクソンによって公開されました TechTalks、テクノロジーのトレンド、それが私たちの生活やビジネスのやり方にどのように影響するか、そしてそれらが解決する問題を調査する出版物。 しかし、テクノロジーの邪悪な側面、新しいテクノロジーのより暗い意味、そして私たちが注意する必要があることについても説明します。 元の記事を読むことができます ここ。
The post 機械学習には憂慮すべき脅威があります:検出できないバックドア appeared first on Gamingsym Japan.