AIハッキング - ハッカーは人工知能をサイバー攻撃にどう利用するか

今すぐ読む
サイト翻訳には人工知能を利用しており、正確性を追求しておりますが、必ずしも100%正確とは限りません。ご了承ください。

AI拡張ファイルタイプ検出モデルv3

By OPSWAT
この記事を共有する

ファイル・スプーフィングは、攻撃者が従来のセキュリティ制御を回避するために使用する最も効果的なテクニックの1つである。昨年、OPSWAT 、従来のツールに残されたギャップを埋めるために、AIで強化されたファイルタイプ検出エンジンを導入しました。そして今年、File Type Detection Model v3では、精度が最も重要であり、従来のロジックベースのシステムでは常に不十分であったファイルタイプに焦点を当てることで、その機能を進化させました。

OPSWAT File Type Detection Model v3は、曖昧で構造化されていないファイル、特にスクリプト、設定ファイル、ソースコードなどのテキストベースの形式を確実に分類するという特定の課題に対処するために設計されています。一般化された分類器とは異なり、このモデルは、シェルスクリプトを誤って分類したり、VBAコードを含むWordファイルのようなマクロが埋め込まれたドキュメントを検出できなかったりすると、重大なセキュリティリスクが発生するサイバーセキュリティのユースケースを想定して構築されています。

真のファイルタイプ検出が重要な理由

ほとんどの検出システムは、3つの一般的なアプローチに依存している:

  • ファイル拡張子:このメソッドは、ファイル名をチェックし、.docや.exeなどの拡張子に基づいてタイプを決定します。高速で、プラットフォーム間で幅広く互換性がある。しかし、簡単に操作されます。また、システムによっては拡張子を完全に無視するものもあり、この方法は信頼性に欠ける。 
  • マジックバイト:これは、PDFや画像など、多くの構造化ファイルの先頭に見られる固定シーケンスです。この方法は、実際のファイル内容を調べることにより、ファイル拡張子よりも精度を向上させる。欠点は、すべてのファイルタイプが明確に定義されたバイトパターンを持つわけではないことです。マジックバイトはなりすましも可能であり、ツール間で規格が一貫していないため、混乱が生じる可能性がある。 
  • 文字分布分析:この方法は、ファイルの実際の内容を分析し、そのタイプを推測する。特に、スクリプトや設定ファイルなど、テキストベースの緩い構造の形式を識別するのに役立ちます。より深い洞察が得られる反面、処理コストが高くなり、異常なコンテンツで誤検出を生じる可能性があります。また、読み取り可能な文字パターンを持たないバイナリファイルに対しては、あまり有効ではない。

これらの方法は、構造化されたフォーマットではうまく機能するが、非構造化ファイルやテキストベースのファイルに適用すると信頼性が低くなる。例えば、最小限のコマンドしか持たないシェルスクリプトは、プレーンテキストファイルに酷似していることがある。このようなファイルの多くには強力なヘッダーや一貫したマーカーがないため、バイトパターンや拡張子に基づく分類は不十分です。攻撃者はこの曖昧さを悪用して、悪意のあるスクリプトを無害な文書やログに偽装します。

TrIDやLibMagicのようなレガシーなツールは、このレベルのニュアンスには対応していない。一般的なファイルの分類には効果的ですが、それらは幅とスピードのために最適化されたものであり、セキュリティの制約のもとでの特殊な検出には向いていません。

ファイルタイプ検出モデルv3の仕組み

ファイルタイプ検出モデルv3の学習プロセスは2段階からなる。第一段階では、MLM(Masked Language Modeling)を用いてドメインに適応した事前学習を行い、モデルがドメイン固有の構文と構造パターンを学習できるようにする。第2段階では、各ファイルに真のファイルタイプが明示的にアノテーションされた教師ありデータセットでモデルを微調整する。

このデータセットは、通常のファイルと脅威のサンプルを精選したもので、実世界の精度とセキュリティの妥当性のバランスを保証しています。OPSWAT トレーニング・データを管理し、セキュリティ運用に最も重要な形式を継続的に改良することができます。

AIコンポーネントは、広範囲ではなく、正確に適用される。File Type Detection Model v3は、スクリプト、ログ、構造が一貫していない、または存在しない緩くフォーマットされたテキストなど、従来の検知手法では効果的に扱えない曖昧で構造化されていないファイルタイプに重点を置いています。平均推論時間は50ミリ秒以下であり、セキュアなファイルアップロード、エンドポイントエンフォースメント、自動化パイプラインなどのリアルタイムワークフローに効率的です。

ベンチマーク結果

OPSWAT ファイルタイプ検出エンジンを、大規模かつ多様なデータセットを使用して、主要なファイルタイプ検出ツールと比較するベンチマークを実施しました。比較対象は、248,000ファイル、約100種類のファイルタイプにおけるF1スコアです。

図1:異なるアプローチのF1スコア比較

OPSWAT File Type Detection Engineは、TrID、LibMagic、高度なパーサーやFile Type Detection Model v3といったOPSWAT独自のテクノロジーなど、複数のテクニックを統合しています。この複合的なアプローチにより、構造化フォーマットと非構造化フォーマットの両方において、より強力で信頼性の高い分類を実現します。

ベンチマークテストでは、このエンジンは単独のツールよりも高い総合精度を達成しました。TrID、LibMagic、Magika v3は特定の分野では優れた性能を発揮しますが、ファイルヘッダが欠落していたり、コンテンツが曖昧であったりすると精度が低下します。OPSWAT 、従来の検出と深いコンテンツ分析を重ねることで、構造が弱かったり、意図的に誤解を招いたりする場合でも、一貫したパフォーマンスを維持します。

テキストファイルとスクリプトファイル

テキストやスクリプトベースのフォーマットは、ファイルを媒介とする脅威や横方向の移動にしばしば関与しています。私たちは、以下のようなフォーマットにわたる169,000のファイルに焦点を当てたテストを実施しました。 .sh、.py、.ps1、 そして .conf.

図2:テキストベースのフォーマットに対するさまざまなアプローチの比較

TrIDとLibMagicは、このような非構造化ファイルの検出に限界を示した。ファイルの内容が予想されるバイトパターンから外れると、それらのパフォーマンスは急速に低下した。

ファイルタイプ検出モデルv3 vs Magika v3

OPSWAT ファイルタイプ検出モデルv3を、GoogleのオープンソースAI分類器であるMagika v3と比較し、同じ50万ファイルのデータセットを用いて、30種類のテキストファイルとスクリプトファイルについて評価した。

図3:ファイルタイプ検出モデルv3とMagika v3のF1比較

主な見解

  • ファイルタイプ検出モデルv3は、ほぼすべてのフォーマットでMagikaに匹敵するか、上回っている。 
  • 最も好調だったのは、以下のような緩く定義されたフォーマットであった。 .bat、.perl、.html、 と。xmlである。 
  • 汎用の識別用に設計されたMagikaとは異なり、File Type Detection Model v3は、誤分類が重大なセキュリティ上の意味を持つ、リスクの高いフォーマット用に最適化されている。

主な使用例

Secure ファイルのアップロード、ダウンロード、転送

Webポータル、電子メールの添付ファイル、ファイル転送システムを通じて、偽装されたファイルや悪意のあるファイルがお客様の環境に侵入するのを防ぎます。AIによって強化された検出機能は、拡張子やMIMEヘッダーにとどまらず、リネームされたファイル内のスクリプト、マクロ、埋め込み実行可能ファイルを識別します。

DevSecOpsパイプライン

ソフトウェアのビルドやデプロイ環境を汚染する前に、安全でない成果物を阻止します。実際のコンテンツに基づいて真のファイルタイプを検証することで、MetaDefender Core 、承認されたフォーマットのみがCI/CDパイプラインを通過することを保証し、サプライチェーン攻撃のリスクを低減し、安全な開発プラクティスのコンプライアンスを維持します。

コンプライアンスの実施

正確なファイルタイプの検出は、HIPAA、PCI DSS、GDPR、NIST 800-53のような、データの完全性とシステムセキュリティの厳格な管理を要求する規制要件を満たすために不可欠です。なりすましや未承認のファイルタイプを検出してブロックすることで、機密データの漏洩を防ぐポリシーの実施、監査準備の維持、コストのかかる罰則の回避に役立ちます。

終わりに

Magikaのような汎用的なファイル分類器は、幅広いコンテンツの分類に役立つ。しかし、サイバーセキュリティにおいては、網羅性よりも精度が重要です。たった1つの誤分類されたスクリプトや誤ラベル付けされたマクロが、封じ込めと侵害の分かれ目になる可能性があります。

OPSWAT ファイルタイプ検出エンジンは、その精度を提供します。AIで強化されたファイルタイプ解析と実績のある検出方法を組み合わせることで、特に曖昧な形式や構造化されていない形式において、従来のツールが失敗した場合に信頼できる分類のレイヤーを提供します。すべてを置き換えるのではなく、リアルタイムでコンテキストを意識した検出により、セキュリティスタックの重要な弱点を補強します。

OPSWATで最新情報をお届けします!

今すぐご登録ください、 ストーリー、イベント情報などをお届けします。