連結されたPDFファイル：マルウェア対策エンジンやAIシステムを欺く簡単なトリック

著者：ヴィン・ラム、シニア・テクニカル・プログラム・マネージャー

4月1 2026 最終更新日： 4月2 2026

この記事を共有する

信頼されているファイル形式に潜む危険

PDFは、企業環境において最も広く信頼され、普及している文書形式の一つです。メールやファイル共有プラットフォーム、コラボレーションツールを通じて、日々やり取りされています。まさにその信頼性ゆえに、PDFはフィッシング攻撃、マルウェアの配布、ソーシャルエンジニアリング攻撃において、最も頻繁に悪用される手段の一つとなっています。

チェック・ポイント・リサーチによると、ファイルベースのサイバー攻撃の22％がPDFを攻撃の媒介として利用しており、全サイバー攻撃の68％は受信トレイから発生しています。あまり知られていないことですが、PDFは単なる可視コンテンツの容器ではありません。PDFは内部構造が定義された構造化された文書であり、その構造の解析方法は、リーダー、セキュリティツール、AIシステムによって異なります。

このばらつきはバグではありません。これは設計上の特性であり、高度な攻撃者は、脆弱性やエクスプロイトキット、高度なツールを一切必要とせずに、この特性を悪用する方法を習得しています。

PDFの構造を理解する

連結攻撃の仕組みを理解するには、まずPDFパーサーがどのように文書を読み込むかを理解する必要があります。

PDFリーダーがファイルを開く際、次のような決まった手順に従います。まず、最後のファイル終了マーカーを特定し、startxrefポインタを読み取り、それを用いて相互参照（xref）テーブルとトレーラーの位置を特定し、オブジェクトのオフセットを解決することで文書を再構築します。この設計は意図的なものであり、これによりリーダーはファイル全体をスキャンすることなく、大規模な文書内のオブジェクトを瞬時に特定できるようになっています。

図1 — 標準的なPDF文書の構成：ヘッダー、本文、相互参照テーブル、およびトレーラー

PDF仕様では、「増分更新（Incremental Updates）」と呼ばれる仕組みも定義されており、これによりファイル全体を書き換えることなく文書を変更することができます。変更内容は文書の末尾に追加され、更新が行われるたびに新しいオブジェクト、新しいxrefテーブル、新しいトレーラー、および新しいファイル終了マーカーが追加されます。

図2 — PDFの増分更新：各改訂版は、独自のxrefセクション、トレーラー、およびEOFマーカーを追加する

この設計のため、有効なPDFには、複数のxrefテーブル、複数のトレーラー、および複数のファイル終了マーカーが正当に含まれている場合があります。最近のパーサーの多くは、この構造を正しく処理します。しかし、この構造的な柔軟性こそが、改ざんされる可能性を現実的なものとして生み出しているのです。

連結技法

OPSWAT 、内部セキュリティ調査の過程で、全く別の2つのPDFファイルを1つのファイルに結合すると、異なるパーサーによって根本的に異なる方法で解釈される文書が生成されることをOPSWAT 。当初は構造上の奇妙な現象として捉えられていたこの事象は、これまでほとんど検証されてこなかった、有意義かつ再現可能な回避手法であることを明らかにしました。生成されたファイルには2つの独立した文書構造が含まれており、それぞれが独自のヘッダー、xrefテーブル、トレーラー、およびファイル終了マーカーを持っています。

これは、アーカイブファイルですでに確認されているパーサー悪用手法と概念的に類似しており、構造上の曖昧さを利用して、セキュリティツールから悪意のあるコンテンツを隠蔽するものです。PDFの場合、その影響はさらに広がります。セキュリティスキャナー間でファイルの内容に関する見解が一致しないだけでなく、ユーザーが最終的にPDFリーダーで閲覧するバージョンが、検査されたバージョンとは全く異なるものになる可能性があるからです。

PDFリーダーによって解析方法が異なるため、同じ結合ファイルであっても、どのアプリケーションで開くかによって表示される内容が全く異なってしまうことがあります。

用途が異なれば、内容も異なる

2つのPDFセクションを使用して概念実証（PoC）を作成しました。1つ目は長方形を描くよう指示するセクション、2つ目は円を描くよう指示するセクションです。

Adobe Reader、Foxit Reader、Chrome、Microsoft Edgeなどの一般的なPDFリーダーは、ファイル内の最後のstartxrefポインタ（追加された（2番目の）ドキュメントの構造を参照するポインタ）を特定し、circle命令をレンダリングします。

図4 — Adobe Readerは2番目の（追加された）ドキュメントの内容を表示します

Microsoft Word と Teams Preview は異なる解析戦略を採用し、最初のドキュメント構造を解析します。これらは、Adobe Reader ではユーザーには表示されない矩形指示をレンダリングします。

図5 — Microsoft Word および Teams プレビューでは、最初の（非表示の）ドキュメントの内容が表示されます

ウイルス対策ソフトの検出に対する影響の測定

この構造上の曖昧さがセキュリティに及ぼす影響は、複数のアンチウイルスエンジンの結果をOPSWAT MetaDefender®プラットフォームを用いた直接的なテストを通じて実証された。

ステップ1：元のフィッシングPDF

フィッシングコンテンツと悪意のあるハイパーリンクを含むPDFファイルを、34種類のウイルス対策エンジンに提出した。そのうち8つのエンジンが、その悪意のあるコンテンツを正しく検出した。

図6 — 元のフィッシングPDF：34のウイルス対策エンジンのうち8つが悪意のあるコンテンツを検出した

ステップ 2：先頭に整形式の文書を追加した結合PDF

フィッシング用PDFファイルの前に、空白のPDFファイルを結合して、1つのファイルを作成しました。この結合されたファイルを、前述の34のエンジンに送信しました。

図7 — 連結PDF：検出率は34個のエンジンのうち5個に低下した。3つのエンジンは構造の操作によって回避された。

検出率は34個のエンジン中5個にまで低下した。3つのウイルス対策エンジンは、もはやこの脅威を検知しなくなった。最も可能性の高い説明として、これらのエンジンは、クリーンなPDFが含まれていたファイル内の最初のドキュメント構造のみを処理し、悪意のあるコンテンツが存在していた2番目の構造をスキャンしなかったことが挙げられる。

しかし、ユーザーの立場から見れば、リスクは全く変わっていなかった。結合されたファイルをAdobe Readerで開くと、フィッシングページは攻撃者が意図した通りに表示された。

図8 — Adobe Readerは、結合されたPDFファイル内のフィッシングページを表示します。どのセキュリティエンジンが検査を行うかに関わらず、ユーザーは同じ脅威にさらされます。

AIシステムは連結された文書をどのように解釈するか

AIを活用した文書処理が企業のワークフローに定着するにつれ、この構造的な曖昧さが、従来のマルウェアの配布とは異なる新たな種類のリスクをもたらしています。組織は、文書の分析、情報の抽出、意思決定の支援のために、大規模言語モデルへの依存度を高めています。もし、それらのシステムが、人間のユーザーが目にしているものとは異なるバージョンの文書を解釈してしまった場合、その影響は、単にフィッシングリンクを見逃すというレベルをはるかに超えるものとなります。

同じ結合PDFファイルを用いたテストの結果、主要なAIプラットフォームは、従来のリーダーアプリケーションで見られるのと同じ、パーサーに依存したロジックに従ってこのファイルを解釈することが明らかになった。

GPT：第1節を解釈する

GPTはファイル内の最初のドキュメント構造を解析し、先頭に隠されたセクションからコンテンツを抽出しました。また、矩形指示を読み取り、それに基づいて処理を行いました。このセクションは、Adobe Readerでファイルを開いたユーザーには表示されないコンテンツです。

図9 — GPTは最初の（非表示の）文書構造を解析し、Adobe Readerではユーザーには見えないコンテンツを抽出する

ジェミニとクロード：第2（可視）セクションの解釈

GeminiとClaudeの両方とも、2つ目の文書の構造を解析し、ユーザーがAdobe Readerで目にする内容と一致する内容を抽出しました。これはユーザー体験の観点からは当然の挙動ですが、AIシステムも従来のリーダーと同様に、構造解析において差異が生じ得ることを示しています。

図10 — Geminiは2番目の（表示されている）ドキュメント構造を正しく読み取っている

図11 — Claudeは、ユーザーに表示される内容と一致するように、2つ目の（表示されている）ドキュメント構造も読み取ります

この不一致は、いくつかの優先度の高いリスクシナリオに直接的な影響を及ぼす：

プロンプト注入：攻撃者は、連結されたPDFファイルの隠された最初のセクションに、密かに命令を埋め込みます。ユーザーには通常の文書として表示されます。最初のセクションを解析するAIシステムは、ユーザーやレビュー担当者に何ら目に見える兆候を示すことなく、本来の動作を上書きするコマンドを受け取ります。
トレーニングデータのポイズニング：AIモデルの微調整や拡張に使用される文書には、検出を回避しつつトレーニングコーパスに対立的コンテンツを混入させる隠しセクションが含まれている可能性がある。
コンプライアンスおよび監査上の不備：文書レビュー、契約分析、または規制報告に使用されるAIシステムは、人間の弁護士やコンプライアンス担当者が確認したバージョンとは実質的に異なるバージョンの文書を処理してしまう可能性があり、その結果、目に見えないガバナンス上のギャップが生じる恐れがあります。

法務・企業顧問、プライバシー担当責任者、およびコンプライアンスチームにとって、AIシステムが人間のレビューもセキュリティツールによる検知も受けていないコンテンツに基づいて動作するというシナリオは、決して理論上の話ではありません。連結技術によって、それは極めて容易に実現可能となるのです。

OPSWAT 連結PDF攻撃にどうOPSWAT

Deep CDR™ テクノロジー：脅威が到達する前に排除するファイルの無害化処理

OPSWAT CDR™テクノロジーOPSWAT 、すべてのファイルを潜在的な悪意のあるファイルとして扱います。Deep CDR™テクノロジーは、特定の悪意のあるパターンを検出しようとするのではなく、各ファイルを分解し、公式のフォーマット仕様に照らして内部構造を検証し、仕様に準拠していない要素や定義されたポリシーの範囲外にある要素をすべて削除した上で、クリーンで完全に使用可能なファイルを再生成します。このアプローチにより、連結PDF攻撃をその構造的な根源から解決します。

Deep CDR™テクノロジーは、ファイル構造検証機能により、この攻撃手法を阻止します。連結されたPDFを処理する際、Deep CDR™テクノロジーは構造上の異常を検知します。具体的には、有効な単一のPDF文書として整合しない構成において、複数の独立した文書構造、複数のxrefテーブル、複数のトレーラー、および複数のファイル終了マーカーが存在する場合です。その後、矛盾する要素を削除し、検証済みで安全なコンテンツ層のみを用いて文書を再構築します。

Deep CDR™ テクノロジーが実際に除去するもの

MetaDefender スクリーンショットは、連結されたフィッシングPDFに対するDeep CDR™テクノロジーの分析結果MetaDefender 。Deep CDR™テクノロジーが設定・適用された結果、システムは、想定されるファイル構造やセキュリティポリシーに違反する各要素を特定し、適切な対応を行いました。

図12 — Deep CDR™ テクノロジーの分析結果：連結されたPDFから、ハイパーリンク2つが削除され、画像1つがクリーン化され、未使用のオブジェクト3つが削除されました

図に示すように、Deep CDR™テクノロジーは結合されたPDFに対して以下の処理を行いました：

2つのハイパーリンクを削除しました：文書に埋め込まれていた悪意のあるフィッシングリンクは、ファイルがユーザーに届く前に削除されました。
1枚の画像を無害化：フィッシングの餌として視覚的な誘引に使用されていた埋め込み画像が無害化されました。
使用されていないオブジェクトを3つ削除しました：非表示の最初のドキュメント構造に残されていた、有効なドキュメントレイヤーに属さなくなった孤立したオブジェクトを特定し、削除しました。

その結果、ビジネス上重要なコンテンツが保持され、ファイル形式の仕様チェックにも合格する、構造的に整ったPDFが生成されます。重要な点は、ユーザーが受け取るもの、ウイルス対策エンジンがスキャンするもの、そして下流のAIシステムが処理するものがすべて同一であるということです。つまり、隠れた構造や悪意のあるリンク、ポリシー違反のオブジェクトを一切含まない、検証済みの単一のドキュメントとなります。

柔軟なサニタイズモード

セキュリティと使いやすさを両立させる必要がある環境において、Deep CDR™テクノロジーは「フレキシブル・サニタイゼーション・モード」で動作します。システムはファイルをブロックするのではなく、構造の再構築を行います。具体的には、問題のある文書セクションを削除し、アクティブなオブジェクトや悪意のある可能性のあるオブジェクトをすべて除去した上で、ポリシーに準拠したクリーンなPDFを再生成し、ユーザーに配信します。これにより、攻撃対象領域を排除しつつ、ユーザーエクスペリエンスを維持します。

サニタイゼーションの詳細レポート

Deep CDR™ テクノロジーによって処理されたすべてのファイルについて、どのオブジェクトが特定されたか、どのような措置が講じられたか、そしてその理由を記載したフォレンジック・サニタイゼーション・レポートが生成されます。図 11 に示されているように、このレポートは、対処されたすべての構造上の異常およびポリシー違反に関する完全な監査証跡を提供します。コンプライアンス担当者、プライバシー担当者、および法務担当者にとって、このレポートは、環境に持ち込まれたファイルが一貫性があり検証可能なセキュリティポリシーに基づいて処理され、想定されるファイル構造からの逸脱が記録され、是正されたことを示す文書化された証拠となります。

Adaptive Sandbox：死角のない構造認識型分析

Deep CDR™テクノロジーがドキュメントのクリーンアップと再構築によってリスクを軽減するのに対し、OPSWAT Adaptive Sandbox Aether）OPSWAT 根本的に異なるアプローチを採用しています。すなわち、ファイル内のあらゆる想定されるドキュメント構造に対して、詳細な動作分析を行うのです。Deep CDR™テクノロジーがファイルがユーザーに届く前に脅威を除去するのに対し、Adaptive Sandbox 制御された環境下でファイルSandbox 、その本来の動作を正確に観察します。

連結されたPDFファイルの場合、Adaptive Sandbox 単一のパーサーによる解釈にSandbox その代わりに、構造を意識した分析を行い、ファイルが実際に複数の有効なPDFドキュメントを連結して含んでいることを特定します。これにより、攻撃者がパーサーの不整合を悪用して悪意のあるコンテンツを隠蔽することを直接的に防ぎます。分析は3つの段階で行われます：

1.抽出：連結された構造から、埋め込まれた各 PDF文書が個別に抽出されます。どの文書レイヤーも決定的なものとして扱われることはありません。バイナリストリーム内に存在するすべてのセクションが特定され、個別に検査できるよう分離されます。

2.分析：抽出された各ドキュメントは、制御されたエミュレート環境内で個別に分析されます。Adaptive Sandbox コンテンツSandbox 、実行時の挙動を監視するとともに、その挙動がどのドキュメント層に起因するかにかかわらず、ネットワークへのコールバック、スクリプトの実行、ペイロードのドロップ、およびレンダリングアプリケーションの悪用試みなど、あらゆる悪意のある活動を検出します。

相関分析：各独立した分析の結果は元のファイルと照合され、結合された文書全体の真の意図を反映した統一的な判定結果が生成されます。各レイヤーから抽出された侵害の兆候（IoC）は単一のフォレンジックレポートに統合され、脅威インテリジェンス、インシデント対応、およびSOCのワークフローを支援します。

その結果、死角のない完全な分析結果が得られます。埋め込まれたドキュメントはすべて分析され、オブジェクトチェーンはすべて検査されます。パーサーの抜け道は一切ありません。Adaptive Sandbox アプリケーションと悪意のあるレイヤーをSandbox 、攻撃者は、あるアプリケーションがクリーンなレイヤーのみを検知し、悪意のあるレイヤーが検査を免れるという状況を利用することはできません。Adaptive Sandbox すべてを検査します。

多層防御による包括的な防御

Deep CDR™ テクノロジーとAdaptive Sandbox 、連結された PDF ファイルによる脅威を相反する方向からSandbox 、両者が連携することで、攻撃の経路を完全に遮断します。 Deep CDR™テクノロジーは、ファイルが配信される前に脅威を排除します。ユーザーの手元に届くのは、隠しセクションや悪意のあるリンク、ポリシー違反のオブジェクトを一切含まない、構造的にクリーンなドキュメントです。Adaptive Sandbox 、配信前または配信と同時に脅威の意図をSandbox 。ドキュメントの各レイヤーが実行され、あらゆる動作が監視され、侵害の兆候（IoC）がすべて抽出・記録されます。

リスクの高い環境で活動する組織にとって、この組み合わせは特に強力です。Deep CDR™ テクノロジーは、ユーザーに届くドキュメントが隠されたロジックを実行できないようにします。Adaptive Sandbox 、連結ファイルの各レイヤーを含め、すべてのドキュメントの動作意図を正確Sandbox 。いずれのテクノロジーも、特定の攻撃手法に関する事前の知識がなくても効果を発揮します。どちらも、既知のシグネチャや脅威インテリジェンス・フィードではなく、ファイルの構造とそのコンテンツの動作に基づいて動作します。

おわりに

「連結PDF攻撃」の手法は、検知型セキュリティでは対処できない種類の脅威を浮き彫りにしています。検出できるマルウェアのシグネチャもなければ、検知できるエクスプロイトも存在しません。あるのは、正当なファイル形式を構造的に配置することで、システムごとに異なる内容として認識させる仕組みだけなのです。

ITマネージャーやディレクターにとって、運用上の影響は明らかです。現在導入されているスキャンツールは、ユーザーが実際に開いている文書とは異なるバージョンの文書を評価している可能性があるのです。

コンプライアンスおよびリスク担当役員にとって、これはガバナンス上の課題を意味します。すなわち、ファイルセキュリティの監査証跡が、実際に配信されたコンテンツを正確に反映していない可能性があるということです。

経営幹部にとって、財務上のリスクは極めて大きい。フィッシング攻撃による被害の平均コストは現在488万ドルを超え、標準的な対策をかいくぐった攻撃は、その復旧費用が最も高額なものとなっている。

法務担当者、企業顧問、およびプライバシー担当責任者にとって、人間の確認やセキュリティ上の可視性なしに、文書内の隠れたコンテンツに基づいて動作するAIシステムは、新たな重大なリスクとなっています。

OPSWAT CDR™テクノロジーとAdaptive Sandbox 、このギャップを両面からSandbox 。Deep CDR™テクノロジーは、ファイル構造を検証し、隠されたセクションや矛盾するドキュメントセクションをすべて削除した上で、クリーンで検証済みの出力を再生成することで、こうした脅威が存在しうる構造的な条件を排除します。これにより、環境に流入するすべてのファイルが、検査された内容と完全に一致することを保証します。Adaptive Sandbox 、あらゆる埋め込みドキュメント層に対して構造を意識した分析を実行し、各層を個別に実行して結果を元のファイルと照合することで、何も見落とされることなく徹底的なSandbox 。これにより、パーサーのトリックでは隠蔽できない脅威の行動意図を明らかにします。これらの技術を組み合わせることで、ユーザーが受け取るファイルの安全性を確保するとともに、攻撃者がそのファイルに意図した動作を完全に把握することが可能になります。

その他のリソース

OPSWAT ・ポートフォリオを見る
データシートをダウンロード：Deep CDR™ テクノロジーおよび Adaptive Sandbox

デモのリクエスト

タグ

ディープCDR™テクノロジー

OPSWATで最新情報をお届けします！

今すぐご登録ください、ストーリー、イベント情報などをお届けします。

購読する