埋め込みオブジェクトが含まれる文書
Autopsy のキーワード検索において、文書内にオブジェクトが埋め込まれている場合にどの様な扱いになるかを確認。
サンプルデータとして、Word文書(DOCX形式)内に、動画ファイル(MOV)、JPEGファイル(2件のうち1件は単純に画像貼り付け、もう1件はオブジェクトとして挿入、Excelファイルを追加したファイルを作成。
意図的に「埋め込みファイルの抽出ツール」のモジュールは実行せず、「キーワード検索」と「ファイルタイプ識別」を実行、「インデックス化されたテキスト」タブで文字列を確認。
Excelシート内に記入した文字列が抽出されていると共に、Excel シート内で「ふりがな」として登録されている文字列も抽出されている事を「インデックスされたテキスト」内で確認ができる。
薬剤師で「ヤクザ」が文字列検索でヒットする、というネタを以前に教えていただき、それ以降データとしてよく使っています、ありがとうございます。
別途、テスト的にPDFファイルも埋め込みオブジェクトとして作成してみましたが、PDFファイル内の文字列も抽出されます。
埋め込みオブジェクトを含め、文書内にデータとして存在するのに、文字列の抽出が出来ないケースにはどの様なデータがあるでしょうか?
埋め込みファイルの抽出
Autopsy には Embedded File Extraction Module が提供されており、ZIPファイルなどコンテナ内からファイルを取り出す事が可能になっている。対象ファイルとしては、DOCX も含まれているので、先ほどのWordファイル(DOCX)を対象にモジュールを実行する。
なお、ヘルプファイルでは下記の注意書きが行われている。
NOTE: Certain media content embedded inside Doc, Docx, PPT, PPTX, XLS, and XLSX might not be extracted.
インジェストモジュール「埋め込みファイルの抽出」を実行後、Word 文書ファイル内に貼り付けてあった JPEG 画像ファイル 1件が抽出された事を確認、
オブジェクトとして埋め込まれている、別の JPEG 画像ファイルと MOV ファイルは抽出されていない。Excel シートも個別に抽出されるという事ではない。
Word文書内に埋め込まれているオブジェクト(例えばPDFファイル)に画像ファイルが含まれている場合、それが抽出される事はない。
コンテナファイルとして、他のデータを含んでいるのに、「埋め込みファイルの抽出」では取り出されないデータとしては他に何があるでしょうか?