@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

ハイブリッド Office 再び

木曜日の夜に、再び鍋*1をつまみに、7月に日記に書いたハイブリッドオフィスファイルの話題になりました。
前回、個人的に調べた感じではてっきり、Office 2007 の Office 形式ファイルに含まれる、Office 2003 形式ファイルのことを指すのかと思っていたのですが、全然違っていたことが判明(笑)

*1:前回はもつ鍋でしたが、今回は鶏なべ?

Officeファイルのマージ

ということで、どうも“hybrid MS Office files”というのは、Merge Streams ツールを使って作成したファイルのことを示していることが判明。

Merge Streams 1.0
http://www.ntkernel.com/w&p.php?id=23

このツールを使うと、たとえば WORD 2003 のファイルと Excel 2003 のファイルをマージすることができ、拡張子によってファイル内容の表示を変化させることができるというものです。
例えば、秘密情報を含む XLS ファイルを何でもない文章の DOC ファイルとマージし、拡張子を DOC としておくと、WORD で開いた場合には、何でもない文章が表示されます。しかし、拡張子を DOC から XLS に変更して同じファイルを開くと、秘密情報を含む XLS ファイルのデータが表示されるということになります。

①WORDのファイルとExcelのファイルをマージする(WORDにExlcelのデータがマージされる)
拡張子 DOC のまま、WORD で開くと Word 文書のデータが表示される
拡張子を Xls に変更する
Excel で開くとマージされた Excel のデータが表示される

ただし、データ内容は平文でそのまま結合されているだけですので、ちょっとしたトリックというか拡張子だけで判断するとひっかかる場合があるというところでしょうか。バイナリレベルの検索であればデータ内容はそのままですので、ヒットすることになります。
OLEのデータ構造なので、EnCase で View File Structure を使えばマウントしてデータ構造を確認することもできますが、オブジェクトを追加した場合と違って、目視で識別しやすいデータがあまりないようです。
このネタはWindows Forensic Analysis DVD Toolkit (Learning Made Simple) Windows Forensic Analysis DVD Toolkit (Learning Made Simple)のコラムにも記載されているのですが、hybrid MS Office file という単語は出てこないので、はたして Hybrid で通じるのか謎だったりはします・・・

テキスト変換ツールの反応

Merge Streams でマージした文書ファイルを、テキスト変換ツールにかけるとこれも期待通りな?反応をしてくれます。たとえば、xdoc2txt を使ってそれぞれの拡張子でテキストを抽出させると、拡張子 DOC の場合には Word 文書の内容を、拡張子 Xls の場合には Excel 文書の内容をテキスト抽出してくれます。
ちなみに、拡張子がない状態で試してみるとよくわかない文字列が表示されるのですが、詳しくは見ていません。