メタデータの抽出

Windows Forensics And Incident Recovery (ASIN:0321200985)では、strings コマンド*1を使ってMicrosoft Office ドキュメント内から Unicode のメタデータを抽出する方法を紹介してます。Office ドキュメントには、メタデータとして様々な情報が格納されているのは、以前ニュース*2にもなってますので良く知られていますやね。
サポート技術情報 223396『Microsoft Office ドキュメント内のメタデータを最小限に抑える方法*3』ではどんな情報が含まれているのか説明されています。
ちょっと興味深いのは、例えば Word 2003 の文書は文字コードが UTF-16LE で保存されていますが、プロパティなどの文字コードは Shift_JIS みたいなんですよね。*4
jstrings を利用して Word 2003 で作成した .doc ファイルから CP932 な文字列を抽出するとこんな↓感じになります。（化けた文字列部分は削ってます）

C:\forensics>jstrings.exe -i CP932 metatest.doc
これはタイトル部分のメッセージ
これはサブタイトル
これは作成者
これはキーワード
これはコメント
Normal.dot
hideakii
Microsoft Office Word
これは分類
これは管理者
これは会社名
これはタイトル部分のメッセージ
Title
Microsoft Office Word 文書
MSWordDoc
Word.Document.8

ここでは、id:hasegawayosuke さん作の jstrings*5 を利用していますが、monyo 先生作の jstrings*6 でも同じです。

*1:http://www.sysinternals.com/ntw2k/source/misc.shtml#strings

*2:http://www.itmedia.co.jp/enterprise/0403/05/epn11.html

*3:http://support.microsoft.com/default.aspx?scid=kb;JA;223396

*4:cpconv とか wiconv で文字列を16進に変換し、バイナリエディタでファイルを見ればすぐ確認できます

*5:http://www.alles.or.jp/~hasepyon/

*6:http://www.monyo.com/technical/products/jstrings/

@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

メタデータの抽出