メタデータの抽出
Windows Forensics And Incident Recovery (ASIN:0321200985)では、strings コマンド*1を使ってMicrosoft Office ドキュメント内から Unicode のメタデータを抽出する方法を紹介してます。Office ドキュメントには、メタデータとして様々な情報が格納されているのは、以前ニュース*2にもなってますので良く知られていますやね。
サポート技術情報 223396『Microsoft Office ドキュメント内のメタデータを最小限に抑える方法*3』ではどんな情報が含まれているのか説明されています。
ちょっと興味深いのは、例えば Word 2003 の文書は文字コードが UTF-16LE で保存されていますが、プロパティなどの文字コードは Shift_JIS みたいなんですよね。*4
jstrings を利用して Word 2003 で作成した .doc ファイルから CP932 な文字列を抽出するとこんな↓感じになります。(化けた文字列部分は削ってます)
C:\forensics>jstrings.exe -i CP932 metatest.doc
これはタイトル部分のメッセージ
これはサブタイトル
これは作成者
これはキーワード
これはコメント
Normal.dot
hideakii
Microsoft Office Word
これは分類
これは管理者
これは会社名
これはタイトル部分のメッセージ
Title
Microsoft Office Word 文書
MSWordDoc
Word.Document.8
ここでは、id:hasegawayosuke さん作の jstrings*5 を利用していますが、monyo 先生作の jstrings*6 でも同じです。
*1:http://www.sysinternals.com/ntw2k/source/misc.shtml#strings
*2:http://www.itmedia.co.jp/enterprise/0403/05/epn11.html
*3:http://support.microsoft.com/default.aspx?scid=kb;JA;223396
*4:cpconv とか wiconv で文字列を16進に変換し、バイナリエディタでファイルを見ればすぐ確認できます