@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

メタデータの抽出

Windows Forensics And Incident Recovery (ASIN:0321200985)では、strings コマンド*1を使ってMicrosoft Office ドキュメント内から Unicodeメタデータを抽出する方法を紹介してます。Office ドキュメントには、メタデータとして様々な情報が格納されているのは、以前ニュース*2にもなってますので良く知られていますやね。
サポート技術情報 223396『Microsoft Office ドキュメント内のメタデータを最小限に抑える方法*3』ではどんな情報が含まれているのか説明されています。
ちょっと興味深いのは、例えば Word 2003 の文書は文字コードが UTF-16LE で保存されていますが、プロパティなどの文字コードShift_JIS みたいなんですよね。*4
jstrings を利用して Word 2003 で作成した .doc ファイルから CP932 な文字列を抽出するとこんな↓感じになります。(化けた文字列部分は削ってます)

C:\forensics>jstrings.exe -i CP932 metatest.doc
これはタイトル部分のメッセージ
これはサブタイトル
これは作成者
これはキーワード
これはコメント
Normal.dot
hideakii
Microsoft Office Word
これは分類
これは管理者
これは会社名
これはタイトル部分のメッセージ
Title
Microsoft Office Word 文書
MSWordDoc
Word.Document.8

ここでは、id:hasegawayosuke さん作の jstrings*5 を利用していますが、monyo 先生作の jstrings*6 でも同じです。