文字コードで悩んだら
とりあえず現実逃避に、先日到着したWindows Forensics And Incident Recovery (ASIN:0321200985)を読む(というか英語読めないので眺めるが正しい)。
strings コマンドを使って Unicode な文字列を抽出する方法が書いてあるなぁ・・・ってやっぱり文字コードですか_| ̄|○
メタデータの抽出
Windows Forensics And Incident Recovery (ASIN:0321200985)では、strings コマンド*1を使ってMicrosoft Office ドキュメント内から Unicode のメタデータを抽出する方法を紹介してます。Office ドキュメントには、メタデータとして様々な情報が格納されているのは、以前ニュース*2にもなってますので良く知られていますやね。
サポート技術情報 223396『Microsoft Office ドキュメント内のメタデータを最小限に抑える方法*3』ではどんな情報が含まれているのか説明されています。
ちょっと興味深いのは、例えば Word 2003 の文書は文字コードが UTF-16LE で保存されていますが、プロパティなどの文字コードは Shift_JIS みたいなんですよね。*4
jstrings を利用して Word 2003 で作成した .doc ファイルから CP932 な文字列を抽出するとこんな↓感じになります。(化けた文字列部分は削ってます)
C:\forensics>jstrings.exe -i CP932 metatest.doc
これはタイトル部分のメッセージ
これはサブタイトル
これは作成者
これはキーワード
これはコメント
Normal.dot
hideakii
Microsoft Office Word
これは分類
これは管理者
これは会社名
これはタイトル部分のメッセージ
Title
Microsoft Office Word 文書
MSWordDoc
Word.Document.8
ここでは、id:hasegawayosuke さん作の jstrings*5 を利用していますが、monyo 先生作の jstrings*6 でも同じです。
*1:http://www.sysinternals.com/ntw2k/source/misc.shtml#strings
*2:http://www.itmedia.co.jp/enterprise/0403/05/epn11.html
*3:http://support.microsoft.com/default.aspx?scid=kb;JA;223396
*4:cpconv とか wiconv で文字列を16進に変換し、バイナリエディタでファイルを見ればすぐ確認できます
メタデータの削除
マイクロソフトから、メタデータの削除ツール( rhdtool.exe )が提供されています。これをインストールすると、ファイルメニューに『隠しデータの削除』という項目が追加されます。(又はコマンドラインで実行)
Office 2003/XP アドイン: 隠しデータの削除
http://www.microsoft.com/downloads/details.aspx?FamilyID=144e54ed-d43e-42ca-bc7b-5446d34e5360&DisplayLang=ja
実際に、先ほどテストした WORD 文書(metatest.doc)に対して『隠しデータの削除』を実行した後で jstrings を実行するとこんな↓感じです。(化けた文字列部分は削ってます)
C:\forensics>jstrings.exe -i CP932 metadel.doc
Normal.dot
Microsoft Office Word
Title
Microsoft Office Word 文書
MSWordDoc
Word.Document.8
10/30宿泊場所
ということで?宿を取らないといけないんですが、会場近くのホテルを予約すべきなのか、エソカイの付近で予約すべきなのか・・・チェックインを考えると、エソカイ会場(監獄食房?)の近辺にしないとアレですかね?ちょっと調べてみよう。
京都セントラルイン、とかいうのが近いのかな?、二次会とか考えると、京都駅の付近にしておけばいっかなぁ(笑)
足なしか、赤い奴か
USBメモリを持ってないので、128M タイプを購入しようかと考えているのですが、どれにしようかなぁ。
ガンダムEasyDisk (EDG128シリーズ)
http://www.iodata.jp/prod/pccard/edc/2004/edg128/
ギャンも捨てがたいんですが、やはり MSM-07S にしようかなぁ(悩)