@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

全角「ア」のパターン

RTF形式で、全角「ア」を RTF 形式で保存した場合に、エスケープ処理がどのようにされているかを調べてみました。
手順的には、対象アプリケーションを起動し、「ア」を入力して RTF 形式で保存し、メモ帳で中を開いて確認していますが、「\'83A」でエスケープ処理しているアプリケーションがいるか探しています(っていうかほとんど私信に近かったり)

1 Windows 98 ワードパッド: \'83\'41
2 Windows 2000 WordPad Ver5 Build 2195 Sp4: \'83\'41
3 Windows 2003 Server WordPad Ver5.2 (Build 3790.srv03_gdr.040410-1234): \'83\'41
4 Windows XP WordPad Version 5.1(Build 2600.xpsp_sp2_gdr.050301-1519:Sp2): \'83\'41
5 Windows Vista WordPad Version 6.0(Build 6000): \'83\'41
6 Office Word 2002(XP)
7 Office Word 2003(11.8026.6568)SP2: \'83\'41
8 Office Word 2007(120.4518.1014) MSO(120.4518.1014): \'83\'41

近くに Word 2002 がないので確認できていませんが、この流れでいくとマイクロソフト社の製品では 2バイト目が 0x20 <= ch < 0x80 でも \'hh 形式でエスケープしているっぽいですかね。

WORDのパターン色々

WORD 2003 で「アイウ」を入力し RTF で保存した場合のパターンは「\'83\'41\'83\'43\'83\'45」
WORD 2003 に文字コード表から「アイウ」をフォント MS P ゴシックでコピーして張り付けて RTF で保存した場合のパターンは「\'83\'41\'83\'43\'83\'45」
WORD 2003 に文字コード表から「アイウ」を Arial Unicode MS フォント でコピーして張り付けて RTF で保存した場合のパターンは「\'83\'41\loch\af35\hich\af21\dbch\f35 \'83\'43\loch\af35\hich\af21\dbch\f35 \'83\'45」

Word+Acrobat

WORD 2003で「あいう」を入力し、PDF で出力後、Acrobat 7.0.9 でファイルを開いて RTF 形式で保存した場合のパターンは「{\uc2\u12354 \'82\'A0}{\uc2\u12356 \'82\'A2}{\uc2\u12358 \'82\'A4}」
これを EnCase の GREP 検索で検索する場合は「\\u12354.*\\u12356.*\\u12358」とかですかね。
補足
Acrobat 7.0.9 でPDFをRTFに変換した場合、エスケープする必要のない?ASCII文字列も「{\author \'69\'68\'61\'72\'61}」のようにエスケープするみたいですね。\'69\'68\'61\'72\'61 = ihara