wiconv-0.3 がリリースされるようなので、、正規化についてもっと勉強しておこうと、「文字の海、ビットの舟」の連載 特別編25 を読む。
特別編25
JIS X 0213の改正は、文字コードにどんな未来をもたらすか(8) 番外編:改正JIS X 0213とUnicodeの等価属性/正規化について(下)
http://internet.watch.impress.co.jp/www/column/ogata/sp25.htm
ここでは、例として U+795E の「神」と CJK 互換漢字 U+FA19 が存在する場合の検索について解説されています。
なにげに Windows の文字コード表で U+795E と U+FA19 を呼び出してみたのですが、Arial Unicode MS フォントを利用している場合、どちらも字形が「神」になるみたいですね。*1
フォレンジック・ツールによっては、多言語対応のために Arial Unicode MS フォントを表示に利用することがあるのですが、見た目が同じだと U+795E なのか U+FA19 を表示しているのかすぐにわかりませんね。
画面上に「神」という文字があったので、これを検索すべくEnCase FEで「神」 U+795E という文字を検索キーワードとして登録し検索した場合、バイト列が異なる互換漢字 U+FA19 は当然ヒットしません。
MS P ゴシック フォントを表示に利用していれば、U+795E と U+FA19 は字形が異なるので、別々に登録し検索しなければいけないと気が付くかもしれませんが、字形が同じだと見た目だけでは判断できませんね。
*1:MS P ゴシックを指定していれば、U+795E と U+FA19 の字形の違いを認識できます