アンタイ・フォレンジック妖怪の独り言

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

正規化してから検索する

互換漢字 U+FA19 は、正規化すると統合漢字 U+795E に変換されます。istrings で取り出した文字列を、wiconv で正規化すると互換漢字 U+FA19 は U+795E に変換されるので、「神」を検索すれば一致するようになりますね。
他にも例えば「車」U+8ECA の互換漢字 U+F902 とかあるわけですが、フォントがMS P ゴシックでは U+F902 は「・」と表示されるのに対して、Arial Unicode MS では U+F902 も「車」と表示されます。これも正規化すれば U+F902 が U+8ECA に変換されるので「車」で検索すれば OK なんですが、互換漢字全般に対してこの検索でオケーなのか、私にはわかりません(^^;;
互換漢字については「文字の海、ビットの舟」特別編24 を読んでもう少し勉強しなければ...