@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

2005-10-30から1日間の記事一覧

互換等価

特別編24 では、互換等価の例として「Ⅲ」U+2162 が出ているんですが、これを NFKD または NFKC で正規化した場合、U+0049 な 「I」 の三文字「III」へと変換されるんですね。 U+2162 ↓NFKD、NFKC U+0049 U+0049 U+0049 これはこれで、バイト列が 3倍になるの…

正規化してから検索する

互換漢字 U+FA19 は、正規化すると統合漢字 U+795E に変換されます。istrings で取り出した文字列を、wiconv で正規化すると互換漢字 U+FA19 は U+795E に変換されるので、「神」を検索すれば一致するようになりますね。 他にも例えば「車」U+8ECA の互換漢…

Wordのあいまい検索

Mac OS X のテキストエディットでは U+795E を検索すると U+FA19 も一致してくれますが、 Word 2003 で「神」の検索を試したところ「あいまい検索」を有効にしても互換漢字の U+FA19 は一致しないようです。“漢字表記のゆれ(異体字)”をチェックしておけば…

互換漢字

wiconv-0.3 がリリースされるようなので、、正規化についてもっと勉強しておこうと、「文字の海、ビットの舟」の連載 特別編25 を読む。 特別編25 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(8) 番外編:改正JIS X 0213とUnicodeの等価属性…