@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

UTF-8

Lhaplus で Docx ファイルの拡張子を ZIP に変更して展開してみましたが、エラーがでちゃうんですね。展開そのものはできているようですけど....
でもって XML ファイルとか見てたんですが、Docx では文字コードUTF-8 なんですね。
「あ」が \xE3\x81\x82 となるわけですが、Vista でサポートされているサロゲートペアな文字 U+219C3 を Word 2007 で保存すると \xF0\xA1\xA7\x83 と UTF-8サロゲートペアのバイト列で保存されてなかなか興味深いです。っていうか、Vistaサロゲートペアはいいんですけど、文字コード表の Unicode で指定が対応してない気がする・・・*1
いずれにしても、ここ最近文字コードの勉強さぼっていたので、少し勉強しないと...orz

Microsoft Windows Vista における JIS X 0213:2004 (JIS2004) 対応について
http://go.microsoft.com/fwlink/?LinkID=76814
http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/default.mspx

この文書はとてもわかりやすく書かれていて嬉しい。P14にサロゲートペアに関する説明があります。

*1:IMEパッドの文字一覧では検索できないっぽいので不便ですやね