UTF-8
Lhaplus で Docx ファイルの拡張子を ZIP に変更して展開してみましたが、エラーがでちゃうんですね。展開そのものはできているようですけど....
でもって XML ファイルとか見てたんですが、Docx では文字コードが UTF-8 なんですね。
「あ」が \xE3\x81\x82 となるわけですが、Vista でサポートされているサロゲートペアな文字 U+219C3 を Word 2007 で保存すると \xF0\xA1\xA7\x83 と UTF-8 のサロゲートペアのバイト列で保存されてなかなか興味深いです。っていうか、Vista でサロゲートペアはいいんですけど、文字コード表の Unicode で指定が対応してない気がする・・・*1
いずれにしても、ここ最近文字コードの勉強さぼっていたので、少し勉強しないと...orz
Microsoft Windows Vista における JIS X 0213:2004 (JIS2004) 対応について
http://go.microsoft.com/fwlink/?LinkID=76814
http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/default.mspx
この文書はとてもわかりやすく書かれていて嬉しい。P14にサロゲートペアに関する説明があります。