@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

2005-10-29から1日間の記事一覧

正規表現とサロゲートペア

例えば「A1C」「A2C」「A3C」のように A と C の間に任意の1文字が含まれる文字列を検索する場合、EnCase の正規表現では「A.C」とか書くことになるかと思います。 しかし、「A U+10000 C」という文字列の場合、実際には「A U+D800 U+DC00 C」がディスク上の…

NTFSファイル名に利用している場合

U+10000 な文字はファイル名に利用することもできるので、EFE 5.04a でどう表示されるかも確認してみました。フォントに Arial Unicode MS を指定している場合、U+10000 は □ で表示されますが、MFT レコード(のファイル名を記録しているバイト列)を直接確…

U+10000を扱う

Unicode スカラー値 U+10000 〜 U+10FFFF の範囲にある文字を UTF-16 で扱う場合、サロゲートペアが使われるので、Word の作成したファイルというか、ディスク上のバイト列も当然サロゲートペアで記録されることになります。 例えば U+10000 は、 UTF-16 で…

向いてるらしい

ということで?id:hasegawayosuke:20051025#1130167134 で教えていただいた以下の URL を眺めてみる。 Searching for supplementary characters http://blogs.msdn.com/michkap/archive/2005/10/24/483965.aspx サロゲートペアな文字の検索ということですか.…

Unicode サロゲートペア