互換等価

特別編24 では、互換等価の例として「Ⅲ」U+2162 が出ているんですが、これを NFKD または NFKC で正規化した場合、U+0049 な「I」の三文字「III」へと変換されるんですね。 U+2162 ↓NFKD、NFKC U+0049 U+0049 U+0049 これはこれで、バイト列が 3倍になるの…

2005-10-30

正規化してから検索する

互換漢字 U+FA19 は、正規化すると統合漢字 U+795E に変換されます。istrings で取り出した文字列を、wiconv で正規化すると互換漢字 U+FA19 は U+795E に変換されるので、「神」を検索すれば一致するようになりますね。他にも例えば「車」U+8ECA の互換漢…

2005-10-30

Wordのあいまい検索

Mac OS X のテキストエディットでは U+795E を検索すると U+FA19 も一致してくれますが、 Word 2003 で「神」の検索を試したところ「あいまい検索」を有効にしても互換漢字の U+FA19 は一致しないようです。“漢字表記のゆれ（異体字）”をチェックしておけば…

2005-10-30

互換漢字

wiconv-0.3 がリリースされるようなので、、正規化についてもっと勉強しておこうと、「文字の海、ビットの舟」の連載特別編25 を読む。特別編25 JIS X 0213の改正は、文字コードにどんな未来をもたらすか（8）番外編：改正JIS X 0213とUnicodeの等価属性…

2005-10-29

正規表現とサロゲートペア

例えば「A1C」「A2C」「A3C」のように A と C の間に任意の1文字が含まれる文字列を検索する場合、EnCase の正規表現では「A.C」とか書くことになるかと思います。しかし、「A U+10000 C」という文字列の場合、実際には「A U+D800 U+DC00 C」がディスク上の…

2005-10-29

NTFSファイル名に利用している場合

U+10000 な文字はファイル名に利用することもできるので、EFE 5.04a でどう表示されるかも確認してみました。フォントに Arial Unicode MS を指定している場合、U+10000 は □ で表示されますが、MFT レコード（のファイル名を記録しているバイト列）を直接確…

2005-10-29

U+10000を扱う

Unicode スカラー値 U+10000 〜 U+10FFFF の範囲にある文字を UTF-16 で扱う場合、サロゲートペアが使われるので、Word の作成したファイルというか、ディスク上のバイト列も当然サロゲートペアで記録されることになります。例えば U+10000 は、 UTF-16 で…

2005-10-29

向いてるらしい

ということで？id:hasegawayosuke:20051025#1130167134 で教えていただいた以下の URL を眺めてみる。 Searching for supplementary characters http://blogs.msdn.com/michkap/archive/2005/10/24/483965.aspx サロゲートペアな文字の検索ということですか.…

2005-10-29

Unicode サロゲートペア

2005-10-28

気が付けば

一週間もさぼってますな＞はてな日記半分は風邪の影響でくたばってたので仕方がないとしても、ご指名なサロゲートペアに関する件も書いてないなぁ...orz サロゲートペアな文字を Windows で試そうとか思って、幾つか試しているんですが Arial Unicode MS で…

2005-10-28

てんじかい

展示会に足を運んだのは、N+I 以来の気がしますが、しばらく見ていなかった為か新鮮な印象がありました（笑）、というかここ最近「文字コード」ばかりでしたので、情報漏えい対策！とか聞くと新鮮に聞こえてしまったりするわけです...orz ブース的に注目した…

2005-10-28

セキュリティソリューション2005

ネットエージェントブースにお寄りいただいた皆様*1ありがとうございました。って「お前いなかったぢゃん！！」という噂もありますが、実は 16時ごろから会場に行って1時間ほど見学してただけだったりします。（というか、17時から大事な打ち合わせがあって…

2005-10-22

Breadの検索

全角平仮名「ぱん」、全角カタカナ「パン」半角片仮名「パン」を検索したい場合、Word のあいまい検索を使えばいずれもヒットしてくれます。しかし、「は U+309A」や「ハ U+309A」は当然のことながら？曖昧検索でも一致しません。正規化形式として NFC ま…

2005-10-22

NFKC

正規化形式として、NFKC を利用すると今回想定している U+30B7 U+030B の検索で問題がでてしまいそうですね。 NFKC を利用した場合、「フォレンシ U+3099 ック」は「フォレンジック」へ合成されるので、Word などからは検索しやすくなりますが、「フォレンシ…

2005-10-22

文字列抽出してみる

istrings と併用すればもう少し簡単かもしれません。dd で作ったディスクイメージファイルから、UTF-8 な文字列を取り出しそれを wiconv で UTF-16LE へ変換、さらに UTF-16LE の文字列を取り出し、ひとつのファイルにまとめます。 istrings -i UTF-8 -f -p …

2005-10-22

「ジ」を正規化

Unicode エディタの「BabelPad」を使って、「フォレンジック」の「ジ」を正規化してみたいと思います。ジ U+30B8 のプロパティを BabelPad で確認すると Mapping が U+30B7 U+3099 となっていますので、NFD で正規化すると「シ」と結合可能な濁点 U+3099 に…

2005-10-22

U+30B7 U+030B を検索するには？

EnCase であれば、Grep オプションを利用してこんな正規表現でいけますかね。フォレンシ.ックシ U+30B7 の後ろに任意の1文字が来るパターンが一致するので、U+030B または別の文字があってもヒットします。ただ、この正規表現では「フォレンショック」でも…

2005-10-22

U+30B7 U+030B

今回使った BlackHat Japan の資料では、タイトル文字列として「フォレンシU+030Bック」と書いてあります。片仮名の「シ」は U+30B7 ですが、これにわざと濁点っぽく？見える U+030B COMBINING DOUBLE ACUTE ACCENT を結合してあたかも「ジ」U+30B8 のよう…

2005-10-22

正規化と検索

2005-10-20

文字のマジックやトリックにひっかかるのは

やっぱり人間なんですよねぇ・・・コンピュータ・フォレンジック分野がいちばん影響受けるんぢゃないかと思う今日この頃だったりしてます。

2005-10-20

蛇足

BlackHat Japan では、文字マジシャンのお許しを得てデモ*1はしましたが、「葉っぱマジック」？が使われていると検索は失敗しますのでご注意ください（笑）*2 *1:デモした部分は公開資料には入っていません、日本の諸事情に配慮してみました *2:いや本当は笑…

2005-10-20

有効なコードページ

ちょっと補足。『Valid の項目が真であれば、キーワードをそのコードページで検索できます。』と書いてますが、逆に言えばキーワードとして入力された文字列の影響を受けます。念のために CPCONV で変換できない文字が混じってないか確認したほうがよいと思…

2005-10-20

5.04aの問題点

この検索方法では、検索するキーワードとして指定された文字列が、それぞれのコードページへ変換されて(おそらく16進形式で)検索されていると思われます。これは、CPCONV で文字列を 16進数へ変換し、16進数形式のパターンで検索することと基本的には同じに…

2005-10-20

異なるコードページの一括検索

私信でご質問いただいたのですが、GSI のメッセージボードを読まれてない方もいらっしゃるようなので、こちらにも貼っておきます。それと、この検索方法の問題点についても後述したいと思います。調査技術ゼミのネタなので詳しくは明日なのですが... EnCase …

2005-10-13

やる奴が悪い

確かにそうなのですが、不正アクセスなどに使われる脆弱性って、想定の範囲外で使われてしまうので問題あるわけですよね？笑い話にしかならない問題を報告されるケースもひょっとしたらあるのかもしれませんが、そこで受理しなかったら開発元は不具合がある…

2005-10-13

他の奴が想像できるわけがない

天下の IPA で攻撃方法を思いつかない不具合は、脆弱性とは認識しないらしい。ソフトウエア等の脆弱性関連情報に関する届出状況 [2005年第3四半期（7月〜9月）] - IPA http://d.hatena.ne.jp/hasegawayosuke/20051012#1129094820 そこまで言い切るのなら、…

2005-10-03

正規表現による検索

コンピュータ・フォレンジック製品によっては、検索で正規表現を使えたりするわけですが、確かに便利なのですが長い定義になると何かひっかからないのかよくわからなくなってしまう自分がいたり(^^;; 正規表現を使うことで広範囲に検索できるのは嬉しいので…

2005-10-03

ヒットなし

ここ最近は文字コードな方面を(詳しい方のお知恵をお借りしながら)いろいろと調べているわけですが、某海外製品とかで日本語文字列の検索がヒットしないのを先週だけで 3件ほど報告してみたりしてます。細かいお話は BlakHat Japanか調査技術ゼミでネタにす…

@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

2005-10-01から1ヶ月間の記事一覧

互換等価

正規化してから検索する

Wordのあいまい検索

互換漢字

正規表現とサロゲートペア

NTFSファイル名に利用している場合

U+10000を扱う

向いてるらしい

Unicode サロゲートペア

気が付けば

てんじかい

セキュリティソリューション2005

Breadの検索

NFKC

文字列抽出してみる

「ジ」を正規化

U+30B7 U+030B を検索するには？

U+30B7 U+030B

正規化と検索

文字のマジックやトリックにひっかかるのは

蛇足

有効なコードページ

5.04aの問題点

異なるコードページの一括検索

やる奴が悪い

他の奴が想像できるわけがない

正規表現による検索

ヒットなし