@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

スライド13

Unicode 制御文字ですが、ここの部分は積み残している課題がいろいろあったりします。まず意図的に(検索やフィルタを逃れる目的で)制御文字を使われていることを簡単に検知する方法が個人的には思いつかないので手付かず状態ですね。
スライド 15 に書いてたりしますが、以前に bun さんから Unicode 制御文字をブラックリスト的に検索しては?というサジェスチョンをいただいていたりもするのですが、FEFF とかはバイト列として結構普通に存在するので、広範囲に検索すると誤検知が増えてしまうという面があったりします。ファイル名について考えるのであれば、 MFT レコードに絞ってやらないといけなかったりいろいろ検討が必要そうです。MFT の $FILE_NAME に絞って検索するのが一番簡単なのかなぁと思案中ですが、スクリプトで処理しないとダメかな?
あと、JOINER 系については、使い方がいまいち理解できてないので、umq さんの日記を読んでもう少し整理する必要があったりします。日本語の表現で JOINER が使われるケースはないのかなぁとか思ってますが、JOINER については宿題ってことで。