@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

wiconvにバイナリを喰わせる

かなりメモリを消費したりするようですが、wiconv にバイナリファイルを喰わせ、文字コードを変換することでゴミを削るアプローチを @hasegawayosuke さんが挑戦されていました。

wiconv - 文字列のコードページの変換
http://openmya.hacker.jp/hasegawa/wiconv/

wiconv により、UTF-8 から Shift_JIS文字コードを変換することで、壊れた UTF-8 な文字列などは ? などに置換されるので、「?」文字などを後から除去すれば有意な文字だけ残るのではないか?というアプローチだったと思いますが、結局うまくいかなかったんでしたっけ!?

ノイズを除去するというアプローチは、Unallocated Clusters などを調査する上では有効な手法かもしれません。0x00 のような文字では使われないバイトを除去することで、調べる必要があるデータ量が減るので、検索や変換なども早くなる可能性があります。問題としては、オフセット位置などをどう維持するのか?という辺りがありますが、これは今後の検討課題ですかね。