wiconvにバイナリを喰わせる
かなりメモリを消費したりするようですが、wiconv にバイナリファイルを喰わせ、文字コードを変換することでゴミを削るアプローチを @hasegawayosuke さんが挑戦されていました。
wiconv - 文字列のコードページの変換
http://openmya.hacker.jp/hasegawa/wiconv/
wiconv により、UTF-8 から Shift_JIS に文字コードを変換することで、壊れた UTF-8 な文字列などは ? などに置換されるので、「?」文字などを後から除去すれば有意な文字だけ残るのではないか?というアプローチだったと思いますが、結局うまくいかなかったんでしたっけ!?
ノイズを除去するというアプローチは、Unallocated Clusters などを調査する上では有効な手法かもしれません。0x00 のような文字では使われないバイトを除去することで、調べる必要があるデータ量が減るので、検索や変換なども早くなる可能性があります。問題としては、オフセット位置などをどう維持するのか?という辺りがありますが、これは今後の検討課題ですかね。