@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

2010-07-26

istringsで UTF-8 を抽出する

istrings の標準では UTF-8 に対応していないということで、@hasegawayosuke さんが(範囲を絞った)マップを追加してバイナリファイルからの文字列抽出を実験されてました。結果を拝見したところ、なかなか結果は人間が見やすい状態になっており調べやすい雰囲気でした。ただ、半角英数時でゴミというかノイズになる文字列のが多かったので、istrings で UTF-8 を抽出後、さらに半角英数のノイズパターンを取り除くか何らかの処理を行なうことで、日本語文字列だけをうまく残し目視しやすくなるかもしれません。