@port139 Blog

基本的にはデジタル・フォレンジックの技術について取り扱っていますが、記載内容には高確率で誤りが含まれる可能性があります。

検索して件数を減らして取り出す

例えば対象メールが 30万件あっても、検索してから取り出すのでそんなに回数増えないというお話もあるかもしれませんが、メール本文はよいとして、懸念点としては添付ファイルのインデックスですかね。
Supported File Attachments Appendix には対応しているファイルタイプが記載されています。日本でよく使われる LZH 圧縮ファイルですが、「Self-Extracting LZH」と書かれていて、LZH に対応しているのか、自己展開形式にのみ対応なのかよくわかりません。あと、RAR も対応していない雰囲気なんでしょうかね。まぁこの点については、サポートされてない拡張子を企業内で利用することを制限してしまえば OK でしょうから運用で回避可能ですかね。
アーカイブが対応している拡張子に従っていれば、検索により件数を減らすことができるので取り出し作業も楽になりそうです。
あとはパスワード付きの文書ファイルや圧縮ファイルも当然インデックスの対象にならないので、ファイルタイプとしてインデックスされてないファイルも強制的にエクスポートさせる必要がありそうですが、そういった検索条件の設定が可能なのかわかりません。流石に運用上添付ファイルにパスワードを付与しては駄目とかは出来ないでしょうし、なんらかの暗号化を使っているケースもあるでしょうね。
ま、問題は検索すべき“キーワード”が決まっているケースは殆ど無い、って辺りですかね。キーワードは決まってないけど、とりあえずデータを準備しておきたいので取り出し作業だけ先に!とかになるのが普通なんですが、その場合には期間とアドレスくらいでしか絞れないので、蟹工船の出番ですね。
キーワードが決まっている場合には、あとは“日本語”の検索がどの程度動くかになりますけど、もうそこは Google だからという意味不明な理由でいけますかね。インデックスが形態素解析なのか N-Gram なのかハイブリッドなのか、半角と全角文字列は正規化しているのかといった特性はこの際無視して、「検索は Google ですから大丈夫です」ということで、再現率については考えない方向のほうが幸せかもしれませんね。
「Message Archiving indexes the first 27 MB of each message.」とか書いてあるけど、そもそも 27メガ超えるような資料の添付禁止とかで運用回避すればいいんでしょうね。っていうか 27メガってどこからくる制限なんだろ?