TET PDF IFilter
TET PDF IFilter は PDF ファイルから文字列やメタデータなどの情報を抽出し、Windows 上の検索ソフトで利用できるようにする製品です。TET PDF IFilter により、PDF ファイルをデスクトップ上や企業のサーバ、Web 上で検索できるようになります。この製品は PDFlib TET の機能を元に開発されました。
TET PDF IFilter は Microsoft の IFilter インターフェースを堅牢に実装した製品で、SharePoint や SQL Server など IFilter インターフェースをサポートしたすべての製品で動作します。これらの製品ではファイルのフォーマットごとに「IFilter」というフィルタをサポートしており、TET PDF IFilter は PDF ファイルに特化しています。文書検索のユーザインターフェースは Windows のエクスプローラやブラウザ、クエリー用のスクリプトやユーザプログラムとなります。また対話的な検索だけではなく、プログラムから検索することも可能です。
TET の技術を利用
TET PDF IFilter の元となった PDFlib TET は 2002年にリリースされ、世界中のサーバやデスクトップ環境で利用されています。 PDF ファイルの内容やメタデータはテキスト形式だけでなく、XML フォーマットで取得することも可能です。
ユニークな利点
TET PDF IFilter には下記のような利点があります。
- インデックスの対象はページの内容だけでなく、メタデータ、ブックマーク、添付ファイル(PDF)にも対応
- Acrobat で失敗するファイルの内容も抽出可能
- XMP イメージのメタデータもインデックス
- パフォーマンス: スレッドセーフで、32/64ビットで高速かつ堅牢
- 副作用が無く、単独で動作
- 言語やスクリプトの自動検出
- IFilter 専門チームによる開発およびサポート
エンタープライズ環境での PDF 検索
TET PDF IFilter は 32/64 ビット版共に、完全にスレッドセーフです。下記の製品と TET PDF IFilter を利用することにより、エンタープライズ用途に適した PDF 検索を実現できます。
- Microsoft SharePoint Server 2013 およびそれ以前のバージョン
- Microsoft Search Server
- Microsoft SQL Server
- Microsoft Exchange Server
- Mirosoft Site Server
- TET PDF IFilter は IFilter インターフェースをサポートする、マイクロソフト社あるいはサードパーティ製の全製品に対応しています。
デスクトップ検索
TET PDF IFilter は Windows Search などの、デスクトップ PDF 検索のために使うこともできます。
PDFlib TET PDF IFilter の機能
対応 PDF ファイル
TET PDF IFilter は主要な PDF ファイルをすべてサポートしています。
- Acrobat DC までの全PDF
- (ファイルのオープンにパスワードが不要な)暗号化された PDF ファイル
- (可能であれば)壊れた PDF を自動的に修復
XMP メタデータおよび文書情報
TET PDF IFilter の高度なメタデータ実装は、標準(あるいはカスタム)のドキュメント情報と同様に XMP メタデータもインデックスの対象とします。メタデータのインデックスは、いくつかのレベルで設定可能です。
- ドキュメント情報、ダブリンコアフィールド、その他共通の XMP プロパティは、タイトルや作成者等、同等のプロパティにマッピングされます。
- PDF 特有の仮想プロパティを追加します(ページサイズ、PDF/A 準拠レベル、フォント名など)。
- dc:rights, xmpRights:UsageTerms, xmp:CreatorTool など、すべての定義済み XMP プロパティは検索可能です。
- 企業特有の分類や PDF/A 拡張スキームなど、ユーザ定義の XMP プロパティも検索可能
- PDF のページ中に添付された XMP メタデータもインデックス可能なため、画像関連の XMP プロパティも検索に利用できます。
TET PDF IFilter では全文検索のインデックスにメタデータを統合することもできるため、SQL Server などのようにメタデータに対応していない検索エンジンで、メタデータを検索することが可能となります。
イメージの XMP メタデータ
文書のメタデータに加え、TET PDF IFilter は各画像の XMP メタデータもサポートしています。デジカメから Photoshop での編集、ページのレイアウトや PDF の生成など、現在のワークフローではメタデータは画像と共に移動します。
国際化
TET PDF IFilter は CJK(中国・日本・韓国)の文字列の抽出にも対応しています。CJK 環境の全てのエンコーディングを認識し、横書き・縦書きもサポートしています。テキストのロケールID(言語や地域)の自動認識機能は、MS Word の単語認識アルゴリズムよりも優れています。
PDF には単にページを集めたものよりも、多くの情報が含まれています
TET PDF IFilter は PDF を、より多くの情報が含まれているコンテナとして扱います。TET PDF IFilter は PDF 文書内の下記情報をインデックス対象にします。
- ページの内容
- ブックマーク
- メタデータ
- 埋め込まれた PDF や PDFパッケージ/ポートフォリオを再帰的に処理
PDF 文書解析のための pCOS インターフェース
TET PDF IFilter にはPDF 文書中のメタデータやページ内のリンクといった属性情報を取得するための pCOS インターフェースが内蔵されています。
詳しくは、pCOS インターフェースをご参照ください。
IFilter の試用
デスクトップ用OSでは、TET PDF IFilter は非商用利用であれば無償でご利用頂けます(商用利用の際にはライセンスキーが必要です)。
サーバ用OSではライセンスキーを設定しない状態でも全ての機能を利用することができますが、10ページ、1MBまでのPDFファイルのみ扱うことができます。ライセンスキーを設定することでこれらの制限は無くなり、正規版としてご使用いただくことが可能となります。
パッケージのダウンロード
- TET PDF IFilter アーカイブファイル ダウンロード
- お使いの Windows 環境のアーカイブファイルをダウンロードしてご利用ください。
- TET PDF IFilter マニュアル
- 日本語版・英語版のマニュアルがございます。