1. ホーム
  2. 製品一覧
  3. PDFlib TET PDF IFilter
Product

TET PDF IFilter

TET PDF IFilter は PDF ファイルから文字列やメタデータなどの情報を抽出し、Windows 上の検索ソフトで利用できるようにする製品です。TET PDF IFilter により、PDF ファイルをデスクトップ上や企業のサーバ、Web 上で検索できるようになります。この製品は PDFlib TET の機能を元に開発されました。

TET PDF IFilter は Microsoft の IFilter インターフェースを堅牢に実装した製品で、SharePoint や SQL Server など IFilter インターフェースをサポートしたすべての製品で動作します。これらの製品ではファイルのフォーマットごとに「IFilter」というフィルタをサポートしており、TET PDF IFilter は PDF ファイルに特化しています。文書検索のユーザインターフェースは Windows のエクスプローラやブラウザ、クエリー用のスクリプトやユーザプログラムとなります。また対話的な検索だけではなく、プログラムから検索することも可能です。

TET の技術を利用

TET PDF IFilter の元となった PDFlib TET は 2002年にリリースされ、世界中のサーバやデスクトップ環境で利用されています。 PDF ファイルの内容やメタデータはテキスト形式だけでなく、XML フォーマットで取得することも可能です。

ユニークな利点

TET PDF IFilter には下記のような利点があります。

  • インデックスの対象はページの内容だけでなく、メタデータ、ブックマーク、添付ファイル(PDF)にも対応
  • Acrobat で失敗するファイルの内容も抽出可能
  • XMP イメージのメタデータもインデックス
  • パフォーマンス: スレッドセーフで、32/64ビットで高速かつ堅牢
  • 副作用が無く、単独で動作
  • 言語やスクリプトの自動検出
  • IFilter 専門チームによる開発およびサポート

エンタープライズ環境での PDF 検索

TET PDF IFilter は 32/64 ビット版共に、完全にスレッドセーフです。下記の製品と TET PDF IFilter を利用することにより、エンタープライズ用途に適した PDF 検索を実現できます。

  • Microsoft SharePoint Server 2013 およびそれ以前のバージョン
  • Microsoft Search Server
  • Microsoft SQL Server
  • Microsoft Exchange Server
  • Mirosoft Site Server
  • TET PDF IFilter は IFilter インターフェースをサポートする、マイクロソフト社あるいはサードパーティ製の全製品に対応しています。

デスクトップ検索

TET PDF IFilter は Windows Search などの、デスクトップ PDF 検索のために使うこともできます。

PDFlib TET PDF IFilter の機能

対応 PDF ファイル

TET PDF IFilter は主要な PDF ファイルをすべてサポートしています。

  • Acrobat DC までの全PDF
  • (ファイルのオープンにパスワードが不要な)暗号化された PDF ファイル
  • (可能であれば)壊れた PDF を自動的に修復

XMP メタデータおよび文書情報

TET PDF IFilter の高度なメタデータ実装は、標準(あるいはカスタム)のドキュメント情報と同様に XMP メタデータもインデックスの対象とします。メタデータのインデックスは、いくつかのレベルで設定可能です。

  • ドキュメント情報、ダブリンコアフィールド、その他共通の XMP プロパティは、タイトルや作成者等、同等のプロパティにマッピングされます。
  • PDF 特有の仮想プロパティを追加します(ページサイズ、PDF/A 準拠レベル、フォント名など)。
  • dc:rights, xmpRights:UsageTerms, xmp:CreatorTool など、すべての定義済み XMP プロパティは検索可能です。
  • 企業特有の分類や PDF/A 拡張スキームなど、ユーザ定義の XMP プロパティも検索可能
  • PDF のページ中に添付された XMP メタデータもインデックス可能なため、画像関連の XMP プロパティも検索に利用できます。

TET PDF IFilter では全文検索のインデックスにメタデータを統合することもできるため、SQL Server などのようにメタデータに対応していない検索エンジンで、メタデータを検索することが可能となります。

イメージの XMP メタデータ

文書のメタデータに加え、TET PDF IFilter は各画像の XMP メタデータもサポートしています。デジカメから Photoshop での編集、ページのレイアウトや PDF の生成など、現在のワークフローではメタデータは画像と共に移動します。

国際化

TET PDF IFilter は CJK(中国・日本・韓国)の文字列の抽出にも対応しています。CJK 環境の全てのエンコーディングを認識し、横書き・縦書きもサポートしています。テキストのロケールID(言語や地域)の自動認識機能は、MS Word の単語認識アルゴリズムよりも優れています。

PDF には単にページを集めたものよりも、多くの情報が含まれています

TET PDF IFilter は PDF を、より多くの情報が含まれているコンテナとして扱います。TET PDF IFilter は PDF 文書内の下記情報をインデックス対象にします。

  • ページの内容
  • ブックマーク
  • メタデータ
  • 埋め込まれた PDF や PDFパッケージ/ポートフォリオを再帰的に処理

PDF 文書解析のための pCOS インターフェース

TET PDF IFilter にはPDF 文書中のメタデータやページ内のリンクといった属性情報を取得するための pCOS インターフェースが内蔵されています。

詳しくは、pCOS インターフェースをご参照ください。

IFilter の試用

デスクトップ用OSでは、TET PDF IFilter は非商用利用であれば無償でご利用頂けます(商用利用の際にはライセンスキーが必要です)。

サーバ用OSではライセンスキーを設定しない状態でも全ての機能を利用することができますが、10ページ、1MBまでのPDFファイルのみ扱うことができます。ライセンスキーを設定することでこれらの制限は無くなり、正規版としてご使用いただくことが可能となります。

パッケージのダウンロード

TET PDF IFilter アーカイブファイル ダウンロード
お使いの Windows 環境のアーカイブファイルをダウンロードしてご利用ください。
TET PDF IFilter マニュアル
日本語版・英語版のマニュアルがございます。