1. ホーム
  2. 製品
  3. PDFlib TET / TET PDF IFilter
Product

PDFlib TET / TET PDF IFilter

PDFlib TET は PDF ファイルから高い精度で文字列を抽出可能な製品です。

TET は PDF 内の文字列を Unicode で抽出でき、またグリフやフォントの詳細情報やページ内での位置も取得可能です。さらに TET は高度な解析アルゴリズムにより、単語の区切りや文字列の認識、重複している文字列の除去などが可能です。また内蔵の pCOS インターフェースにより、PDF 内の任意のオブジェクト(メタデータやハイパーテキスト等)を取得可能です。PDFlib TET により、以下のようなことが可能となります。

  • PDF を処理できる検索エンジンの実装
  • PDF から文字列を抽出
  • PDF 内の文字を XML 等の他のフォーマットに変換
  • PDF の内容に応じた PDF の処理

PDFlib TET に関する詳細は、PDFlib TET について を参照してください。
PDFlib TET PDF IFilter に関する詳細は、PDFlib TET PDF IFilter について を参照してください。