PDFlib TET / TET PDF IFilter

ホーム
製品一覧
PDFlib TET / TET PDF IFilter

PDFlib TET は PDF ファイルから高い精度で文字列を抽出可能な製品です。

TET は PDF 内の文字列を Unicode で抽出でき、またグリフやフォントの詳細情報やページ内での位置も取得可能です。さらに TET は高度な解析アルゴリズムにより、単語の区切りや文字列の認識、重複している文字列の除去などが可能です。また内蔵の pCOS インターフェースにより、PDF 内の任意のオブジェクト(メタデータやハイパーテキスト等）を取得可能です。PDFlib TET により、以下のようなことが可能となります。

PDF を処理できる検索エンジンの実装
PDF から文字列を抽出
PDF 内の文字を XML 等の他のフォーマットに変換
PDF の内容に応じた PDF の処理

PDFlib TET に関する詳細は、PDFlib TET についておよび TET 5 データシートを参照してください。

PDFlib TET PDF IFilter に関する詳細は、PDFlib TET PDF IFilter についておよび TET PDF IFilter 5 データシートを参照してください。

PDFlib TET / TET PDF IFilter

製品一覧

Quick links