PDF Extract
概要
PDF情報(メタ・データ)
メタ・データには、PDF文書の作成者、作成日、タイトルなど様々な情報が含まれています。PDF Extractは、これらの情報をすばやく取り出します。
テキスト文字列
PDF文書から文字列情報を取り出します。文字列はフォント情報(フォント名、大きさ)や表示位置(ページ番号、座標)が含まれます。
画像やフォント情報など
PDFに埋め込まれている、画像やフォント情報などを取り出せます。
製品の種類 (ライセンスのバリエーション)
PDF Extractは以下の種類の製品(ライセンス)があります。用途に合わせて選択してください。
- コマンド・ラインで利用する製品(クライアント・ライセンス)
PDF Extractの機能をコマンドラインで利用するコンポーネントです。 バッチ処理などで処理する場合に適します。
開発のライセンスは含みません。 - アプリケーションを開発するための製品(SDKライセンス)
クライアントPCまたはサーバーで開発するためのライセンスです。
利用のライセンスを含みません。 - ライブラリ(API)をクライアントで利用する製品(クライアント・APIライセンス)
クライアントPCで利用するためのライセンスです。
開発のライセンスを含みません。
機能
PDF Extractで取り出す情報は、以下のプロパティをサポートしたオブジェクトタイプに基づいています。
文書情報オブジェクト (文書情報 解説)
ページ
テキスト
フォント・タイプ
色空間
画像
グラフィック ステート
変換行列
注釈
ブックマーク
移動先
文書情報オブジェクト (文書情報 解説)
- 文書の属性値
- Auther
- Title
- Subject
- Keywords
- Application
- PDF Producer
- Creation Date
- Modification Date
- 文書が暗号化されているか否か
- 文書がリニアライズ(Web用高速表示)されているか否か
- PDFのバージョン(1.4、1.7など)
- ブックマークのプロパティ
- ページラベルの取得
- リソース(画像、色空間、フォント)のプロパティ
- 埋め込まれたファイルのリストまたは取り出し
- Optional Content Group(レイヤー)のリストまたは取り出し
ページ
- ページサイズ(Media Box)、表示サイズ(Crop Box)、他(Trim Box、ArtBox、Bleed Box)
- 回転
- ページ内容
- 注釈
テキスト
- Unicodeでのテキスト取り出し(文字単位、単語単位、ページ単位)
- X、Y座標
- バウンディングボックス
- フォントサイズ(ポイント単位)
- 長さ(ポイント単位、文字単位)
- 回転
フォント・タイプ
- 名称
- 大文字または小文字の高さ
- サブセットフォントの使用可能な文字名
- エンコード、フラグ
- バウンディングボックス
- フォントプログラムのデータストリーム
- True TypeまたはType1
- 斜体文字の傾斜の角度
- ベースラインと次の行(先頭)の間の推奨距離
- グリフの垂直方向と水平方向の幅
色空間
- ベース色空間
- Colorant
- Components per pixel
- インデックス色空間での最大インデックス値
- 色空間(Colorant、インデックス、モノクロ)
- ルックアップテーブル
- 名称
画像
- 幅と高さのピクセル値
- 解像度(DPI)
- チャンネルごとのビット数
- 色空間(白黒、モノクロ、カラー)
- RGBへ変換
- 代替画像
- 画像取り出しと向き設定
- 抽出されたTIFF画像の圧縮設定(フラット、CCITT G3、G3-2D、G4、JPEG、LZW、なし)
- マスク、透明マスク
グラフィック ステート
- ブレンドモード
- 文字および単語それぞれの間隔
- 現状の変換行列
- 鎖線パターン
- 塗りつぶしと線色の色空間
- RBGまたはCMYK値での塗りつぶしと線色
- 塗りつぶしと線色のオーバープリント
- 塗りつぶしと線色のアルファ値
- 平面度公差
- フォントとそのサイズ
- 水平スケーリング
- テキストのスタイル
- 線のスタイルと幅
- レンダリングの名称
- 滑らか公差
- テキストノックアウト
- テキストのレンダリングモード
- テキストの再配置(上または下)
変換行列
- 変換値
- 配置の方向
- 回転
- XおよびY方向でのスケーリング
- XおよびY方向でのゆがみ
注釈
- タイプ
- 色
- 内容
- 日付
- 移動先
- フラグ
- マークアップ
- 名前
- 位置(四角)
- Subject
- テキストラベル
- URL
- コーナーポイント(ポリゴンの場合)
ブックマーク
- 数量
- 移動先
- タイトル
移動先
- 位置
- タイプ
- ページ番号
仕様
入力フォーマット
規格
OS
インターフェース
- PDF1.x (PDF1.0, …, PDF1.7)
- PDF2.0
- PDF/A1, PDF/A2, PDF/A3
規格
- ISO32000-1 (PDF 1.7)
- ISO32000-2 (PDF 2.0)
- ISO 19005-1 (PDF/A-1)
- ISO 19005-2 (PDF/A-2)
- ISO 19005-3 (PDF/A-3)
OS
- Windows 8, 8.1, 10 – 32 または 64Bit
- Windows Server 2012, 2012 R2, 2016, 2019 – 32 または 64Bit
- Linux:
- Red Hat, CentOS, Oracle Linux 7以降 - 64Bit
- Fedora 29以降 - 64Bit
- Debian 8以降 - 64Bit
- Other: Linux kernel 2.6以降, GCC toolset 4.8以降 - 64Bit
- macOS 10.10以降 - 64Bit
インターフェース
- C
- Java
- .NET Framework
- .NET Core (Windows)
- COM
無償評価版
無償での評価版を利用できます。「PDF Extract ダウンロード」からダウンロードしてください。