このページには自動翻訳されたテキストを含めることができます。

PDFからテキストへの変換機能

さまざまな言語の PDF ドキュメントからさまざまな形式でテキストを抽出できます。

PDFからテキストへの変換プロセス

Docotic.Pdf は、PDF ドキュメントからプレーンテキストと書式設定されたテキストを抽出できます。 また、 すべての文字について、フォント、色、サイズ、その他のプロパティなどの詳細情報を取得することができま す。

PDF ドキュメントからアラビア語、ヘブライ語、またはペルシア語のテキストを抽出するために特別なことを 行う必要はありません。 これは、Docotic.Pdf が右から左への双方向テキストを適切に抽出するのに十分な機 能を備えているためです。

Docotic.Pdf ライブラリ 9.5.17615-dev 回帰テスト 14,813人が合格 NuGet の合計ダウンロード数 4,924,084

記事

以下は、C# および VB.NET コードでの PDF からテキストへの変換のさまざまな側面を説明するリソースです。

ブログ投稿

検索不可能な PDF からテキストを抽出する方法を説明したブログ投稿があります。 検索不可能なドキュメン トは通常、テキストをラスター イメージとしてレンダリングします。

典型的な例は、スキャンされた PDF ドキュメントです。 検索不可能な PDF ドキュメントでは、フォントや特 別な PDF 演算子を使用せずに、ベクター パスを使用してテキストをレンダリングすることもできます。

サンプル コード

これらのサンプル コードは、C# および VB.NET での PDF からテキストへの変換のさまざまなオプションを示しています。