このページには自動翻訳されたテキストを含めることができます。

PDF からテキストへの変換機能

さまざまな言語の PDF ドキュメントから、異なる形式のテキストを抽出できます。

PDF からテキストへの変換処理

Docotic.Pdf は、PDF ドキュメントからプレーンテキストと書式付きテキストを抽出できます。さらに、各文字ごとにフォント、色、サイズ、その他のプロパティといった詳細情報を取得できます。

PDF ドキュメントからアラビア語、ヘブライ語、ペルシア語のテキストを抽出するために特別な処理は不要です。Docotic.Pdf が右から左へのテキストと双方向テキストを適切に抽出できるためです。

記事

以下は、C# および VB.NET コードでの PDF からテキストへの変換のさまざまな側面を説明するリソースです。

  • PDF から C# と VB.NET でテキストを抽出する
    Docotic.Pdf ライブラリを使用して、C# と VB.NET で PDF ドキュメントからテキストを抽出します。Windows、Linux、macOS、Android、iOS、クラウド環境をサポートします。

  • C# .NET で PDF からテキストと画像を抽出する
    Docotic.Pdf を使用して、C# および VB.NET で PDF ドキュメントからテキスト、画像、パスを抽出します。Windows、Linux、macOS、Android、iOS、クラウド環境で PDF をテキストに変換できます。

ブログ投稿

検索できない PDF からテキストを抽出する方法を説明するブログ記事があります。検索できないドキュメントでは、通常、テキストがラスター画像として描画されます。

典型例はスキャンされた PDF ドキュメントです。検索できない PDF ドキュメントでは、フォントや特殊な PDF 演算子を使わずに、テキストをベクターパスで描画する場合もあります。

サンプル コード

これらのサンプルコードでは、C# および VB.NET での PDF からテキストへの変換のさまざまなオプションを示します。