このページには自動翻訳されたテキストを含めることができます。

PDF からテキストへの変換機能

さまざまな言語の PDF ドキュメントから、異なる形式のテキストを抽出できます。

PDF からテキストへの変換処理

Docotic.Pdf は、PDF ドキュメントからプレーンテキストと書式付きテキストを抽出できます。さらに、各文字ごとにフォント、色、サイズ、その他のプロパティといった詳細情報を取得できます。

PDF ドキュメントからアラビア語、ヘブライ語、ペルシア語のテキストを抽出するために特別な処理は不要です。Docotic.Pdf が右から左へのテキストと双方向テキストを適切に抽出できるためです。

記事

以下は、C# および VB.NET コードでの PDF からテキストへの変換のさまざまな側面を説明するリソースです。

PDF から C# と VB.NET でテキストを抽出する
Docotic.Pdf ライブラリを使用して、C# と VB.NET で PDF ドキュメントからテキストを抽出します。Windows、Linux、macOS、Android、iOS、クラウド環境をサポートします。
C# .NET で PDF からテキストと画像を抽出する
Docotic.Pdf を使用して、C# および VB.NET で PDF ドキュメントからテキスト、画像、パスを抽出します。Windows、Linux、macOS、Android、iOS、クラウド環境で PDF をテキストに変換できます。

ブログ投稿

検索できない PDF からテキストを抽出する方法を説明するブログ記事があります。検索できないドキュメントでは、通常、テキストがラスター画像として描画されます。

典型例はスキャンされた PDF ドキュメントです。検索できない PDF ドキュメントでは、フォントや特殊な PDF 演算子を使わずに、テキストをベクターパスで描画する場合もあります。

C# および VB.NET で PDF を OCR
Tesseract と Docotic.Pdf を使用して、C# および VB.NET で PDF を OCR し、テキストを抽出する方法。
AWS Lambda 上の C# .NET で PDF からテキストを抽出
Docotic.Pdf ライブラリを使用して、C# .NET Core アプリケーションで AWS Lambda 上の PDF からテキストを抽出する方法。

サンプルコード

これらのサンプルコードでは、C# および VB.NET での PDF からテキストへの変換のさまざまなオプションを示します。

テキストを抽出する
書式設定の有無にかかわらず、PDF からプレーンテキストを抽出します。
単語ごとにテキストを抽出する
PDF からすべての単語を、各単語の位置、フォント、色、その他のプロパティなどの詳細情報とともに抽出します。
テキストを検索してハイライト表示する
PDF ページからすべての単語を抽出します。単語のコレクションからフレーズを見つけます。次に、強調表示注釈を使用して結果を強調表示します。
PDFをOCRしてプレーンテキストを抽出する
Docotic.Pdf ライブラリと Tesseract OCR エンジンを使用して、検索不可能な PDF ドキュメントからテキストを抽出します。
文字化けを修正
通常の方法やツールでは文字化けまたは予期しないテキストが生成される場合に、PDF ドキュメントからテキストを抽出します。
リンクターゲットからテキストを抽出する
最初のリンクを取得し、リンクのターゲットページからリンクの上部オフセットの下にあるテキストを抽出します。