このページには自動翻訳されたテキストを含めることができます。

PDFからテキストへの変換機能

さまざまな言語の PDF ドキュメントからさまざまな形式でテキストを抽出できます。

PDFからテキストへの変換プロセス

Docotic.Pdf は、PDF ドキュメントからプレーンテキストと書式設定されたテキストを抽出できます。また、すべての文字について、フォント、色、サイズ、その他のプロパティなどの詳細情報を取得することができます。

PDF ドキュメントからアラビア語、ヘブライ語、またはペルシア語のテキストを抽出するために特別なことを行う必要はありません。これは、Docotic.Pdf が右から左への双方向テキストを適切に抽出するのに十分な機能を備えているためです。

記事

以下は、C# および VB.NET コードでの PDF からテキストへの変換のさまざまな側面を説明するリソースです。

C# および VB.NET で PDF からテキストを抽出する
Docotic.Pdf ライブラリを使用して、C# および VB.NET で PDF ドキュメントからテキストを抽出します。 Windows、Linux、macOS、Android、iOS、クラウド環境に対応。
C# .NET で PDF からテキストと画像を抽出する
Docotic.Pdf を使用して、C# および VB.NET で PDF ドキュメントからテキスト、画像、パスを抽出します。 Windows、Linux、macOS、Android、iOS のクラウド環境で PDF をテキストに変換します。

ブログ投稿

検索不可能な PDF からテキストを抽出する方法を説明したブログ投稿があります。検索不可能なドキュメントは通常、テキストをラスターイメージとしてレンダリングします。

典型的な例は、スキャンされた PDF ドキュメントです。検索不可能な PDF ドキュメントでは、フォントや特別な PDF 演算子を使用せずに、ベクターパスを使用してテキストをレンダリングすることもできます。

C# および VB.NET での OCR PDF
Tesseract と Docotic.Pdf を使用して C# と VB.NET で PDF を OCR し、テキストを抽出する方法。
C# .NET の AWS Lambda で PDF からテキストを抽出する
Docotic.Pdf ライブラリを使用して、C# .NET Core アプリケーションの AWS Lambda で PDF からテキストを抽出する方法。

サンプルコード

これらのサンプルコードは、C# および VB.NET での PDF からテキストへの変換のさまざまなオプションを示しています。

テキストを抽出する
書式設定の有無にかかわらず、PDF からプレーンテキストを抽出します。
単語ごとにテキストを抽出する
PDF からすべての単語を、各単語の位置、フォント、色、その他のプロパティなどの詳細情報とともに抽出します。
テキストを検索してハイライト表示する
PDF ページからすべての単語を抽出します。単語のコレクションからフレーズを見つけます。次に、強調表示注釈を使用して結果を強調表示します。
PDFをOCRしてプレーンテキストを抽出する
Docotic.Pdf ライブラリと Tesseract OCR エンジンを使用して、検索不可能な PDF ドキュメントからテキストを抽出します。
文字化けを修正
通常の方法やツールでは文字化けまたは予期しないテキストが生成される場合に、PDF ドキュメントからテキストを抽出します。
リンクターゲットからテキストを抽出する
最初のリンクを取得し、リンクのターゲットページからリンクの上部オフセットの下にあるテキストを抽出します。