このページには自動翻訳されたテキストを含めることができます。
PDFからテキストへの変換機能
さまざまな言語の PDF ドキュメントからさまざまな形式でテキストを抽出できます。
Docotic.Pdf は、PDF ドキュメントからプレーンテキストと書式設定されたテキストを抽出できます。 また、 すべての文字について、フォント、色、サイズ、その他のプロパティなどの詳細情報を取得することができま す。
PDF ドキュメントからアラビア語、ヘブライ語、またはペルシア語のテキストを抽出するために特別なことを 行う必要はありません。 これは、Docotic.Pdf が右から左への双方向テキストを適切に抽出するのに十分な機 能を備えているためです。
9.5.17615-dev 14,813人が合格 NuGet の合計ダウンロード数 4,924,084記事
以下は、C# および VB.NET コードでの PDF からテキストへの変換のさまざまな側面を説明するリソースです。
C# および VB.NET で PDF からテキストを抽出する
Docotic.Pdf ライブラリを使用して、C# および VB.NET で PDF ドキュメントからテキストを抽出します。 Windows、Linux、macOS、Android、iOS、クラウド環境に対応。C# .NET で PDF からテキストと画像を抽出する
Docotic.Pdf を使用して、C# および VB.NET で PDF ドキュメントからテキスト、画像、パスを抽出します。 Windows、Linux、macOS、Android、iOS のクラウド環境で PDF をテキストに変換します。
ブログ投稿
検索不可能な PDF からテキストを抽出する方法を説明したブログ投稿があります。 検索不可能なドキュメン トは通常、テキストをラスター イメージとしてレンダリングします。
典型的な例は、スキャンされた PDF ドキュメントです。 検索不可能な PDF ドキュメントでは、フォントや特 別な PDF 演算子を使用せずに、ベクター パスを使用してテキストをレンダリングすることもできます。
- C# および VB.NET での OCR PDF
Tesseract と Docotic.Pdf を使用して C# と VB.NET で PDF を OCR し、テキストを抽出する方法。 - C# .NET の AWS Lambda で PDF からテキストを抽出する
Docotic.Pdf ライブラリを使用して、C# .NET Core アプリケーションの AWS Lambda で PDF からテキスト を抽出する方法。
サンプル コード
これらのサンプル コードは、C# および VB.NET での PDF からテキストへの変換のさまざまなオプションを示しています。
テキストを抽出する
書式設定の有無にかかわらず、PDF からプレーンテキストを抽出します。単語ごとにテキストを抽出する
PDF からすべての単語を、各単語の位置、フォント、色、その他のプロパティなどの詳細情報とともに抽出します。テキストを検索してハイライト表示する
PDF ページからすべての単語を抽出します。 単語のコレクションからフレーズを見つけます。 次に、強調表示注釈を使用して結果を強調表示します。PDFをOCRしてプレーンテキストを抽出する
Docotic.Pdf ライブラリと Tesseract OCR エンジンを使用して、検索不可能な PDF ドキュメントからテキストを抽出します。文字化けを修正
通常の方法やツールでは文字化けまたは予期しないテキストが生成される場合に、PDF ドキュメントからテキストを抽出します。リンクターゲットからテキストを抽出する
最初のリンクを取得し、リンクのターゲット ページからリンクの上部オフセットの下にあるテキストを抽出します。