このページには自動翻訳されたテキストを含めることができます。

PDF から C# と VB.NET でテキストを抽出する

翻訳：Bit Miracle。Vitaliy Shibaev によるオリジナル記事

2026年6月26日に更新されました

PDF ドキュメントからテキストを抽出することは、C# と VB.NET の開発者にとって一般的な作業です。Docotic.Pdf ライブラリを使用すると、Windows、Linux、macOS、Android、iOS、またはクラウド環境で、わずか数行のコードでテキストを抽出できます。

サンプルコードを試すには Docotic.Pdf ライブラリが必要です。C# .NET PDF ライブラリをダウンロードページでライブラリと期間限定の無料ライセンスキーを入手してください。

テキスト抽出にはさまざまなアプローチがあります。いくつかの実用例を見てみましょう。

PDF からテキストを抽出する

PDF をプレーンテキストに変換する

プレーンテキストは、PDF コンテンツのインデックス作成、読み取り、または分析に使用できます。このサンプルでは、C# で PDF をテキストに変換する方法を示します。

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
string documentText = pdf.GetText();
Console.WriteLine(documentText);

PdfDocument.GetText() は、サンプルドキュメントに対して次の結果を返します。

C# .NET でのプレーンテキスト抽出の結果

また、個々のページからテキストを抽出することもできます。

using var pdf = new PdfDocument("your_document.pdf");
for (int i = 0; i < pdf.PageCount; ++i)
{
    string pageText = pdf.Pages[i].GetText();
    using var writer = new StreamWriter($"page_{i}.txt");
    writer.Write(pageText);
}

関連する C# と VB.NET のサンプルは GitHub で入手できます。

PDF を整形済みテキストに変換する

整形済みテキストは、構造化されたテキストデータを解析したり、人間が読みやすい形式でテキストを表示したりする場合に使用できます。このサンプルでは、C# で PDF を整形済みテキストに変換する方法を示します。

using var pdf = new PdfDocument("your_document.pdf");
string formattedText = pdf.GetTextWithFormatting();

// ページごとの代替アプローチ
_ = pdf.Pages[0].GetTextWithFormatting();

Console.WriteLine(formattedText);

PdfDocument.GetTextWithFormatting() は、サンプルドキュメントに対して次の結果を返します。
C# .NET での整形済みテキスト抽出の結果

特定の領域からプレーンまたは整形済みテキストを抽出する

PDF ページの特定の部分だけからテキストを抽出する必要がある場合があります。たとえば、ページヘッダー内のテキストだけを解析する場合です。ライブラリはこれもサポートしています。C# のサンプル:

using var pdf = new PdfDocument("your_document.pdf");
var page = pdf.Pages[0];
var options = new PdfTextExtractionOptions
{
    Rectangle = new PdfRectangle(0, 0, page.Width, 100),
    WithFormatting = false
};
string areaText = page.GetText(options);
Console.WriteLine(areaText);

このサンプルでは、サンプルドキュメントに対して次の結果を返します。 C# .NET での特定領域からのテキスト抽出の結果

詳細なテキスト情報を抽出する

包括的な分析のために、各テキストチャンクの詳細情報を取得することもできます。Docotic.Pdf には、テキストをそのまま、単語単位、または文字単位で抽出するメソッドがあります。各テキストチャンクについて、ライブラリは次を抽出します。

Unicode テキスト
ページ上の境界
フォント
フォントサイズ
変換行列。拡大・回転されたテキストに有用です
描画モード
塗りつぶし色、透明度、パターン
輪郭スタイル
各文字の詳細情報

このサンプルでは、C# で PDF ページから単語単位でテキストを抽出する方法を示します。

using var pdf = new PdfDocument("your_document.pdf");
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
    Console.WriteLine(
        $"{{\n" +
        $"  text: '{data.GetText()}',\n" +
        $"  bounds: {data.Bounds},\n" +
        $"  font name: '{data.Font.Name}',\n" +
        $"  font size: {data.FontSize},\n" +
        $"  transformation matrix: {data.TransformationMatrix},\n" +
        $"  rendering mode: '{data.RenderingMode}',\n" +
        $"  brush: {data.Brush},\n" +
        $"  pen: {data.Pen}\n" +
        $"}},"
    );

    page.Canvas.DrawRectangle(data.Bounds);
}

pdf.Save("result.pdf");

このサンプルでは、サンプルドキュメントに対して次の結果を返します。 C# .NET での詳細なテキスト抽出の結果

詳細なテキスト情報を取得するには、次の Docotic.Pdf メソッドを使用できます。

PdfCanvas.GetTextData()（例: page.Canvas.GetTextData()）
PdfPage.GetWords()
PdfPage.GetChars()
PdfPage.GetObjects()（テキストだけでなく、画像やベクターパスも返します）

OCR（テキスト認識）

扱う PDF にテキストを含む画像がある場合は、光学式文字認識を使用してテキストを抽出できます。次のサンプルでは、Docotic.Pdf と Tesseract を使ってその方法を示します。

OCR PDF からテキストを抽出する
OCR PDF を検索可能なドキュメントに変換する
詳細については、記事 .NET での OCR PDF を参照してください。

クラウド環境でのフォント読み込み

上記のサンプルは、Windows、Linux、macOS のいずれの環境でも問題なく動作します。AWS Lambda のようなクラウドプラットフォームでは、追加で 1 つの設定手順が必要になる場合があります。

埋め込みフォントを使用しない PDF ドキュメントがあります。既定では、Docotic.Pdf はそのようなフォントをシステムフォントコレクション（たとえば C:/Windows/Fonts や /usr/share/fonts）から読み込みます。ただし、クラウドプラットフォームでは、これらのフォントコレクションへのアクセスが制限される場合があります。

アプリケーションと一緒に、一般的なフォントの独自コレクションを配置できます。公開フォントファイルを見つけてプロジェクトにコピーしてください。.NET プロジェクトで、すべてのフォントファイルを CopyToOutputDirectory = Always に設定します。コレクションを使用するには、カスタムの DirectoryFontLoader で PdfDocument を初期化します。

PdfConfigurationOptions config = PdfConfigurationOptions.Create();
config.FontLoader = new DirectoryFontLoader(["path_to_your_font_collection"], true);

using var pdf = new PdfDocument("your_document.pdf", config);
// ...

結論

Docotic.Pdf ライブラリを使用すると、C# と VB.NET で PDF からプレーンテキストまたは整形済みテキストを抽出できます。各テキストチャンクの詳細情報も抽出できます。Docotic.Pdf はここからダウンロードできます。

PDF からテキストを抽出する C# と VB.NET のサンプルを参照してください。