Diese Seite kann automatisch übersetzten Text enthalten.

Extrahieren Sie Text, Pfade und Bilder aus PDF-Dokumenten in C# und VB.NET

Verwenden Sie die Docotic.Pdf-Bibliothek, um Text, Bilder und Vektorpfade aus PDF-Dokumenten in .NET unter Windows, Linux, macOS, Android, iOS oder in einer Cloud-Umgebung zu extrahieren.

Extrahieren Sie Text und Bilder

Holen Sie sich Text aus PDF

Mit Docotic.Pdf können Sie PDF-Dokumente in .NET in Text konvertieren. Dieses Beispiel zeigt, wie man PDF in C# in formatierten Text konvertiert:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    var options = new PdfTextExtractionOptions
    {
        SkipInvisibleText = true,
        WithFormatting = true
    };
    string formattedText = pdf.GetText(options);
    Console.WriteLine(formattedText);
}

Sie können Text nur aus einem bestimmten Teil einer PDF-Seite extrahieren. Verwenden Sie dazu die Eigenschaft PdfTextExtractionOptions.Rectangle.

Sie können außerdem detaillierte Informationen zu jedem Textabschnitt für eine anspruchsvolle Analyse abrufen. Mit Docotic.Pdf können Sie PDF-Text wie er ist, nach Wörtern oder nach Zeichen extrahieren. Dieses Beispiel zeigt, wie man PDF-Text in C# wortweise extrahiert:

using (var pdf = new PdfDocument("your_document.pdf"))
{
    PdfPage page = pdf.Pages[0];
    foreach (PdfTextData data in page.GetWords())
    {
        Console.WriteLine(
            $"{{\n" +
            $"  text: '{data.GetText()}',\n" +
            $"  bounds: {data.Bounds},\n" +
            $"  font name: '{data.Font.Name}',\n" +
            $"  font size: {data.FontSize},\n" +
            $"  transformation matrix: {data.TransformationMatrix},\n" +
            $"  rendering mode: '{data.RenderingMode}',\n" +
            $"  brush: {data.Brush},\n" +
            $"  pen: {data.Pen}\n" +
            $"}},"
        );
    }
}

Lesen Sie den Artikel Text aus PDF extrahieren, um weitere Beispiele und Informationen zur Konvertierung von PDF in Text in .NET zu erhalten.

Holen Sie sich Bilder aus PDF in .NET

Die Bibliothek kann verwendet werden, um Bilder unverändert aus PDF-Dateien zu extrahieren oder wie gemalt. So extrahieren Sie alle Bilder aus PDF in C#:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    int i = 0;
    foreach (PdfImage image in pdf.GetImages())
    {
        string imageFile = image.Save(i.ToString());
        ++i;
    }
}

Extrahierte Bilder können als TIFF- und JPEG-Bilder gespeichert werden.

Die Bibliothek komprimiert Bilder beim Extrahieren nicht erneut. Sie erhalten Bilder in der gleichen Qualität wie im PDF.

Sie können auch Informationen darüber erhalten, wo Bilder tatsächlich auf einer Seite gezeichnet werden.

Extrahieren Sie Vektorpfade aus PDF

Mit der PdfPage.GetObjects()-Methode können Sie Informationen zu Vektorpfaden in PDF-Dokumenten abrufen. Weitere Einzelheiten finden Sie in den Beispielen Seitenobjekte kopieren und Seitenobjekte extrahieren.

Sie können Text auch als Vektorpfade mithilfe der PdfPage.GetObjects(PdfObjectExtractionOptions)-Überladung extrahieren. Diese Funktion kann zum Reduzieren von Text in PDFs in .NET verwendet werden.