Diese Seite kann automatisch übersetzten Text enthalten.

Text, Pfade und Bilder aus PDF-Dokumenten in C# und VB.NET extrahieren

Verwenden Sie die Docotic.Pdf-Bibliothek zum Extrahieren von Text, Bildern und Vektorpffaden aus PDF-Dokumenten in .NET unter Windows, Linux, macOS, Android, iOS oder in einer Cloud-Umgebung.

Text und Bilder extrahieren

Text aus PDF abrufen

Sie können PDF-Dokumente mit Docotic.Pdf in .NET in Text konvertieren. Dieses Beispiel zeigt, wie Sie PDF in formatierten Text in C# konvertieren:

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
var options = new PdfTextExtractionOptions
{
    SkipInvisibleText = true,
    WithFormatting = true
};
string formattedText = pdf.GetText(options);
Console.WriteLine(formattedText);

Sie können Text nur aus einem bestimmten Bereich einer PDF-Seite extrahieren. Verwenden Sie dafür die Eigenschaft PdfTextExtractionOptions.Rectangle.

Sie können auch detaillierte Informationen zu jedem Textblock für anspruchsvolle Analysen erhalten. Docotic.Pdf ermöglicht es Ihnen, PDF-Text unverändert, nach Wörtern oder nach Zeichen zu extrahieren. Dieses Beispiel zeigt, wie Sie PDF-Text nach Wörtern in C# extrahieren:

using var pdf = new PdfDocument("your_document.pdf");
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
    Console.WriteLine(
    $"{{\n" +
    $"  text: '{data.GetText()}',\n" +
    $"  bounds: {data.Bounds},\n" +
    $"  font name: '{data.Font.Name}',\n" +
    $"  font size: {data.FontSize},\n" +
    $"  transformation matrix: {data.TransformationMatrix},\n" +
    $"  rendering mode: '{data.RenderingMode}',\n" +
    $"  brush: {data.Brush},\n" +
    $"  pen: {data.Pen}\n" +
    $"}},"
    );
}

Lesen Sie den Artikel Text aus PDF extrahieren, um weitere Beispiele und Informationen zur PDF-zu-Text-Konvertierung in .NET zu erhalten.

Bilder aus PDF in .NET abrufen

Die Bibliothek kann verwendet werden, um Bilder aus PDF-Dateien unverändert zu extrahieren oder als gezeichnete Bilder. So extrahieren Sie alle Bilder aus PDF in C#:

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
int i = 0;
foreach (PdfImage image in pdf.GetImages())
{
    string imageFile = image.Save(i.ToString());
    ++i;
}

Extrahierte Bilder können als TIFF- und JPEG-Bilder gespeichert werden.

Die Bibliothek recomprimiert Bilder während der Extraktion nicht. Sie erhalten Bilder mit derselben Qualität wie im PDF.

Sie können auch Informationen darüber erhalten, wo Bilder tatsächlich auf einer Seite gezeichnet werden.

Vektorpfade aus PDF extrahieren

Sie können Informationen über Vektorpfade in PDF-Dokumenten mit der Methode PdfPage.GetObjects() erhalten. Sehen Sie sich die Beispiele Seitenobjekte kopieren und Seitenobjekte extrahieren für weitere Details an.

Sie können Text auch mithilfe der Überladung PdfPage.GetObjects(PdfObjectExtractionOptions) als Vektorpfade extrahieren. Diese Funktion kann verwendet werden, um Text in PDF in .NET zu flatten.