Diese Seite kann automatisch übersetzten Text enthalten.

PDF-zu-Text-Funktionen

Sie können Text in verschiedenen Formen aus PDF-Dokumenten in verschiedenen Sprachen extrahieren.

PDF-zu-Text-Konvertierungsprozess

Docotic.Pdf kann einfachen und formatierten Text aus PDF-Dokumenten extrahieren. Und es ist möglich, detaillierte Informationen wie Schriftart, Farbe, Größe und andere Eigenschaften zu jedem einzelnen Zeichen abzurufen.

Sie müssen nichts Besonderes tun, um arabischen, hebräischen oder persischen Text aus PDF-Dokumenten zu extrahieren. Dies liegt daran, dass Docotic.Pdf clever genug ist, um von rechts nach links verlaufenden und bidirektionalen Text ordnungsgemäß zu extrahieren.

Docotic.Pdf-Bibliothek 9.3.17036-dev Regressionstests 14,665 bestanden NuGet-Downloads insgesamt 4,191,515

Artikel

Nachfolgend finden Sie Ressourcen, die verschiedene Aspekte der PDF-zu-Text-Konvertierung in C#- und VB.NET-Code erläutern.

Blogeinträge

Wir haben einen Blogbeitrag, der erklärt, wie man Text aus nicht durchsuchbaren PDFs extrahiert. Nicht durchsuchbare Dokumente stellen Text normalerweise als Rasterbild dar.

Ein typisches Beispiel ist ein gescanntes PDF-Dokument. Nicht durchsuchbare PDF-Dokumente können Text auch mit Vektorpfaden wiedergeben, ohne Schriftarten oder spezielle PDF-Operatoren zu verwenden.

Beispielcode

Diese Beispielcodes zeigen verschiedene Optionen für die Konvertierung von PDF in Text in C# und VB.NET.

  • Text extrahieren
    Extrahieren Sie einfachen Text aus PDFs mit oder ohne Formatierung.

  • Text für Wort extrahieren
    Extrahieren Sie alle Wörter aus einer PDF-Datei mit detaillierten Informationen wie Position, Schriftart, Farbe und anderen Eigenschaften für jedes Wort.

  • Suchen und markieren Sie Text
    Extrahieren Sie alle Wörter aus einer PDF-Seite. Suchen Sie den Satz in der Wortsammlung. Markieren Sie dann das Ergebnis mithilfe einer Hervorhebungsanmerkung.

  • OCR-PDF und extrahieren Sie einfachen Text
    Extrahieren Sie Text aus nicht durchsuchbaren PDF-Dokumenten mit der Docotic.Pdf-Bibliothek und der Tesseract OCR Engine.

  • Korrigieren Sie verstümmelten Text
    Extrahieren Sie Text aus PDF-Dokumenten, wenn herkömmliche Methoden und Tools verstümmelten/unerwarteten Text erzeugen.

  • Extrahieren Sie Text aus dem Linkziel
    Holen Sie sich den ersten Link und extrahieren Sie Text von der Zielseite des Links unterhalb des oberen Offsets des Links.