Diese Seite kann automatisch übersetzten Text enthalten.

PDF-zu-Text-Funktionen

Sie können Text in unterschiedlichen Formen aus PDF-Dokumenten in verschiedenen Sprachen extrahieren.

PDF-zu-Text-Konvertierungsprozess

Docotic.Pdf kann einfachen und formatierten Text aus PDF-Dokumenten extrahieren. Außerdem lassen sich detaillierte Informationen wie Schriftart, Farbe, Größe und andere Eigenschaften zu jedem einzelnen Zeichen abrufen.

Sie müssen nichts Besonderes tun, um arabischen, hebräischen oder persischen Text aus PDF-Dokumenten zu extrahieren. Das liegt daran, dass Docotic.Pdf intelligent genug ist, Rechts-nach-links- und bidirektionalen Text korrekt zu extrahieren.

Artikel

Nachfolgend finden Sie Ressourcen, die verschiedene Aspekte der PDF-zu-Text-Konvertierung in C#- und VB.NET-Code erläutern.

Blogeinträge

Wir haben einen Blogbeitrag, der erklärt, wie Text aus nicht durchsuchbaren PDFs extrahiert wird. Nicht durchsuchbare Dokumente rendern Text normalerweise als Rasterbild.

Ein typisches Beispiel ist ein gescanntes PDF-Dokument. Nicht durchsuchbare PDF-Dokumente können Text auch mit Vektorpfaden rendern, ohne Schriftarten oder spezielle PDF-Operatoren zu verwenden.

Beispielcode

Diese Beispielcodes zeigen verschiedene Optionen für die PDF-zu-Text-Konvertierung in C# und VB.NET.

  • Text extrahieren
    Extrahieren Sie einfachen Text aus PDFs mit oder ohne Formatierung.

  • Text für Wort extrahieren
    Extrahieren Sie alle Wörter aus einer PDF-Datei mit detaillierten Informationen wie Position, Schriftart, Farbe und anderen Eigenschaften für jedes Wort.

  • Suchen und markieren Sie Text
    Extrahieren Sie alle Wörter aus einer PDF-Seite. Suchen Sie den Satz in der Wortsammlung. Markieren Sie dann das Ergebnis mithilfe einer Hervorhebungsanmerkung.

  • OCR-PDF und extrahieren Sie einfachen Text
    Extrahieren Sie Text aus nicht durchsuchbaren PDF-Dokumenten mit der Docotic.Pdf-Bibliothek und der Tesseract OCR Engine.

  • Korrigieren Sie verstümmelten Text
    Extrahieren Sie Text aus PDF-Dokumenten, wenn herkömmliche Methoden und Tools verstümmelten/unerwarteten Text erzeugen.

  • Extrahieren Sie Text aus dem Linkziel
    Holen Sie sich den ersten Link und extrahieren Sie Text von der Zielseite des Links unterhalb des oberen Offsets des Links.