Diese Seite kann automatisch übersetzten Text enthalten.

PDF-zu-Text-Funktionen

Sie können Text in unterschiedlichen Formen aus PDF-Dokumenten in verschiedenen Sprachen extrahieren.

Docotic.Pdf kann einfachen und formatierten Text aus PDF-Dokumenten extrahieren. Außerdem lassen sich detaillierte Informationen wie Schriftart, Farbe, Größe und andere Eigenschaften zu jedem einzelnen Zeichen abrufen.

Sie müssen nichts Besonderes tun, um arabischen, hebräischen oder persischen Text aus PDF-Dokumenten zu extrahieren. Das liegt daran, dass Docotic.Pdf intelligent genug ist, Rechts-nach-links- und bidirektionalen Text korrekt zu extrahieren.

Artikel

Nachfolgend finden Sie Ressourcen, die verschiedene Aspekte der PDF-zu-Text-Konvertierung in C#- und VB.NET-Code erläutern.

Text aus PDF in C# und VB.NET extrahieren
Text aus PDF-Dokumenten in C# und VB.NET mit der Docotic.Pdf-Bibliothek extrahieren. Unterstützt Windows, Linux, macOS, Android, iOS und Cloud-Umgebungen.
Text und Bilder aus PDF in C# .NET extrahieren
Text, Bilder und Pfade aus PDF-Dokumenten in C# und VB.NET mit Docotic.Pdf extrahieren. PDF unter Windows, Linux, macOS, Android, iOS und in Cloud-Umgebungen in Text konvertieren.

Blogeinträge

Wir haben einen Blogbeitrag, der erklärt, wie Text aus nicht durchsuchbaren PDFs extrahiert wird. Nicht durchsuchbare Dokumente rendern Text normalerweise als Rasterbild.

Ein typisches Beispiel ist ein gescanntes PDF-Dokument. Nicht durchsuchbare PDF-Dokumente können Text auch mit Vektorpfaden rendern, ohne Schriftarten oder spezielle PDF-Operatoren zu verwenden.

OCR PDF in C# and VB.NET
So führen Sie OCR für PDF durch und extrahieren Text in C# und VB.NET mit Tesseract und Docotic.Pdf.
Extract text from PDF on AWS Lambda in C# .NET
So extrahieren Sie Text aus PDF in AWS Lambda in einer C# .NET Core-Anwendung mit der Docotic.Pdf-Bibliothek.

Beispielcode

Diese Beispielcodes zeigen verschiedene Optionen für die PDF-zu-Text-Konvertierung in C# und VB.NET.

Text extrahieren
Extrahieren Sie einfachen Text aus PDFs mit oder ohne Formatierung.
Text für Wort extrahieren
Extrahieren Sie alle Wörter aus einer PDF-Datei mit detaillierten Informationen wie Position, Schriftart, Farbe und anderen Eigenschaften für jedes Wort.
Suchen und markieren Sie Text
Extrahieren Sie alle Wörter aus einer PDF-Seite. Suchen Sie den Satz in der Wortsammlung. Markieren Sie dann das Ergebnis mithilfe einer Hervorhebungsanmerkung.
OCR-PDF und extrahieren Sie einfachen Text
Extrahieren Sie Text aus nicht durchsuchbaren PDF-Dokumenten mit der Docotic.Pdf-Bibliothek und der Tesseract OCR Engine.
Korrigieren Sie verstümmelten Text
Extrahieren Sie Text aus PDF-Dokumenten, wenn herkömmliche Methoden und Tools verstümmelten/unerwarteten Text erzeugen.
Extrahieren Sie Text aus dem Linkziel
Holen Sie sich den ersten Link und extrahieren Sie Text von der Zielseite des Links unterhalb des oberen Offsets des Links.