Diese Seite kann automatisch übersetzten Text enthalten.

PDF-zu-Text-Funktionen

Sie können Text in verschiedenen Formen aus PDF-Dokumenten in verschiedenen Sprachen extrahieren.

Docotic.Pdf kann einfachen und formatierten Text aus PDF-Dokumenten extrahieren. Und es ist möglich, detaillierte Informationen wie Schriftart, Farbe, Größe und andere Eigenschaften zu jedem einzelnen Zeichen abzurufen.

Sie müssen nichts Besonderes tun, um arabischen, hebräischen oder persischen Text aus PDF-Dokumenten zu extrahieren. Dies liegt daran, dass Docotic.Pdf clever genug ist, um von rechts nach links verlaufenden und bidirektionalen Text ordnungsgemäß zu extrahieren.

Artikel

Nachfolgend finden Sie Ressourcen, die verschiedene Aspekte der PDF-zu-Text-Konvertierung in C#- und VB.NET-Code erläutern.

Extrahieren Sie Text aus PDF in C# und VB.NET
Extrahieren Sie Text aus PDF-Dokumenten in C# und VB.NET mithilfe der Docotic.Pdf-Bibliothek. Unterstützt Windows-, Linux-, macOS-, Android-, iOS- und Cloud-Umgebungen.
Extrahieren Sie Text und Bilder aus PDF in C# .NET
Extrahieren Sie Text, Bilder und Pfade aus PDF-Dokumenten in C# und VB.NET mit Docotic.Pdf. Konvertieren Sie PDF in Text unter Windows, Linux, macOS, Android, iOS und in Cloud-Umgebungen.

Blogeinträge

Wir haben einen Blogbeitrag, der erklärt, wie man Text aus nicht durchsuchbaren PDFs extrahiert. Nicht durchsuchbare Dokumente stellen Text normalerweise als Rasterbild dar.

Ein typisches Beispiel ist ein gescanntes PDF-Dokument. Nicht durchsuchbare PDF-Dokumente können Text auch mit Vektorpfaden wiedergeben, ohne Schriftarten oder spezielle PDF-Operatoren zu verwenden.

OCR-PDF in C# und VB.NET
Anleitung zum OCR-PDF und Extrahieren von Text in C# und VB.NET mit Tesseract und Docotic.Pdf.
Extrahieren Sie Text aus PDF auf AWS Lambda in C# .NET
So extrahieren Sie Text aus PDF auf AWS Lambda in der C# .NET Core-Anwendung mithilfe der Docotic.Pdf-Bibliothek.

Beispielcode

Diese Beispielcodes zeigen verschiedene Optionen für die Konvertierung von PDF in Text in C# und VB.NET.

Text extrahieren
Extrahieren Sie einfachen Text aus PDFs mit oder ohne Formatierung.
Text für Wort extrahieren
Extrahieren Sie alle Wörter aus einer PDF-Datei mit detaillierten Informationen wie Position, Schriftart, Farbe und anderen Eigenschaften für jedes Wort.
Suchen und markieren Sie Text
Extrahieren Sie alle Wörter aus einer PDF-Seite. Suchen Sie den Satz in der Wortsammlung. Markieren Sie dann das Ergebnis mithilfe einer Hervorhebungsanmerkung.
OCR-PDF und extrahieren Sie einfachen Text
Extrahieren Sie Text aus nicht durchsuchbaren PDF-Dokumenten mit der Docotic.Pdf-Bibliothek und der Tesseract OCR Engine.
Korrigieren Sie verstümmelten Text
Extrahieren Sie Text aus PDF-Dokumenten, wenn herkömmliche Methoden und Tools verstümmelten/unerwarteten Text erzeugen.
Extrahieren Sie Text aus dem Linkziel
Holen Sie sich den ersten Link und extrahieren Sie Text von der Zielseite des Links unterhalb des oberen Offsets des Links.