Esta página puede contener texto traducido automáticamente.

Funciones de PDF a texto

Puede extraer texto en diferentes formas de documentos PDF en diferentes idiomas.

Docotic.Pdf puede extraer texto plano y formateado de documentos PDF. Y es posible obtener información detallada como fuente, color, tamaño y otras propiedades de cada carácter.

No es necesario hacer nada especial para extraer texto en árabe, hebreo o persa de documentos PDF. Esto se debe a que Docotic.Pdf es lo suficientemente inteligente como para extraer correctamente texto bidireccional y de derecha a izquierda.

Artículos

A continuación se encuentran recursos que explican diferentes aspectos de la conversión de PDF a texto en código C# y VB.NET.

Extraer texto de PDF en C# y VB.NET
Extraiga texto de documentos PDF en C# y VB.NET utilizando la biblioteca Docotic.Pdf. Admite entornos Windows, Linux, macOS, Android, iOS y nube.
Extraiga texto e imágenes de PDF en C# .NET
Extraiga texto, imágenes y rutas de documentos PDF en C# y VB.NET usando Docotic.Pdf. Convierta PDF a texto en Windows, Linux, macOS, Android, iOS, en entornos de nube.

Publicaciones de blog

Tenemos una publicación de blog que explica cómo extraer texto de un PDF que no permite búsquedas. Los documentos que no permiten búsquedas generalmente representan el texto como una imagen rasterizada.

Un ejemplo típico es un documento PDF escaneado. Los documentos PDF que no permiten búsquedas también pueden representar texto con rutas vectoriales sin utilizar fuentes ni operadores especiales de PDF.

OCR PDF en C# y VB.NET
Cómo realizar OCR PDF y extraer texto en C# y VB.NET usando Tesseract y Docotic.Pdf.
Extraiga texto de PDF en AWS Lambda en C# .NET
Cómo extraer texto de PDF en AWS Lambda en la aplicación C# .NET Core utilizando la biblioteca Docotic.Pdf.

Código de muestra

Estos códigos de muestra muestran diferentes opciones para la conversión de PDF a texto en C# y VB.NET.

Extraer texto
Extraiga texto sin formato de archivos PDF con o sin formato.
Extraer texto por palabras
Extraiga todas las palabras de un PDF con información detallada como posición, fuente, color y otras propiedades de cada palabra.
Buscar y resaltar texto
Extraiga todas las palabras de una página PDF. Encuentra la frase en la colección de palabras. Luego resalte el resultado usando una anotación resaltada.
OCR PDF y extraer texto sin formato
Extraiga texto de documentos PDF que no permiten búsquedas utilizando la biblioteca Docotic.Pdf y Tesseract OCR Engine.
Corregir texto confuso
Extraiga texto de documentos PDF cuando los métodos y herramientas habituales produzcan texto confuso o inesperado.
Extraer texto del destino del enlace
Obtenga el primer enlace y extraiga el texto de la página de destino del enlace debajo del desplazamiento superior del enlace.