Esta página puede contener texto traducido automáticamente.

Funciones de PDF a texto

Puede extraer texto en diferentes formas de documentos PDF en distintos idiomas.

Docotic.Pdf puede extraer texto sin formato y con formato de documentos PDF. Y es posible obtener información detallada como la fuente, el color, el tamaño y otras propiedades de cada carácter individual.

No tiene que hacer nada especial para extraer texto árabe, hebreo o persa de documentos PDF. Esto se debe a que Docotic.Pdf es lo suficientemente inteligente como para extraer correctamente texto de derecha a izquierda y bidireccional.

Artículos

A continuación se muestran recursos que explican distintos aspectos de la conversión de PDF a texto en código C# y VB.NET.

Extraer texto de PDF en C# y VB.NET
Extraer texto de documentos PDF en C# y VB.NET usando la biblioteca Docotic.Pdf. Compatible con entornos Windows, Linux, macOS, Android, iOS y de nube.
Extraer texto e imágenes de PDF en C# .NET
Extraer texto, imágenes y trazados de documentos PDF en C# y VB.NET usando Docotic.Pdf. Convertir PDF a texto en Windows, Linux, macOS, Android, iOS y en entornos en la nube.

Publicaciones de blog

Tenemos una publicación de blog que explica cómo extraer texto de un PDF no buscable. Los documentos no buscables suelen representar el texto como una imagen rasterizada.

Un ejemplo típico es un documento PDF escaneado. Los documentos PDF no buscables también pueden representar el texto con trazados vectoriales sin usar fuentes ni operadores PDF especiales.

OCR PDF en C# y VB.NET
Cómo realizar OCR en PDF y extraer texto en C# y VB.NET usando Tesseract y Docotic.Pdf.
Extraer texto de PDF en AWS Lambda en C# .NET
Cómo extraer texto de PDF en AWS Lambda en una aplicación C# .NET Core usando la biblioteca Docotic.Pdf.

Código de muestra

Estos códigos de ejemplo muestran diferentes opciones para la conversión de PDF a texto en C# y VB.NET.

Extraer texto
Extraiga texto sin formato de archivos PDF con o sin formato.
Extraer texto por palabras
Extraiga todas las palabras de un PDF con información detallada como posición, fuente, color y otras propiedades de cada palabra.
Buscar y resaltar texto
Extraiga todas las palabras de una página PDF. Encuentra la frase en la colección de palabras. Luego resalte el resultado usando una anotación resaltada.
OCR PDF y extraer texto sin formato
Extraiga texto de documentos PDF que no permiten búsquedas utilizando la biblioteca Docotic.Pdf y Tesseract OCR Engine.
Corregir texto confuso
Extraiga texto de documentos PDF cuando los métodos y herramientas habituales produzcan texto confuso o inesperado.
Extraer texto del destino del enlace
Obtenga el primer enlace y extraiga el texto de la página de destino del enlace debajo del desplazamiento superior del enlace.