Esta página puede contener texto traducido automáticamente.

Funciones de PDF a texto

Puede extraer texto en diferentes formas de documentos PDF en diferentes idiomas.

Proceso de conversión de PDF a texto

Docotic.Pdf puede extraer texto plano y formateado de documentos PDF. Y es posible obtener información detallada como fuente, color, tamaño y otras propiedades de cada carácter.

No es necesario hacer nada especial para extraer texto en árabe, hebreo o persa de documentos PDF. Esto se debe a que Docotic.Pdf es lo suficientemente inteligente como para extraer correctamente texto bidireccional y de derecha a izquierda.

Biblioteca Docotic.Pdf 9.3.17036-dev Pruebas de regresión 14,665 pasaron Descargas totales de NuGet 4,191,515

Artículos

A continuación se encuentran recursos que explican diferentes aspectos de la conversión de PDF a texto en código C# y VB.NET.

  • Extraer texto de PDF en C# y VB.NET
    Extraiga texto de documentos PDF en C# y VB.NET utilizando la biblioteca Docotic.Pdf. Admite entornos Windows, Linux, macOS, Android, iOS y nube.

  • Extraiga texto e imágenes de PDF en C# .NET
    Extraiga texto, imágenes y rutas de documentos PDF en C# y VB.NET usando Docotic.Pdf. Convierta PDF a texto en Windows, Linux, macOS, Android, iOS, en entornos de nube.

Publicaciones de blog

Tenemos una publicación de blog que explica cómo extraer texto de un PDF que no permite búsquedas. Los documentos que no permiten búsquedas generalmente representan el texto como una imagen rasterizada.

Un ejemplo típico es un documento PDF escaneado. Los documentos PDF que no permiten búsquedas también pueden representar texto con rutas vectoriales sin utilizar fuentes ni operadores especiales de PDF.

Código de muestra

Estos códigos de muestra muestran diferentes opciones para la conversión de PDF a texto en C# y VB.NET.

  • Extraer texto
    Extraiga texto sin formato de archivos PDF con o sin formato.

  • Extraer texto por palabras
    Extraiga todas las palabras de un PDF con información detallada como posición, fuente, color y otras propiedades de cada palabra.

  • Buscar y resaltar texto
    Extraiga todas las palabras de una página PDF. Encuentra la frase en la colección de palabras. Luego resalte el resultado usando una anotación resaltada.

  • OCR PDF y extraer texto sin formato
    Extraiga texto de documentos PDF que no permiten búsquedas utilizando la biblioteca Docotic.Pdf y Tesseract OCR Engine.

  • Corregir texto confuso
    Extraiga texto de documentos PDF cuando los métodos y herramientas habituales produzcan texto confuso o inesperado.

  • Extraer texto del destino del enlace
    Obtenga el primer enlace y extraiga el texto de la página de destino del enlace debajo del desplazamiento superior del enlace.