Esta página puede contener texto traducido automáticamente.

Extraer texto, trazados e imágenes de documentos PDF en C# y VB.NET

Usa la biblioteca Docotic.Pdf para extraer texto, imágenes y trazados vectoriales de documentos PDF en .NET en Windows, Linux, macOS, Android, iOS o en un entorno en la nube.

Extraer texto e imágenes

Obtener texto de PDF

Puedes convertir documentos PDF a texto en .NET usando Docotic.Pdf. Este ejemplo muestra cómo convertir PDF a texto con formato en C#:

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
var options = new PdfTextExtractionOptions
{
    SkipInvisibleText = true,
    WithFormatting = true
};
string formattedText = pdf.GetText(options);
Console.WriteLine(formattedText);

Puedes extraer texto solo de una parte específica de una página PDF. Usa la propiedad PdfTextExtractionOptions.Rectangle para eso.

También puedes obtener información detallada sobre cada fragmento de texto para un análisis avanzado. Docotic.Pdf permite extraer texto PDF tal cual, por palabras o por caracteres. Este ejemplo muestra cómo extraer texto PDF por palabras en C#:

using var pdf = new PdfDocument("your_document.pdf");
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
    Console.WriteLine(
    $"{{\n" +
    $"  text: '{data.GetText()}',\n" +
    $"  bounds: {data.Bounds},\n" +
    $"  font name: '{data.Font.Name}',\n" +
    $"  font size: {data.FontSize},\n" +
    $"  transformation matrix: {data.TransformationMatrix},\n" +
    $"  rendering mode: '{data.RenderingMode}',\n" +
    $"  brush: {data.Brush},\n" +
    $"  pen: {data.Pen}\n" +
    $"}},"
    );
}

Lee el artículo Extraer texto de PDF para obtener más ejemplos e información sobre la conversión de PDF a texto en .NET.

Obtener imágenes de PDF en .NET

La biblioteca se puede usar para extraer imágenes de archivos PDF tal cual o como pintadas. Cómo extraer todas las imágenes de PDF en C#:

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
int i = 0;
foreach (PdfImage image in pdf.GetImages())
{
    string imageFile = image.Save(i.ToString());
    ++i;
}

Las imágenes extraídas pueden guardarse como imágenes TIFF y JPEG.

La biblioteca no vuelve a comprimir las imágenes al extraerlas. Obtendrás imágenes con la misma calidad que en el PDF.

También puedes obtener información sobre dónde se dibujan realmente las imágenes en una página.

Extraer trazados vectoriales de PDF

Puedes obtener información sobre trazados vectoriales en un documento PDF usando el método PdfPage.GetObjects(). Consulta los ejemplos de Copiar objetos de página y Extraer objetos de página para más detalles.

También puedes extraer texto como trazados vectoriales usando la sobrecarga PdfPage.GetObjects(PdfObjectExtractionOptions). Esta característica se puede usar para aplanar el texto en PDF en .NET.