Esta página puede contener texto traducido automáticamente.

Extraiga texto, rutas e imágenes de documentos PDF en C# y VB.NET

Utilice la biblioteca Docotic.Pdf para extraer texto, imágenes y rutas vectoriales de documentos PDF en .NET en Windows, Linux, macOS, Android, iOS o en un entorno de nube.

Extraer texto e imágenes.

Obtener texto de PDF

Puede convertir documentos PDF a texto en .NET usando Docotic.Pdf. Este ejemplo muestra cómo convertir PDF a texto formateado en C#:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    var options = new PdfTextExtractionOptions
    {
        SkipInvisibleText = true,
        WithFormatting = true
    };
    string formattedText = pdf.GetText(options);
    Console.WriteLine(formattedText);
}

Puede extraer texto únicamente de una parte específica de una página PDF. Utilice la propiedad PdfTextExtractionOptions.Rectangle para eso.

También puede obtener información detallada sobre cada fragmento de texto para realizar análisis sofisticados. Docotic.Pdf le permite extraer texto PDF tal cual, por palabras o por caracteres. Este ejemplo muestra cómo extraer texto PDF por palabras en C#:

using (var pdf = new PdfDocument("your_document.pdf"))
{
    PdfPage page = pdf.Pages[0];
    foreach (PdfTextData data in page.GetWords())
    {
        Console.WriteLine(
            $"{{\n" +
            $"  text: '{data.GetText()}',\n" +
            $"  bounds: {data.Bounds},\n" +
            $"  font name: '{data.Font.Name}',\n" +
            $"  font size: {data.FontSize},\n" +
            $"  transformation matrix: {data.TransformationMatrix},\n" +
            $"  rendering mode: '{data.RenderingMode}',\n" +
            $"  brush: {data.Brush},\n" +
            $"  pen: {data.Pen}\n" +
            $"}},"
        );
    }
}

Lea el artículo Extraer texto de PDF para obtener más ejemplos e información sobre la conversión de PDF a texto en .NET.

Obtener imágenes de PDF en .NET

La biblioteca se puede utilizar para extraer imágenes de archivos PDF tal cual o tal como están pintadas. Cómo extraer todas las imágenes de PDF en C#:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    int i = 0;
    foreach (PdfImage image in pdf.GetImages())
    {
        string imageFile = image.Save(i.ToString());
        ++i;
    }
}

Las imágenes extraídas se pueden guardar como imágenes TIFF y JPEG.

La biblioteca no recomprime imágenes mientras las extrae. Obtendrás imágenes con la misma calidad que en PDF.

También puede obtener información sobre dónde se dibujan realmente las imágenes en una página.

Extraer rutas vectoriales de PDF

Puede obtener información sobre rutas vectoriales en un documento PDF utilizando el método PdfPage.GetObjects(). Eche un vistazo a los ejemplos Copiar objetos de página y Extraer objetos de página para obtener más detalles.

También puede extraer texto como rutas vectoriales utilizando la sobrecarga de PdfPage.GetObjects(PdfObjectExtractionOptions). Esta función se puede utilizar para aplanar texto en PDF en .NET.