Questa pagina può contenere testo tradotto automaticamente.

Estrai testo, percorsi e immagini da documenti PDF in C# e VB.NET

Utilizza la libreria Docotic.Pdf per estrarre testo, immagini, percorsi vettoriali da documenti PDF in .NET su Windows, Linux, macOS, Android, iOS o in un ambiente cloud.

Estrai testo e immagini

Ottieni testo da PDF

Puoi convertire documenti PDF in testo in .NET utilizzando Docotic.Pdf. Questo esempio mostra come convertire PDF in testo formattato in C#:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    var options = new PdfTextExtractionOptions
    {
        SkipInvisibleText = true,
        WithFormatting = true
    };
    string formattedText = pdf.GetText(options);
    Console.WriteLine(formattedText);
}

È possibile estrarre testo solo da una parte specifica di una pagina PDF. Utilizza la proprietà PdfTextExtractionOptions.Rectangle per questo.

Puoi anche ottenere informazioni dettagliate su ogni porzione di testo per un'analisi sofisticata. Docotic.Pdf ti consente di estrarre il testo PDF così com'è, per parole o per caratteri. Questo esempio mostra come estrarre il testo PDF per parole in C#:

using (var pdf = new PdfDocument("your_document.pdf"))
{
    PdfPage page = pdf.Pages[0];
    foreach (PdfTextData data in page.GetWords())
    {
        Console.WriteLine(
            $"{{\n" +
            $"  text: '{data.GetText()}',\n" +
            $"  bounds: {data.Bounds},\n" +
            $"  font name: '{data.Font.Name}',\n" +
            $"  font size: {data.FontSize},\n" +
            $"  transformation matrix: {data.TransformationMatrix},\n" +
            $"  rendering mode: '{data.RenderingMode}',\n" +
            $"  brush: {data.Brush},\n" +
            $"  pen: {data.Pen}\n" +
            $"}},"
        );
    }
}

Leggi l'articolo Estrai testo da PDF per ottenere ulteriori esempi e informazioni sulla conversione da PDF a testo in .NET.

Ottieni immagini da PDF in .NET

La libreria può essere utilizzata per estrarre immagini dai file PDF così come sono o come dipinte. Come estrarre tutte le immagini dal PDF in C#:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    int i = 0;
    foreach (PdfImage image in pdf.GetImages())
    {
        string imageFile = image.Save(i.ToString());
        ++i;
    }
}

Le immagini estratte possono essere salvate come immagini TIFF e JPEG.

La libreria non ricomprime le immagini durante l'estrazione. Otterrai immagini con la stessa qualità del PDF.

Puoi anche ottenere informazioni su dove le immagini sono effettivamente disegnate su una pagina.

Estrai percorsi vettoriali da PDF

È possibile ottenere informazioni sui percorsi vettoriali nel documento PDF utilizzando il metodo PdfPage.GetObjects(). Dai un'occhiata agli esempi Copia oggetti pagina e Estrai oggetti pagina per maggiori dettagli.

Puoi anche estrarre il testo come percorsi vettoriali utilizzando l'overload PdfPage.GetObjects(PdfObjectExtractionOptions). Questa funzionalità può essere utilizzata per appiattire il testo in PDF in .NET.