Cette page peut contenir du texte traduit automatiquement.

Extraire du texte, des chemins et des images de documents PDF en C# et VB.NET

Utilisez la Bibliothèque Docotic.Pdf pour extraire du texte, des images et des chemins vectoriels à partir de documents PDF dans .NET sous Windows, Linux, macOS, Android, iOS ou dans un environnement cloud.

Extraire du texte et des images

Obtenir du texte à partir d'un PDF

Vous pouvez convertir des documents PDF en texte dans .NET à l'aide de Docotic.Pdf. Cet exemple montre comment convertir un PDF en texte formaté en C# :

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    var options = new PdfTextExtractionOptions
    {
        SkipInvisibleText = true,
        WithFormatting = true
    };
    string formattedText = pdf.GetText(options);
    Console.WriteLine(formattedText);
}

Vous pouvez extraire le texte d'une partie spécifique d'une page PDF uniquement. Utilisez la propriété PdfTextExtractionOptions.Rectangle pour cela.

Vous pouvez également obtenir des informations détaillées sur chaque morceau de texte pour une analyse sophistiquée. Docotic.Pdf vous permet d'extraire du texte PDF tel quel, par mots ou par caractères. Cet exemple montre comment extraire du texte PDF par mots en C# :

using (var pdf = new PdfDocument("your_document.pdf"))
{
    PdfPage page = pdf.Pages[0];
    foreach (PdfTextData data in page.GetWords())
    {
        Console.WriteLine(
            $"{{\n" +
            $"  text: '{data.GetText()}',\n" +
            $"  bounds: {data.Bounds},\n" +
            $"  font name: '{data.Font.Name}',\n" +
            $"  font size: {data.FontSize},\n" +
            $"  transformation matrix: {data.TransformationMatrix},\n" +
            $"  rendering mode: '{data.RenderingMode}',\n" +
            $"  brush: {data.Brush},\n" +
            $"  pen: {data.Pen}\n" +
            $"}},"
        );
    }
}

Lisez l'article Extraire le texte du PDF pour obtenir plus d'exemples et d'informations sur la conversion PDF en texte dans .NET.

Obtenir des images à partir de PDF dans .NET

La bibliothèque peut être utilisée pour extraire des images de fichiers PDF telles quelles ou telles que peintes. Comment extraire toutes les images d'un PDF en C# :

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    int i = 0;
    foreach (PdfImage image in pdf.GetImages())
    {
        string imageFile = image.Save(i.ToString());
        ++i;
    }
}

Les images extraites peuvent être enregistrées sous forme d'images TIFF et JPEG.

La bibliothèque ne recompresse pas les images lors de leur extraction. Vous obtiendrez des images de la même qualité qu’en PDF.

Vous pouvez également obtenir des informations sur l'endroit où les images sont réellement dessinées sur une page.

Extraire les chemins vectoriels du PDF

Vous pouvez obtenir des informations sur les chemins vectoriels dans un document PDF en utilisant la méthode PdfPage.GetObjects(). Jetez un œil aux exemples Copier les objets de la page et Extraire les objets de la page pour plus de détails.

Vous pouvez également extraire du texte sous forme de chemins vectoriels à l'aide de la surcharge PdfPage.GetObjects(PdfObjectExtractionOptions). Cette fonctionnalité peut être utilisée pour aplatir le texte d'un PDF dans .NET.