Cette page peut contenir du texte traduit automatiquement.

Extraire du texte, des chemins et des images depuis des documents PDF en C# et VB.NET

Utilisez la bibliothèque Docotic.Pdf pour extraire du texte, des images et des chemins vectoriels depuis des documents PDF en .NET sur Windows, Linux, macOS, Android, iOS ou dans un environnement cloud.

Extraire du texte et des images

Obtenir du texte depuis un PDF

Vous pouvez convertir des documents PDF en texte dans .NET à l'aide de Docotic.Pdf. Cet exemple montre comment convertir un PDF en texte formaté en C# :

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
var options = new PdfTextExtractionOptions
{
    SkipInvisibleText = true,
    WithFormatting = true
};
string formattedText = pdf.GetText(options);
Console.WriteLine(formattedText);

Vous pouvez extraire du texte uniquement depuis une partie spécifique d'une page PDF. Utilisez pour cela la propriété PdfTextExtractionOptions.Rectangle.

Vous pouvez également obtenir des informations détaillées sur chaque fragment de texte pour des analyses avancées. Docotic.Pdf permet d'extraire le texte PDF tel quel, par mots ou par caractères. Cet exemple montre comment extraire le texte PDF par mots en C# :

using var pdf = new PdfDocument("your_document.pdf");
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
    Console.WriteLine(
    $"{{\n" +
    $"  text: '{data.GetText()}',\n" +
    $"  bounds: {data.Bounds},\n" +
    $"  font name: '{data.Font.Name}',\n" +
    $"  font size: {data.FontSize},\n" +
    $"  transformation matrix: {data.TransformationMatrix},\n" +
    $"  rendering mode: '{data.RenderingMode}',\n" +
    $"  brush: {data.Brush},\n" +
    $"  pen: {data.Pen}\n" +
    $"}},"
    );
}

Lisez l'article Extraire du texte depuis un PDF pour obtenir plus d'exemples et d'informations sur la conversion de PDF en texte dans .NET.

Obtenir des images depuis un PDF dans .NET

La bibliothèque peut être utilisée pour extraire des images de fichiers PDF telles quelles ou telles qu'elles sont dessinées. Comment extraire toutes les images d'un PDF en C# :

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
int i = 0;
foreach (PdfImage image in pdf.GetImages())
{
    string imageFile = image.Save(i.ToString());
    ++i;
}

Les images extraites peuvent être enregistrées en TIFF et JPEG.

La bibliothèque ne recompresse pas les images lors de leur extraction. Vous obtiendrez des images de la même qualité que dans le PDF.

Vous pouvez également obtenir des informations sur l'endroit où les images sont réellement dessinées sur une page.

Extraire des chemins vectoriels depuis un PDF

Vous pouvez obtenir des informations sur les chemins vectoriels dans un document PDF à l'aide de la méthode PdfPage.GetObjects(). Consultez les exemples Copier les objets de page et Extraire les objets de page pour plus de détails.

Vous pouvez également extraire le texte sous forme de chemins vectoriels à l'aide de la surcharge PdfPage.GetObjects(PdfObjectExtractionOptions). Cette fonctionnalité peut être utilisée pour aplatir le texte dans un PDF en .NET.