Cette page peut contenir du texte traduit automatiquement.

Fonctionnalités PDF en texte

Vous pouvez extraire du texte sous différentes formes à partir de documents PDF dans différentes langues.

Processus de conversion PDF en texte

Docotic.Pdf peut extraire du texte brut et formaté à partir de documents PDF. Et il est possible d'obtenir des informations détaillées telles que la police, la couleur, la taille et d'autres propriétés sur chaque caractère.

Vous n'avez rien de spécial à faire pour extraire du texte arabe, hébreu ou persan à partir de documents PDF. En effet, Docotic.Pdf est suffisamment intelligent pour extraire correctement le texte de droite à gauche et bidirectionnel.

Des articles

Vous trouverez ci-dessous des ressources qui expliquent différents aspects de la conversion de PDF en texte en code C# et VB.NET.

  • Extraire le texte d'un PDF en C# et VB.NET
    Extrayez le texte des documents PDF en C# et VB.NET à l'aide de la bibliothèque Docotic.Pdf. Prend en charge les environnements Windows, Linux, macOS, Android, iOS et cloud.

  • Extraire du texte et des images d'un PDF en C# .NET
    Extrayez le texte, les images et les chemins des documents PDF en C# et VB.NET à l'aide de Docotic.Pdf. Convertissez des PDF en texte sous Windows, Linux, macOS, Android, iOS et dans des environnements cloud.

Articles de blog

Nous avons un article de blog qui explique comment extraire du texte à partir d'un PDF non consultable. Les documents non consultables affichent généralement le texte sous forme d'image raster.

Un exemple typique est un document PDF numérisé. Les documents PDF non consultables peuvent également afficher du texte avec des chemins vectoriels sans utiliser de polices ou d'opérateurs PDF spéciaux.

Exemple de code

Ces exemples de codes montrent différentes options de conversion PDF en texte en C# et VB.NET.

  • Extraire le texte
    Extrayez le texte brut des PDF avec ou sans formatage.

  • Extraire le texte par mots
    Extrayez tous les mots d'un PDF avec des informations détaillées telles que la position, la police, la couleur et d'autres propriétés pour chaque mot.

  • Rechercher et surligner du texte
    Extrayez tous les mots d’une page PDF. Trouvez l'expression dans la collection de mots. Mettez ensuite en surbrillance le résultat à l'aide d'une annotation de surbrillance.

  • OCR PDF et extraction de texte brut
    Extrayez le texte de documents PDF non consultables à l'aide de la bibliothèque Docotic.Pdf et du moteur Tesseract OCR.

  • Corriger le texte tronqué
    Extrayez le texte des documents PDF lorsque les méthodes et outils habituels produisent du texte tronqué/inattendu.

  • Extraire le texte de la cible du lien
    Obtenez le premier lien et extrayez le texte de la page cible du lien sous le décalage supérieur du lien.