Cette page peut contenir du texte traduit automatiquement.

Fonctionnalités de PDF en texte

Vous pouvez extraire du texte sous différentes formes à partir de documents PDF dans différentes langues.

Docotic.Pdf peut extraire du texte brut et formaté à partir de documents PDF. Il est également possible d'obtenir des informations détaillées comme la police, la couleur, la taille et d'autres propriétés pour chaque caractère individuel.

Vous n'avez rien de spécial à faire pour extraire du texte arabe, hébreu ou persan à partir de documents PDF. En effet, Docotic.Pdf est suffisamment intelligent pour extraire correctement le texte de droite à gauche et bidirectionnel.

Des articles

Voici des ressources qui expliquent différents aspects de la conversion de PDF en texte dans du code C# et VB.NET.

Extraction de texte depuis un PDF en C# et VB.NET
Extraire du texte à partir de documents PDF en C# et VB.NET à l’aide de la bibliothèque Docotic.Pdf. Prend en charge Windows, Linux, macOS, Android, iOS et les environnements cloud.
Extraire du texte et des images d'un PDF en C# .NET
Extraire du texte, des images et des chemins depuis des documents PDF en C# et VB.NET à l'aide de Docotic.Pdf. Convertissez des PDF en texte sur Windows, Linux, macOS, Android, iOS, dans des environnements cloud.

Articles de blog

Nous avons un article de blog qui explique comment extraire du texte d'un PDF non interrogeable. Les documents non interrogeables rendent généralement le texte sous forme d'image matricielle.

Un exemple typique est un document PDF numérisé. Les documents PDF non interrogeables peuvent également rendre le texte à l'aide de tracés vectoriels, sans utiliser de polices ni d'opérateurs PDF spéciaux.

OCR PDF en C# et VB.NET
Comment effectuer l'OCR d'un PDF et extraire du texte en C# et VB.NET à l'aide de Tesseract et de Docotic.Pdf.
Extraire du texte d'un PDF sur AWS Lambda en C# .NET
Comment extraire du texte d'un PDF sur AWS Lambda dans une application C# .NET Core à l'aide de la bibliothèque Docotic.Pdf.

Exemple de code

Ces codes d'exemple montrent différentes options pour la conversion de PDF en texte en C# et VB.NET.

Extraire le texte
Extrayez le texte brut des PDF avec ou sans formatage.
Extraire le texte par mots
Extrayez tous les mots d'un PDF avec des informations détaillées telles que la position, la police, la couleur et d'autres propriétés pour chaque mot.
Rechercher et surligner du texte
Extrayez tous les mots d’une page PDF. Trouvez l'expression dans la collection de mots. Mettez ensuite en surbrillance le résultat à l'aide d'une annotation de surbrillance.
OCR PDF et extraction de texte brut
Extrayez le texte de documents PDF non consultables à l'aide de la bibliothèque Docotic.Pdf et du moteur Tesseract OCR.
Corriger le texte tronqué
Extrayez le texte des documents PDF lorsque les méthodes et outils habituels produisent du texte tronqué/inattendu.
Extraire le texte de la cible du lien
Obtenez le premier lien et extrayez le texte de la page cible du lien sous le décalage supérieur du lien.