Questa pagina può contenere testo tradotto automaticamente.

Funzionalità da PDF a testo

Puoi estrarre testo in diverse forme da documenti PDF in diverse lingue.

Processo di conversione da PDF a testo

Docotic.Pdf può estrarre testo semplice e formattato da documenti PDF. Ed è possibile ottenere informazioni dettagliate come carattere, colore, dimensione e altre proprietà su ogni singolo carattere.

Non devi fare nulla di speciale per estrarre testo arabo, ebraico o persiano dai documenti PDF. Questo perché Docotic.Pdf è abbastanza intelligente da estrarre correttamente il testo da destra a sinistra e bidirezionale.

Libreria Docotic.Pdf 9.5.17664-dev Test di regressione Ne sono passati 14,820 Download totali di NuGet 4,998,853

Articoli

Di seguito sono riportate le risorse che spiegano diversi aspetti della conversione da PDF a testo nel codice C# e VB.NET.

  • Estrai testo da PDF in C# e VB.NET
    Estrai testo da documenti PDF in C# e VB.NET utilizzando la libreria Docotic.Pdf. Supporta ambienti Windows, Linux, macOS, Android, iOS, cloud.

  • Estrai testo e immagini da PDF in C# .NET
    Estrai testo, immagini e percorsi da documenti PDF in C# e VB.NET utilizzando Docotic.Pdf. Converti PDF in testo su Windows, Linux, macOS, Android, iOS, in ambienti cloud.

I post del blog

Abbiamo un post sul blog che spiega come estrarre testo da PDF non ricercabili. I documenti non ricercabili solitamente riproducono il testo come un'immagine raster.

Un tipico esempio è un documento PDF scansionato. I documenti PDF non ricercabili possono anche eseguire il rendering del testo con percorsi vettoriali senza utilizzare caratteri o operatori PDF speciali.

Codice d'esempio

Questi codici di esempio mostrano diverse opzioni per la conversione da PDF a testo in C# e VB.NET.

  • Estrai testo
    Estrai testo semplice da PDF con o senza formattazione.

  • Estrai il testo per parole
    Estrai tutte le parole da un PDF con informazioni dettagliate come posizione, carattere, colore e altre proprietà per ogni parola.

  • Trova ed evidenzia il testo
    Estrai tutte le parole da una pagina PDF. Trova la frase nella raccolta di parole. Quindi evidenzia il risultato utilizzando un'annotazione di evidenziazione.

  • OCR PDF ed estrai testo semplice
    Estrai testo da documenti PDF non ricercabili utilizzando la libreria Docotic.Pdf e Tesseract OCR Engine.

  • Correggi il testo confuso
    Estrai testo da documenti PDF quando i metodi e gli strumenti normali producono testo confuso/inaspettato.

  • Estrai il testo dalla destinazione del collegamento
    Ottieni il primo collegamento ed estrai il testo dalla pagina di destinazione del collegamento sotto l'offset superiore del collegamento.