Эта страница может содержать автоматически переведенный текст.

Функции для PDF в текст

Вы можете извлекать текст в разных формах из PDF-документов на разных языках.

Процесс преобразования PDF в текст

Docotic.Pdf может извлекать простой и форматированный текст из PDF-документов. И можно получить подробную информацию, такую ​​как шрифт, цвет, размер и другие свойства, о каждом отдельном символе.

Вам не нужно делать ничего особенного, чтобы извлечь текст на арабском, иврите или персидском языке из PDF-документов. Это связано с тем, что Docotic.Pdf достаточно умен, чтобы правильно извлекать двунаправленный и написанный справа налево текст.

Библиотека Docotic.Pdf 9.5.17664-dev Регрессионные тесты 14,820 прошло Всего загрузок NuGet 4,998,853

Статьи

Ниже приведены ресурсы, объясняющие различные аспекты преобразования PDF в текст в коде C# и VB.NET.

Сообщения в блоге

У нас есть запись в блоге, в которой объясняется, как извлечь текст из PDF-файла, недоступного для поиска. Документы, не доступные для поиска, обычно отображают текст как растровое изображение.

Типичным примером является отсканированный PDF-документ. Документы PDF, не доступные для поиска, также могут отображать текст векторными путями без использования шрифтов или специальных операторов PDF.

  • OCR PDF в C# и VB.NET
    Как распознать PDF-файл с помощью оптического распознавания символов и извлечь текст на C# и VB.NET с помощью Tesseract и Docotic.Pdf.
  • Извлечение текста из PDF в AWS Lambda на C# .NET
    Как извлечь текст из PDF в AWS Lambda в приложении C# .NET Core с использованием библиотеки Docotic.Pdf.

Примеры кода

В этих примерах кода показаны различные варианты преобразования PDF в текст на C# и VB.NET.