Эта страница может содержать автоматически переведенный текст.
Функции для PDF в текст
Вы можете извлекать текст в разных формах из PDF-документов на разных языках.
Docotic.Pdf может извлекать простой и форматированный текст из PDF-документов. И можно получить подробную информацию, такую как шрифт, цвет, размер и другие свойства, о каждом отдельном символе.
Вам не нужно делать ничего особенного, чтобы извлечь текст на арабском, иврите или персидском языке из PDF-документов. Это связано с тем, что Docotic.Pdf достаточно умен, чтобы правильно извлекать двунаправленный и написанный справа налево текст.
9.5.17664-dev 14,820 прошло Всего загрузок NuGet 4,998,853Статьи
Ниже приведены ресурсы, объясняющие различные аспекты преобразования PDF в текст в коде C# и VB.NET.
Извлечение текста из PDF в C# и VB.NET
Извлечение текста из PDF-документов на C# и VB.NET с использованием библиотеки Docotic.Pdf. Поддерживает Windows, Linux, macOS, Android, iOS, облачные среды.Извлечение текста и изображений из PDF в C# .NET
Извлечение текста, изображений и путей из PDF-документов на C# и VB.NET с помощью Docotic.Pdf. Конвертировать PDF в текст в Windows, Linux, macOS, Android, iOS, в облачных средах.
Сообщения в блоге
У нас есть запись в блоге, в которой объясняется, как извлечь текст из PDF-файла, недоступного для поиска. Документы, не доступные для поиска, обычно отображают текст как растровое изображение.
Типичным примером является отсканированный PDF-документ. Документы PDF, не доступные для поиска, также могут отображать текст векторными путями без использования шрифтов или специальных операторов PDF.
- OCR PDF в C# и VB.NET
Как распознать PDF-файл с помощью оптического распознавания символов и извлечь текст на C# и VB.NET с помощью Tesseract и Docotic.Pdf. - Извлечение текста из PDF в AWS Lambda на C# .NET
Как извлечь текст из PDF в AWS Lambda в приложении C# .NET Core с использованием библиотеки Docotic.Pdf.
Примеры кода
В этих примерах кода показаны различные варианты преобразования PDF в текст на C# и VB.NET.
Извлечь текст
Извлекайте простой текст из PDF-файлов с форматированием или без него.Извлечение текста по словам
Извлеките все слова из PDF-файла с подробной информацией, такой как положение, шрифт, цвет и другие свойства для каждого слова.Найдите и выделите текст
Извлеките все слова со страницы PDF. Найдите фразу в наборе слов. Затем выделите результат, используя аннотацию выделения.OCR PDF и извлечение обычного текста
Извлекайте текст из PDF-документов, не доступных для поиска, с помощью библиотеки Docotic.Pdf и Tesseract OCR.Исправить искаженный текст
Извлекайте текст из PDF-документов, когда обычные методы и инструменты дают искаженный/неожиданный текст.Извлечь текст из цели ссылки
Получите первую ссылку и извлеките текст с целевой страницы ссылки ниже верхнего смещения ссылки.