Эта страница может содержать автоматически переведенный текст.

Функции преобразования PDF в текст

Из PDF-документов на разных языках можно извлекать текст в различных форматах.

Docotic.Pdf может извлекать простой и форматированный текст из PDF-документов. Также можно получить подробные сведения о шрифте, цвете, размере и других свойствах каждого символа.

Для извлечения арабского, ивритского или персидского текста из PDF-документов не требуется ничего особенного. Docotic.Pdf достаточно интеллектуален, чтобы корректно извлекать текст справа налево и двунаправленный текст.

Статьи

Ниже приведены ресурсы, объясняющие различные аспекты преобразования PDF в текст в коде C# и VB.NET.

Извлечение текста из PDF в C# и VB.NET
Извлечение текста из PDF-документов в C# и VB.NET с использованием библиотеки Docotic.Pdf. Поддерживаются Windows, Linux, macOS, Android, iOS и облачные среды.
Извлечение текста и изображений из PDF в C# .NET
Извлекайте текст, изображения и пути из PDF-документов в C# и VB.NET с помощью Docotic.Pdf. Преобразуйте PDF в текст в Windows, Linux, macOS, Android, iOS и в облачных средах.

Сообщения в блоге

У нас есть запись в блоге, объясняющая, как извлечь текст из PDF, не предназначенного для поиска. Обычно в таких документах текст отображается как растровое изображение.

Типичный пример — отсканированный PDF-документ. PDF-документы, не предназначенные для поиска, также могут отображать текст в виде векторных контуров без использования шрифтов или специальных операторов PDF.

OCR PDF в C# и VB.NET
Как выполнить OCR для PDF и извлечь текст в C# и VB.NET с использованием Tesseract и Docotic.Pdf.
Извлечение текста из PDF в AWS Lambda в C# .NET
Как извлечь текст из PDF в AWS Lambda в приложении C# .NET Core с использованием библиотеки Docotic.Pdf.

Примеры кода

Эти примеры кода показывают разные варианты преобразования PDF в текст в C# и VB.NET.

Извлечь текст
Извлекайте простой текст из PDF-файлов с форматированием или без него.
Извлечение текста по словам
Извлеките все слова из PDF-файла с подробной информацией, такой как положение, шрифт, цвет и другие свойства для каждого слова.
Найдите и выделите текст
Извлеките все слова со страницы PDF. Найдите фразу в наборе слов. Затем выделите результат, используя аннотацию выделения.
OCR PDF и извлечение обычного текста
Извлекайте текст из PDF-документов, не доступных для поиска, с помощью библиотеки Docotic.Pdf и Tesseract OCR.
Исправить искаженный текст
Извлекайте текст из PDF-документов, когда обычные методы и инструменты дают искаженный/неожиданный текст.
Извлечь текст из цели ссылки
Получите первую ссылку и извлеките текст с целевой страницы ссылки ниже верхнего смещения ссылки.