该页面可以包含自动翻译的文本。

PDF 转文本功能

您可以从不同语言的 PDF 文档中提取不同形式的文本。

Docotic.Pdf 可以从 PDF 文档中提取纯文本和格式化文本。并且可以获取每个字符的字体、颜色、大小以及其他属性等详细信息。

无需执行任何特殊操作即可从 PDF 文档中提取阿拉伯语、希伯来语或波斯语文本。这是因为 Docotic.Pdf 足够智能，能够正确提取从右向左和双向文本。

文章

下面是介绍在 C# 和 VB.NET 代码中进行 PDF 转文本的不同方面的资源。

在 C# 和 VB.NET 中从 PDF 提取文本
使用 Docotic.Pdf 库从 C# 和 VB.NET 中提取 PDF 文档中的文本。支持 Windows、Linux、macOS、Android、iOS 和云环境。
在 C# .NET 中从 PDF 提取文本和图像
使用 Docotic.Pdf 在 C# 和 VB.NET 中从 PDF 文档提取文本、图像和路径。可在 Windows、Linux、macOS、Android、iOS 以及云环境中将 PDF 转换为文本。

我们有一篇博文，说明如何从不可搜索的 PDF 中提取文本。不可搜索文档通常会将文本呈现为光栅图像。

一个典型示例是扫描件 PDF 文档。不可搜索的 PDF 文档也可能使用矢量路径来渲染文本，而不使用字体或特殊 PDF 运算符。

在 C# 和 VB.NET 中对 PDF 进行 OCR
如何使用 Tesseract 和 Docotic.Pdf 在 C# 和 VB.NET 中对 PDF 进行 OCR 并提取文本。
在 C# .NET 中使用 AWS Lambda 从 PDF 提取文本
如何在 C# .NET Core 应用程序中使用 Docotic.Pdf 库从 AWS Lambda 上的 PDF 提取文本。

这些示例代码展示了在 C# 和 VB.NET 中进行 PDF 转文本转换的不同选项。