该页面可以包含自动翻译的文本。

PDF 转文本功能

您可以从不同语言的 PDF 文档中提取不同形式的文本。

Docotic.Pdf 可以从 PDF 文档中提取纯文本和格式化文本。并且可以获得每个字符的详细信息，例如字体、颜色、大小和其他属性。

您无需执行任何特殊操作即可从 PDF 文档中提取阿拉伯语、希伯来语或波斯语文本。这是因为 Docotic.Pdf 足够聪明，可以正确提取从右到左和双向的文本。

文章

以下资源解释了 C# 和 VB.NET 代码中 PDF 到文本转换的不同方面。

使用 C# 和 VB.NET 从 PDF 中提取文本
使用 Docotic.Pdf 库在 C# 和 VB.NET 中从 PDF 文档中提取文本。支持 Windows、Linux、macOS、Android、iOS、云环境。
在 C# .NET 中从 PDF 中提取文本和图像
使用 Docotic.Pdf 从 C# 和 VB.NET 中的 PDF 文档中提取文本、图像和路径。在 Windows、Linux、macOS、Android、iOS 和云环境中将 PDF 转换为文本。

我们有一篇博客文章解释了如何从不可搜索的 PDF 中提取文本。不可搜索的文档通常将文本呈现为光栅图像。

一个典型的例子是扫描的 PDF 文档。不可搜索的 PDF 文档也可以使用矢量路径呈现文本，而无需使用字体或特殊的 PDF 运算符。

C# 和 VB.NET 中的 OCR PDF
如何使用 Tesseract 和 Docotic.Pdf 在 C# 和 VB.NET 中 OCR PDF 并提取文本。
使用 C# .NET 从 AWS Lambda 上的 PDF 中提取文本
如何使用 Docotic.Pdf 库在 C# .NET Core 应用程序中的 AWS Lambda 上从 PDF 中提取文本。

这些示例代码显示了 C# 和 VB.NET 中 PDF 到文本转换的不同选项。