该页面可以包含自动翻译的文本。
PDF 转文本功能
您可以从不同语言的 PDF 文档中提取不同形式的文本。
Docotic.Pdf 可以从 PDF 文档中提取纯文本和格式化文本。 并且可以获得每个字符的详细信息,例如字体、颜 色、大小和其他属性。
您无需执行任何特殊操作即可从 PDF 文档中提取阿拉伯语、希伯来语或波斯语文本。 这是因为 Docotic.Pdf 足 够聪明,可以正确提取从右到左和双向的文本。
9.5.17615-dev 14,813 通过 NuGet 总下载量 4,924,084文章
以下资源解释了 C# 和 VB.NET 代码中 PDF 到文本转换的不同方面。
使用 C# 和 VB.NET 从 PDF 中提取文本
使用 Docotic.Pdf 库在 C# 和 VB.NET 中从 PDF 文档中提取文本。 支持 Windows、Linux、macOS、Android、iOS、云环境。在 C# .NET 中从 PDF 中提取文本和图像
使用 Docotic.Pdf 从 C# 和 VB.NET 中的 PDF 文档中提取文本、图像和路径。 在 Windows、Linux、macOS、Android、iOS 和云环境中将 PDF 转换为文本。
博客文章
我们有一篇博客文章解释了如何从不可搜索的 PDF 中提取文本。 不可搜索的文档通常将文本呈现为光栅图像。
一个典型的例子是扫描的 PDF 文档。 不可搜索的 PDF 文档也可以使用矢量路径呈现文本,而无需使用字体或特 殊的 PDF 运算符。
- C# 和 VB.NET 中的 OCR PDF
如何使用 Tesseract 和 Docotic.Pdf 在 C# 和 VB.NET 中 OCR PDF 并提取文本。 - 使用 C# .NET 从 AWS Lambda 上的 PDF 中提取文本
如何使用 Docotic.Pdf 库在 C# .NET Core 应用程序中的 AWS Lambda 上从 PDF 中提取文本。
示例代码
这些示例代码显示了 C# 和 VB.NET 中 PDF 到文本转换的不同选项。
提取文本
从带格式或不带格式的 PDF 中提取纯文本。按单词提取文本
从 PDF 中提取所有单词,并提供每个单词的位置、字体、颜色和其他属性等详细信息。查找并突出显示文本
从 PDF 页面中提取所有单词。 在单词集中找到该短语。 然后使用突出显示注释突出显示结果。OCR PDF 并提取纯文本
使用 Docotic.Pdf 库和 Tesseract OCR 引擎从不可搜索的 PDF 文档中提取文本。修复乱码文本
当常规方法和工具产生乱码/意外文本时,从 PDF 文档中提取文本。从链接目标中提取文本
获取第一个链接并从链接顶部偏移下方的链接目标页面中提取文本。