该页面可以包含自动翻译的文本。

PDF 转文本功能

您可以从不同语言的 PDF 文档中提取不同形式的文本。

PDF 到文本转换过程

Docotic.Pdf 可以从 PDF 文档中提取纯文本和格式化文本。 并且可以获得每个字符的详细信息,例如字体、颜 色、大小和其他属性。

您无需执行任何特殊操作即可从 PDF 文档中提取阿拉伯语、希伯来语或波斯语文本。 这是因为 Docotic.Pdf 足 够聪明,可以正确提取从右到左和双向的文本。

Docotic.Pdf 库 9.5.17664-dev 回归测试 14,820 通过 NuGet 总下载量 4,998,853

文章

以下资源解释了 C# 和 VB.NET 代码中 PDF 到文本转换的不同方面。

博客文章

我们有一篇博客文章解释了如何从不可搜索的 PDF 中提取文本。 不可搜索的文档通常将文本呈现为光栅图像。

一个典型的例子是扫描的 PDF 文档。 不可搜索的 PDF 文档也可以使用矢量路径呈现文本,而无需使用字体或特 殊的 PDF 运算符。

示例代码

这些示例代码显示了 C# 和 VB.NET 中 PDF 到文本转换的不同选项。

  • 提取文本
    从带格式或不带格式的 PDF 中提取纯文本。

  • 按单词提取文本
    从 PDF 中提取所有单词,并提供每个单词的位置、字体、颜色和其他属性等详细信息。

  • 查找并突出显示文本
    从 PDF 页面中提取所有单词。 在单词集中找到该短语。 然后使用突出显示注释突出显示结果。

  • OCR PDF 并提取纯文本
    使用 Docotic.Pdf 库和 Tesseract OCR 引擎从不可搜索的 PDF 文档中提取文本。

  • 修复乱码文本
    当常规方法和工具产生乱码/意外文本时,从 PDF 文档中提取文本。

  • 从链接目标中提取文本
    获取第一个链接并从链接顶部偏移下方的链接目标页面中提取文本。