該頁面可以包含自動翻譯的文字。

PDF 轉文字功能

您可以從不同語言的 PDF 文件中提取不同形式的文字。

PDF 到文字轉換過程

Docotic.Pdf 可以從 PDF 文件中提取純文字和格式化文字。 並且可以獲得每個字元的詳細信息,例如字體、顏 色、大小和其他屬性。

您無需執行任何特殊操作即可從 PDF 文件中提取阿拉伯語、希伯來語或波斯語文字。 這是因為 Docotic.Pdf 足 夠聰明,可以正確提取從右到左和雙向的文字。

Docotic.Pdf 函式庫 9.5.17615-dev 回歸測試 14,813 已通過 NuGet 總下載量 4,924,084

文章

以下資源解釋了 C# 和 VB.NET 程式碼中 PDF 到文字轉換的不同面向。

部落格文章

我們有一篇部落格文章解釋瞭如何從不可搜尋的 PDF 中提取文字。 不可搜尋的文件通常將文字呈現為光柵圖像。

一個典型的例子是掃描的 PDF 文件。 不可搜尋的 PDF 文件也可以使用向量路徑呈現文本,而無需使用字體或特 殊的 PDF 運算符。

範例程式碼

這些範例程式碼顯示了 C# 和 VB.NET 中 PDF 到文字轉換的不同選項。

  • 提取文字
    從有格式或不帶格式的 PDF 中提取純文字。

  • 按單字擷取文本
    從 PDF 中提取所有單詞,並提供每個單詞的位置、字體、顏色和其他屬性等詳細資訊。

  • 尋找並突出顯示文本
    從 PDF 頁面中提取所有單字。 在單字集中找到該短語。 然後使用突出顯示註釋突出顯示結果。

  • OCR PDF 並提取純文字
    使用 Docotic.Pdf 庫和 Tesseract OCR 引擎從不可搜尋的 PDF 文件中提取文字。

  • 修復亂碼文字
    當常規方法和工具產生亂碼/意外文字時,從 PDF 文件中提取文字。

  • 從連結目標中提取文本
    取得第一個連結並從連結頂部偏移下方的連結目標頁面中提取文字。