該頁面可以包含自動翻譯的文字。

PDF 轉文字功能

您可以從不同語言的 PDF 文件中,以不同形式擷取文字。

PDF 轉文字轉換流程

Docotic.Pdf 可以從 PDF 文件中擷取純文字和格式化文字。此外,還可以取得每個字元的詳細資訊,例如字型、顏色、大小及其他屬性。

您不需要做任何特殊處理,即可從 PDF 文件中擷取阿拉伯文、希伯來文或波斯文。這是因為 Docotic.Pdf 足夠聰明,能正確擷取從右到左與雙向文字。

文章

以下是說明 C# 和 VB.NET 程式碼中 PDF 轉文字轉換不同方面的資源。

部落格文章

我們有一篇部落格文章說明如何從不可搜尋的 PDF 中擷取文字。不可搜尋文件通常會將文字呈現為點陣影像。

典型例子是掃描的 PDF 文件。不可搜尋的 PDF 文件也可能使用向量路徑來呈現文字,而不使用字型或特殊的 PDF 運算子。

範例程式碼

這些範例程式碼展示了在 C# 和 VB.NET 中進行 PDF 轉文字轉換的不同選項。

  • 提取文字
    從有格式或不帶格式的 PDF 中提取純文字。

  • 按單字擷取文本
    從 PDF 中提取所有單詞,並提供每個單詞的位置、字體、顏色和其他屬性等詳細資訊。

  • 尋找並突出顯示文本
    從 PDF 頁面中提取所有單字。 在單字集中找到該短語。 然後使用突出顯示註釋突出顯示結果。

  • OCR PDF 並提取純文字
    使用 Docotic.Pdf 庫和 Tesseract OCR 引擎從不可搜尋的 PDF 文件中提取文字。

  • 修復亂碼文字
    當常規方法和工具產生亂碼/意外文字時,從 PDF 文件中提取文字。

  • 從連結目標中提取文本
    取得第一個連結並從連結頂部偏移下方的連結目標頁面中提取文字。