該頁面可以包含自動翻譯的文字。
PDF 轉文字功能
您可以從不同語言的 PDF 文件中,以不同形式擷取文字。
Docotic.Pdf 可以從 PDF 文件中擷取純文字和格式化文字。此外,還可以取得每個字元的詳細資訊,例如字型、顏色、大小及其他屬性。
您不需要做任何特殊處理,即可從 PDF 文件中擷取阿拉伯文、希伯來文或波斯文。這是因為 Docotic.Pdf 足夠聰明,能正確擷取從右到左與雙向文字。
文章
以下是說明 C# 和 VB.NET 程式碼中 PDF 轉文字轉換不同方面的資源。
在 C# 和 VB.NET 中從 PDF 擷取文字
使用 Docotic.Pdf 程式庫以 C# 和 VB.NET 從 PDF 文件擷取文字。支援 Windows、Linux、macOS、Android、iOS 和雲端環境。在 C# .NET 中從 PDF 擷取文字與影像
使用 Docotic.Pdf 在 C# 和 VB.NET 中從 PDF 文件擷取文字、影像和路徑。可在 Windows、Linux、macOS、Android、iOS,以及雲端環境中將 PDF 轉為文字。
部落格文章
我們有一篇部落格文章說明如何從不可搜尋的 PDF 中擷取文字。不可搜尋文件通常會將文字呈現為點陣影像。
典型例子是掃描的 PDF 文件。不可搜尋的 PDF 文件也可能使用向量路徑來呈現文字,而不使用字型或特殊的 PDF 運算子。
- 在 C# 和 VB.NET 中對 PDF 進行 OCR
如何使用 Tesseract 和 Docotic.Pdf 在 C# 和 VB.NET 中對 PDF 進行 OCR 並擷取文字。 - 在 AWS Lambda 上以 C# .NET 擷取 PDF 文字
如何在 C# .NET Core 應用程式中使用 Docotic.Pdf 程式庫,從 AWS Lambda 上的 PDF 擷取文字。
範例程式碼
這些範例程式碼展示了在 C# 和 VB.NET 中進行 PDF 轉文字轉換的不同選項。
提取文字
從有格式或不帶格式的 PDF 中提取純文字。按單字擷取文本
從 PDF 中提取所有單詞,並提供每個單詞的位置、字體、顏色和其他屬性等詳細資訊。尋找並突出顯示文本
從 PDF 頁面中提取所有單字。 在單字集中找到該短語。 然後使用突出顯示註釋突出顯示結果。OCR PDF 並提取純文字
使用 Docotic.Pdf 庫和 Tesseract OCR 引擎從不可搜尋的 PDF 文件中提取文字。修復亂碼文字
當常規方法和工具產生亂碼/意外文字時,從 PDF 文件中提取文字。從連結目標中提取文本
取得第一個連結並從連結頂部偏移下方的連結目標頁面中提取文字。