該頁面可以包含自動翻譯的文字。
PDF 轉文字功能
您可以從不同語言的 PDF 文件中提取不同形式的文字。
Docotic.Pdf 可以從 PDF 文件中提取純文字和格式化文字。 並且可以獲得每個字元的詳細信息,例如字體、顏 色、大小和其他屬性。
您無需執行任何特殊操作即可從 PDF 文件中提取阿拉伯語、希伯來語或波斯語文字。 這是因為 Docotic.Pdf 足 夠聰明,可以正確提取從右到左和雙向的文字。
9.5.17615-dev 14,813 已通過 NuGet 總下載量 4,924,084文章
以下資源解釋了 C# 和 VB.NET 程式碼中 PDF 到文字轉換的不同面向。
使用 C# 和 VB.NET 從 PDF 中提取文本
使用 Docotic.Pdf 庫在 C# 和 VB.NET 中從 PDF 文件中提取文字。 支援 Windows、Linux、macOS、Android、iOS、雲端環境。在 C# .NET 中從 PDF 中提取文字和圖像
使用 Docotic.Pdf 從 C# 和 VB.NET 中的 PDF 文件中提取文字、圖像和路徑。 在 Windows、Linux、macOS、Android、iOS 和雲端環境中將 PDF 轉換為文字。
部落格文章
我們有一篇部落格文章解釋瞭如何從不可搜尋的 PDF 中提取文字。 不可搜尋的文件通常將文字呈現為光柵圖像。
一個典型的例子是掃描的 PDF 文件。 不可搜尋的 PDF 文件也可以使用向量路徑呈現文本,而無需使用字體或特 殊的 PDF 運算符。
- C# 和 VB.NET 中的 OCR PDF
如何使用 Tesseract 和 Docotic.Pdf 在 C# 和 VB.NET 中 OCR PDF 並提取文字。 - 使用 C# .NET 從 AWS Lambda 上的 PDF 中提取文本
如何使用 Docotic.Pdf 庫在 C# .NET Core 應用程式中的 AWS Lambda 上從 PDF 中提取文字。
範例程式碼
這些範例程式碼顯示了 C# 和 VB.NET 中 PDF 到文字轉換的不同選項。
提取文字
從有格式或不帶格式的 PDF 中提取純文字。按單字擷取文本
從 PDF 中提取所有單詞,並提供每個單詞的位置、字體、顏色和其他屬性等詳細資訊。尋找並突出顯示文本
從 PDF 頁面中提取所有單字。 在單字集中找到該短語。 然後使用突出顯示註釋突出顯示結果。OCR PDF 並提取純文字
使用 Docotic.Pdf 庫和 Tesseract OCR 引擎從不可搜尋的 PDF 文件中提取文字。修復亂碼文字
當常規方法和工具產生亂碼/意外文字時,從 PDF 文件中提取文字。從連結目標中提取文本
取得第一個連結並從連結頂部偏移下方的連結目標頁面中提取文字。