該頁面可以包含自動翻譯的文字。

PDF 轉文字功能

您可以從不同語言的 PDF 文件中提取不同形式的文字。

Docotic.Pdf 可以從 PDF 文件中提取純文字和格式化文字。並且可以獲得每個字元的詳細信息，例如字體、顏色、大小和其他屬性。

您無需執行任何特殊操作即可從 PDF 文件中提取阿拉伯語、希伯來語或波斯語文字。這是因為 Docotic.Pdf 足夠聰明，可以正確提取從右到左和雙向的文字。

文章

以下資源解釋了 C# 和 VB.NET 程式碼中 PDF 到文字轉換的不同面向。

使用 C# 和 VB.NET 從 PDF 中提取文本
使用 Docotic.Pdf 庫在 C# 和 VB.NET 中從 PDF 文件中提取文字。支援 Windows、Linux、macOS、Android、iOS、雲端環境。
在 C# .NET 中從 PDF 中提取文字和圖像
使用 Docotic.Pdf 從 C# 和 VB.NET 中的 PDF 文件中提取文字、圖像和路徑。在 Windows、Linux、macOS、Android、iOS 和雲端環境中將 PDF 轉換為文字。

我們有一篇部落格文章解釋瞭如何從不可搜尋的 PDF 中提取文字。不可搜尋的文件通常將文字呈現為光柵圖像。

一個典型的例子是掃描的 PDF 文件。不可搜尋的 PDF 文件也可以使用向量路徑呈現文本，而無需使用字體或特殊的 PDF 運算符。

C# 和 VB.NET 中的 OCR PDF
如何使用 Tesseract 和 Docotic.Pdf 在 C# 和 VB.NET 中 OCR PDF 並提取文字。
使用 C# .NET 從 AWS Lambda 上的 PDF 中提取文本
如何使用 Docotic.Pdf 庫在 C# .NET Core 應用程式中的 AWS Lambda 上從 PDF 中提取文字。

這些範例程式碼顯示了 C# 和 VB.NET 中 PDF 到文字轉換的不同選項。