이 페이지에는 자동 번역된 텍스트가 포함될 수 있습니다.

PDF를 텍스트로 변환하는 기능

다양한 언어로 된 PDF 문서에서 다양한 형식의 텍스트를 추출할 수 있습니다.

Docotic.Pdf는 PDF 문서에서 일반 텍스트와 서식 있는 텍스트를 추출할 수 있습니다. 그리고 모든 단일 문자에 대한 글꼴, 색상, 크기 및 기타 속성과 같은 자세한 정보를 얻을 수 있습니다.

PDF 문서에서 아랍어, 히브리어 또는 페르시아어 텍스트를 추출하기 위해 특별한 작업을 수행할 필요가 없습니다. 이는 Docotic.Pdf가 오른쪽에서 왼쪽 및 양방향 텍스트를 적절하게 추출할 만큼 영리하기 때문입니다.

조항

다음은 C# 및 VB.NET 코드에서 PDF를 텍스트로 변환하는 다양한 측면을 설명하는 리소스입니다.

C# 및 VB.NET의 PDF에서 텍스트 추출
Docotic.Pdf 라이브러리를 사용하여 C# 및 VB.NET의 PDF 문서에서 텍스트를 추출합니다. Windows, Linux, macOS, Android, iOS, 클라우드 환경을 지원합니다.
C# .NET의 PDF에서 텍스트 및 이미지 추출
Docotic.Pdf를 사용하여 C# 및 VB.NET의 PDF 문서에서 텍스트, 이미지 및 경로를 추출합니다. 클라우드 환경의 Windows, Linux, macOS, Android, iOS에서 PDF를 텍스트로 변환합니다.

검색할 수 없는 PDF에서 텍스트를 추출하는 방법을 설명하는 블로그 게시물이 있습니다. 검색할 수 없는 문서는 일반적으로 텍스트를 래스터 이미지로 렌더링합니다.

일반적인 예는 스캔한 PDF 문서입니다. 검색할 수 없는 PDF 문서는 글꼴이나 특수 PDF 연산자를 사용하지 않고 벡터 경로로 텍스트를 렌더링할 수도 있습니다.

C# 및 VB.NET의 OCR PDF
Tesseract 및 Docotic.Pdf를 사용하여 C# 및 VB.NET에서 PDF를 OCR하고 텍스트를 추출하는 방법.
C# .NET의 AWS Lambda에서 PDF에서 텍스트 추출
Docotic.Pdf 라이브러리를 사용하여 C# .NET Core 애플리케이션의 AWS Lambda에서 PDF에서 텍스트를 추출하는 방법.

이러한 샘플 코드는 C# 및 VB.NET에서 PDF를 텍스트로 변환하는 다양한 옵션을 보여줍니다.

텍스트 추출
서식이 있거나 없는 PDF에서 일반 텍스트를 추출합니다.
단어별로 텍스트 추출
각 단어의 위치, 글꼴, 색상 및 기타 속성과 같은 자세한 정보가 포함된 PDF에서 모든 단어를 추출합니다.
텍스트 찾기 및 강조표시
PDF 페이지에서 모든 단어를 추출합니다. 단어 모음에서 문구를 찾으세요. 그런 다음 강조 주석을 사용하여 결과를 강조 표시합니다.
OCR PDF 및 일반 텍스트 추출
Docotic.Pdf 라이브러리 및 Tesseract OCR 엔진을 사용하여 검색할 수 없는 PDF 문서에서 텍스트를 추출합니다.
깨진 텍스트 수정
일반적인 방법과 도구로 인해 왜곡되거나 예상치 못한 텍스트가 생성되는 경우 PDF 문서에서 텍스트를 추출합니다.
링크 대상에서 텍스트 추출
첫 번째 링크를 가져오고 링크의 상단 오프셋 아래에 있는 링크의 대상 페이지에서 텍스트를 추출합니다.