이 페이지에는 자동 번역된 텍스트가 포함될 수 있습니다.

PDF를 텍스트로 변환하는 기능

다양한 언어의 PDF 문서에서 텍스트를 여러 형태로 추출할 수 있습니다.

Docotic.Pdf는 PDF 문서에서 일반 텍스트와 서식이 적용된 텍스트를 추출할 수 있습니다. 또한 각 문자에 대해 글꼴, 색상, 크기 및 기타 속성에 대한 자세한 정보를 얻을 수 있습니다.

PDF 문서에서 아랍어, 히브리어 또는 페르시아어 텍스트를 추출하기 위해 특별한 작업을 할 필요가 없습니다. Docotic.Pdf가 오른쪽에서 왼쪽으로 쓰는 텍스트와 양방향 텍스트를 올바르게 추출할 만큼 충분히 똑똑하기 때문입니다.

조항

아래에는 C# 및 VB.NET 코드에서 PDF를 텍스트로 변환하는 다양한 측면을 설명하는 리소스가 있습니다.

C# 및 VB.NET에서 PDF 텍스트 추출
Docotic.Pdf 라이브러리를 사용하여 C# 및 VB.NET에서 PDF 문서의 텍스트를 추출합니다. Windows, Linux, macOS, Android, iOS, 클라우드 환경을 지원합니다.
C# .NET에서 PDF의 텍스트와 이미지를 추출
Docotic.Pdf를 사용하여 C# 및 VB.NET에서 PDF 문서의 텍스트, 이미지, 경로를 추출합니다. Windows, Linux, macOS, Android, iOS 및 클라우드 환경에서 PDF를 텍스트로 변환합니다.

검색할 수 없는 PDF에서 텍스트를 추출하는 방법을 설명하는 블로그 게시물이 있습니다. 검색할 수 없는 문서는 일반적으로 텍스트를 래스터 이미지로 렌더링합니다.

대표적인 예는 스캔한 PDF 문서입니다. 검색할 수 없는 PDF 문서는 글꼴이나 특수 PDF 연산자를 사용하지 않고 벡터 경로로 텍스트를 렌더링할 수도 있습니다.

C# 및 VB.NET에서 PDF OCR
Tesseract와 Docotic.Pdf를 사용하여 C# 및 VB.NET에서 PDF를 OCR하고 텍스트를 추출하는 방법입니다.
C# .NET에서 AWS Lambda로 PDF 텍스트 추출
Docotic.Pdf 라이브러리를 사용하여 C# .NET Core 애플리케이션에서 AWS Lambda에서 PDF 텍스트를 추출하는 방법입니다.

이 샘플 코드는 C# 및 VB.NET에서 PDF를 텍스트로 변환하는 다양한 옵션을 보여줍니다.

텍스트 추출
서식이 있거나 없는 PDF에서 일반 텍스트를 추출합니다.
단어별로 텍스트 추출
각 단어의 위치, 글꼴, 색상 및 기타 속성과 같은 자세한 정보가 포함된 PDF에서 모든 단어를 추출합니다.
텍스트 찾기 및 강조표시
PDF 페이지에서 모든 단어를 추출합니다. 단어 모음에서 문구를 찾으세요. 그런 다음 강조 주석을 사용하여 결과를 강조 표시합니다.
OCR PDF 및 일반 텍스트 추출
Docotic.Pdf 라이브러리 및 Tesseract OCR 엔진을 사용하여 검색할 수 없는 PDF 문서에서 텍스트를 추출합니다.
깨진 텍스트 수정
일반적인 방법과 도구로 인해 왜곡되거나 예상치 못한 텍스트가 생성되는 경우 PDF 문서에서 텍스트를 추출합니다.
링크 대상에서 텍스트 추출
첫 번째 링크를 가져오고 링크의 상단 오프셋 아래에 있는 링크의 대상 페이지에서 텍스트를 추출합니다.