이 페이지에는 자동 번역된 텍스트가 포함될 수 있습니다.
C# 및 VB.NET의 PDF 문서에서 텍스트, 경로 및 이미지 추출
Docotic.Pdf 라이브러리를 사용하여 Windows, Linux, macOS, Android, iOS 또는 클라우드 환경의 .NET에 있는 PDF 문서에서 텍스트, 이미지, 벡터 경로를 추출합니다.
PDF에서 텍스트 가져오기
Docotic.Pdf를 사용하여 PDF 문서를 .NET의 텍스트로 변환할 수 있습니다. 이 샘플은 C#에서 PDF를 서식 있는 텍스트로 변환하는 방법을 보여줍니다:
using BitMiracle.Docotic.Pdf;
using (var pdf = new PdfDocument("your_document.pdf"))
{
var options = new PdfTextExtractionOptions
{
SkipInvisibleText = true,
WithFormatting = true
};
string formattedText = pdf.GetText(options);
Console.WriteLine(formattedText);
}
PDF 페이지의 특정 부분에서만 텍스트를 추출할 수 있습니다. 이를 위해서는 PdfTextExtractionOptions.Rectangle 속성을 사용하세요.
정교한 분석을 위해 모든 텍스트 청크에 대한 자세한 정보를 얻을 수도 있습니다. Docotic.Pdf를 사용하면 PDF 텍스트를 있는 그대로, 단어 기준 또는 문자 기준으로 추출할 수 있습니다. 이 샘플은 C#에서 단어별로 PDF 텍스트를 추출하는 방법을 보여줍니다:
using (var pdf = new PdfDocument("your_document.pdf"))
{
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
Console.WriteLine(
$"{{\n" +
$" text: '{data.GetText()}',\n" +
$" bounds: {data.Bounds},\n" +
$" font name: '{data.Font.Name}',\n" +
$" font size: {data.FontSize},\n" +
$" transformation matrix: {data.TransformationMatrix},\n" +
$" rendering mode: '{data.RenderingMode}',\n" +
$" brush: {data.Brush},\n" +
$" pen: {data.Pen}\n" +
$"}},"
);
}
}
.NET에서 PDF를 텍스트로 변환하는 방법에 대한 더 많은 샘플과 정보를 얻으려면 PDF에서 텍스트 추출 문서를 읽어보세요.
.NET의 PDF에서 이미지 가져오기
라이브러리는 PDF 파일에서 이미지를 있는 그대로 추출 또는 그림대로하는 데 사용할 수 있습니다. C#에서 PDF의 모든 이미지를 추출하는 방법:
using BitMiracle.Docotic.Pdf;
using (var pdf = new PdfDocument("your_document.pdf"))
{
int i = 0;
foreach (PdfImage image in pdf.GetImages())
{
string imageFile = image.Save(i.ToString());
++i;
}
}
추출된 이미지는 TIFF 및 JPEG 이미지로 저장할 수 있습니다.
라이브러리는 이미지를 추출하는 동안 이미지를 다시 압축하지 않습니다. PDF와 동일한 품질의 이미지를 얻을 수 있습니다.
페이지에 이미지가 실제로 그려지는 위치에 대한 정보도 얻을 수 있습니다.
PDF에서 벡터 경로 추출
PdfPage.GetObjects() 메서드를 사용하여 PDF 문서의 벡터 경로에 대한 정보를 얻을 수 있습니다. 자세한 내용은 페이지 개체 복사 및 페이지 개체 추출 샘플을 살펴보세요.
PdfPage.GetObjects(PdfObjectExtractionOptions) 오버로드를 사용하여 텍스트를 벡터 경로로 추출할 수도 있습니다. 이 기능은 .NET에서 PDF의 텍스트를 병합하는 데 사용할 수 있습니다.