이 페이지에는 자동 번역된 텍스트가 포함될 수 있습니다.

C# 및 VB.NET에서 PDF 문서의 텍스트, 경로 및 이미지 추출

Docotic.Pdf 라이브러리를 사용하여 Windows, Linux, macOS, Android, iOS 또는 클라우드 환경의 .NET에서 PDF 문서의 텍스트, 이미지, 벡터 경로를 추출합니다.

텍스트 및 이미지 추출

PDF에서 텍스트 가져오기

.NET에서 Docotic.Pdf를 사용하여 PDF 문서를 텍스트로 변환할 수 있습니다. 이 샘플은 C#에서 PDF를 서식 있는 텍스트로 변환하는 방법을 보여줍니다:

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
var options = new PdfTextExtractionOptions
{
    SkipInvisibleText = true,
    WithFormatting = true
};
string formattedText = pdf.GetText(options);
Console.WriteLine(formattedText);

PDF 페이지의 특정 부분에서만 텍스트를 추출할 수 있습니다. 이를 위해 PdfTextExtractionOptions.Rectangle 속성을 사용합니다.

고급 분석을 위해 모든 텍스트 조각에 대한 자세한 정보도 얻을 수 있습니다. Docotic.Pdf는 PDF 텍스트를 있는 그대로, 단어 단위로 또는 문자 단위로 추출할 수 있습니다. 이 샘플은 C#에서 PDF 텍스트를 단어 단위로 추출하는 방법을 보여줍니다:

using var pdf = new PdfDocument("your_document.pdf");
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
    Console.WriteLine(
    $"{{\n" +
    $"  text: '{data.GetText()}',\n" +
    $"  bounds: {data.Bounds},\n" +
    $"  font name: '{data.Font.Name}',\n" +
    $"  font size: {data.FontSize},\n" +
    $"  transformation matrix: {data.TransformationMatrix},\n" +
    $"  rendering mode: '{data.RenderingMode}',\n" +
    $"  brush: {data.Brush},\n" +
    $"  pen: {data.Pen}\n" +
    $"}},"
    );
}

더 많은 샘플과 .NET의 PDF 텍스트 변환 정보를 보려면 Extract text from PDF 문서를 읽어 보세요.

.NET에서 PDF 이미지 가져오기

이 라이브러리는 PDF 파일에서 이미지를 있는 그대로 추출하거나 그려진 그대로 추출하는 데 사용할 수 있습니다. C#에서 PDF의 모든 이미지를 추출하는 방법:

using BitMiracle.Docotic.Pdf;

using var pdf = new PdfDocument("your_document.pdf");
int i = 0;
foreach (PdfImage image in pdf.GetImages())
{
    string imageFile = image.Save(i.ToString());
    ++i;
}

추출된 이미지는 TIFF 및 JPEG 이미지로 저장할 수 있습니다.

이 라이브러리는 이미지를 추출하는 동안 다시 압축하지 않습니다. PDF와 동일한 품질의 이미지를 얻을 수 있습니다.

이미지가 페이지의 실제 어느 위치에 그려졌는지에 대한 정보도 얻을 수 있습니다.

PDF에서 벡터 경로 추출

PdfPage.GetObjects() 메서드를 사용하여 PDF 문서의 벡터 경로에 대한 정보를 얻을 수 있습니다. 자세한 내용은 페이지 객체 복사 및 페이지 객체 추출 샘플을 확인하세요.

또한 PdfPage.GetObjects(PdfObjectExtractionOptions) 오버로드를 사용하여 텍스트를 벡터 경로로 추출할 수 있습니다. 이 기능은 .NET의 PDF에서 텍스트를 평탄화하는 데 사용할 수 있습니다.