이 페이지에는 자동 번역된 텍스트가 포함될 수 있습니다.

C# 및 VB.NET의 PDF 문서에서 텍스트, 경로 및 이미지 추출

Docotic.Pdf 라이브러리를 사용하여 Windows, Linux, macOS, Android, iOS 또는 클라우드 환경의 .NET에 있는 PDF 문서에서 텍스트, 이미지, 벡터 경로를 추출합니다.

텍스트 및 이미지 추출

PDF에서 텍스트 가져오기

Docotic.Pdf를 사용하여 PDF 문서를 .NET의 텍스트로 변환할 수 있습니다. 이 샘플은 C#에서 PDF를 서식 있는 텍스트로 변환하는 방법을 보여줍니다:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    var options = new PdfTextExtractionOptions
    {
        SkipInvisibleText = true,
        WithFormatting = true
    };
    string formattedText = pdf.GetText(options);
    Console.WriteLine(formattedText);
}

PDF 페이지의 특정 부분에서만 텍스트를 추출할 수 있습니다. 이를 위해서는 PdfTextExtractionOptions.Rectangle 속성을 사용하세요.

정교한 분석을 위해 모든 텍스트 청크에 대한 자세한 정보를 얻을 수도 있습니다. Docotic.Pdf를 사용하면 PDF 텍스트를 있는 그대로, 단어 기준 또는 문자 기준으로 추출할 수 있습니다. 이 샘플은 C#에서 단어별로 PDF 텍스트를 추출하는 방법을 보여줍니다:

using (var pdf = new PdfDocument("your_document.pdf"))
{
    PdfPage page = pdf.Pages[0];
    foreach (PdfTextData data in page.GetWords())
    {
        Console.WriteLine(
            $"{{\n" +
            $"  text: '{data.GetText()}',\n" +
            $"  bounds: {data.Bounds},\n" +
            $"  font name: '{data.Font.Name}',\n" +
            $"  font size: {data.FontSize},\n" +
            $"  transformation matrix: {data.TransformationMatrix},\n" +
            $"  rendering mode: '{data.RenderingMode}',\n" +
            $"  brush: {data.Brush},\n" +
            $"  pen: {data.Pen}\n" +
            $"}},"
        );
    }
}

.NET에서 PDF를 텍스트로 변환하는 방법에 대한 더 많은 샘플과 정보를 얻으려면 PDF에서 텍스트 추출 문서를 읽어보세요.

.NET의 PDF에서 이미지 가져오기

라이브러리는 PDF 파일에서 이미지를 있는 그대로 추출 또는 그림대로하는 데 사용할 수 있습니다. C#에서 PDF의 모든 이미지를 추출하는 방법:

using BitMiracle.Docotic.Pdf;

using (var pdf = new PdfDocument("your_document.pdf"))
{
    int i = 0;
    foreach (PdfImage image in pdf.GetImages())
    {
        string imageFile = image.Save(i.ToString());
        ++i;
    }
}

추출된 이미지는 TIFF 및 JPEG 이미지로 저장할 수 있습니다.

라이브러리는 이미지를 추출하는 동안 이미지를 다시 압축하지 않습니다. PDF와 동일한 품질의 이미지를 얻을 수 있습니다.

페이지에 이미지가 실제로 그려지는 위치에 대한 정보도 얻을 수 있습니다.

PDF에서 벡터 경로 추출

PdfPage.GetObjects() 메서드를 사용하여 PDF 문서의 벡터 경로에 대한 정보를 얻을 수 있습니다. 자세한 내용은 페이지 개체 복사페이지 개체 추출 샘플을 살펴보세요.

PdfPage.GetObjects(PdfObjectExtractionOptions) 오버로드를 사용하여 텍스트를 벡터 경로로 추출할 수도 있습니다. 이 기능은 .NET에서 PDF의 텍스트를 병합하는 데 사용할 수 있습니다.