초뚜의 개발 블로그

opencv(2)

PDF 시험지에서 문제별로 이미지 자동 자르기 - 이미지 기반 (PyMuPDF + OpenCV + pytesseract)
OCR 인식률을 개선하기 위해 문제 단위로 이미지를 자동 분할하는 스크립트를 만들었습니다.https://choddu.tistory.com/27 PDF 시험지에서 문제별로 이미지 자동 자르기 - 텍스트 기반 (PyMuPDF + OpenCV)프로젝트를 진행하면서 수식이 포함된 시험 문제의 경우, 전체 페이지 단위로 OCR을 적용하면 인식 정확도가 떨어진다는 점을 알게 되었습니다.특히 수식이 많을수록 잘못 인식되거나 문장 구조choddu.tistory.com 지난 게시물에서는 텍스트 기반 PDF를 처리하는 스크립트를 소개했는데, 이번에는 이미지 기반 PDF를 대상으로 한 스크립트를 정리했습니다.이미지 기반 PDF는 Python에서 직접 텍스트를 추출할 수 없기 때문에, OCR 기술을 활용해 다른 방식으로 접근..
2025.06.04
PDF 시험지에서 문제별로 이미지 자동 자르기 - 텍스트 기반 (PyMuPDF + OpenCV)
프로젝트를 진행하면서 수식이 포함된 시험 문제의 경우, 전체 페이지 단위로 OCR을 적용하면 인식 정확도가 떨어진다는 점을 알게 되었습니다.특히 수식이 많을수록 잘못 인식되거나 문장 구조가 깨지는 경우가 많았습니다.이 문제를 해결하기 위해, PDF를 문제 단위로 나눠 OCR을 적용해본 결과,문제별로 분할된 이미지에서 수식을 인식할 때 LaTeX 변환 정확도가 훨씬 높아지는 것을 확인했습니다.그래서 전체 페이지에서 문제 단위로 이미지를 잘라주는 스크립트를 직접 만들기로 했습니다. page 단위, 문제 단위 필요 라이브러리 설치pip install pymupdf opencv-python PyMuPDF (fitz): PDF에서 텍스트와 좌표 추출OpenCV: 이미지 자르기 및 저장전체 코드1. PDF 열기..
2025.06.03

1

티스토리툴바