leo.dev
← 이력서
CASE STUDY

공모주 데이터 스크래핑/크롤링

KRX·DART 전자공시의 주식청약 데이터를 자동 수집하고, PDF 객체를 인식해 데이터화하는 클라우드 기반 파이프라인입니다.

KRX·DART
데이터 출처
OCR 파이프라인
PDF 추출
AWS Lambda
인프라
문제정의
  • 증권사마다 PDF 형식이 상이해 데이터 추출 정확도가 낮고 일관성이 없었습니다.
  • 수집 PDF가 쌓이며 클라우드 스토리지 비용이 급증했습니다.
  • 증권사 서버 부하를 고려한 효율적 크롤링 전략이 필요했습니다.
  • 파이프라인 단계별 오류 추적·실시간 모니터링이 어려웠습니다.
문제해결
  • Selenium WebDriver와 Explicit Wait로 동적 웹페이지 처리 시스템을 구축하고, Camelot-py·Tesseract OCR로 PDF 추출 파이프라인을 개발했습니다.
  • AWS S3 Intelligent-Tiering과 PDF 압축으로 저장 공간을 효율화했습니다.
  • AWS Lambda 서버리스 아키텍처와 boto3 기반 자동 파일 관리 시스템을 구축했습니다.
  • Python logging을 커스텀해 단계별 로그를 관리하고, Slack 알림으로 실시간 모니터링 체계를 만들었습니다.
수집(Selenium)→추출(OCR)→구조화, 그리고 Lambda·S3 Tiering·로깅 운영
수집(Selenium)→추출(OCR)→구조화, 그리고 Lambda·S3 Tiering·로깅 운영
결과
  • 제각각인 증권사 PDF 형식에서 OCR 파이프라인으로 추출 정확도와 일관성을 끌어올렸습니다.
  • S3 Intelligent-Tiering과 PDF 압축으로 스토리지·클라우드 운영 비용을 절감했습니다.
  • 수작업이던 수집·가공을 자동화해 운영 부담을 줄였습니다.
기술스택
PythonSeleniumCamelot-pyTesseract OCRAWS LambdaAWS S3AWS EventBridgeAWS CloudWatchboto3Docker
↑↓ 이동 열기esc 닫기