공모주 데이터 스크래핑/크롤링

KRX·DART 전자공시의 주식청약 데이터를 자동 수집하고, PDF 객체를 인식해 데이터화하는 클라우드 기반 파이프라인입니다.

KRX·DART

데이터 출처

OCR 파이프라인

PDF 추출

AWS Lambda

인프라

문제정의

문제해결

Selenium WebDriver와 Explicit Wait로 동적 웹페이지 처리 시스템을 구축하고, Camelot-py·Tesseract OCR로 PDF 추출 파이프라인을 개발했습니다.
AWS S3 Intelligent-Tiering과 PDF 압축으로 저장 공간을 효율화했습니다.
AWS Lambda 서버리스 아키텍처와 boto3 기반 자동 파일 관리 시스템을 구축했습니다.
Python logging을 커스텀해 단계별 로그를 관리하고, Slack 알림으로 실시간 모니터링 체계를 만들었습니다.

결과

기술스택

PythonSeleniumCamelot-pyTesseract OCRAWS LambdaAWS S3AWS EventBridgeAWS CloudWatchboto3Docker