이 프로젝트는 다양한 파일 형식을 처리하고 변환할 수 있는 강력한 Streamlit 기반 웹 애플리케이션입니다. PPT에서 PDF로의 변환, 이미지 분석, OCR 등 다양한 기능을 제공합니다.
- PPT를 PDF로 변환: PowerPoint 프레젠테이션을 PDF 형식으로 변환합니다.
- PDF를 이미지로 변환: PDF 파일의 각 페이지를 개별 이미지로 변환합니다.
- 이미지 분석: 고급 Vision-Language 모델을 사용하여 이미지를 분석하고 설명합니다.
- OCR (광학 문자 인식): PDF 또는 이미지에서 텍스트를 추출합니다.
- TXT를 PDF로 변환: 텍스트 파일을 PDF 형식으로 변환합니다.
- PDF를 HTML로 변환: PDF 파일을 HTML 형식으로 변환합니다.
- PDF에서 이미지 추출: PDF 파일에 포함된 이미지를 추출하고 OCR을 수행합니다.
-
저장소를 클론합니다:
git clone https://github.com/nakjun/python-data-parser.git
-
필요한 라이브러리를 설치합니다:
pip install -r requirements.txt
-
애플리케이션을 실행합니다:
streamlit run main.py streamlit run main.py --server.port 9999 # 원하는 포트로 변경가능
- 웹 브라우저에서 애플리케이션을 엽니다.
- 사이드바에서 원하는 기능을 선택합니다.
- 지시에 따라 파일을 업로드하고 처리합니다.
- 결과를 확인하고 필요한 경우 다운로드합니다.
프로젝트에 기여하고 싶으신가요? 훌륭합니다! 다음 단계를 따라주세요:
- 이 저장소를 포크합니다.
- 새 브랜치를 만듭니다 (
git checkout -b feature/Features
). - 변경 사항을 커밋합니다 (
git commit -m 'Add some Features'
). - 브랜치에 푸시합니다 (
git push origin feature/Features
). - Pull Request를 열어주세요.
프로젝트 관리자 - ✉️ njsung1217@gmail.com
⭐️ 이 프로젝트가 도움이 되었다면 스타를 눌러주세요!