Skip to content

nakjun/python-data-parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

다기능 파일 파서 애플리케이션 🚀

이 프로젝트는 다양한 파일 형식을 처리하고 변환할 수 있는 강력한 Streamlit 기반 웹 애플리케이션입니다. PPT에서 PDF로의 변환, 이미지 분석, OCR 등 다양한 기능을 제공합니다.

주요 기능 🌟

  • PPT를 PDF로 변환: PowerPoint 프레젠테이션을 PDF 형식으로 변환합니다.
  • PDF를 이미지로 변환: PDF 파일의 각 페이지를 개별 이미지로 변환합니다.
  • 이미지 분석: 고급 Vision-Language 모델을 사용하여 이미지를 분석하고 설명합니다.
  • OCR (광학 문자 인식): PDF 또는 이미지에서 텍스트를 추출합니다.
  • TXT를 PDF로 변환: 텍스트 파일을 PDF 형식으로 변환합니다.
  • PDF를 HTML로 변환: PDF 파일을 HTML 형식으로 변환합니다.
  • PDF에서 이미지 추출: PDF 파일에 포함된 이미지를 추출하고 OCR을 수행합니다.

설치 방법 📦

  1. 저장소를 클론합니다:

    git clone https://github.com/nakjun/python-data-parser.git
    
  2. 필요한 라이브러리를 설치합니다:

    pip install -r requirements.txt
    
  3. 애플리케이션을 실행합니다:

    streamlit run main.py
    streamlit run main.py --server.port 9999 # 원하는 포트로 변경가능
    

사용 방법 🖥️

  1. 웹 브라우저에서 애플리케이션을 엽니다.
  2. 사이드바에서 원하는 기능을 선택합니다.
  3. 지시에 따라 파일을 업로드하고 처리합니다.
  4. 결과를 확인하고 필요한 경우 다운로드합니다.

기여하기 🤝

프로젝트에 기여하고 싶으신가요? 훌륭합니다! 다음 단계를 따라주세요:

  1. 이 저장소를 포크합니다.
  2. 새 브랜치를 만듭니다 (git checkout -b feature/Features).
  3. 변경 사항을 커밋합니다 (git commit -m 'Add some Features').
  4. 브랜치에 푸시합니다 (git push origin feature/Features).
  5. Pull Request를 열어주세요.

연락처 📧

프로젝트 관리자 - ✉️ njsung1217@gmail.com


⭐️ 이 프로젝트가 도움이 되었다면 스타를 눌러주세요!

About

python-data-parser with streamlit

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages