- ec2에 환경 설정함. -> port foward, web server 구축 등.
- public ip =>
3.83.214.76 - hdfs로 파일 올림(connection abort error 해결)
- 위 부분에서 no live node error 발생 -> 해결
- query page 수정 완료
#term_project에 대한 접근 권한 설정해줌
hdfs dfs -chmod -R 777 /user/maria_dev/term_project
crontab -e
# 입력해서 넣어줌 (예시)
0 0 * * * ~/miniconda3/envs/bdp2024/bin/python3 /home/maria_dev/delete_old_files.py >> /home/maria_dev/cron.log 2>&1
# python3의 절대경로를 넣어줘야하는데 which python3를 하여 자신의 절대 경로를 확인해준 후
# 아래와 같이 설정 >>
0 0 * * * 자신의_python3절대경로 /home/maria_dev/delete_old_files.py >> /home/maria_dev/cron.log 2>&1
#자동으로 delete_old_files에 접근해서 실행해야하므로 해당 파일에 대한 접근 권한 설정
chmod +x /home/maria_dev/delete_old_files.py
#만약 실행이 안된다면 설치 후 크론탭 제대로 실행되고 있는지 확인 >>sudo yum install cronie-
이동 후 sql query문을 ui 조작을 통해 만들어냄
from 테이블 선택 시 select 할 수 있는 컬럼 나옴 -> 아무것도 클릭 안하면 * 로 간주함
join할 테이블 선택 시 초기 -> inner join으로 선택됨
outer join 등으로 바꾸면 그에 해당하는 세션이 열림
- /upload -> hdfs csv 파일 올리는데 문제 발생하거나 파일을 선택하지 않으면 경고창 뜸
- /query -> query문 잘못 만들었을 때
pyspark가 install되어 있어야함
-> 환경 생성할 때 pyspark도 같이 install을 해주지 않았다면 추가로 pip install pyspark를 해줘 pyspark.sql을 사용할 수 있도록 해야함
- 버전 호환의 문제
Flask와 Werkzeug 패키지의 버전이 서로 호환되지 않아 발생하는 문제가 발생할 수 있음
-> pip install --upgrade Flask Werkzeug 을 해주면 정상적으로 실행이 됨
((이것 이외로 인해 발생한 에러는 아직까지 없었습니다!))




