Big data weather analysis

Project is focused on analysing big amounts of weather data and using them to extract information. Project contains 3 elements:

ALL INSTRUCTIONS REQUIRE DATA TO BE ON HDFS IN /weather DIR !!

Starting Hadoop batch processing

Go to ./Docker/Docker-Hadoop
start docker containers with docker-compose up command
copy file witch on spark-master container ( docker cp . spark-master:/spark)
connect with spark-master container (docker exec -it spark-master /bin/bash/)
run example with command : $SPARK_HOME/bin/spark-submit ./spark/disaster_type_count_by_month.py

Go to ./Docker/Docker-spark
start docker containers with docker-compose up command
position in Weather/Weather_Hadoop and run ./copy-files.sh
connect with name-node container (docker exec -it docker-hadoop_namenode_1 /bin/bash/)
run example with script ./compile-and-run-mr.sh

Go to ./Docker/Docker-spark-streaming
start docker containers with docker-compose up command
position in Weather/Weather_streaming and run ./kopiraj_fajlove_u_spark_master.sh
connect with name-node container (docker exec -it docker-hadoop_namenode_1 /bin/bash/)
run ./add-jars.sh to install kafka dependencies for spark
run example with command : $SPARK_HOME/bin/spark-submit --jars spark-streaming-kafka-0-8-assembly_2.11-2.4.0.jar ./too_much_storms.py

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Docker		Docker
Weather_Hadoop		Weather_Hadoop
Weather_striming		Weather_striming
results		results
.gitignore		.gitignore
README.md		README.md
data_source.txt		data_source.txt
disaster_type_count_by_month.py		disaster_type_count_by_month.py
number_of_distinct_lines.py		number_of_distinct_lines.py
number_of_storms_per_year_with_demage.py		number_of_storms_per_year_with_demage.py
pr1.py		pr1.py
pr2.py		pr2.py
predlog_projekta.odp		predlog_projekta.odp
states_greatest_disaster.py		states_greatest_disaster.py
test.py		test.py
unusual_disaster_2013.py		unusual_disaster_2013.py
worst_individual_storms.py		worst_individual_storms.py