BasketballStats

Basketball Statistics Demo Created by Jordan Volz (jordan.volz@cloudera.com)

Status: Demo Ready

Use Case: End-to-end spark workflow: data processing, ad-hoc analytics, and predictive analytics

Steps:

Open a CDSW terminal and run setup.sh
Create a Scala Session and run data-processing.scala
Create a Python Session and run analysis.py
Return to the Scala Session and run machine-learning.scala
When finished, run cleanup.scala in your spark session and cleanup.sh in the terminal

Recommended Session Sizes: 4 CPU, 8 GB RAM

Recommended Jobs/Pipeline: data-processing.scala --> analysis.py --> machine-learning.scala

Notes:

Estimated Runtime: data-processing.scala --> approx 1 min analysis.py --> < 1 min machine-learning.scala --> approx 30 min

Demo Script http://github.mtv.cloudera.com/foe/BasketballStats/blob/master/BasketballStatsDemoScript.docx

Related Content: http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-using-apache-spark-and-sql/ http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-with-apache-spark-and-sql-part-2-data-exploration/

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
.gitignore		.gitignore
README.md		README.md
analysis.py		analysis.py
cleanup.scala		cleanup.scala
cleanup.sh		cleanup.sh
data_processing.scala		data_processing.scala
machinelearning.scala		machinelearning.scala
setup.sh		setup.sh
spark-defaults.conf		spark-defaults.conf

Provide feedback