Skip to content
CrossNox edited this page Oct 12, 2018 · 15 revisions

Guía de instalación [WIP]

Antes de comenzar

Antes de comenzar, fíjate que necesitas el JDK instalado. Si usás ubuntu:

sudo apt-get update
sudo apt-get install default-jdk
sudo update-alternatives --config java

En el menú que se muestra elegés el que recién instalaste. Copiate el path dónde dice que se instaló y seguí así:

sudo vim /etc/environment
JAVA_HOME="la_ruta_que_copiaste"
source /etc/environment
echo $JAVA_HOME

Al imprimir la variable de entorno en el último paso deberías ver lo mismo que copiaste previamente.

Si no usás ubuntu probablemente tengas alguna idea de lo que estás haciendo, así que sabrás instalarlo por tu cuenta :P

Con un virtualenv

mkdir spark && cs spark
virtualenv -p python3 venv
source venv/bin/activate
pip install jupyter pyspark
jupyter lab

Ejecutando

jupyter-kernelspec list

Vas a ver donde se guardan los kernels. Vas a crear tu propio kernel de pyspark. ¿Cómo? Tira este choclo:

mkdir $( dirname $( jupyter-kernelspec list | tail -n1 | sed 's/[^\/]*//' ) | awk '{print $1"/pysparkk"}' ) && cd "$_"
wget https://gist.github.com/CrossNox/b473f7a8eed1bbefdb6bc35e86442b55/archive/0f190aaa3a06cd4ac3cfe0d2ea09437dd9b0407d.zip
unzip -j *.zip && rm *.zip
eval "echo \"$(cat kernel.json)\"" > kernel.json

Y para probarlo:

cd carpeta_para ejercicios
jupyter lab

Y en el navegador se te va a abrir jupyter lab, proba el notebook pyspark con un código sencillo como:

sc.parallelize(range(10)).map(lambda x: x*2).collect()

Y fijate que no pinche.

¿Y si pincha?

¯\(ツ)

Con docker

Con conda

Transformaciones y acciones

Esto, pero que sirva

Patrones comunes para ejercicios

Clone this wiki locally