Consiste en un trabajo sobre un conjunto de datos muy extenso dado en formato .json (crisis.20190410.json)
Este se importa a una base de datos en MongoDB a partir de la cual se trabaja.
Es consigna. Se recomienda leer para entender el propósito de cada paso
El archivo "crisis.20190410.json" es la muestra de datos completa dada en el enunciado. A partir de este se realizan recortes y análisis dando como resultado dos archivos: "tweets.json" y "allTweets.json" cuyo uso se detalla a continuación.
Da una buena guia del paso a paso y de las configuraciones necesarias
Es la resolución de los ejercicios 3.1, 3.2, 3.3 y 3.4, los cuales consisten en querys a correr en MongoSh. Para estos se trabaja con una cantidad reducida de registros a partir de la base de datos "tweets.json" que consiste en los primeros 5000 registros de la base "crisis.20190410.json"
Es la resolución del primer punto del ejercicio 3.4. En el cual se hace un gran trabajo sobre el conjunto de datos, analizando aquellos que poseen user.location y clasificando esa ubicación según la base de datos "world.sql". Se exporta la base de datos resultante en "allTweets.json" para poder importarla sin tener que esperar todo este proceso. A partir de esta se realizan los puntos siguientes
Este punto requiere la utilización de los archivos existentes para crear un GeoDataFrame que servirá para poder crear un gráfico (Mapa Choropleth)
El gráfico creado puede verse en "Tweets Mundiales.png". Consiste en la cantidad de tweets por país."
Es la resolución de dicho ejercicio, donde se realizan nubes de palabras para Argentina y Estados Unidos.
Los gráficos creado puede verse en "Nube de palabras para Argentina.png" y "Nube de palabras para United States.png".