Sandbox

This repository holds scripts and notebooks for Steve's musings, investigations, case studies, animations, and slides.

Here's a high-level snapshot of each script.

Non-text Analytics

File	Language	Dataset	Package	Notes
`NB.R`	R	`NaiveBayes.csv`	`e1071`	Simple example of NB.
`arules.Rmd`	R	`arules::Groceries`	`arules`, `arulesViz`
`bigdata.Rmd`	R	N/A	`tidyverse`	Just some charts for the big data slides.
`classifiers.R`	R	`laheart.csv`	`rpart`, `e1071`, `MLmetrics`	Compares NB and DT.
`intro.Rmd`	R	`gapminder`	`tidyr`, `dplyr`, `ggplot2`	An intro to R and the tidyverse.
`recSys.R`	R	`recommenderlab::MovieLense`	`recommenderlab`	Recommendation system for Movie Lense data. Uses CF.
`slide_plots.Rmd`	R	`chirps.csv`, `Prestige.txt`, `clusters.csv`	`tidytext`, `tm`, `tidyverse`	Just a script to create some plots/charts I've used in slides.
`spark-sample.mdR`	R	`nycflights13`, `Lahman`	`sparklyr`	Simple of example of how to use `sparklyr`.
`sql.Rmd`	R	`customer.csv`, `transaction.csv`	`sqldf`	Shows how to use the `sqldf` package. Used for some of my slides on SQL.
`sqlChallenge.Rmd`	R	`Lahman`	`sqldf`	Used for creating the SQL challenge.
`titanic.Rmd`	R	`titanic`	`tidyverse`, `rpart`, `MLmetrics`	Titanic case study. Builds a DT to predict survival.

Text Analytics

File	Language	Dataset	Package	Notes
`cluster_20.ipynb`	Python	`sklearn.datasets::20newsgroups`	`nltk`, `sklearn`	Clustering the 20 Newsgroup dataset.
`imdb.Rmd`	R	`all.imdb.pipe.csv`	`tidytext`, `cleanNLP`, `tm`	Classifying IMDB data.
`kiva.Rmd`	R	`kiva.csv`	`tidytext`, `topicmodels`, `rpart`, `MLmetrics`	Classifying KIVA loans. Used as a case study.
`nltk-cluster.py`	Python	`sklearn.datasets::20newsgroups`	`nltk`, `sklearn`	I'm not sure how this is different from `cluster_20.ipynb`
`sentiment-manning.Rmd`	R	`manning.csv`, `brady.csv`	`tidytext`	Sentiment analysis on tweets about Peyton Manning and Tom Brady.
`slides_sentiment.R`	R	N/A	`tidytext`	Just a script to do some simple tidy-based sentiment analysis on some made-up data.
`slides_text_amazon.Rmd`	R	`reviews_Grocery_and_Gourmet_Food_5_50000.csv`	`tidytext`, `tm`, `wordcloud`	Descriptive stats on Amazon Reviews (Food category).
`slides_text_amazon_classify.R`	R	`reviews_Grocery_and_Gourmet_Food_5_50000.csv`	`tidytext`, `tm`, `caret`	Classifying Amazon reviews.
`slides_text_reuters.Rmd`	R	`reutersCSV.csv`	`tidytext`, `tm`, `wordcloud`	Descriptive stats on Reuters dataset.

Data

Note: the source isn't actually "Unknown" for most of the data files below. I just haven't done it yet.

File	Source
`HR_comma_sep.csv`	Unknown
`Master.csv`	Unknown
`NaiveBayes.csv`	Unknown
`Prestige.txt`	Unknown
`Salaries.csv`	Unknown
`all.imdb.pipe.csv`	Unknown
`alltweets.csv`	Unknown
`beta.csv`	Unknown
`beta_12.csv`	Unknown
`chirps.csv`	Unknown
`clusters.csv`	Unknown
`customer.csv`	Unknown
`gamma.csv`	Unknown
`gamma_12.csv`	Unknown
`jackastors.csv`	Unknown
`kiva..csv`	Unknown
`laheart.csv`	Unknown
`laheart2.csv`	Unknown
`site.csv`	Unknown
`student.csv`	Unknown
`survey.csv`	Unknown
`topicnames_12.csv`	Unknown
`transaction.csv`	Unknown
`visited.csv`	Unknown
`groceries.csv`	Unknown
`loan_small.csv`	Unknown
`all.imdb.pipe.csv`	Unknown
`brady.csv`	Unknown
`manning.csv`	Unknown
`reutersCSV.csv`	Unknown
`reviews_Grocery_and_Gourmet_Food_5_50000.csv`	Unknown

Name		Name	Last commit message	Last commit date
Latest commit History 127 Commits
data		data
.gitignore		.gitignore
Dataset1-Media-Example-EDGES.csv		Dataset1-Media-Example-EDGES.csv
Dataset1-Media-Example-NODES.csv		Dataset1-Media-Example-NODES.csv
Dataset2-Media-User-Example-EDGES.csv		Dataset2-Media-User-Example-EDGES.csv
Dataset2-Media-User-Example-NODES.csv		Dataset2-Media-User-Example-NODES.csv
Ensembles_Banking.Rmd		Ensembles_Banking.Rmd
Ensembles_HR - Template.Rmd		Ensembles_HR - Template.Rmd
Ensembles_HR.Rmd		Ensembles_HR.Rmd
Ensembles_Smarket.Rmd		Ensembles_Smarket.Rmd
FeatureEng_GermanCredit.Rmd		FeatureEng_GermanCredit.Rmd
FeatureEng_GermanCredit_Template.Rmd		FeatureEng_GermanCredit_Template.Rmd
FeatureEng_GermanCredit_Template_All.Rmd		FeatureEng_GermanCredit_Template_All.Rmd
HR_comma_sep.csv		HR_comma_sep.csv
Imbalanced_GermanCredit.Rmd		Imbalanced_GermanCredit.Rmd
Imbalanced_HR.Rmd		Imbalanced_HR.Rmd
MMAI 891 Tutorial 1 Embedding.ipynb		MMAI 891 Tutorial 1 Embedding.ipynb
Master.csv		Master.csv
NB.R		NB.R
Naive Bayes.Rmd		Naive Bayes.Rmd
NaiveBayes.csv		NaiveBayes.csv
Naive_Bayes.html		Naive_Bayes.html
Oxford.Rmd		Oxford.Rmd
Prestige.txt		Prestige.txt
README.md		README.md
Salaries.csv		Salaries.csv
SimpleNN.Rmd		SimpleNN.Rmd
alltweets.csv		alltweets.csv
arules.Rmd		arules.Rmd
arules_Jack_Astors.Rmd		arules_Jack_Astors.Rmd
beta.csv		beta.csv
beta_12.csv		beta_12.csv
bigdata.Rmd		bigdata.Rmd
brady.csv		brady.csv
chirps.csv		chirps.csv
class_marketing_example.ipynb		class_marketing_example.ipynb
classifiers.Rmd		classifiers.Rmd
cluster_20.ipynb		cluster_20.ipynb
clusters.csv		clusters.csv
customer.csv		customer.csv
draw-sentence.py		draw-sentence.py
exercise_5.ipynb		exercise_5.ipynb
exercise_topicmodeling.html		exercise_topicmodeling.html
exercise_topicmodeling.ipynb		exercise_topicmodeling.ipynb
gamma.csv		gamma.csv
gamma_12.csv		gamma_12.csv
igraph.Rmd		igraph.Rmd
imdb.Rmd		imdb.Rmd
interactive_dt.py		interactive_dt.py
interactive_imbalance.py		interactive_imbalance.py
intro.Rmd		intro.Rmd
intro.html		intro.html
jackastors.csv		jackastors.csv
kiva.Rmd		kiva.Rmd
kiva2.Rmd		kiva2.Rmd
kiva_answers.Rmd		kiva_answers.Rmd
kiva_classification.ipynb		kiva_classification.ipynb
kiva_classification_simple.ipynb		kiva_classification_simple.ipynb
kiva_classification_simple_record.ipynb		kiva_classification_simple_record.ipynb
kiva_comp.Rmd		kiva_comp.Rmd
kiva_comp.html		kiva_comp.html
kivaloans.jpg		kivaloans.jpg
laheart.csv		laheart.csv
laheart2.csv		laheart2.csv
lectures.R		lectures.R
manning.csv		manning.csv
nltk-cluster.py		nltk-cluster.py
recSys.Rmd		recSys.Rmd
reformat_amazon.R		reformat_amazon.R
sample_kiva.Rmd		sample_kiva.Rmd
sandbox.Rproj		sandbox.Rproj
sentiment-manning.Rmd		sentiment-manning.Rmd
site.csv		site.csv
slide_plots.Rmd		slide_plots.Rmd
slides_advanced.ipynb		slides_advanced.ipynb
slides_arules.ipynb		slides_arules.ipynb
slides_classification-checkpoint.ipynb		slides_classification-checkpoint.ipynb
slides_classification.Rmd		slides_classification.Rmd
slides_classification.html		slides_classification.html
slides_classification.ipynb		slides_classification.ipynb
slides_classification.pdf		slides_classification.pdf
slides_classification_simple.ipynb		slides_classification_simple.ipynb
slides_classification_simple_exec.ipynb		slides_classification_simple_exec.ipynb
slides_clustering.Rmd		slides_clustering.Rmd
slides_clustering.ipynb		slides_clustering.ipynb
slides_clustering_simple.ipynb		slides_clustering_simple.ipynb
slides_clustering_simple_exec.ipynb		slides_clustering_simple_exec.ipynb
slides_docclass_keras.ipynb		slides_docclass_keras.ipynb
slides_embeddings.ipynb		slides_embeddings.ipynb
slides_ensemble.Rmd		slides_ensemble.Rmd
slides_ensemble.ipynb		slides_ensemble.ipynb
slides_featurehashing.Rmd		slides_featurehashing.Rmd
slides_kiva.ipynb		slides_kiva.ipynb
slides_nlp.Rmd		slides_nlp.Rmd
slides_performance.ipynb		slides_performance.ipynb
slides_preprocessing.ipynb		slides_preprocessing.ipynb
slides_preprocessing_R.Rmd		slides_preprocessing_R.Rmd
slides_recsys.ipynb		slides_recsys.ipynb
slides_recsys_arules.ipynb		slides_recsys_arules.ipynb
slides_sentiment.Rmd		slides_sentiment.Rmd

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sandbox

Non-text Analytics

Text Analytics

Data

About

Releases

Packages

Languages

EmanSmadi/sandbox

Folders and files

Latest commit

History

Repository files navigation

Sandbox

Non-text Analytics

Text Analytics

Data

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages