MSc DataScience

Examples for the Big Data Mining class

Install

Create your virtual environment and install the required dependencies:

virtualenv -p `which python3` venv
source venv/bin/activate
pip install -r requirements.txt

# You will probably need to install a Jupyter kernel:
ipython kernel install --user --name=venv

Otherwise, copy and paste the scripts to Google Colab.

Data preprocessing

binning
correlation
feature selection
principal component analysis (PCA)
normalization
categorical encoding
discretization with k means
Exploratory data analysis (EDA)

Classification

decision trees for discretization, classification, rule extraction
bayesian network
SVM
KNN

Clustering

clustering examples with K-means, hierarchical clustering and DBSCAN
Silhouette coefficient examples

Frequent itemsets

apriori implementation and example
movie recommendation example

Outlier analysis

outlier examples with statistical assumptions, boxplot, DBSCAN and Isolation Forest

Text

text classification with naive bayes
topic modeling with LDA and information retrieval
word2vec example with pre-trained embeddings
language models example with simple n-grams, MLE and smoothing

Other

data playground

Data

The data folder contains various datasets and toy data used for the examples in this class.

Notes

See requirements.txt to install the needed libraries in your virtual environment.

Name		Name	Last commit message	Last commit date
Latest commit History 58 Commits
data		data
.gitignore		.gitignore
EDA_example.ipynb		EDA_example.ipynb
EDA_example_with_sweetviz.ipynb		EDA_example_with_sweetviz.ipynb
LICENCE		LICENCE
README.md		README.md
SWEETVIZ_REPORT.html		SWEETVIZ_REPORT.html
apriori_algorithm.py		apriori_algorithm.py
apriori_example.ipynb		apriori_example.ipynb
bayesian_net_example.ipynb		bayesian_net_example.ipynb
binning_example.ipynb		binning_example.ipynb
clustering_exampes.ipynb		clustering_exampes.ipynb
clustering_silhouette_coeff.ipynb		clustering_silhouette_coeff.ipynb
correlation_example.ipynb		correlation_example.ipynb
data_playground.ipynb		data_playground.ipynb
decision_trees.ipynb		decision_trees.ipynb
discretization_with_k_means.ipynb		discretization_with_k_means.ipynb
feature_selection.ipynb		feature_selection.ipynb
helper_funcs.py		helper_funcs.py
knn_example.ipynb		knn_example.ipynb
language_models.ipynb		language_models.ipynb
movie_recommendation.ipynb		movie_recommendation.ipynb
normalization.ipynb		normalization.ipynb
ordinal-encoding.ipynb		ordinal-encoding.ipynb
outliers.ipynb		outliers.ipynb
pca_examples.ipynb		pca_examples.ipynb
requirements.txt		requirements.txt
svm_example.ipynb		svm_example.ipynb
text_nb_classification.ipynb		text_nb_classification.ipynb
text_topic_modeling.ipynb		text_topic_modeling.ipynb
text_zip_classification.ipynb		text_zip_classification.ipynb
word2vec.ipynb		word2vec.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MSc DataScience

Install

Data preprocessing

Classification

Clustering

Frequent itemsets

Outlier analysis

Text

Other

Data

Notes

About

Releases

Packages

Languages

License

izavits/msc_datascience

Folders and files

Latest commit

History

Repository files navigation

MSc DataScience

Install

Data preprocessing

Classification

Clustering

Frequent itemsets

Outlier analysis

Text

Other

Data

Notes

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages