SUPERVISED ANOMALY DETECTION

Anomaly detection has 3 parts. In this project I examined supervised learning anomaly detection. This is actually a classification problem. But there are some difference like used metrics(mahalanobis distance instead of eucledian distance)[1]. Or unbalanced data. But because of this dataset has a balanced dataset, I didn't touch those problems. There are 3 steps in this project: exploratory data analysis, feature engineering and modelling. I implemented 9 models(Logistic Regression, Stochastic Gradient Descent Classifier, Passive-Aggressive Algorithms, LightGBM, Extra Trees, Neural Networks, KNN, Naive Bayes and XGBOD(XGBClassifier from PyOD))

Difference Between Eucledian Distance and Mahalanobis Distance Depending on Correlation[1]

Depending on models' comparison winner is XGBClassifier.

Imbalanced classification. Binary Classification. Sources.

If you have an imbalanced data(like 90000 labeled with 1 and 100 data labeled 0) you can look the links below.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.ipynb_checkpoints		.ipynb_checkpoints
__pycache__		__pycache__
feature_engineering_tools		feature_engineering_tools
1-eda.ipynb		1-eda.ipynb
2-feature_engineering.ipynb		2-feature_engineering.ipynb
3-model.ipynb		3-model.ipynb
README.md		README.md
Test_data.csv		Test_data.csv
Train_data.csv		Train_data.csv
data_description.odt		data_description.odt
feature_engineering_tool.py		feature_engineering_tool.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SUPERVISED ANOMALY DETECTION

About

Releases

Packages

Languages

yunusulucay/supervised_anomaly_detection

Folders and files

Latest commit

History

Repository files navigation

SUPERVISED ANOMALY DETECTION

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages