Этот проект представляет собой инструмент на Python для разведочного анализа данных (EDA) и визуализации. Он разработан с целью предоставить модульное и расширяемое решение для исследования наборов данных, следуя принципам ООП. Этот проект является практической работой.
- Тема практической работы:
Обнаружение и визуализация данных для понимания их сущности
- Дисциплина:
МДК 13.01: Основы применения методов искусственного интеллекта в программировании
- Загрузка данных: Поддерживает загрузку данных как из CSV, так и из JSON файлов, как из локальных путей, так и по URL.
- Анализ данных: Выполняет основные операции EDA, включая:
- Проверку на наличие пропущенных значений.
- Расчет описательных статистик для числовых данных.
- Вычисление корреляционных матриц для понимания взаимосвязей между переменными.
- Визуализация данных: Создает наглядные визуализации, такие как:
- Гистограммы для отображения распределений отдельных переменных.
- Тепловые карты для визуализации корреляционных матриц.
- Модульность и расширяемость: Реализован с акцентом на модульность, используя принципы ООП для упрощения сопровождения и расширения.
- Обработка ошибок: Включена надежная обработка ошибок для корректного управления различными сценариями, включая некорректные форматы файлов, отсутствующие данные и проблемы с сетью.
Python
Pandas
Seaborn
Matplotlib
Requests
eda-explorer/
├── abstractions/
│ └── abstract_data_loader.py
├── analysis/
│ ├── data_analyser.py
│ └── tips_data_analyzer.py
├── loaders/
│ ├── csv_data_loader.py
│ └── json_data_loader.py
├── visualization/
│ └── data_visualizer.py
├── __init__.py
├── .gitignore
├── LICENSE
├── main.py
├── README.md
└── requirements.txt
- init.py: Делает eda-explorer пакетом Python.
- abstract_data_loader.py: Определяет абстрактный класс DataLoader и конкретные классы для загрузки данных (CSVDataLoader, JSONDataLoader).
- data_analyzer.py: Определяет класс DataAnalyzer для выполнения операций EDA.
- tips_data_analyzer.py: Определяет класс TipsDataAnalyzer для координации процесса анализа и визуализации данных, конкретно для данных о чаевых.
- data_visualizer.py: Определяет класс DataVisualizer для создания визуализаций.
- main.py: Основной скрипт для запуска анализа и визуализации.
- Склонируйте репозиторий:
git clone https://github.com/MindlessMuse666/eda-explorer
- Перейдите в директорию проекта:
cd eda-explorer
- Установите необходимые пакеты с помощью requirements.txt:
pip install -r requirements.txt
- Запустите основной скрипт:
python main.py
Приветствуются любые вклады! Не стесняйтесь открывать issues или отправлять pull requests.
Этот проект распространяется под лицензией MIT - смотрите файл LICENSE для деталей.
Бедин Владислав (MindlessMuse666)
- GitHub: MindlessMuse666
- Telegram: @mindless_muse
- Gmail: mindlessmuse.666@gmail.com