Автор: Вероника Фоменко
Выполненные проекты онлайн-курса Яндекс.Практикум по специальности "Data Science Specialist" от 2021-2022 гг.
(Scroll further down for the English version)
Ниже приведены проекты с выполненными задачами по анализу данных и машинному обучению с помощью SQL и Python.
Список моих проектов ниже:
Название проекта | Описание | Используемые библиотеки |
---|---|---|
1_Analyzing_borrowers_risk_of_defaulting | Анализ влияния семейного положения и количества детей клиентов банка на выплату кредита. Отчет будет учтен при построении кредитного рейтинга потенциального клиента. | Pandas, Nltk, pymystem3 |
2_Research_on_apartment_sales_ads | Определение рыночной стоимости недвижимости в Санкт-Петербурге, и выявление параметров, позволяющих создать автоматизированную систему, способную обнаруживать аномалии и мошенническую деятельность пользователей. | Pandas, Matplotlib, Numpy, pymystem3 |
3_Research_profitable_calling_plan | Определение выгодного тарифного плана для корректировки рекламного бюджета. | Pandas, Matplotlib, Numpy, Scipy |
4_Research_of_the_game_success | Поиск закономерностей, определяющих успешность видеоигры. | Pandas, Matplotlib, Numpy, Seaborn, Scipy |
5_Calling_plan_prediction | Разработка модели, которая анализирует поведение абонентов сотовой связи и рекомендует один из более новых тарифных планов: "Смарт" или "Ультра". | Pandas, Numpy, Sklearn, statsmodels |
6_Bank_customer_churn_prediction | Прогнозирование оттока клиентов банка путем анализа данных об их прошлом поведении. | Pandas, Numpy, Sklearn,statsmodels |
7_Choosing_the_best_oil_well_location | Построение модели машинного обучения, которая поможет выбрать нефтяной регион с максимальной рентабельностью, и анализ потенциальной прибыли и рисков с использованием методики Bootstrap. | Pandas, Numpy, Sklearn,statsmodels |
8_Predicting_the_amount_of_gold | Разработка модели машинного обучения для компании "Цифра" (решения для тяжелой промышленности), которая должна прогнозировать количество золота, извлеченного из золотосодержащей руды. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Scipy |
9_Developing_data_transforming_algorithm | Создание алгоритма преобразования данных (маскирование данных на основе обратимой матрицы) для страховой компании, затрудняющего восстановление личной информации из конвертированных данных. | Pandas, Matplotlib, Numpy, Sklearn, Scipy, Math |
10_Model_to_determine_the_car_value | Построение модели для определения стоимости автомобиля для службы продажи подержанных автомобилей с целью привлечения новых клиентов. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Time, Lightgbm, Xgboost, Catboost |
11_Prediction_of_taxi_orders_for_the_next_hour | Прогнозирование количества заказов такси на следующий час в аэропортах для привлечения большего количества водителей в часы пик. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Time, Lightgbm, Xgboost, Catboost, Statsmodels |
12_Detecting_negative_reviews | Разработка системы фильтрации и категоризации рецензий фильмов на положительные и отрицательные. | Pandas, Matplotlib, Numpy, Math, Seaborn, Sklearn, Tqdm, Spacy, Re, Nltk, Lightgbm |
13_CV_system_for_predicting_customer_age | Система компьютерного зрения для обработки фотографий клиентов, которая поможет определить возраст, чтобы анализировать покупки и предлагать товары, которые могут заинтересовать покупателей в определенных возрастных группах. | Pandas, Matplotlib, Numpy, Keras, Tensorflow |
14_Final_Forecast_churn_of_the_telecom_operator_clients | Прогнозирование оттока клиентов телекоммуникационной компании. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Imblearn, Lightgbm, Xgboost, Catboost |
Completed projects of the Data Scientist professional training course as offered by the Yandex School of Data Analysis in the period from 2021 to 2022
Below is the list with the completed data analysis and machine learning projects using SQL and Python.
Project's name | Description | Used libraries & tools |
---|---|---|
1_Analyzing_borrowers_risk_of_defaulting | Finding out if a customer’s marital status and number of children has an impact on whether they will default on a loan. Report will be considered when building a credit scoring of a potential customer in a bank. | Pandas, Nltk, pymystem3 |
2_Research_on_apartment_sales_ads | Determining the market value of real estate in Saint Petersburg, Russia, and defining parameters that make it possible to create an automated system capable of detecting anomalies and fraudulent activity. | Pandas, Matplotlib, Numpy, pymystem3 |
3_Research_profitable_calling_plan | Identifying which of the calling plans is more profitable in order to adjust the advertising budget. | Pandas, Matplotlib, Numpy, Scipy |
4_Research_of_the_game_success | Finding the patterns that determine whether a video game succeeds or not. | Pandas, Matplotlib, Numpy, Seaborn, Scipy |
5_Calling_plan_prediction | Development of the model that would analyze mobile carrier subscribers' behavior and recommend one of the newer plans: Smart or Ultra. | Pandas, Numpy, Sklearn, statsmodels |
6_Bank_customer_churn_prediction | Predicting whether a customer will leave the bank soon, by analyzing the data on clients’ past behavior. | Pandas, Numpy, Sklearn,statsmodels |
7_Choosing_the_best_oil_well_location | The machine learning model building that will help to pick the oil region with the highest profit margin with analysis potential profits and risks using the Bootstrap technique. | Pandas, Numpy, Sklearn,statsmodels |
8_Predicting_the_amount_of_gold | Preparation of the prototype of the machine learning model for Zyfra (heavy industry solutions), which should predict the amount of gold recovered from gold ore. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Scipy |
9_Developing_data_transforming_algorithm | Development of the data transforming algorithm (data masking, based on an invertible matrix) for insurance company that would make it hard to recover personal information from the transformed data. | Pandas, Matplotlib, Numpy, Sklearn, Scipy, Math |
10_Model_to_determine_the_car_value | Building the model to determine the car value for used car sales service, to develop an app to attract new customers. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Time, Lightgbm, Xgboost, Catboost |
11_Prediction_of_taxi_orders_for_the_next_hour | Prediction the amount of taxi orders for the next hour at airports for attraction more drivers during peak hours. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Time, Lightgbm, Xgboost, Catboost, Statsmodels |
12_Detecting_negative_reviews | Developing the system for filtering and categorizing movie reviews into positive and negative. | Pandas, Matplotlib, Numpy, Math, Seaborn, Sklearn, Tqdm, Spacy, Re, Nltk, Lightgbm |
13_CV_system_for_predicting_customer_age | Computer vision system for processing customer photos, that can help to identify the age of customers in order to analyze purchases and offer products that may interest buyers in particular age groups. | Pandas, Matplotlib, Numpy, Keras, Tensorflow |
14_Final_Forecast_churn_of_the_telecom_operator_clients | Forecast churn of the telecom operator clients. | Pandas, Matplotlib, Seaborn, Numpy, Sklearn, Imblearn, Lightgbm, Xgboost, Catboost |