Привет. Меня зовут Михаил Васильев. Я — Data Scientist. Здесь вы можете ознакомится с некоторыми моими учебными проектами.
Большой опыт применения моделей глубокого обучения для решения задач CV и NLP. Также обучал классические ML-модели для задач anomaly detection в различных контекстах.
Закончил Яндекс Практикум и Deep learning school ФПМИ МФТИ.
Мне нравится работать с данными, читать научные статьи, экспериментировать, пробовать различные подходы в обучении ML-моделей, строить графики.
Въедливый, умею замечать небольшие логические ошибки, обожаю интеллектуальные игры, с удовольствием изучаю иностранные языки.
Контакты:
- Почта: gnu.xinm@gmail.com
- Telegram: @LaHundo
Используемые технологии: python, transformers, EfficientNet, MobileNet, YOLO, PyOD, pandas, sklearn, pytorch, lightning, numpy, matplotlib, plotly, huggingface, onnx, fastapi, uvicorn, pyinstaller, pywin32, optimum, airflow, mlflow, cvat, natasha, deeppavlov, BERT, whisper, Ollama
Профессиональный опыт:
- 2023—н.в. Маквес, старший специалист по машинному обучению
- 2012—2023 ОКБ Сухого, ведущий инженер 3 класса
Проект: создание комплексного решения для обеспечения безопасности в корпоративной сети на основе неструктурированных данных
Задачи:
- создал ансамбль алгоритмов для поиска аномалий на табличных данных, в том числе на временных рядах
- реализовал нейросетевой модуль для поиска нарушений закона о персональных данных, количество детектируемых классов увеличено с 14 до 36, accuracy top 1 увеличена до 98.9
- подготовил модуль для анализа содержимого отсканированных документов: поиск текста, таблиц, печатей, подписей и корпоративных бланков, количество классов увеличено с 5 до 19, повысил метрику mAP@.5 с .89 до .94
- реализовал поиск чувствительных данных в текстовых файлах, добавил модуль NER
- реализовал поиск чувствительных данных в аудио-файлах
- организовал сбор и разметку 8 датасетов для задач классификации и object detection
Мероприятие | Тема |
---|---|
Moscow Python Meetup 91 (2024) | Опыт обучения и применения нейросетей в качестве модуля российской DCAP-системы |
Подкаст | Тема |
---|---|
Deep Learning Stories | Как войти в айти и создать коммьюнити (VK-видео) (Apple Podcasts) |
- Цифровой прорыв x RuTube
- VK x HSE Data Hack (1 место)
- «Росэлторг» — RLT.Hack
- «Росэлторг» — zakupkiHack 2.0
- ФПМИ МФТИ - Диплом 1-ой степени (en)
- Yandex - Специалист по Data Science (en)
- Повышение квалификации: Введение в искусственный интеллект и нейросети для авиационных приложений
- Повышение квалификации: Анализ данных на языке SQL
- Программа обучения «Резерв-3»
- Поколение Python. Курс для продвинутых
- Поколение Python. Курс для профессионалов
- Добрый, добрый Python ООП
- Основы статистики
- Введение в Data Science и машинное обучение
- Data Science с Глебом Михайловым
- SQL для Анализа Данных с Глебом Михайловым
- Асинхронный Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Feature Engineering
- НИУ ВШЭ - MLOps Bootcamp
- Young && Yandex - Тренировки по ML
Проект | Задачи проекта |
---|---|
6. Языковое моделирование | В данном проекте мы будем заниматься языковым моделированием. Обучим несколько нейросетевых моделей предсказывать слова на основе предыдущего текста. Такие модели можно использовать и для генерации новых текстов, что мы также продемонстрируем. |
5. Классификация текстов | На этот раз нам предстоит решить задачу классификации текстов. Мы будем использовать набор данных ag_news . Это датасет для классификации новостей на 4 темы: World, Sports, Business, Sci/Tech. Посмотрим, как с такой задачей справятся рекуррентные нейросети. |
Проект | Задачи проекта |
---|---|
Распознавание лиц | В этом проекте мы будем решать задачу распознавания лиц. Мы обучим нейросеть и поиграем с различными функциями потерь и метриками. Обучение будем производить на наборе данных CelebA dataset. |
Проект | Задачи проекта |
---|---|
4. GAN | Мы обучим нейросеть генерировать лица людей и посмотрим на то, как можно оценивать качество генерации. В качестве обучающей выборки возьмём датасет Flickr-Faces. |
3. Автокодировщики | В данном проекте наша задача — написать и обучить несколько вариантов автокодировщиков, оценить их свойства и применимость для различных задач. Для этого мы будем использовать датасеты лиц (LFW) и цифр (MNIST). Во всех случаях мы будем применять достаточно простые свёрточные архитектуры и латентные вектора малых размеров, чтобы полученные результаты были более наглядными. |
2. Семантическая сегментация | Мы будем решить задачу сегментации медицинских снимков. В нашем распоряжении датасет ADDI project. В нём содержатся фотографии различных поражений кожи: меланомы и родинок. Однако мы будем заниматься не классификацией, а сегментацией изображений, т.е. разделением изображений на несколько сегментов для упрощения последующего анализа и обработки. Проще говоря, нам необходимо обучить модель, которая сможет для каждого пикселя исходного изображения определить: изображена на нём родинка, либо просто участок кожи. |
1. Классификация изображений | Сегодня нам предстоить помочь телекомпании FOX в обработке их контента. Как известно, сериал «Симпсоны» идет на телеэкранах более 25 лет, и за это время скопилось очень много видеоматериала. Персоонажи менялись вместе с изменяющимися графическими технологиями, и Гомер Симпсон-2023 не очень похож на Гомера Симпсона-1989. В этом задании нам необходимо классифицировать персонажей, проживающих в Спрингфилде. |
Проект | Задачи проекта |
---|---|
Промышленная обработка стали | Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Нам предстоит построить модель, которая предскажет температуру стали. |
Проект | Задачи проекта |
---|---|
9. Определение возраста по фотографиям | Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Необходимо построить модель, которая по фотографии определит приблизительный возраст человека. В нашем распоряжении набор фотографий людей с указанием возраста. |
8. Обучение модели классификации комментариев | Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Требуется инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. |
7. Прогнозирование количества заказов такси на следующий час | Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания. |
6. Построение модели определения стоимости автомобиля | Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. На основе исторические данные необходимо построить модель для определения стоимости автомобиля. |
5. Защита данных клиентов страховой компании | Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы. Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется. |
4. Исследование технологического процесса очистки золота | Строится модель машинного обучения для промышленной компании, разрабатывающая решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками. |
3. Определение наиболее выгодного региона нефтедобычи | Нам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Необходимо построить модель для определения региона, где добыча принесёт наибольшую прибыль. |
2. Прогнозирование оттока клиента банка | Из банка стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. |
1. Классификаиция клиентов телеком компании | Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям один из новых тарифов. |
Проект | Задачи проекта |
---|---|
5. Выявление закономерностей, влияющих на успешность игр | Используя файл с историческими данными о продажах игр, оценках пользователей и экспертов, жанрами и платформами (например, Xbox или PlayStation) выявить определяющие успешность игры закономерности |
4. Определение выгодного тарифа для телеком компании | На основе данных клиентов оператора сотовой связи проанализировать поведение клиентов и поиск оптимального тарифа |
3. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости | Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир |
2. Исследование надёжности заёмщиков — анализ банковских данных | На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок |
1. Исследование данных сервиса “Яндекс.Музыка” — сравнение пользователей двух городов | На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга |