Финальный проект по предмету "Инжиниринг управления данными"
Основной целью проекта было получение четкой и структурированной картины IT-рынка в России с помощью анализа количества соискателей по различным специализациям, их зарплатных ожиданий в различных регионах и в зависимости от специализации, возраста и уровня образования.
Изначально в качестве источника резюме соискателей планировалось использовать портал hh.ru. Однако, так как для получения доступа ко всем резюме, размещенным на портале, необходима регистрация в качестве работодателя, наша команда приняла решение использовать в качестве источника данных портал superjob.ru. Для анализа были выбраны следующие специализации:
- Golang Developer
- Java Developer
- Python Developer
- Rust Developer
- Frontend Developer
- C# Developer
- DevOps Engineer
- Data Analyst
- Data Engineer
- Data Scientist
- Machine Learning Engineer
По каждой специализации извлекались только данные тех соискателей, резюме которых обновлялось в 2024 году. Из резюме каждого соискателя извлекались данные о возрасте, ожидаемой заработной плате, городе проживания, навыках, последнем/текущем месте работы и должности, а также об образовании. На этапе предобработки данных с помощью модели-трансформера производилась очистка данных от нерелевантных резюме, которые попадали в выборку на этапе парсинга в силу особенностей поиска на портале superjob.ru. Далее производилась валидация предобработанных данных. На основе полученных данных формировались графические представления различных статистик, на основании которых можно сделать финальные выводы.
Парсинг данных производится на языке Python с помощью библиотек requests и bs4. Для предобработки данных используются библиотеки pandas и transformers. Валидация данных осуществляется с помощью библиотеки great-expectations. Для построения графиков используется plotly. Полный пайплайн работы с данными осуществляется с помощью фреймворка ClearML.
Доля разработчиков на языках Go, Java и Python составляет более 57% рынка за 2024 год. Причем наибольшее количество резюме приходится на язык Go, что подтверждает его растущую популярность. Количество соискателей в области Big Data (MLE, DS, DE, DA) составляют заметно меньшую долю рынка (менее 5 %). Это может быть связано с тем, что на вакансии в этой области помимо знаний различных языков программирования и фреймворков требуется и понимание основ математического анализа, теории вероятностей и математической статистики, что делает эту область более сложной для освоения.
Большая части соискателей (более 57%) предпочитает скрывать размер желаемой зарабтной платы. Это может быть связано с тем, что многие соискатели желают получить наиболее выгодные условия работы по итогам собеседования.
Медианные зарпалты варьируются от 70 т. р. у Python разработчиков до 170 т. р. у DevOps-инженеров. Это может быть объяснено тем, что Python имеет достаточно простой синтаксис и может быть применен для самых различных задач, поэтому количество соискателей на эту позицию достаточно высокое. Причем многие из них не имеют боольшого опыта работы, что подтверждается наименьшим медианным возрастом Python-разработчиков в сравнении с другими вакансиями. Напротив, работа в качестве DevOps-инженера требует владения больишм количеством различных навыков, что повышает уровень медианной зарплаты специалистов.
Ожидаемо, более 50% резюме соискателей приходится на Санкт-Петербург и Москву. Также среди лидеров по количеству вакансий в области IT можно выделить крупные города, такие как Казань, Краснодар, Нижний Новгород, Новосибирск, Екатеринбург.
Наибольшая медианная заработная плата (130 т. р.) среди представленных в данных городов соответствует Зеленограду. Это может быть связано с тем, что на территории Зеленограда находится особая экономическая зона, в которой зарегистрировано более 200 высокотехнологичных компаний. Наименьшие медианные заработные платы соответстсвуют небольшим городам, которые находятся недостаточно близко к крупным центрам (Ярославль, Рязань).
Самым часто встречающимся навыком среди соискателей является Git, так как навык работы с системами контроля версий необходимо всем IT-специалистам независимо от их специализации. В первую пятерку также входят SQL, Python, JavaScript и PostgreSQL. Картина самых распространенных навыков отличается в зависимости от искомой позиции. Так, для Frontend-разработчиков в пятерку входят навыки работы с JavaScript, Git, React, TypeScript и HTML, что ожидаемо, так как это самые распространенные инструменты разработки фронтенда. Для DevOps-инженеров в пятерке самых распространенных навыков вместо JavaScript присутствует Linux.
Медианный возраст соискателей для 6 позиций из 11 не превышает 30 лет. На основании этого факта можно сделать вывод о популярности IT-рынка среди молодежи.
Наибольшие значения ожидаемого уровня заработной платы соответствуют выпускникам технических ВУЗов, занимающих высокие позиции в рейтингах учебных заведений, таких как МИФИ, НИУ ВШЭ, СПБПУ, ТПУ, ЛЭТИ. Достаточно невысокий уровень ожидаемой заработной платы в МГУ и СПБГУ может быть объяснен тем, что многие выпускники этих вузов ищут работу на IT-рынке, хотя получили образование в другой сфере (математика, физика, химия и так далее).
По итогам исследования можно сделать вывод, что российский IT-рынок наиболее развит в Москве и Санкт-Петербурге, а также в других крупных городах. Подавляющее большинство соискателей ищут работу в качестве разработчиков на языках Go, Java и Python. Наибольшие медианные ожидаемые заработные платы приходятся на крупыне центры и города, расположенные в непосредственной близовсти от них. Среди наиболее распространенных навыков для всех специализаций встречается система контроля версий Git, другие навыки могут сильно варьироваться в зависимости от специализации. Медианный возраст соискателей по всем специализациям не превышает 40 лет, а по 6 из 11 специализациям не превышает 30 лет, что свидетельствует о том, что IT-рынок очень популярен у молодежи.










