Skip to content

Финальный проект по предмету "Инжиниринг управления данными"

Notifications You must be signed in to change notification settings

willbedust/HHru-Data-Analysis

Repository files navigation

HHru-Data-Analysis

Финальный проект по предмету "Инжиниринг управления данными"

Цели проекта 🎯

Основной целью проекта было получение четкой и структурированной картины IT-рынка в России с помощью анализа количества соискателей по различным специализациям, их зарплатных ожиданий в различных регионах и в зависимости от специализации, возраста и уровня образования.

Описание проекта 📝

Изначально в качестве источника резюме соискателей планировалось использовать портал hh.ru. Однако, так как для получения доступа ко всем резюме, размещенным на портале, необходима регистрация в качестве работодателя, наша команда приняла решение использовать в качестве источника данных портал superjob.ru. Для анализа были выбраны следующие специализации:

  1. Golang Developer
  2. Java Developer
  3. Python Developer
  4. Rust Developer
  5. Frontend Developer
  6. C# Developer
  7. DevOps Engineer
  8. Data Analyst
  9. Data Engineer
  10. Data Scientist
  11. Machine Learning Engineer

По каждой специализации извлекались только данные тех соискателей, резюме которых обновлялось в 2024 году. Из резюме каждого соискателя извлекались данные о возрасте, ожидаемой заработной плате, городе проживания, навыках, последнем/текущем месте работы и должности, а также об образовании. На этапе предобработки данных с помощью модели-трансформера производилась очистка данных от нерелевантных резюме, которые попадали в выборку на этапе парсинга в силу особенностей поиска на портале superjob.ru. Далее производилась валидация предобработанных данных. На основе полученных данных формировались графические представления различных статистик, на основании которых можно сделать финальные выводы.

Стек технологий 🛠️

Парсинг данных производится на языке Python с помощью библиотек requests и bs4. Для предобработки данных используются библиотеки pandas и transformers. Валидация данных осуществляется с помощью библиотеки great-expectations. Для построения графиков используется plotly. Полный пайплайн работы с данными осуществляется с помощью фреймворка ClearML.

Выводы 📝

Доля разработчиков на языках Go, Java и Python составляет более 57% рынка за 2024 год. Причем наибольшее количество резюме приходится на язык Go, что подтверждает его растущую популярность. Количество соискателей в области Big Data (MLE, DS, DE, DA) составляют заметно меньшую долю рынка (менее 5 %). Это может быть связано с тем, что на вакансии в этой области помимо знаний различных языков программирования и фреймворков требуется и понимание основ математического анализа, теории вероятностей и математической статистики, что делает эту область более сложной для освоения.

Большая части соискателей (более 57%) предпочитает скрывать размер желаемой зарабтной платы. Это может быть связано с тем, что многие соискатели желают получить наиболее выгодные условия работы по итогам собеседования.

Медианные зарпалты варьируются от 70 т. р. у Python разработчиков до 170 т. р. у DevOps-инженеров. Это может быть объяснено тем, что Python имеет достаточно простой синтаксис и может быть применен для самых различных задач, поэтому количество соискателей на эту позицию достаточно высокое. Причем многие из них не имеют боольшого опыта работы, что подтверждается наименьшим медианным возрастом Python-разработчиков в сравнении с другими вакансиями. Напротив, работа в качестве DevOps-инженера требует владения больишм количеством различных навыков, что повышает уровень медианной зарплаты специалистов.

Ожидаемо, более 50% резюме соискателей приходится на Санкт-Петербург и Москву. Также среди лидеров по количеству вакансий в области IT можно выделить крупные города, такие как Казань, Краснодар, Нижний Новгород, Новосибирск, Екатеринбург.

Наибольшая медианная заработная плата (130 т. р.) среди представленных в данных городов соответствует Зеленограду. Это может быть связано с тем, что на территории Зеленограда находится особая экономическая зона, в которой зарегистрировано более 200 высокотехнологичных компаний. Наименьшие медианные заработные платы соответстсвуют небольшим городам, которые находятся недостаточно близко к крупным центрам (Ярославль, Рязань).

Самым часто встречающимся навыком среди соискателей является Git, так как навык работы с системами контроля версий необходимо всем IT-специалистам независимо от их специализации. В первую пятерку также входят SQL, Python, JavaScript и PostgreSQL. Картина самых распространенных навыков отличается в зависимости от искомой позиции. Так, для Frontend-разработчиков в пятерку входят навыки работы с JavaScript, Git, React, TypeScript и HTML, что ожидаемо, так как это самые распространенные инструменты разработки фронтенда. Для DevOps-инженеров в пятерке самых распространенных навыков вместо JavaScript присутствует Linux.

Медианный возраст соискателей для 6 позиций из 11 не превышает 30 лет. На основании этого факта можно сделать вывод о популярности IT-рынка среди молодежи.

Наибольшие значения ожидаемого уровня заработной платы соответствуют выпускникам технических ВУЗов, занимающих высокие позиции в рейтингах учебных заведений, таких как МИФИ, НИУ ВШЭ, СПБПУ, ТПУ, ЛЭТИ. Достаточно невысокий уровень ожидаемой заработной платы в МГУ и СПБГУ может быть объяснен тем, что многие выпускники этих вузов ищут работу на IT-рынке, хотя получили образование в другой сфере (математика, физика, химия и так далее).

По итогам исследования можно сделать вывод, что российский IT-рынок наиболее развит в Москве и Санкт-Петербурге, а также в других крупных городах. Подавляющее большинство соискателей ищут работу в качестве разработчиков на языках Go, Java и Python. Наибольшие медианные ожидаемые заработные платы приходятся на крупыне центры и города, расположенные в непосредственной близовсти от них. Среди наиболее распространенных навыков для всех специализаций встречается система контроля версий Git, другие навыки могут сильно варьироваться в зависимости от специализации. Медианный возраст соискателей по всем специализациям не превышает 40 лет, а по 6 из 11 специализациям не превышает 30 лет, что свидетельствует о том, что IT-рынок очень популярен у молодежи.

About

Финальный проект по предмету "Инжиниринг управления данными"

Topics

Resources

Stars

Watchers

Forks

Contributors 2

  •  
  •