Не сколько раз видела вопросы о том, что не понятно, какие профессии могут востребованными и высокооплачиваемыми.
Я решила запустить проект по сбору и обработке информации о вакансиях с hh.ru.
Hh даёт возможность законно парсить данные о вакансиях.
Эти данные я планирую обработать и публично выложить в виде дашбордов. Дашборды дают возможность с помощью срезов (фильтров) посмотреть информацию в любом разрезе. Например, я выложу данные по зп по всем вакансиям России, а с помощью срезов конечный пользователь сможет посмотреть среднюю зп в определённом профессиональном сегменте (например маркетологи) в своей области, сможет сравнить со средними данными по России. Можно будет увидеть, какие сферы деятельности востребованы в конкретной области, а по какой почти нет вакансий.
Ну и удаленка, можно будет сделать отдельный портрет: какие вакансии бывают, с требованием опыта или без, какая зп и т.д.
Я подобное исследование делала для себя дважды.
Основная затратная часть по времени - это парсинг. Hh даёт доступ к данным легально. Но за раз можно выгрузить данные меньше чем о 2000 вакансиях, чаще это чуть больше 1000.
Выгрузки можно делать не чаще, чем 2-3 в час. В сутки удаётся получить данные о 20000-30000 вакансий. В прошлый раз у меня потребовалось почти 2 месяца на сбор данных. В этот раз нет такого количества свободного времени, и за сутки удаётся выгрузить в среднем 10000 вакансий. То есть в одиночку работать 3-4 месяца.
Мне нужна помощь именно в парсинге. Для этого никаких специальных знаний не нужно. Только аккаунт в гугл. Код для паркинга написан на python, в нем нужно будет только менять даты и область.
В работа ведётся в Google colab. Файлы сохраняются на компьютер в виде excel и csv. Эти файлы нужно будет сохранить в общую папку на гугл диске.
Итоговые данные будет обработаны python, первичная аналитика будет в power bi, окончательные результаты планирую выложить в либо в yandex datalends (у них есть возможность выкладывать дашборды в публичное пространство и по ссылке можно будет его найти) либо, если что-то не будет получаться - это будет несколько дашбордов в гугл таблице, данные тогда придётся делить по файлам и аналитика будет по ФО.
Кто учился в тгу на аналитика данных, за основу я взяла те инструменты, которые нам давали, но немного доработал их.
Сам проект полностью бесплатный.
Всем участникам, кому будет интересно, я покажу онлайн, как буду обрабатывать информацию и объясню, почему так. Так же все собранные материалы останутся в общей папке на google диске, и их можно будет использовать для своей практики, или для портфолио.
Если вам хотелось бы поучаствовать - пишите в комментариях или в личку.
Если вам хотелось бы посмотреть результаты - поставьте пожалуйста лайк. Чем больше людей увидят пост, тем больше шансов будет собрать команду.
Ещё в комментариях укажу названия ФО, если вам интересны данные только по ФО - укажите это (например лайк). А то может какие-то регионы не будут востребованы вообще, и тогда можно будет не брать их в работу.
Здравствуйте, спасибо за отклик. Парсинг уже завершен, сейчас идёт итоговая часть обработки данных. Если решим повторить данный проект, можно будет поучаствовать.
В выгрузках из hh большая часть вакансий идёт с зарплатой. Для иследования этих данных хватит. Тем более, что охват - вся Россия за месяц, более 1000000 вакансий. Зп после собеседования конечно никак не узнать из данных hh.
Работу нашла, сейчас работаю аналитиком данных
@iv.tishkina вот на мой взгляд, я ищу по Москве, очень редко есть указание зп, возможно в вашем исследовании получатся другие данные, будет интересно, если в результатах отдельно будет информация о количестве таких вакансий (без указания з/п)
А вы нашли через hh или группы тг?
Знаете, я вот с удовольствием все ваши статьи прочитала, на ххру зарегистрировалась. И поняла, что удаленка, если ты не владеешь каким-нибудь языком компьютерным, представлена лишь рекрутерами(в моём случае-бесконечное заманивание на платформу wizard -написание рефератов и тд за копейки и Яндексом)
Я искала вакансии конечно год назад на удаленку. И я находила много вакансий реально без опыта в хорошие стабильные конторы, максимум со знанием excel. Правда на зп 30000-40000, не больше. Их не много, но они есть.
Вы по всей России вакансии смотрели?
Я поняла, что видео в любом случае нужно записать. Постараюсь сегодня. Пока можно смело экспериментировать в копиях colab. Если что-то сломается, всегда можно сделать новую копию
Ещё один момент. По инструкции вначале может быть непонятно. Скорее всего по zoom завтра смогу показать. Сам процесс простой, но иногда проще 1 раз увидеть, чем 10 раз прочитать
Спасибо большое всем за отклик! Неожидала такой активной акции. Инструкцию и папку я сделала. Что бы предоставить доступ, мне нужен ваш аккаунт в Google. Пришлите пожалуйста в личку информацию
А кстати вот интересно, есть вот инфа о вакансиях. А по количеству соискателей они тоже дают просить? Чтоб сопоставить. Сколько вот претендентов есть на 2,3 тыс вакансии аналитиков
Было бы интересно поучаствовать. Так как сейчас есть запрос на практику по аналитике в разных инструментах, для развития профессиональных компетенций.
Прям каждый день наверное выгрузки делать не смогу, так как не всегда работаю из дома, в офисе точно таким заниматься нельзя у нас.
@ange_ou @kseniyakashtanova по сути дела, я не среднюю зарплату по России делаю, а скорее среднюю зарплату, на которую можно рассчитывать при поиске работы. И понятно, что не все вакансию указывают зарплату, но общее представление о сфере работы получить можно
Есть один косяк с данными на основе хх
Крупные корпорации не пишут зп. Формулировка «Заработная плата по итогам собеседования»
Еще на хх тема со скам конторами, которые указывают зп 100 тысяч (условно), а на деле оклад минималка дай Бог.
@kseniyakashtanova крупные компании часто тоже с зарплатой размещают вакансии. В любом случае, посмотрим % вакансий без зп и адекватность сведений. Если не ошибаюсь, по России год назад только 10-15% вакансий было без зп
Про аналитиков и их среднюю зп смешно 😂 если только в госе лютейшем такая маленькая средняя зп
Не встречала ни бизнес , ни системных с такими зарплатами 🤷🏻♀️
Подскажите, пожалуйста, вы будете показывать, как пользуетесь всеми инструментами, о которых указано? Те мы сможем видеть именно весь процесс обработки?
Спасибо)