Не сколько раз видела вопросы о том, что не понятно, какие профессии могут востребованными и высокооплачиваемыми.
Я решила запустить проект по сбору и обработке информации о вакансиях с hh.ru.
Hh даёт возможность законно парсить данные о вакансиях.
Эти данные я планирую обработать и публично выложить в виде дашбордов. Дашборды дают возможность с помощью срезов (фильтров) посмотреть информацию в любом разрезе. Например, я выложу данные по зп по всем вакансиям России, а с помощью срезов конечный пользователь сможет посмотреть среднюю зп в определённом профессиональном сегменте (например маркетологи) в своей области, сможет сравнить со средними данными по России. Можно будет увидеть, какие сферы деятельности востребованы в конкретной области, а по какой почти нет вакансий.
Ну и удаленка, можно будет сделать отдельный портрет: какие вакансии бывают, с требованием опыта или без, какая зп и т.д.
Я подобное исследование делала для себя дважды.
Основная затратная часть по времени - это парсинг. Hh даёт доступ к данным легально. Но за раз можно выгрузить данные меньше чем о 2000 вакансиях, чаще это чуть больше 1000.
Выгрузки можно делать не чаще, чем 2-3 в час. В сутки удаётся получить данные о 20000-30000 вакансий. В прошлый раз у меня потребовалось почти 2 месяца на сбор данных. В этот раз нет такого количества свободного времени, и за сутки удаётся выгрузить в среднем 10000 вакансий. То есть в одиночку работать 3-4 месяца.
Мне нужна помощь именно в парсинге. Для этого никаких специальных знаний не нужно. Только аккаунт в гугл. Код для паркинга написан на python, в нем нужно будет только менять даты и область.
В работа ведётся в Google colab. Файлы сохраняются на компьютер в виде excel и csv. Эти файлы нужно будет сохранить в общую папку на гугл диске.
Итоговые данные будет обработаны python, первичная аналитика будет в power bi, окончательные результаты планирую выложить в либо в yandex datalends (у них есть возможность выкладывать дашборды в публичное пространство и по ссылке можно будет его найти) либо, если что-то не будет получаться - это будет несколько дашбордов в гугл таблице, данные тогда придётся делить по файлам и аналитика будет по ФО.
Кто учился в тгу на аналитика данных, за основу я взяла те инструменты, которые нам давали, но немного доработал их.
Сам проект полностью бесплатный.
Всем участникам, кому будет интересно, я покажу онлайн, как буду обрабатывать информацию и объясню, почему так. Так же все собранные материалы останутся в общей папке на google диске, и их можно будет использовать для своей практики, или для портфолио.
Если вам хотелось бы поучаствовать - пишите в комментариях или в личку.
Если вам хотелось бы посмотреть результаты - поставьте пожалуйста лайк. Чем больше людей увидят пост, тем больше шансов будет собрать команду.
Ещё в комментариях укажу названия ФО, если вам интересны данные только по ФО - укажите это (например лайк). А то может какие-то регионы не будут востребованы вообще, и тогда можно будет не брать их в работу.
Здравствуйте, спасибо за отклик. Парсинг уже завершен, сейчас идёт итоговая часть обработки данных. Если решим повторить данный проект, можно будет поучаствовать.
Ирина, добрый день!
А как парсить зп по вакансиям, где она определяется на собеседовании? По большинству вакансий, что ищу нет указания даже вилки зп
Вам удалось найти работу после курсов ТГУ? (тоже их проходила, но без опыта не нашла вакансий)
В выгрузках из hh большая часть вакансий идёт с зарплатой. Для иследования этих данных хватит. Тем более, что охват - вся Россия за месяц, более 1000000 вакансий. Зп после собеседования конечно никак не узнать из данных hh.
Работу нашла, сейчас работаю аналитиком данных
@iv.tishkina вот на мой взгляд, я ищу по Москве, очень редко есть указание зп, возможно в вашем исследовании получатся другие данные, будет интересно, если в результатах отдельно будет информация о количестве таких вакансий (без указания з/п)
А вы нашли через hh или группы тг?
@astrobaby.pro я нашла через hh.
В исследовании конечно погладим, какой % вакансий с зп. Тоже интересно.
Здравствуйте, спасибо за отклик. Сбор данных практически закончен. Как будет готов результат- напишу всем
С удовольствием поучаствую! Училась в ТГУ на анализ данных во второй половине 2022 г
Знаете, я вот с удовольствием все ваши статьи прочитала, на ххру зарегистрировалась. И поняла, что удаленка, если ты не владеешь каким-нибудь языком компьютерным, представлена лишь рекрутерами(в моём случае-бесконечное заманивание на платформу wizard -написание рефератов и тд за копейки и Яндексом)
Я искала вакансии конечно год назад на удаленку. И я находила много вакансий реально без опыта в хорошие стабильные конторы, максимум со знанием excel. Правда на зп 30000-40000, не больше. Их не много, но они есть.
Вы по всей России вакансии смотрели?
@fromfeo я другие вакансии на удаленке точно видела. Но давайте дождёмся аналитики по вакансиям. Там все сегменты у удаленки будем изучать
Оказывается есть ограничение по отправке сообщений в личку. У вас есть аккаунт в гугл?
@milkymilaway да, дашборды затягивают. На работе тоже в power bi работаю
@iv.tishkina, ага ))) напишите в лс какая помощь нужна? Вдруг найду в себе силы :)
@milkymilaway вы можете мне в личку написать? На меня сервис ругается и не даёт временно первой писать
Здравствуйте! Я хотела бы поучаствовать. Училась на “Аналитика данных» и специалиста по «Data science”. Мое резюме Вы уже видели.
Я поняла, что видео в любом случае нужно записать. Постараюсь сегодня. Пока можно смело экспериментировать в копиях colab. Если что-то сломается, всегда можно сделать новую копию
Ещё один момент. По инструкции вначале может быть непонятно. Скорее всего по zoom завтра смогу показать. Сам процесс простой, но иногда проще 1 раз увидеть, чем 10 раз прочитать
А в записи можно будет получить? Не уверена, что у меня онлайн посмотреть получится.
Спасибо большое всем за отклик! Неожидала такой активной акции. Инструкцию и папку я сделала. Что бы предоставить доступ, мне нужен ваш аккаунт в Google. Пришлите пожалуйста в личку информацию
А кстати вот интересно, есть вот инфа о вакансиях. А по количеству соискателей они тоже дают просить? Чтоб сопоставить. Сколько вот претендентов есть на 2,3 тыс вакансии аналитиков
Это нужно иметь аккаунт работодателя. Было бы конечно интересно померить, но у меня нет возможности
Было бы интересно поучаствовать. Так как сейчас есть запрос на практику по аналитике в разных инструментах, для развития профессиональных компетенций.
Прям каждый день наверное выгрузки делать не смогу, так как не всегда работаю из дома, в офисе точно таким заниматься нельзя у нас.
На hh очень узко подана аналитика, определенные города, определенные вакансии. Нельзя покрутить по графику работы, опыту.
@ange_ou @kseniyakashtanova по сути дела, я не среднюю зарплату по России делаю, а скорее среднюю зарплату, на которую можно рассчитывать при поиске работы. И понятно, что не все вакансию указывают зарплату, но общее представление о сфере работы получить можно
Есть один косяк с данными на основе хх
Крупные корпорации не пишут зп. Формулировка «Заработная плата по итогам собеседования»
Еще на хх тема со скам конторами, которые указывают зп 100 тысяч (условно), а на деле оклад минималка дай Бог.
@iv.tishkina, субъекты малого и среднего предпринимательства
То есть не учитывать вакансии и уровень зп крупняков
@kseniyakashtanova крупные компании часто тоже с зарплатой размещают вакансии. В любом случае, посмотрим % вакансий без зп и адекватность сведений. Если не ошибаюсь, по России год назад только 10-15% вакансий было без зп
Не отфильтровала. По сути, есть вакансии без ключевых навыков. Именно они и попали в выборку
Про аналитиков и их среднюю зп смешно 😂 если только в госе лютейшем такая маленькая средняя зп
Не встречала ни бизнес , ни системных с такими зарплатами 🤷🏻♀️
Нормальная зп для джунов, и даже для части мидлов. Понятно, что есть зп и больше, но не у всех
Там же средняя зп. Я вот встречала и с меньшей зп ребят. Особенно в регионах.
Имхо, на hh по вакансиям очень часто не пишут оклад - даже вилка есть не везде - но это обычно вакансии уровня middle+ и опять же по моему направлению
Понятно, что в данных будет погрешность. Но такой обзор хоть какую то картину дает
@iv.tishkina там будет очень большая погрешность - насколько, что эти данные не репрезентативные - но опять же, это мое мнение.
Ты хочешь запарсить по регионам? У нас тоже был хх на курсе. Коды сохранились
@masai у нас было 50000 или 60000 в рабочем проекте. Но это готовая выгрузка
@masai первоначальную дали. А парсила я уже после курса, когда портфолио себе делала
РД Дагестан город Махачкала, хотела бы тоже поучаствовать. Но ничего не поняла
Дагестан , Махачкала 😂. Смешно , потому что здесь явно дыра с работой ) но зато поле пустое
Хотела бы поучаствовать.
Подскажите, пожалуйста, вы будете показывать, как пользуетесь всеми инструментами, о которых указано? Те мы сможем видеть именно весь процесс обработки?
Спасибо)
Здравствуйте, покажу, что-то подробно разберём, как работает. Что-то обзорно через zoom покажу с небольшими разборами
Здравствуйте, вы готовы по-участвовать? Напишите тогда в личку, пожалуйста
Будет по всем сферам аналитика, it я делала для себя, показала, как пример.
Сибирский федеральный округ, Новосибирск.
С удовольствие посмотрела бы про вакансии с ИИ и пайтоном (заканчиваю курс ИИ и иду на пайтон в феврале).
Здравствуйте , подскажите какой курс по и вы заканчиваете? Вам нравится ?
@olivia_meri praktik-pro в клубе удалёнщиков. Мне нравится. Из всех школ они предлагают самую расширенную программу.
Я хочу участвовать.
Сибирский федеральный округ наверное у меня
Город Красноярск
Сибирский федеральный округ, а точнее Омск.
Ну и я хотела бы поучаствовать! Но пока не умею, поэтому буду рада научиться)
Только удаленка