Кажется очевидным, что на рынке должен существовать показатель, связывающий длину вакансии и зарплату. Мне казалось, это настолько базовая идея, что я сильно удивилась, обнаружив, что подобного индекса раньше не было. Впрочем, к концу статьи вы отчасти поймёте почему.
Данный материал опирается на методологию и логику, описанную в предыдущей статье. Философского введения не будет — сразу к делу.
Данные
Объектом анализа стали 48 586 вакансий, агрегированных с HeadHunter и Habr Career. Подробнее о датасете можно прочитать здесь.
Технические подробности
Для обеспечения корректности статистического анализа и устранения влияния технических факторов (HTML-разметки) на показатели объема текста, все описания вакансий прошли процедуру синтаксической нормализации .
Алгоритм обработки:
Декомпозиция DOM-структуры: исходный HTML-текст описания обрабатывался с использованием парсера
BeautifulSoup4. Теги удалялись, извлекался только плоский текст.Разрешение склеек лексем: в качестве разделителя использовался
\n. Это критично: часто текст внутри</li>и последующего тега<p>склеивается, если просто удалить теги, что нарушает семантическую целостность.Регуляризация: очистка от дублирующихся переносов строк и граничных пробелов (
.strip()).Расчет объема: итоговый показатель
desc_length— количество символов в полностью нормализованной строке.
Что такое Индекс Шивы?
Индекс Шивы — коэффициент, отражающий соотношение объема текстовой информации (символов) в вакансии к предлагаемому материальному вознаграждению (зарплате).
Количество символов «чистого» описания вакансии, которое работодатель «продает» кандидату за каждую 1000 рублей зарплаты.
Где:
Clean Text Length — количество символов в описании вакансии без мусора и тегов.
Salary — предлагаемая зарплата на руки.
1000 — коэффициент масштабирования для удобства восприятия.
Пока что это просто коэффициент, который ничего нам не говорит.
Много текста — это подробные требования или бюрократический шум? Хорошо, когда он низкий или, наоборот, высокий? Ответ: это крайне неоднозначный индекс.
На графике каждая точка — реальная вакансия.
Линии тренда идут практически параллельно на всём протяжении зарплатной шкалы, и красная линия (Toxic) стабильно выше. Разрыв между ними — это в среднем 400–600 лишних символов при той же оплате. Важно отметить, что разброс точек колоссален — рынок неоднороден.
Гипотеза: Избыточный текст является не полезной информацией, а «шумом», снижающим прозрачность контракта.
В описании вакансии конечное число параметров, важных для принятия решения: что делать (задачи), чем делать (стек/инструменты), за что (условия). Всё, что сверх этого — попытка замаскировать суть.
Индекс Шивы — это метрика не качества текста, а плотности ценности на символ.
Нелинейность индекса
Проверим корреляцию Индекса Шивы с Индексом Токсичности.
График выявляет интересную структуру рынка:
1. Зона «Элита» (Индекс Шивы ~25)
Текст лаконичен, деньги серьезные. Это рынок профессионалов, где слова имеют вес. Работодатель понимает, кто ему нужен, и не тратит время на лирику.
2. Зона «Контракт»
Математика Индекса Шивы объединяет в этой категории два совершенно разных типа вакансий, имеющих одинаковое соотношение «Текст/Деньги»:
«Спецификация» (Низкая токсичность). Сложные инженерные, научные или юридические вакансии. Длинный текст оправдан регламентами и допусками.
«Бюрократия» (Высокая токсичность). Обычные вакансии, которые могли бы быть короче, но искусственно раздуты из-за плохих процессов в компании, даже при высокой зарплате. Именно наличие второй группы «обычных, но раздутых» вакансий тянет средний уровень токсичности вверх.
Нельзя только по Индексу Шивы понять, читаете вы необходимую техническую документацию или бюрократический спам. Нужен контекст.
3. Зона низкого индекса
Почему низкий индекс оказался токсичным?
Работает принцип: «Отсутствие информации — это скрытый риск».
Серая зона: объявления в духе «Заработок от 100к, работа 2 часа в день». Текста мало, обещаний много. Высокая токсичность здесь обусловлена мошенническим паттерном.
Мясорубка: вакансии для массового линейного персонала, где человека воспринимают как расходный материал (курьеры-однодневки, грузчики в серых схемах). Работодателю всё равно, кто придет, текучка бешеная, поэтому описание условий минимально.
C-Level и Директора: это вакансии с огромной зарплатой и очень коротким описанием. Топ-менеджеру не пишут инструкций, ему ставят цель: «Прибыль X2 за год». Однако массовый сегмент своим объемом перекрывает эти малочисленные случаи.
Карьерная лестница, культура и индекс Шивы
Эффект грейда
Intern + Junior: самые «многословные» относительно зарплаты. Здесь работает презумпция некомпетентности. Так как новичок не имеет остаточного опыта, вакансия превращается в подробную инструкцию по эксплуатации сотрудника. Кроме того, из-за низкой зарплаты работодатель вынужден «продавать» вакансию через описание нематериальных выгод: обучение, менторство, «строчку в резюме».
Middle -> Senior: индекс слегка подрастает (с 25.87 до 26.81). Зона «Разрастания функционала». Сеньорам платят больше, но и требуют от них кратно больше. Именно здесь появляются списки стека технологий на 20 пунктов. Зарплата растет, но объем требований растет еще быстрее.
Lead / Top: Резкий обрыв вниз. Здесь парадигма меняется на презумпцию компетентности.
Джуну: «Копать от забора до обеда лопатой X».
Лиду: «Нужен ров. Бюджет такой-то».
Типы культуры в свете индекса Шивы
Клан: отношения строятся на эмоциях и лояльности. Текст вакансии раздувается за счет описания ценностей, атмосферы и тимбилдингов.
Иерархия: описания длинные, потому что они должны соответствовать регламентам, профстандартам и внутренним нормативным актам. Это не про эмоции, это про формализм. Текст — страховка «на всякий случай».
Адхократия: ненавидит бюрократию (поэтому текста меньше, чем в Иерархии), но работа здесь часто уникальна и сложна (поэтому текста больше, чем в Рынке). Баланс: работодатель продает не «семью» и не «регламент», а «вызов». Описания сфокусированы на задачах и стеке технологий.
Рынок: «сухая конкретика». Компании рыночного типа (часто это продажи, агрессивный консалтинг) не тратят время на лирику. Транзакционная модель отношений: «Ты нам результат — мы тебе бонус». Минимум текста, максимум цифр.
Индустриальный срез
Синяя и зеленая зоны — HoReCa и Логистика:
Транзакционные рынки. Высокая текучка, быстрый найм и понятные, стандартизированные задачи. Никто не пишет эссе о миссии компании, когда нужен водитель.Желтая зона — Финансы, Стройка, B2B:
Текста ровно столько, сколько нужно, чтобы обозначить условия. Четкие KPI и условия вознаграждения. Деньги любят счет, а не лирику.Оранжевая зона — IT & Телеком:
Высокооплачиваемые сферы, но высокий индекс, который, скорее всего, связан с раздуванием функционала. «Лишний» текст — часто бессмысленный перечень технологий («знание всех версий Linux»), копипаст требований. HR часто не понимают сути работы и страхуются, добавляя ключевые слова по принципу «чтобы было».Красные зоны — Медицина и Госсектор:
Медицина и Образование: высокий индекс часто оправдан регуляторикой. Врачу или преподавателю нельзя просто написать «лечи людей». Нужно перечислить сертификаты, допуски, соответствие приказам Минздрава или ФГОСам.
Госсектор: бюрократия + низкие зарплаты
Индекс Шивы — сложный и бесполезный?
Если метрика зависит от кучи факторов (грейда, индустрии, культуры), не является ли она просто бесполезным числом?
Ответ: Нет, если использовать её для сравнения.
Индекс Шивы не дает простых ответов «Иди сюда, не иди туда», но всё же имеет смысл.
Количество строк кода само по себе ничего не значит. Но если один программист пишет print("Hello World"), а второй тратит на тот же результат 68 строк — сразу понятно, чей код будет «больно» поддерживать. Конечно, возможно, второй — гений-самородок, придумавший уникальную архитектуру, которая не вписывается в рамки, но статистика будет не на его стороне.
Так почему же этот индекс важен:
1. Индикатор скрытой инфляции (Экономический смысл)
Если зарплаты в секторе стоят на месте, а Индекс Шивы растет (тексты удлиняются), значит, реальная стоимость труда падает. Работодатель пытается получить больше компетенций за те же деньги. Это маркер того, что рынок становится «душнее».
2. Тест на управленческую зрелость
Высокий индекс на позициях Senior/Lead — математический маркер микроменеджмента. Если вместо целей пишут инструкцию на три страницы, в этой компании не умеют делегировать результат, только контролировать процесс.
3. Геймификация стресса
В мире серьезной аналитики всегда остается место для простого человеческого любопытства. В какой-то момент жизни становится критически важно узнать, кто ты из феечек Winx... или какую «цену в буквах» ты платишь за чтение своей вакансии.
А если серьёзно, в условиях асимметрии рынка любая неопределенность рождает тревогу. Быстрый расчёт Индекса Шивы не делит предложения на «плохие» и «хорошие» — это было бы упрощением. Но он помогает сбросить напряжение и вернуть контроль. Это способ упорядочить хаос перед неизвестностью.
Получив конкретную цифру, её можно сравнить со средними показателями по индустрии или грейду и оценить: то, что вы видите перед собой — это аномалия или суровая рыночная норма.