Анализируй это или статистика авторов и комментаторов Хабра

Рабочая гипотеза для проверки:
На хабре обитает или, скорее, работает, группа граждан,
- НЕ пишущих статьи или написавших 1 (одну) проходную статью «как я побывал в обществе чистых тарелок», и
- При этом так же НЕ активно пишущих комментарии
- Но при этом появляясь почти исключительно с идейно верным речекряком – санкции только на пользу, 1с сейчас быстро заменим SAP, (sed –i ‘nebula|настоящий русский продукт’) – и этот продукт вторичный однозначно будет иметь успех на западном рынке.
- Отдельно надо выделить группу комментаторов, которым нравится советский учебник истории, и не нравится Мозохин (Олег Борисович), Мухин (Михаил Юрьевич) и Вознесенский (Николай Алексеевич). Я все понимаю, читать про неунывающего и мужественного Сталина и изобретательного и находчивого Кагановича намного интересней, чем дневники Малышева и Бирюкова.

Количественная оценка.
Возьмем последние 20 постов, набравших больше +100 , и с примерно 100 и больее комментариями
При этом: выбрать без регистрации фильтр - нельзя, за что такое угнетение.
При этом: фильтра «наиболее обсуждаемое»  - нельзя, только ручной отбор.
Статистика отбора:

Проведем простой анализ. Необходимо
1. Собрать всех комментаторов из комментариев.
2. Выбрать из них – уникальных.
3. Провести анализ комментаторов, в разрезе юзер \ публикации \ комментарии \ Зарегистрирован \ приглашен – и эта разница будет особо интересна.
В том числе можно будет посчитать разницу между «приглашен» и числом комментариев, и заодно – год регистрации. Какие цифры это даст, и попитонить на досуге.
Пожалуй, попитонить – единственная полезная задача в списке.

Конечно, после сбора статистики надо проводить анализ текста комментариев. Можно вручную, вне контекста просмотреть комментарии, можно попробовать потренировать нейросетку, но это ничуть не менее долго, и все равно нужен массив образцов. Это время, и, самое главное – нужно как-то из контекста оценивать – стоит ли тег сарказм, s/, закрыт ли он после сарказма, и что внутри остальных комментариев. Может, автор комментария обычный гречневый (ранее: глубинарий), или поридж (ранее: МД). Или у автора в силу каких-то причин присутствуют необратимые изменения МНУ, отчего он и строчит на хабр нетленки про всеобщую теорию всего – такого тоже полно. На этой неделе уже появилс пост не просто про Эйнштейн-неправ, но и про ходящую по краю "влияния Ориона на чакры" как-бы-почти-медицину.
Но – к делу.

За время с момента сбора статистики что-то пошло не так у следующих учетных записей:
https://habr.com/ru/users/AtmosferaVA/ - слив кармы в RO. Много минусов у пары комментариев.
https://habr.com/ru/users/shasoftX/ - слив кармы в RO.Много минусов у пары комментариев.
https://habr.com/ru/users/ItsNickname/ - карма 0, но RO. Бан то есть.
https://habr.com/ru/users/Polarisru/ - RO,но нет минусованных комментариев, удалены ?
https://habr.com/ru/users/SerJook/ - RO,но нет минусованных комментариев, удалены ?
https://habr.com/ru/users/VasiliyMakogon/ - RO, токсик конечно, в оставшихся комментариях типа такого резал правду иногда как есть. За что бан – не понятно.

К математике: (месяц считался как разница в днях между 21.02.2024 и регистраций /30 плюс 1, то есть 1.1 месяца шло за 2) :
Среднее число постов в месяц - 0.21
Среднее число комментариев в месяц - 7.87
Среднеквадратичное отклонение для постов - 3.02
Среднеквадратичное отклонение для комментариев  - 20.74
Это означает, что кто-то пишет ОЧЕНЬ много постов – и это копирайтеры, пишушие про все подряд, плюс новости.

Возьмем только тех, кто пишет больше 1 поста в два дня или 15 постов в 30 дней. Ничего удивительного в списке –
https://habr.com/ru/users/marks/ - 7399 статей
https://habr.com/ru/users/ancotir/ - 2510 статей
https://habr.com/ru/users/daniilshat/ - 2305 статей (и новостей)
https://habr.com/ru/users/denis-19/ - 8228 статей (и новостей)
Кстати, больше 10 статей в месяц даже у меня, ну я и спамер.

Что, если больше 5 статей в месяц? Добавится
https://habr.com/ru/users/Bright_Translate/ - 400 статей, переводы,  Блог компании RUVDS
https://habr.com/ru/users/DrArgentum/  -  25 статей с 18 ноября 2023 - Блог компании Timeweb Cloud
https://habr.com/ru/users/Grigory_Otrepyev/ - это я.

Что, если больше 3 ? Добавится
https://habr.com/ru/users/habr_career/ - понятно
https://habr.com/ru/users/BabayMazay/ - Блог компании RUVDS.com
https://habr.com/ru/users/DRoman0v/ - Блог компании Selectel

Да вы издеваетесь, одни корпоративные блоги. Что насчет >2 ?
https://habr.com/ru/users/MaFrance351/ -  47 статей. Блог компании Timeweb Cloud

Что насчет > 1 ???
https://habr.com/ru/users/jasiejames/ - Блог компании FirstVDS
https://habr.com/ru/users/rukhi7/ - о, первый не корпоративный блог. 27 статей с  10 октября 2022. Что-то про С#.
https://habr.com/ru/users/tormozedison/ - 113 статей с 2015 года, но последняя статья 11 июня 2019. 5 лет не пишет, и все равно в топе по производительности.
https://habr.com/ru/users/CyberexTech/ - Блог компании Timeweb Cloud
https://habr.com/ru/users/MaksimEng/ - 9 статей с 2 августа 2023
https://habr.com/ru/users/N-Cube/ - Блог компании AdminVPS, не пишет с июля 2023. Компания AdminVPS временно не ведёт блог на Хабре
https://habr.com/ru/users/OldFashionedEngineer/ - Блог компании Timeweb Cloud
https://habr.com/ru/users/Suvitruf/ - 205 статей, не корпоративный блог – честные новости геймдева.
https://habr.com/ru/users/Tzimie/ - 90 статей, не корпоративный блог, пишет интересно про SQL и всякую космогонию.

Тем не менее, получается что всех, у кого больше 1 (одной) статьи в месяц – можно и нужно убирать из статически значимой выборки. Это всего 20 (двадцать) участников . Останется 1576, и распределение станет следующим:
Среднее число статей в месяц 0.03
Среднее число комментариев в месяц 7.44
Среднеквадратичное отклонение для статей 0.099
Среднеквадратичное отклонение для комментариев 18.79

От так вот. Средний участник дискуссий пишет 0.03 статьи в месяц.

Что с комментариями? Как-то не великоват ли разброс? Хотя я и сам флудер – был номер один, пока не слили карму, стал номер 2.  

Оказывается, всего 12 (двенадцать) человек из оставшейся выборки (1576 УЗ) оставляет больше 75 комментариев в месяц.
Уберем и их из статистики. Получим распределение: (округление round(x,4))
Среднее число статей в месяц 0.0306
Среднее число комментариев в месяц 6.307
Среднеквадратичное отклонение для статей 0.0979
Среднеквадратичное отклонение для комментариев 11.0683

Хорошо как упало отклонение с 18.79, а ведь убрал всего 32 человек из статистики, из 1596. 2 % справа, получается.

Может, оценить молчунов с менее чем 0.1 комментария в месяц? Сколько таких? Таких в оставшейся выборке выше – 136 человек, 8.7 %  

Встречается  удивительное:
https://habr.com/ru/users/fion/ - регистрация 6 ноября 2012, 1 (один) комментарий от 14.02.2024
https://habr.com/ru/users/g992/ - регистрация 7 мая 2019, 2 (два) комментария – 02.02 и 11.02.2024
https://habr.com/ru/users/nsinitsyn/ - регистрация 2 марта 2013, 1 (один) комментарий от 30.01.2024

Таких учетных записей, на самом деле, больше – судя по соотношению даты регистрации к первому комментарию или первой статье, многих заморозили в 2012-2016 и разморозили в конце декабря 2022.
Пока писал статью, разморозился еще один комментатор:
@viruslab - Зарегистрирован 15 октября 2011, 1 (один) комментарий 21.02.2024.
Или где-то баг обработки даты регистрации.

Сколько же молчунов с менее чем 0.2 комментариев в месяц, из, напоминаю, активных комментаторов последних 20 горячих постов? Их 221 из 1564, 14%.

Посмотрим на правила: https://habr.com/ru/docs/help/karma/
Голосовать за карму в плюс можно с рейтингом 2 и более. Из молчунов таковых 41 учетная запись.

Рассмотрим подробнее, например
https://habr.com/ru/users/Lodinn/ - 19 комментариев, регистрация 5 декабря 2012, первый комментарий 15.01.2024.
Смотреть по остальным таким учетным записям дату первого комментария уже лень. Случайная проверка дает разброс из серии «писал раз в год для корпоративного блога» и «пишет что-то раз в год», дальше автоматизировать расчет стало сложнее, потому что надо жать кнопочки Next в статистике, значит подтягивать selenium, что-то нажимать. Избыточно.

Ради чего все это писалось и считалось.
Во-первых, мне было интересно посмотреть, что в статистике. И немного попитонить в свободное время, не все же в алгоритмах сидеть. Хотя, алгоритмы полезные, даже что-то применилось.
Оказалось, что статистику можно было тащить из og:description и не огорчаться при виде русской К в учете комментариев и статей.
Во-вторых, у меня было несколько гипотез, в том числе:
Существует статистически значимая группа учетных записей, комментирующих что-то или раз в год, или зарегистрировавшаяся давно, но начавшая комментировать недавно.
Проверка: подтверждено, 248 комментаторов из 1564 пишут менее 0.25 комментариев в месяц. 15.85% . Выборочные примеры разморозки - выше.
Существует масса "только комментаторов".
Проверка: подтверждено. Только у 554 участников последней выборки (из 1564 ) было больше 0 (ноля) статей. У 1011, соответственно, статей нет.
Существует статистически значимая группа учетных записей, комментирующих что-то раз в год, но способная качать карму.
Сколько учетных записей имеют хотя бы 1 статьи и рейтинг 4+, чтобы можно было играть в кармослив ? 465 учетных записей.
При этом 316 участников выборки имели 0 (ноль) статей и карму > 1, то есть могли качать карму в положительную сторону.
Например, 0 постов, карма >1 и менее 0.25 комментариев в месяц из данной выборки у 29 учетных записей. Если поднять порог до 0.3 комментариев в месяц, то таких учетных записей будет 38.

Как-то так. Похоже, что корпоративные блоггеры, и не только, с увлечением играют в кармослив, в том числе и за неверие в остеопатию.

Прошлые статьи из цикла:
1. Скучные цифры статистики и невнятная попытка их показать
2. MHGA или как вообще подбирается новостная сводка?  
3. MHGA – что же могло пойти не так и куда бежать

Послесловие. Я вообще хотел и написал статью про оземпик, как продолжение этой, но, внезапно, статья про оземпик и статистика по нему набирают минусы, а остеопатия - плюсы. ШТОШ.