Комментарии 0
...комментариев пока нет
Ученые Яндекса разработали и выложили в опенсорс Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем, содержащий почти 5 миллиардов обезличенных данных Яндекс Музыки. Он поможет вузам, исследователям и разработчикам по всему миру тестировать и совершенствовать новые алгоритмы рекомендаций в разных областях.
Подобные датасеты критичны для развития исследований в области рекомендательных систем: технология требует масштабных, актуальных данных.
При этом бизнес редко публикует их, поэтому в научной среде по-прежнему используются небольшие или устаревшие материалы, что усиливает разрыв между академическими исследованиями и индустриальными потребностями. Например, популярный датасет Spotify Million Playlists содержит всего 1 миллион плейлистов, что значительно меньше, чем требуется для рекомендательных систем в условиях реального трафика. Уступает современным требованиям и датасет Netflix Prize: в нём нет точной временной разметки и его размер также ограничен. В результате модели, обученные на таких данных, довольно плохо масштабируются.
Поэтому публикация Yamblda в опенсорсе вносит довольно большой вклад в развитие нашей технологической и научной сфер. Такие инициативы показывают, что компании осознают важность независимых научных разработок и создают фундамент для прихода в область молодых ученых, заинтересованных в создании актуальных решений на основе машинного обучения. Для российской науки это особенно значимо: собственная инфраструктура, доступ к современным данным и приток молодых кадров — ключевые факторы долгосрочного роста технологической отрасли.