Китайский прорыв в ИИ: Deepseek повышает эффективность обучения нейросетей
Китайская компания Deepseek произвела фурор в мире искусственного интеллекта, представив новые модели Deepseek-V3 (универсальная большая языковая модель) 24 декабря 2024 года и Deepseek-R1 (модель для решения сложных логических задач) 20 января 2025 года. Обе модели сопровождаются открытыми исходными кодами и методами обучения, что позволяет другим исследователям и разработчикам изучать и совершенствовать их, сообщает The Daily Cardinal.
Особенностью новых моделей Deepseek является их эффективность. Они показывают сравнимую с OpenAI (разработчик ChatGPT) точность при значительно меньших затратах на обучение. Кангвук Ли, профессор электротехники и вычислительной техники Университета Висконсина-Мэдисон, поясняет, что Deepseek-R1 по своим возможностям сопоставима с новейшей моделью OpenAI o1, но при этом требует гораздо меньше вычислительных ресурсов.
Ключевые инновации Deepseek:
• Sparse Mixture-of-Experts (MoE): В отличие от традиционного «плотного» подхода, когда для обработки каждого токена (наименьшей единицы данных в ИИ) используются все параметры модели, Deepseek использует «разреженный» подход MoE. Это означает, что разные части модели («эксперты») обрабатывают разные токены. Это позволяет значительно снизить вычислительную нагрузку.
• Multi-head Latent Attention (MLA): Технология сжатия больших объемов данных в меньшие, более управляемые размеры, что экономит память и ускоряет обработку.
• Multi-Token Prediction: Обучение модели предсказывать несколько токенов одновременно, а не по одному, что повышает скорость обучения и генерации текста.
• Floating-Point 8 (FP8) Mixed Precision Training: Использование меньшего диапазона данных (8 бит вместо 16 или 32) в тех случаях, когда это не влияет на конечную точность, что снижает затраты на обработку данных.
• Long Chain-of-Thought: Использование многоступенчатых логических цепочек для ответа на запросы пользователей, что повышает точность и логичность ответов.
Почему это важно?
Эффективность моделей Deepseek имеет несколько важных последствий:
• Снижение входного барьера: Разработка мощных ИИ-моделей становится более доступной, поскольку требует меньше вычислительных ресурсов и, соответственно, меньше затрат.
• Конкуренция: Deepseek становится серьезным конкурентом для OpenAI и других лидеров рынка ИИ, стимулируя инновации и снижение цен.
• Глобальное развитие ИИ: Открытый исходный код моделей Deepseek способствует развитию ИИ во всем мире, позволяя исследователям и разработчикам из разных стран использовать и совершенствовать их.
• Ограничения на экспорт GPU: Компания Deepseek смогла эффективно обойти введенные США ограничения на экспорт современных графических процессоров, используя другие алгоритмы обработки данных.
Успех Deepseek стимулирует дальнейшие исследования в области повышения эффективности обучения нейросетей. Ожидается, что другие компании и исследовательские группы представят новые модели и методы, направленные на снижение затрат и повышение производительности ИИ. Это может привести к еще большему распространению ИИ-технологий и их внедрению в различные сферы жизни.
Термины:
• Большая языковая модель (LLM): Нейросеть, обученная на огромном количестве текстовых данных и способная генерировать текст, переводить языки, отвечать на вопросы и выполнять другие задачи.
• Токен: Наименьшая единица данных, обрабатываемая ИИ-моделью (обычно слово или его часть).
• Параметры: Настраиваемые переменные в нейронной сети, которые определяют, как она обрабатывает данные.
• Sparse Mixture-of-Experts (MoE): Архитектура нейронной сети, в которой разные части модели («эксперты») обрабатывают разные части входных данных.
• Floating-Point 8 (FP8): Формат представления чисел с плавающей запятой, использующий 8 бит для хранения данных.
• Графический процессор (GPU): Специализированный процессор, предназначенный для обработки графики и параллельных вычислений, широко используемый в обучении нейронных сетей.