LLM Leaderboard за май 2024

  • Qwen1.5 Chat — китайский ответ Llama 3 от Alibaba Cloud. Это семейство LLM от 0.5B до 110B параметров демонстрирует неплохие результаты на продуктовых LLM-бенчмарках.

    • 7B: сопоставима с Anthropic Claude 2.1 и Cohere Command R.

    • 14B: чуть слабее, но все еще конкурентоспособна.

    • 32B: на уровне старых версий GPT-3.5, Gemini Pro 1.0 и Cohere Command R+. Уверенный середнячок с некоторыми провалами в reasoning.

    • 72B: не прошла тест из-за ошибки CUDA (не только у меня, см. (https://github.com/QwenLM/Qwen1.5/issues/331)).

    • 110B: пока не тестировал, жду, пока устранят баги.

  • Google Gemini — результаты разочаровывают. Новая Gemini Pro 1.5 стала лучше следовать инструкциям и демонстрирует более качественный reasoning, но при этом она изобилует ошибками, тормозит и даже умудрилась пометить один из запросов как HARM_CATEGORY_DANGEROUS_CONTENT.

    За те же деньги можно взять GPT-4o и получить значительно более высокое качество.

    Gemini Flash 1.5 работает на уровне январской версии GPT-3.5 и стоит столько же.

    А вот обещанная "прорывная" Gemini Ultra, которую так ждали в начале года, кажется, исчезла в черной дыре. На последней Google I/O о ней не сказали ни слова.

  • GPT-4o — настоящее открытие: модель быстра, поддерживает контекст до 128K и стоит дешевле GPT-4 Turbo. Её уникальная особенность — способность понимать и выражать эмоции.

    Под капотом у неё расширенный словарь, значительно сокращающий количество токенов, используемых моделью. Улучшилось также понимание языков.

    Хотя значительного скачка в производительности не наблюдается, поскольку модели уже приблизились к потолку бенчмарка, GPT-4o всё же делает впечатляющий рывок в категории Reason (способность к сложным рассуждениям), подняв этот показатель с 62 (GPT-4 Turbo v3/1106-preview) до 75 🤯.

    Что ещё круче — вся эта мощь будет доступна бесплатно в ChatGPT!