Лидирующие LLM на начало марта 2025

Консолидация финансового капитала, технологий, вычислительных мощностей и лучших умов человечества в развитии ИИ проектов создают невероятный темп научно-технического прогресса в рамках внедрения передовых LLM, что в свою очередь приводит к выравниванию конкуренции и быстрого достижения предела развития в рамках актуальных архитектур.

Во-первых, с осени 2024 стало невозможным определение однозначно доминирующую LLM, где ни одна передовая разработка не имела ультимативных преимуществ так, как это было в начале технологического рывка в 2023.

Во-вторых, крайне неоднозначное внедрение GPT-4.5 показало, что предел развития где-то рядом. Это справедливо и по относительно слабым анонсам конкурентов.

GPT-4.5 вышла рекордно дорогой (в 30 раз дороже средней цены по конкурентам), имея минимальное преимущество над конкурентами, со спорными инновациями в виде "человекоподобных" генераций, тогда как от LLM требуется точность и стабильность, а не умение "поболтать".

Последние тесты подтвердили, что GPT-4.5 одна из топовых LLM, но не лучшая (результаты artificialanalysis.ai полностью совпали с моими собственными тестами спустя пару часов после презентации).

Среди нерассуждающих LLM, GPT-4.5 уступила Grok 3, но обогнала всех остальных, хотя преимущество минимальное (подтверждение на гистограмме).

Удивительно, но GPT-4.5 вчистую сливает DeepSeek R1, имея стоимость в 50-60 раз выше! Да, они основаны на разных принципах (DeepSeek R1 – рассуждающая модель), но для пользователя имеет значения конечный результат и цена.

Что такое рассуждающие модели? Цепочка мыслей (CoT) — это метод, при котором модель искусственного интеллекта разбивает задачу на шаги, как бы "думая вслух", перед тем как дать ответ. Это помогает моделям лучше справляться с задачами, требующими логики, например, решением математических задач или логических головоломок.

Какие топовые рассуждающие LLM доступны в начале марта?

1. OpenAI o3-mini (high), есть более мощная o3, но она доступна только за 200 баксов в месяц, а прошлый лидер OpenAI o1 немного уступает OpenAI o3-mini (high) в интегральном сравнении.

2. Grok 3 Reasoning по многим тестам является лучшей в мире LLM.

3. DeepSeek R1 является самой универсальной и лучшей китайской моделью, которая по праву формирует мировой ТОП-3.

4. Claude 3.7 Sonnet [SSE: 603096] Thinking представляет лучшие в мире возможности в программировании (разработчики акцент делали именно на них), но уступает лидерам по другим направлениям.

5. [HKEX: 0174] Gemini 2.0 Thinking из жесткой внутренней цензуры практически не пригодна для работы, хотя архитектурно на высоких позициях.

Можно отметить значительно улучшенную модификацию думающей модели от Perplexity, которую представили 14 февраля в виде [NSE: DEEPAKNTR] Deep Research.Deep [NASDAQ: RSSS] Research.

Я ранее сильно ругал Perplexity, которые 1.5 года практически ничего не делали, но с января они активно взялись за работу, интенсивно внедряя инновации и вышли в лидеры по совокупности факторов среди поисковых LLM.

А где же GPT-4.5? По формальным критериям уступает любой из думающей модели, но находится на лидирующих позициях вне CoT LLM.

Gemini 2.0 Thinking можно тестировать бесплатно в среде разработчиков в [NASDAQ: GOOG] Google [NYSE: AI] AI Studio.

Grok 3 Reasoning пока бесплатен в режиме бета теста через платформу X или grok.com.

DeepSeek R1 бесплатный, но сломался уже больше месяца (не работает поиск) и постоянные "отваливания" из-за перегрузки серверов.

Claude 3.7 [NASDAQ: SONN] Sonnet Thinking платный, но можно использовать через агрегатор Syntx (также там Grok 3 Reasoning, OpenAI o3-mini (high) и OpenAI o1 PRO) .

GPT-4.5 неадекватно дорогой, пока представлен только в тарифе [NYSE: PRO] PRO за 200 баксов в месяц и в среде разработчиков с прайсом в 30-50 раз выше, чем у конкурентов. Доступен через агрегатор Syntx (25 запросов в час и 150 запросов за сутки) и Perplexity PRO с вчерашнего дня, но всего 10 запросов в день.

С GPT-4.5 еще не успел познакомиться внимательно, требуется более тщательное тестирование. Более полный обзор личного опыта использования LLM в рабочих задачах подготовлю по мере возможностей.

7