ChatGPT против остального мира: внутри лучших современных языковых моделей ИИ

Введение: Может ли ИИ написать вашу курсовую, отладить код и спланировать ужин лучше вас? Большие языковые модели (LLM), такие как ChatGPT, стремительно вышли в мейнстрим, поражая мир своими человекоподобными диалогами и сверхзаряженными знаниями. Всего за два месяца после запуска ChatGPT набрал 100 миллионов пользователей — это самое быстрорастущее приложение в истории reuters.com. Эти ИИ-волшебники работают на нейросетях с миллиардами и триллионами параметров, обученных на огромных массивах текстов. Последняя версия ChatGPT от OpenAI (GPT-4) оценивается примерно в 1,8 триллиона параметров explodingtopics.com, использующая передовый дизайн “микса экспертов” для достижения высокого уровня интеллекта. Но OpenAI не единственная — конкуренты, такие как Claude от Anthropic, Gemini от Google DeepMind, LLaMA от Meta, Mixtral от Mistral AI и другие, ведут борьбу за корону LLM. У каждой модели — своя архитектура, особенности и уникальные черты.
В этом подробном отчёте мы развенчаем мифы о LLM — объясним, как они работают и почему это важно, а затем подробно рассмотрим ChatGPT и его основных конкурентов. Мы сравним их технические характеристики, возможности (в том числе мультимодальные “фишки”, такие как работа с изображениями!), уровень открытости, а также плюсы и минусы, которые могут сыграть решающую роль в вашем опыте работы с ИИ. В завершение мы расскажем о тенденциях и дадим советы по выбору подходящей AI-модели под ваши задачи. Пристегните ремни — вас ждёт захватывающее путешествие по современному миру искусственного интеллекта!
Введение в LLM: как это работает и почему это революционно
Что такое LLM? Большие языковые модели — это системы ИИ, обученные понимать и генерировать текст. Они построены на архитектуре Трансформеров, которая использует механизм самовнимания для изучения языковых закономерностей. По сути, LLM читает огромные объёмы текста и учится предсказывать следующее слово в предложении. Обучаясь на миллиардах и триллионах слов (книги, сайты, код и многое другое), эти модели приобретают почти невероятное понимание языка, фактов и даже частично рассуждений. Современные LLM сначала проходят предобучение на универсальном корпусе (учась заполнять или продолжать текст), а затем обычно дополнительно обучаются под конкретные задачи или инструкции en.wikipedia.org en.wikipedia.org. Такие техники, как обучение с подкреплением на основе обратной связи от человека (RLHF), помогают сделать модели более соответствующими человеческим ожиданиям, повышая точность следования инструкциям и уровень полезности anthropic.com anthropic.com.
Масштаб: “Большие” в названии LLM — не просто так: ранние трансформеры, такие как GPT-2, имели 1,5 миллиарда параметров, а теперь обычным делом считаются цифры 100+ миллиардов, а передовые модели выходят за триллион. Например, у GPT-3 175 миллиардов параметров, а архитектура GPT-4 (хотя официально не раскрыта), по слухам, использует около 8 моделей × 220B параметров каждая (≈1,76 триллиона) explodingtopics.com explodingtopics.com. Такой масштаб даёт LLM исключительную “память” обучающей информации и способность генерировать очень связный, релевантный контексту текст. Однако это делает их очень требовательными к ресурсам — обучение GPT-4, по оценкам, стоило более 100 миллионов долларов explodingtopics.com, а эксперты предупреждают, что следующее поколение моделей может стоить 10 миллиардов долларов к 2025 году explodingtopics.com. Для работы таких моделей требуются мощные GPU или специализированное оборудование.
Контекст и «память»: LLM не совсем понимают как люди, но используют «окно контекста» для отслеживания истории диалога или документа. Ранние модели оперировали примерно 2 тыс. токенов (~1500 слов), но новые модели поддерживают огромные длины контекста — например, Claude 2 от Anthropic принимает до 100 000 токенов (около 75 000 слов), а Gemini 1.5 от Google экспериментирует с ошеломляющим окном в 1 миллион токенов en.wikipedia.org. Это значит, что LLM может анализировать целую книгу или часы диалога, что позволяет вести длительные обсуждения и глубокий анализ. Однако работа с длинным контекстом требует ещё больших вычислений и может снижать фокус на главном en.wikipedia.org.
Мультимодальность: Если ранние LLM работали только с текстом, то передний край — мультимодальные модели, способные обрабатывать изображения, аудио и видео наряду с текстом. “Мультимодальные LLM” умеют описывать изображения, генерировать графику по описанию, распознавать голосовой ввод. Например, GPT-4 от OpenAI интерпретирует изображения (ChatGPT Vision), а Gemini от Google изначально создавался мультимодальным — для работы с текстом, изображениями и не только en.wikipedia.org en.wikipedia.org. Это открывает дорогу ИИ, который может “видеть и говорить”, а не только “читать и писать”.
Неожиданные возможности и ограничения: С ростом LLM у них начали проявляться непредусмотренные способности — решение задач по математике, программирование, сдача экзаменов по специальностям и другое, чему их явно не учили. Например, GPT-4 почти достиг 90-го процентиля на юридическом экзамене (где GPT-3.5 набирал лишь около 10-го) law.stanford.edu, и может получать высшие баллы на многих академических и профессиональных тестах. Модели такого типа великолепно генерируют связный, контекстуально уместный текст и способны на творческие задачи. Но у них есть и слабые места: они галлюцинируют — уверенно выдают неправдоподобные или ошибочные ответы en.wikipedia.org. Им не хватает настоящего понимания и логики, они могут ошибаться на сложных задачах или плохо ориентироваться в новейших событиях, которых не было в обучающем датасете. Кроме того, закрытые модели остаются “чёрными ящиками”: мы не всегда знаем, почему они говорят то, что говорят, а их знания ограничены датой “заморозки” обучающих данных (например, у ChatGPT база данных долгое время была зафиксирована на конец 2021 года).
Открытые и закрытые модели: Некоторые LLM с открытым исходным кодом или весами, их можно свободно использовать и дообучать. Это способствует развитию комьюнити разработчиков и повышает прозрачность. Meta начала эту тенденцию с LLaMA в 2023 году, и другие, такие как Mistral AI и Cohere, также выпустили мощные открытые модели. Открытые модели дают возможность для собственных приложений, размещения на своих серверах, а также проверки поведения ИИ mistral.ai ibm.com. Однако большинство топовых моделей (OpenAI, Google) закрытые — доступны только через API или ограниченный интерфейс. Они часто лидируют по возможностям, но требуют доверия к разработчику и накладывают ограничения на использование.
Теперь, имея общее представление, познакомимся с главными LLM, определяющими современный рынок ИИ — их архитектурой, плюсами, минусами и сравнением между собой.
ChatGPT (OpenAI): первопроходец разговорного ИИ
Обзор: ChatGPT от OpenAI — ИИ, который по-настоящему поразил воображение широкой публики. Запущенный в качестве бесплатного чат-бота в ноябре 2022 года, он за считанные недели стал сенсацией благодаря своей способности вести естественные диалоги, решать задачи и генерировать практически любой текст по запросу. К январю 2023 года у него было уже 100 миллионов пользователей, что сделало его самым быстрорастущим потребительским приложением в истории reuters.com. ChatGPT работает на моделях серии GPT от OpenAI: сначала на GPT-3.5 (доработанная версия 175-миллиардной модели GPT-3 2020 года), а теперь и на GPT-4 (для платных пользователей). GPT-4 — это огромная нейросеть на базе трансформеров, по слухам использующая архитектуру микса экспертов и имеющая 1,7–1,8 триллиона параметров, распределённых по восьми экспертным моделям explodingtopics.com explodingtopics.com. OpenAI официально не раскрывает деталей, но GPT-4 явно значительно превосходит своих предшественников по размеру и возможностям.
Обучение и технологии: Модели GPT представляют собой только-декодирующие трансформеры, обученные на гигантских текстовых датасетах (GPT-4 обучалась на текстах и коде из интернета, книгах, Википедии и т.д., вероятно, суммарно на триллионах токенов). Модель учится предсказывать следующий токен в последовательности, что в процессе обучения обучает её грамматике, фактам и некоторым способностям к рассуждению. После предобучения ChatGPT прошёл этапы тонкой настройки по инструкциям и RLHF — сотрудники OpenAI вручную оценивали ответы модели и применяли обучение с подкреплением, чтобы модель лучше следовала инструкциям и была дружелюбнее для пользователя anthropic.com anthropic.com. Благодаря этому ChatGPT объясняет ответы пошагово или отказывается от выполнения неподобающих запросов, основываясь на защитных ограничениях. В GPT-4 появились мультимодальные возможности: она может воспринимать изображения и описывать или анализировать их (ChatGPT Vision). Также увеличилось окно контекста до 32 000 токенов (около 24 000 слов) по состоянию на релиз 2023 года, что позволяет обрабатывать длинные документы или вести продолжительные диалоги explodingtopics.com.
Использование и интеграция: ChatGPT доступен через веб-интерфейс чата и API OpenAI, что делает его простым для любого пользователя. Сейчас он интегрирован в огромное количество продуктов — например, в Microsoft Bing Chat и Copilot используются GPT-4, а многие приложения предлагают плагины ChatGPT. Такая широкая доступность, а также опережение конкурентов дали ChatGPT преимущество первопроходца в привлечении пользователей и разработчиков reuters.com reuters.com. Его используют для помощи с письмом, программирования, исследований, обучения, креативного мозгового штурма, чат-ботов для поддержки — сценариев применения множество. OpenAI также предлагает дообучение моделей GPT-3.5, позволяя бизнесу адаптировать ChatGPT к специализированным задачам (скоро ожидается поддержка GPT-4 для дообучения).
Сильные стороны: ChatGPT (особенно с GPT-4) всё ещё считается золотым стандартом во многих областях. У неё исключительно широкий круг знаний (благодаря обучению практически на всей информации из интернета). Она выдаёт связные, грамотные и контекстно релевантные ответы на множестве языков. Модель способна намного лучше справляться с сложными задачами рассуждений и программирования, чем ранние версии — например, GPT-4 решает сложные текстовые задачи по математике и пишет большие фрагменты кода, а также прославилась тем, что успешно сдала многие профессиональные экзамены (Bar, LSAT и др.) почти в топ-процентах law.stanford.edu. ChatGPT также очень удобна для пользователя: она специально разработана для следования инструкциям и развёрнутых ответов, а с RLHF чаще всего отвечает полезно и безопасно. Благодаря этому она превосходно справляется с творческими задачами (например, написание рассказов или мозговой штурм), а также может чётко объяснять и обучать понятиям. Большой контекст позволяет перерабатывать длинные запросы (например, целые статьи) и эффективно поддерживать многотактные беседы. Наконец, сетевой эффект — ещё одно преимущество: вокруг ChatGPT существует огромное количество плагинов, интеграций и комьюнити-форумов, что даёт пользователям богатую экосистему.
Слабые стороны: Несмотря на впечатляющие возможности, у ChatGPT есть и заметные ограничения. Самое большое — склонность к галлюцинации информации — она может уверенно выдавать ложные факты или выдумывать контент en.wikipedia.org. Например, она может ссылаться на несуществующие исследования или законы, потому что модель предсказывает наиболее правдоподобный, с её точки зрения, ответ, даже если не уверена. Иногда она затрудняется с актуальными событиями (это зависит от даты её обучения; база GPT-4 заканчивается серединой 2021 года, с ограниченными обновлениями через Bing для более свежих данных). Ещё один минус — непрозрачность: поскольку модель закрытая, мы не знаем её точных датасетов и внутреннего устройства, что мешает, если ответы оказываются предвзятыми или ошибочными. Защитные ограничения OpenAI, важные для безопасности, означают, что ChatGPT отказывается от ряда запросов или даёт стандартные ответы вроде «Я как ИИ не могу это сделать», что порой раздражает пользователей. По производительности: GPT-4 мощная, но медленная и дорогая в запуске; бесплатная версия (GPT-3.5) заметно слабее в плане рассуждений и точности. И наконец, использование ChatGPT требует доверия к OpenAI: так как модель не является open-source, а пользование проходит через их платформу, есть вопросы приватности данных и зависимости от сервиса OpenAI (особенно для бизнеса).
В целом, ChatGPT остаётся революционным универсальным ИИ-ассистентом с лучшими возможностями по многим параметрам, но его закрытость и отдельные случаи дезинформации оставляют пространство для конкурентов — и такие конкуренты уже появились.
Claude (Anthropic): Этичный собеседник с гигантской памятью
Общее описание: Claude — это LLM, разработанная компанией Anthropic, стартапом, ориентированным на безопасность ИИ и основанным выходцами из OpenAI. Если ChatGPT — любимчик массового пользователя, то Claude — это ориентированный на безопасность альтернативный вариант, созданный быть полезным, честным и безвредным. Anthropic запустила Claude в начале 2023 года и представила Claude 2 в июле 2023 как улучшенную модель. Claude работает аналогично ChatGPT (и также доступен через чат-интерфейс или API), но Anthropic выделяет её за счёт акцента на этичных методах обучения и экстремально большом окне контекста. Claude 2 вышел с поддержкой 100 000 токенов контекста (примерно 75 000 слов), что позволяет поглощать очень большие документы или даже целые книги за раз en.wikipedia.org. Это на порядок больше, чем у GPT-4 на тот момент, поэтому Claude особенно привлекателен для задач анализа больших текстовых массивов или долгих разговоров без «забывания» деталей.
Архитектура и обучение: Claude построен на архитектуре трансформеров, похожей на GPT. Хотя Anthropic не раскрывает точный размер, оценивается, что у Claude 2 около 137 миллиардов параметров (для сравнения, у оригинального Claude 1 — около 93 млрд) datasciencedojo.com. По размеру он чуть меньше GPT-4, но находится в одной лиге с такими моделями, как PaLM 2. Ключевая инновация Anthropic — это «Constitutional AI» — методика, когда модель обучается под управлением прописанных принципов («конституции»), определяющих её поведение anthropic.com anthropic.com. Вместо того чтобы полагаться только на ручную обратную связь людей для наказания плохих ответов, в Anthropic заставляют Claude сам критиковать и улучшать свои ответы по явному списку правил того, что считается полезным и безвредным. Например, конституция Claude частично основана на Всеобщей декларации прав человека и других этических принципах anthropic.com anthropic.com. Этот подход нацелен на создание модели, которая самостоятельно отказывается от неподобающих запросов и избегает токсичных и предвзятых ответов. На практике Claude чрезвычайно избегает недопустимого контента — она вежливо отказывается отвечать на запросы о насилии, ненависти, незаконных действиях и т.п., ссылаясь на принципы. В Anthropic отметили, что обратная связь от ИИ (когда модель сама оценивает свои выходы по конституции) лучше масштабируется и избавляет людей-модераторов от тяжёлого контента anthropic.com anthropic.com.
Возможности: По возможностям Claude примерно сопоставим с диапазоном от GPT-3.5 до GPT-4 — в зависимости от задачи. Он отлично справляется с длинными диалогами и поддержкой контекста, благодаря огромной памяти. Например, пользователи загружали в Claude целые романы и просили анализировать или редактировать их. Он также умеет выполнять структурированные задачи: резюмировать стенограммы, писать код, отвечать на вопросы — и зачастую качество сопоставимо с ChatGPT. На некоторых бенчмарках Claude 2 близок к уровню GPT-4. (К концу 2023 Anthropic тестировали Claude 2.1 и выше; а Claude 3 уже на подходе, судя по слухам, будет значительно масштабироваться.) Claude также многоязычен — поддерживает английский, французский и др., но лучше всего работает с английским. По заявлениям Anthropic, Claude реже галлюцинирует и генерирует токсичный контент за счёт обучения: он обычно осторожнее и подробно объясняет отказы или сомнения. Ещё одна особенность: у Claude ограничение на длину ответа гораздо выше (он может выдавать очень объёмные ответы, используя большое окно контекста), что полезно для генерации длинных документов.
Доступ и использование: Изначально Claude можно было использовать только через API (заметное внедрение — чат-бот для Slack на этапе бета-тестирования). Позже Anthropic открыли веб-интерфейс (claude.ai) для прямого доступа. Сейчас сервис бесплатен с некоторыми лимитами, а Anthropic также сотрудничают с бизнесом (Claude доступен на платформах вроде AWS Bedrock). У Claude пока меньше пользовательских интеграций чем у ChatGPT, но некоторые сервисы (например Poe от Quora) предлагают Claude как опцию. Благодаря фокусу на безопасности, Claude может быть предпочтителен в корпоративных и образовательных сценариях, где контроль поведения ИИ крайне важен.
Сильные стороны: Главные преимущества Claude — это его огромное окно контекста — он способен воспринимать и анализировать гораздо больше информации за один раз, чем большинство конкурентов, что незаменимо при обработке длинных PDF-документов или многочасовых транскриптов встреч. Модель также настроена на высокие этические стандарты: крайне редко генерирует оскорбительный или рискованный контент и часто объясняет свою логику, что может повысить доверие пользователя. Многие отмечают, что у Claude дружелюбная, позитивная личность и он хорошо справляется с творческим письмом. Ответы обычно развернутые, и Claude реже отказывает в корректных просьбах (он старается быть полезным, соблюдая при этом правила). В программировании Claude 2 конкурентоспособен и имеет преимущество при работе с очень большими кодовыми базами или документами благодаря размеру контекста. Еще одно достоинство: компания Anthropic постоянно совершенствует знания и рассуждения Claude — например, Claude 2 набрал более 80% на ряде академических и кодинговых бенчмарков, сокращая отставание от GPT-4 ibm.com ibm.com. Наконец, для организаций Claude предлагает альтернативу полной зависимости от OpenAI — всегда полезно иметь еще одну топовую модель на рынке.
Слабые стороны: Claude, несмотря на свою мощь, иногда кажется менее острым, чем GPT-4 при решении самых сложных задач. Его знания могут быть чуть более ограниченными (если параметров и обучающих данных действительно меньше, чем у GPT-4). Он также склонен к многословию: ответы Claude часто бывают очень длинными и излишне структурированными (иногда он повторяет вопрос или дает слишком подробные объяснения). Такая многословность — результат обучения быть полезным и не упускать детали, но иногда пользователю приходится возвращать его к сути. Несмотря на фокус на правдивости, Claude все еще иногда галлюцинирует — он не защищен от выдумывания информации, если «считает», что должен ответить. Еще одна проблема: доступность и интеграция. За пределами технологического сообщества Claude менее известен, чем ChatGPT, и многие обычные пользователи даже не подозревают о его существовании. Его интерфейс и экосистема менее развиты (меньше плагинов и публичных демо). Кроме того, как закрытая модель (пусть и не такая ограниченная, как у OpenAI), доступ к API или платформе Anthropic требуется получить по приглашению для ряда функций. И наконец, даже ультра-большое окно контекста Claude, несмотря на все свои плюсы, бывает медленным — обработка сотен тысяч токенов может идти со значительной задержкой или быть дорогой, поэтому практическое использование всего окна по-прежнему ограничено вычислительными ресурсами.
В целом, Claude от Anthropic — это как ответственный друг ChatGPT: может быть, не такой ярко интеллектуальный, как GPT-4 в лучшие моменты, но надёжный, крайне хорошо работающий с большим контекстом и максимально ориентированный на безопасность и полезность. Это отличный выбор для задач, связанных с обработкой длинных текстов или требующих строгого соблюдения этических принципов.
Gemini (Google DeepMind): Мультимодальный гигант, готовый обойти GPT-4
Обзор: Gemini — это новейшая флагманская LLM от Google DeepMind, представленная в конце 2023 года как ответ Google на GPT-4. Это не одна модель, а целое семейство моделей различного масштаба (аналогично тому, как у OpenAI есть версии GPT-4 и GPT-4 «Turbo»). Разработка Gemini — совместный проект Google Brain и DeepMind (после объединения их в Google DeepMind в 2023-м) en.wikipedia.org. С самого начала Google позиционировала Gemini как ИИ нового поколения, который должен обогнать ChatGPT благодаря сочетанию передовых технологий — включая решения, стоявшие за AlphaGo (ИИ, обыгравший чемпионов мира по игре го), для внедрения планирования и способностей к решению задач en.wikipedia.org. В отличие от многих LLM, работающих только с текстом, Gemini изначально мультимодален. Он способен работать с текстом, изображениями и потенциально с другими модальностями — звуком, видео — все в рамках одной модели en.wikipedia.org en.wikipedia.org. По сути, Google создавала Gemini как движок для AI-решений в Поиске, Google Cloud и потребительских продуктах.
Архитектура и масштаб: Google довольно мало рассказывает о внутреннем устройстве Gemini, но известно следующее. Gemini 1.0 вышел в декабре 2023 года в трех версиях: Gemini Nano (маленькая, для мобильных устройств), Gemini Pro (средняя, универсального назначения), Gemini Ultra (крупная, для самых сложных задач) en.wikipedia.org. На момент запуска Ultra была самой большой и мощной моделью Google — ее называли «самой крупной и способной моделью ИИ от Google» en.wikipedia.org. Сообщается, что она обошла GPT-4 от OpenAI, Claude 2 от Anthropic, LLaMA 2 70B от Meta и др. по многим бенчмаркам en.wikipedia.org. Фактически, Gemini Ultra стала первой моделью, набравшей свыше 90% на экзаменационном бенчмарке MMLU, превзойдя уровень человеческих экспертов en.wikipedia.org. Когда вышла Gemini 1.5 (начало 2024), Google раскрыла, что в новой версии использована архитектура Mixture-of-Experts (MoE) и реализовано колоссальное контекстное окно на 1 миллион токенов en.wikipedia.org en.wikipedia.org. MoE означает, что модель состоит из множества подмоделей-«экспертов», из которых на каждый запрос активируется только часть mistral.ai — это позволяет значительно увеличить количество параметров без сопоставимого роста времени работы. (Можно предполагать, что у Gemini Ultra масштаб параметров — триллионы, как у GPT-4, но точные числа Google не раскрывает.) Длинный контекст (1 млн токенов) — это настоящий прорыв, сравнимый с целой книгой или примерно 700 000 слов в контексте en.wikipedia.org — хотя, вероятно, реализован с помощью специализированных инфраструктурных решений. К концу 2024 года началась разработка Gemini 2.0, а также Google выпустила Gemma — компактную open source-серию (2B и 7B параметров), связанную с Gemini, для сообщества en.wikipedia.org.
Интеграция с продуктами Google: Gemini очень быстро стал частью экосистемы Google. Сразу после выхода Bard (чат-бот Google) был обновлён до Gemini (для большинства пользователей — Gemini Pro, для Ultra — лист ожидания под названием «Bard Advanced») en.wikipedia.org. Смартфон Google Pixel 8 получил на устройстве Gemini Nano для AI-функций en.wikipedia.org. Google также объявила о планах интеграции Gemini в Поиск (в Search Generative Experience теперь Gemini генерирует ответы), Google Ads (генерацию рекламных текстов), Google Workspace (Duet AI) для подсказок в Docs/Gmail, Chrome (умные функции в браузере), а также разработческие инструменты en.wikipedia.org. В начале 2024 г. Google предоставила корпоративным клиентам доступ к Gemini Pro через свою платформу Vertex AI en.wikipedia.org. Проще говоря, Gemini — это AI-основа Google как для потребительских, так и для корпоративных сервисов, что дает ей огромный охват пользователей.
Возможности: Gemini — одна из самых продвинутых моделей на сегодняшний день. Превосходно справляется с пониманием и генерацией текста на множестве языков. Специализирована и для программирования (одна из модификаций, вероятно, заточена под код, как Codey у Google PaLM 2). Благодаря мультимодальному режиму можно подать ей изображение и задавать вопросы — аналогично GPT-4 с Vision — или получить описание изображения. CEO Google Сундар Пичаи заявил, что Gemini умеет создавать связанные с запросом изображения, намекая на интеграцию генерации изображений по текстовому описанию en.wikipedia.org. Благодаря участию DeepMind, в Gemini могут быть реализованы и продвинутые стратегии рассуждения — например, использование алгоритмов планирования или инструментов, вдохновленных AlphaGo, для выполнения сложных задач (Демис Хассабис отмечал, что модель способна объединять мощь AlphaGo и LLM en.wikipedia.org). По бенчмаркам, Gemini Ultra, как отмечено выше, сравнялась или превзошла GPT-4 по многим академическим и здравым тестам en.wikipedia.org. В версии Gemini 1.5 производительность была ещё повышена, а вычислительные затраты — уменьшены (это результат новой архитектуры) blog.google blog.google. Можно уверенно сказать, что по состоянию на 2024–2025 годы Gemini — одна из самых мощных моделей.
Преимущества: Одним из главных преимуществ Gemini является мультимодальность — если у GPT-4 понимание изображений довольно ограничено и не во всех моделях присутствует, то Gemini изначально создан для работы с несколькими типами данных en.wikipedia.org. Это открывает возможности для более насыщенных интерактивных сценариев (например, анализировать изображение графика и отвечать на вопросы, или генерировать изображение прямо по текстовому описанию). Еще одним плюсом является плотная интеграция с поиском и данными. Поскольку Google контролирует и LLM, и сам поисковый индекс, Gemini-платформа Bard способна получать информацию в реальном времени и приводить источники, что уменьшает галлюцинации и делает ответы более актуальными. (Google продемонстрировал, как Bard выполняет живой поиск в Google для проверки фактов — в то время как ChatGPT это умеет только через плагины или режим просмотра.) Лидерство Gemini по производительности на бенчмарках вроде MMLU подтверждает его силу в самых разных областях знаний en.wikipedia.org. Кроме того, Google уделяет большое внимание эффективности и безопасности: Gemini 1.5 достиг уровня качества GPT-4 при меньших вычислениях blog.google blog.google, то есть ответы стали быстрее и дешевле. Также была проведена серьезная работа по обеспечению безопасности — публичный релиз Gemini Ultra был отложен до окончания тестирования методом «красных команд» en.wikipedia.org. Еще один плюс — экосистема. Разработчики могут использовать Gemini через Google Cloud, а для миллионов пользователей Gmail и Android он доступен прямо в привычных приложениях (без отдельной регистрации). Для бизнеса, уже работающего на платформе Google, внедрение Gemini максимально бесшовное.
Недостатки/Ограничения: На старте доступ к Gemini был ограничен — на момент запуска Gemini Ultra (лучшая версия) была недоступна для всех из-за соображений безопасности и ресурсов en.wikipedia.org. Доступ получили только отдельные партнеры или платные пользователи, так что массовая аудитория знакомилась с Gemini лишь через Bard и с определенными лимитами. Кроме того, будучи продуктом Google, модель закрыта (кроме маленьких моделей Gemma). Нельзя скачать Gemini Ultra и запустить у себя — только через API или веб-интерфейс Google. Если Google обновит или изменит модель, пользователи должны принять эти изменения (модель всегда немного «движущаяся цель», хотя и улучшается со временем). Еще одним возможным минусом является доверие и предвзятость — есть опасения, что в модели может быть заложена предвзятость, ведь она обучена на данных, выбранных Google, и соответствует их политикам AI-безопасности. (Выпуск Google открытых моделей — попытка повысить прозрачность en.wikipedia.org.) Также стоит отметить, что несмотря на глубокую интеграцию с поиском, некоторые пользователи сочли Bard (Gemini) менее креативным и менее склонным к «риску», чем ChatGPT. Bard избегал личных суждений и придуманных гипотетических сценариев, скорее всего из-за более строгих правил. Это может сделать ответы более сдержанными и шаблонными, хотя подобное поведение зачастую корректируется с обновлениями. И наконец, важен фактор конкуренции — к моменту выхода Gemini, GPT-4 уже плотно закрепился на рынке, а открытые модели Meta быстро прогрессировали. Так что Gemini еще предстоит доказать свое превосходство на практике, а не только в тестах. Истинная проверка — когда им начнут активно пользоваться в продуктах Google.
В сущности, Gemini — это тяжелый вес Google на рынке LLM: мощный, универсальный и глубоко интегрированный. OpenAI задал начальный темп, но теперь Google отчаянно стремится вернуть доминирование с AI, который работает во всем — от поисковой строки до смартфона.
LLaMA (Meta): Открытые LLM для всех — от 7B до 405B параметров
Обзор: LLaMA (Large Language Model Meta AI) — это семейство LLM от Meta (материнской компании Facebook), ставшее катализатором революции открытых AI. Стратегия Meta отличалась от OpenAI/Google: вместо выкладывания только API-«черных ящиков», Meta опубликовала веса своих моделей для исследователей, а позднее для широкой публики, позволив любому запускать и модифицировать их. Оригинальная LLaMA 1 была анонсирована в феврале 2023 года как набор моделей от 7B до 65B параметров для исследовательских целей. Хотя изначально LLaMA 1 распространялась под закрытой лицензией (только для исследований), ее веса быстро и громко утекли в сеть, и AI-сообщество стало дообучать их под самые разные задачи (чат-боты, ассистенты, генерация кода и т.д.). Поняв масштаб интереса, Meta пошла дальше и выпустила LLaMA 2 в июле 2023 — на этот раз открытую (доступную для всех) с довольно свободной лицензией (разрешающей коммерческое использование с некоторыми условиями) siliconangle.com siliconangle.com. В LLaMA 2 входили модели на 7B, 13B и 70B параметров, плюс дочерние версии «Chat». На этом Meta не остановилась — к 2024 году были представлены модели LLaMA 3, включая гигантскую 405B параметров (Llama 3.1), ставшую самой большой открыто доступной LLM на сегодня, сравнимой с закрытыми моделями вроде GPT-4 ai.meta.com ibm.com.
Архитектура и обучение: Модели LLaMA — это архитектуры Transformer только с декодером, по сути аналогичные GPT-подходу. Они обучаются на огромных текстовых корпусах: например, LLaMA 2 обучалась на 2 триллионах токенов данных (в 2 раза больше, чем LLaMA 1) originality.ai viso.ai. Делался упор на разнообразные источники (открытые веб-данные, код, Википедия и др.) с тщательным очищением данных. Цель Meta — достичь отличной производительности на меньших моделях за счет эффективной тренировки: LLaMA 1 поразила мир тем, что модель на 13B параметров обошла GPT-3 (175B) во многих тестах siliconangle.com. Секрет — больше тренировочных токенов и аккуратный тюнинг. Версия LLaMA 2 70B еще сильнее улучшила навыки генерации кода и рассуждений. В LLaMA 3 Meta не только увеличила масштаб параметров (появилась модель 405B), но также добавила улучшенную поддержку языков, длины контекста, а в некоторых версиях и поддержку изображений ai.meta.com ai.meta.com. (Meta анонсировала мультимодальность в LLaMA 3, и такие версии действительно появились ai.meta.com.) Большая модель Llama 3.1 на 405B якобы использует целью grouped-query attention и другие оптимизации, чтобы работать с длинным контекстом (возможно, до 32k токенов, точные характеристики технические). При этом Meta выкладывает как предобученные модели, так и инструкционно-тюнингованные версии (“Instruct”, “Chat”), уже адаптированные под диалоговое использование.
Открытые веса и сообщество: Открытость LLaMA вызвала взрыв инноваций в AI-сообществе. После утечки LLaMA 1 исследователи стали дообучать её: появились Alpaca (стэнфордская версия на 7B, тюнингованная на данных GPT), Vicuna, WizardLM и бесконечное число других вариантов — зачастую с минимальными затратами — что показало высокое качество даже небольших открытых моделей. Официальный выход LLaMA 2 (в партнерстве с Microsoft/Azure) позволил компаниям и стартапам легально использовать LLaMA в своих продуктах без проблем с лицензией siliconangle.com siliconangle.com. IBM, Amazon и другие внедрили LLaMA в свои облачные продукты ibm.com ibm.com. С выпуском 405B Meta достигла масштабов лучших проприетарных моделей и открыла AI-сообществу широкое поле для экспериментов ibm.com ibm.com. Эта модель (Llama 3.1 405B) по ряду бенчмарков достигает паритета с лучшими закрытыми системами, например, показывает 87,3% на MMLU, что практически совпадает с результатами GPT-4 и Claude 3 ibm.com. Также она хорошо выступает в задачах по программированию (HumanEval), пониманию текста и во многих других тестах, зачастую не уступая или превосходя GPT-4 Turbo и Google Gemini в закрытых испытаниях ibm.com ibm.com.
Применение и кейсы использования: Поскольку любой желающий может запускать модели LLaMA локально (при наличии достаточного железа) или на своих собственных серверах, эти модели нашли применение во множестве областей. Пользователи дообучили LLaMA для специализированных задач: боты для медицинских консультаций, анализаторы юридических документов, чат-боты с ролевой игрой, ассистенты по программированию, исследовательские инструменты. Модели LLaMA 2 на 7B и 13B могут работать даже на топовых ноутбуках или смартфонах (с квантизацией), позволяя реализовать ИИ на периферии. LLaMA также стала исследовательской платформой — ученые используют её для изучения поведения моделей, методик выравнивания и оптимизации, так как они могут напрямую анализировать веса модели. Meta уже интегрировала LLaMA в свои потребительские продукты: в конце 2023 года Meta запустила Meta AI Assistant в WhatsApp, Instagram и Messenger, который изначально работал на LLaMA 2, а затем был обновлен до LLaMA 3 about.fb.com about.fb.com. Этот ассистент умеет отвечать на вопросы в чате, генерировать изображения (по команде “/imagine”), а также предлагает ИИ-персонажей с образами звезд — демонстрируя возможности LLaMA в реальных продуктах.
Сильные стороны: Очевидное преимущество — открытость. Доступ к весам модели дает полную прозрачность и контроль: разработчики могут кастомизировать модель (дообучать на своих данных), анализировать её на наличие предвзятости или слабых мест и развертывать её, не передавая данные в сторонние облака. Это очень важно для приватности и чувствительных задач. Модели LLaMA также очень эффективны по соотношению производительности к количеству параметров. Младшие LLaMA (7B, 13B) “выдают результат выше ожиданий”, обеспечивая достойную производительность даже на довольно скромном железе siliconangle.com. В то время как самые большие LLaMA (70B, 405B) оказались мирового класса по своим возможностям ibm.com ibm.com. Еще одно сильное место — поддержка сообщества: благодаря тысячам энтузиастов есть множество улучшений — библиотеки для квантизации моделей, рецепты дообучения, расширения для увеличения контекста или памяти. Meta также добавила функции безопасности в LLaMA 2 и 3, выпуская карточки моделей и правила допустимого использования; открытые модели изначально не “сняты с поводка” — версии для чатов достаточно хорошо выровнены, чтобы не генерировать запрещенный контент (пусть и не так строго, как закрытые ИИ, что некоторым нравится больше). Гибкость развертывания on-premises — большой плюс для бизнеса, где важен контроль над данными. Наконец, быстрая эволюция от LLaMA 1 до 3 примерно за год говорит о приверженности Meta поддерживать открытые модели на передовой технологий.
Слабые стороны: Несмотря на все восхищение, у моделей LLaMA есть свои нюансы. “Из коробки” младшие версии (7B/13B) пока слабее гигантов вроде GPT-4 — они могут не справляться со сложными рассуждениями, давать более общие ответы или “спотыкаться” на очень детализированных вопросах. Дообучение помогает, но это труд. Самая большая LLaMA (405B) очень мощная, но использование её — нетривиальная задача: запуску такой модели требуется колоссальная память (сотни гигабайт видеопамяти) и она работает медленно; большинство пользователей будут использовать облачные сервисы или квантизированные версии с некоторой потерей качества. Кроме того, открытые модели не имеют столь развитой RLHF донастройки, как у ChatGPT — есть дообучения от сообщества, но они могут быть не так тщательно отполированы. Это значит, что открытая “база” иногда выдает более “сырые” или недостаточно отфильтрованные ответы (что для одних минус, а для других плюс). Галлюцинации и ошибки всё ещё не решены полностью: LLaMA 2 Chat была неплоха, но тоже могла “выдумывать”. Еще один момент — ответственность: когда вы сами внедряете открытую модель, у вас нет фильтров и политик безопасности OpenAI или Google — вы сами должны предотвращать злоупотребления. Это и сила, и риск (например, кто-то может дообучить открытую модель в злонамеренных целях — проблема, которую часто обсуждают). Лицензия Meta на LLaMA имеет заметное ограничение: если ваше приложение рассчитано более чем на 700 млн пользователей (то есть, если вы Google или OpenAI), нужно получить специальную лицензию у Meta huggingface.co huggingface.co — для подавляющего большинства это не играет роли, но стоит учесть. И последнее: поддержка и ответственность — если открытая модель “сломалась”, нет никакой “горячей линии”; остается только форум, что может не устроить бизнес-клиентов.
В целом, LLaMA демократизировала ИИ. Она доказала, что топовые языковые модели не обязательно должны быть закрытой собственностью нескольких компаний — вы сами можете получить модель уровня GPT, если готовы взяться за инженерные задачи. Благодаря тому, что LLaMA 3 на 405B параметров сравнялась с проприетарными ИИ по многим задачам ibm.com ibm.com, разрыв между открытыми и закрытыми решениями практически исчез. Meta делает ставку на будущее, где открытые модели станут стандартом для разработчиков (Meta AI Assistant уже демонстрирует их в потребительских продуктах). Для пользователей и компаний LLaMA — это гибкость и свобода: мощный инструмент, который можно адаптировать под себя без корпоративного “привратника”.
Mistral и Mixtral: маленький стартап — большие идеи в открытом ИИ
Обзор: Mistral AI — французский стартап, ворвавшийся на рынок в 2023 году с амбициозной миссией: создавать лучшие в мире открытые языковые модели (LLM), бросая вызов гигантам с помощью компактной команды и инновационных идей. Всего через четыре месяца после основания (и раунда инвестиций на €105 млн) Mistral выпустила Mistral 7B в сентябре 2023 — модель с 7,3 миллиардами параметров, которая тут же задала новый стандарт для своего класса siliconangle.com siliconangle.com. Хотя она и “крошка” по сравнению с GPT-4, Mistral 7B смогла обойти все открытые модели вплоть до 13B и даже не уступала некоторым 34B на стандартных бенчмарках siliconangle.com. Модель была полностью open-source (лицензия Apache 2.0) без ограничений по эксплуатации siliconangle.com siliconangle.com, отражая философию Mistral о том, что открытые модели ускоряют инновации. Компания не остановилась на плотно-связной архитектуре: в декабре 2023 они представили Mixtral 8×7B — разреженную Mixture-of-Experts модель, еще раз поднявшую планку эффективности открытого ИИ mistral.ai mistral.ai. “Mixtral” (игра слов от Mistral + Mixture) показывает готовность команды исследовать передовые архитектуры вне классического масштабирования Transformer.
Философия разработки: В основе Mistral убеждение, что открытые решения очень быстро превзойдут проприетарные, благодаря усилиям сообщества и техническому совершенству mistral.ai mistral.ai. В своих заявлениях они сравнивают ситуацию на рынке ИИ с прежними технологическими эпохами, где “open source” в итоге побеждал (например, Linux — для ОС, Kubernetes — для облаков) mistral.ai. Выпуская сильные модели открыто, команда хочет дать свободу разработчикам, не допустить концентрации технологий (“олигополии ИИ”) и позволить делать доработки, которые невозможны в закрытых API mistral.ai mistral.ai. Это также означает ставку на эффективность: вместо того чтобы просто растить “монструозные” модели с бешеными требованиями к ресурсам, Mistral старается выжать максимум из меньшего объёма. Обучение Mistral 7B включало проектирование с нуля сложного пайплайна данных всего за 3 месяца mistral.ai и максимальное использование “токенов” и техник обучения для результата выше класса. Самый яркий итог — результат около ~60% MMLU, для которого исторически требовались сотни миллиардов параметров — стал доказательством концепции mistral.ai. Основатели — бывшие исследователи Meta и Google (один из них руководил созданием LLaMA в Meta siliconangle.com), что дает команде глубокую экспертизу.
Mistral 7B: Эта модель содержит 7,3 миллиарда параметров, контекст 8 тысяч токенов и была обучена на тщательно отобранном высококачественном датасете (точные детали не полностью раскрыты, но, вероятно, похожие на источники LLaMA). После релиза Mistral 7B продемонстрировала отличные возможности в генерации прозы, создании кратких содержаний и даже дополнении кода siliconangle.com siliconangle.com. Генеральный директор Mistral заявил, что модель достигла производительности на уровне 34B LLaMA на многих задачах siliconangle.com, что поражает с учётом разницы в размерах. Модель также работала значительно быстрее и дешевле, что делало её идеальной для задач с низкой задержкой или работы на скромном железе siliconangle.com. По сути, Mistral 7B показала, что при правильном обучении маленькая модель способна выполнять задачи, которые ассоциируются с большими моделями – победа в плане эффективности. Лицензия Apache-2.0 позволяет компаниям свободно интегрировать её. На практике люди быстро дообучили Mistral 7B под задачи инструкций (компания позднее выпустила официальный вариант Mistral-7B-Instruct), и модель стала популярной основой для чат-ботов на смартфонах и в open-source чат-приложениях.
Mixtral 8×7B (Sparse MoE модель): Здесь Mistral действительно проявила себя как инноватор. Традиционные LLM плотные (“dense”) – каждый параметр используется для каждого обрабатываемого токена. Mixtral внедрила разреженность: в ней 8 экспертных подсетей (каждая примерно по 7 миллиардов параметров) и управляющая сеть, которая активирует только 2 эксперта на каждый токен mistral.ai mistral.ai. В результате общий размер модели – 46,7 миллиарда параметров, но в каждый момент для обработки входного токена используются лишь 12,9 миллиарда параметров mistral.ai. То есть это как иметь “мозг” на 46B параметров, который думает только ~13B на каждом шаге, что радикально снижает необходимое число вычислений. Это позволяет запускать намного быстрее – Mixtral работает со скоростью, сравнимой с 13B-моделью, при этом её качество приближается к более крупным моделям. В тестах Mixtral 8×7B превзошла LLaMA-2 70B от Meta и даже сравнялась или обошла GPT-3.5 от OpenAI на многих стандартных задачах mistral.ai mistral.ai. При этом она в 6 раз быстрее 70B-модели mistral.ai. Mixtral спокойно справляется с контекстом 32 000 токенов mistral.ai, поддерживает несколько языков (английский, французский, немецкий и др.) mistral.ai mistral.ai, а также отлично пишет код. Компания выпустила и базовую, и инструкт-файнтюн версию Mixtral 8×7B, которая показала очень высокий результат (8,3) на чат-бенчмарке MT-Bench – лучший среди открытых моделей на тот момент, почти на уровне GPT-3.5 по возможностям ведения интерактивного диалога mistral.ai. Важно: Mixtral 8×7B тоже выпускается под лицензией Apache 2.0, то есть полностью открыта.
Реальное влияние: Модели Mistral, хотя и появились недавно, быстро были приняты сообществом open-source AI. Mixtral в особенности вызвала энтузиазм, доказав, что MoE действительно может выполнять обещания для LLM. Разработчики используют Mistral 7B и Mixtral для чат-ботов в open-source проектах (таких как интеграции с text-generation-webui, демо на Hugging Face и др.). Благодаря своей производительности эти модели подходят для таких случаев, как боты поддержки клиентов, виртуальные ассистенты на устройствах или как более дешёвая альтернатива GPT-3.5 для задач обработки текста. Mistral AI также поддерживает собственную платформу, где можно обращать запросы к их моделям (есть чат-бот “Le Chat” и API в бете mistral.ai). Компания также улучшает open-source-инструменты, например, оптимизируя библиотеку vLLM для быстрой работы своих моделей mistral.ai.
Сильные стороны: Сочетание высокой производительности и открытости — главный козырь Mistral. Mistral 7B сделала передовой AI доступным любому владельцу ноутбука (с помощью 4-битной квантизации модель работает даже на некоторых потребительских видеокартах). Mixtral показала путь к масштабированию без типичных затрат — средняя по размеру модель, работающая как большая. Эта эффективность полезна и для развёртывания, и для экологии. Акцент Mistral на многоязычии и программировании означает, что их модели не ограничены только английским — плюс для глобальных пользователей и разработчиков mistral.ai mistral.ai. Благодаря open-source и лицензии Apache 2.0 никаких ограничений — можно использовать коммерчески, менять исходники и не бояться слежки. Это важно для компаний, которые хотят избежать API-расходов или передачи данных. Ещё одно достоинство — скорость инноваций: стартапы могут двигаться быстрее, и Mistral доказала это, создав со state-of-the-art модель за месяцы, а затем за несколько месяцев выпустив новое MoE-решение. Такая динамика сулит новые прорывы (ходят слухи, что в 2024 Mistral тренировала более крупные модели, например 8×22B экспертов). Также бренд Mistral как европейского open-AI игрока созвучен тем, кто не хочет зависимости AI от крупных американских компаний — это повышает разнообразие в экосистеме.
Слабые стороны: Пока что Mistral по-прежнему молодая компания. Её модели, несмотря на отличное соотношение размера и возможностей, пока не могут полностью соперничать с самыми крупными моделями на всех задачах. Например, Mixtral 8×7B, пусть и обгоняет многие 70B-модели, может проиграть плотной модели на 100B+ параметров там, где требуется особенно сложная логика или специфические знания — в сложных задачах по физике или тонких вопросах здравого смысла GPT-4 или Llama-405B, возможно, окажутся сильнее. MoE-подход вообще может быть сложнее дообучать (механизм гейтинга и эксперты усложняют тренировку, хоть Mistral и хорошо справляется с пре-тренингом). Важный момент — поддержка и перспективы. Планы у Mistral AI амбициозные, но это стартап, а значит нет ресурсов Google или Meta — смогут ли они постоянно конкурировать в обучении моделей следующего поколения (100B+ плотные или с ещё большим числом экспертов) — покажет время. Открытость равна меньшей централизованной защите: например, безопасность Mistral не столь широко отлажена, как у ChatGPT. Базовая Mixtral будет исполнять любые инструкции (в том числе недопустимый контент), если вы не добавите собственные фильтры или не дообучите модель mistral.ai. То есть, при реальных внедрениях важно применять свои фильтры. Из функциональных ограничений: Mistral не поддерживает мультимодальность (работает только с текстом, без изображений и пр.). И, наконец, для воспроизведения результатов Mistral потребуется дорогостоящее “железо”; обучение этих моделей для большинства недостижимо (что, впрочем, верно и для других флагманских LLM).
Вкратце: Mistral AI демонстрирует, как далеко может продвинуться гибкий, ориентированный на открытость подход в AI. Компания предложила модели, которые значительно превосходят свой размер и открыла их для свободного использования, что дало огромный импульс сообществу. Если вам нужен открытый и эффективный LLM, а зависимости от Big Tech нежелательны — решения Mistral одни из лучших на рынке. Следите за ними: есть ощущение, что следующие крупные прорывы AI могут прийти не только из корпораций, но и от молодых инициативных команд.
Cohere, Command R и другие заметные LLM: широкая панорама
Бум AI сформировал богатый ландшафт LLM, выходящий за рамки главных новостей. В этом разделе мы выделим модели Cohere (например, Command R) и ещё несколько заметных инициатив вокруг LLM, чтобы получить более полную картину того, что сейчас доступно.
Cohere и Command R
Cohere — это стартап (основанный бывшими исследователями Google Brain), который специализируется на предоставлении моделей NLP для бизнеса по API. Это одна из первых компаний, начавших коммерчески предлагать сервисы крупных языковых моделей (примерно с 2021 года), с фокусом на корпоративных клиентов, которым важны кастомные NLP-задачи. Первые модели Cohere не имели звучных названий, вроде “GPT”, а назывались просто по размеру (small, medium, xlarge). Но в 2023–2024 годах компания представила серию Command, специально адаптированную под задачи инструкций и диалогового взаимодействия (в отличие от их моделей Embed для векторных эмбеддингов).
Флагман — Command R, что (по Cohere) означает модель, оптимизированную для “Reasoning” (рассуждений) и long-Range context (длинного контекста). Это 35-миллиардная трансформер-модель, обученная на огромном многоязычном корпусе, а затем дообученная для диалогов, сложных инструкций, работы с инструментами и retrieval-augmented задач huggingface.co huggingface.co. Cohere совершила важный шаг в конце 2024 года — открыла веса Command R для сообщества на Hugging Face (для ненаучных/некоммерческих задач) huggingface.co huggingface.co. Таким образом, 35B-модель стала доступна всем (но коммерческое применение возможно только с разрешения компании). У Command R окно контекста на 128 000 токенов docs.cohere.com docs.cohere.com, сравнимое с Claude, что идеально для длинных документов. Модель мультиязычна (поддерживает 10 языков) docs.cohere.com huggingface.co, и Cohere специально оптимизирует её под задачи Retrieval-Augmented Generation (RAG) и “агентные” сценарии (когда модель сама выбирает, когда вызывать сторонние инструменты/функции) docs.cohere.com docs.cohere.com. На практике Command R умеет обрабатывать сложные запросы, пошагово рассуждать и подгружать факты при подключении к базе знаний.
Cohere также предлагает Command R+ — улучшенную версию, предположительно с большим объемом обучения или большего размера (некоторые источники указывают, что это может быть ансамбль моделей или модель на 70B параметров). На AWS Bedrock и других облачных платформах Command R и R+ представлены как высококачественные альтернативы GPT-3.5, предназначенные для предприятий, которым важно, чтобы данные хранились в определённых юрисдикциях (Cohere позволяет размещение в облаке в выбранных регионах), а также для тех, кому нужен больший контроль над поведением модели.
Сильные стороны LLM Cohere: Они готовы для использования на предприятии — что означает наличие поддержки SLA, возможность развертывания в виртуальных приватных облаках и подробная документация с рекомендациями по применению. Command-модели показывают высокие результаты в бизнес-задачах: суммаризация, написание писем, извлечение информации, а также предназначены для интеграции с системами извлечения данных (Cohere предлагает весь стек, включая эмбеддинги, переранжировщики и др.). Еще одна сильная сторона — оптимизация задержки/пропускной способности: Cohere делает упор на то, чтобы их модели были быстрыми и экономичными для продакшена docs.cohere.com docs.cohere.com. В августе 2024 обновление Command R дало на 50% большую пропускную способность и на 20% меньшую задержку, чем до этого docs.cohere.com. Также были введены “режимы безопасности”, которые позволяют разработчику гибко регулировать строгость фильтрации контента по необходимости docs.cohere.com, что обеспечивает тонкую настройку модерации.
Слабые стороны: Имя Cohere не так известно за пределами корпоративного сегмента, поэтому вокруг них меньше сообщества. Command-модели, хоть и мощные, немного отставали от абсолютного передового уровня (например, модель на 35B не сравнится с GPT-4 или LLaMA-70B+ в самых сложных задачах). Также до исследовательского релиза Command R Cohere была полностью закрытой — а значит, меньшее внешнее сообщество могло помогать устранять недостатки модели. Открытая версия весов некоммерческая, поэтому бизнес все равно должен платить за API или получать отдельную лицензию. Кроме того, ориентация Cohere на безопасность для корпораций иногда приводила к тому, что модель отвечала слишком консервативно (аналогично ранней версии Bard), и из-за этого могла быть менее креативной. Тем не менее, компания постоянно дорабатывает модель, и утверждается, что Command R+ значительно лучше (по мнению части сообщества, она в ряде задач приблизилась к качеству GPT-4).
Другие заметные LLM
Кроме “Большой пятерки”, о которой говорилось выше, множество других игроков предлагают свои значимые LLM-решения:
- PaLM 2 (Google) – До Gemini основной LLM Google был PaLM 2 (выпущен на I/O 2023). Это модель на 340 миллиардов параметров, обученная на 3,6 триллиона токенов cnbc.com research.google, с выраженными мультилингвальными, логическими и программными способностями. PaLM 2 лежал в основе Google Bard большую часть 2023 года и имел варианты (Gecko, Otter, Bison) разного размера. Он особенно хорошо справлялся с кодингом и логическими задачами, а также был дообучен для специализированных областей, например Med-PaLM (медицинские Q&A). PaLM 2 подготовил почву для Gemini и продемонстрировал возможности Google (он был уже более продвинутым, чем оригинальный PaLM на 540B параметров, но с меньшим обучением). Bard с PaLM 2 первым ввёл функцию экспорта в Gmail/Docs — интеграция LLM в офисные процессы. Хотя сейчас PaLM 2 затмевает Gemini, он по-прежнему используется во многих сервисах Google Cloud и сам по себе является достойной моделью.
- Jurassic-2 (AI21 Labs) – Израильский стартап AI21 был одним из первых конкурентов OpenAI. Их Jurassic-1 (178B параметров) в 2021-м был одной из самых больших моделей того времени. Jurassic-2, вышедшая в 2023-м, продолжила линейку с поддержкой разных языков (с фокусом, в том числе, на иврите и французском и др.). Модели AI21 славятся качеством длинного письма и фактических знаний, отчасти благодаря тому, что сооснователи — ветераны NLP (один из них стоял у истоков архитектуры Transformer). Модели предлагаются через API AI21 Studio. Также AI21 создает продукты вроде Wordtune (ассистент для письма). У Jurassic-2 есть “J2 Jumbo” (скорее всего, около 178B) и более компактные “Large” (например, 20B). Сила: очень связный текст, иногда более точные знания. Слабость: не так силен в кодинге, не является open-source.
- Claude Instant и другие (Anthropic) – Помимо основной Claude, у Anthropic есть Claude Instant — облегчённая модель (~1/5 размера основной), быстрее и дешевле. Отлично подходит для чат-ботов в реальном времени, где не требуется высочайшее качество. Аналогично, у OpenAI есть GPT-3.5 Turbo как более быстрый/дешёвый вариант GPT-4. Эти младшие “родственники” моделей важны тем, что делают массовые применения экономически возможными (например, чат-бот поддержки клиентов может использовать Claude Instant для оперативных запросов, а сложные перенаправлять на Claude 2).
- Inflection-1 / Pi (Inflection AI) – Inflection AI, основанная Мустафой Сулейманом из DeepMind, запустила Pi — персонального AI-ассистента для диалогов (часто эмоциональных или поддерживающих) вместо выполнения задач. Он работает на собственной LLM Inflection (Inflection-1, к концу 2023 была в разработке Inflection-2). Pi выделяется дружелюбным, разговорным стилем и принципиальным отказом выполнять задачи вроде программирования или поиска фактов; это эксперимент по созданию “AI-друга”. Хотя он не соревнуется по бенчмаркам с топами, он задаёт тренд специализированных пользовательских LLM. По слухам, Inflection построили суперкомпьютер на 22 000 GPU для обучения, и их Inflection-2 может быть очень крупной моделью (есть слухи о >100B параметрах). Код не открыт; взаимодействие доступно через их приложение/сайт.
- Open-source модели от сообщества – Кроме LLaMA и Mistral, есть масса коллективных проектов заметных LLM:
- BLOOM (BigScience) – Модель на 176B параметров, мультилингвальная, выпущена летом 2022 под открытой лицензией. Это был первый опыт открытой модели масштаба GPT-3. BLOOM хорошо работает, особенно в языках, кроме английского, но отстаёт от новых моделей по эффективности. Тем не менее, она стала важным примером крупных волонтёрских инициатив.
- Falcon (Институт инноваций ОАЭ) – Falcon 40B и 7B вышли в 2023 как флагманы опена, а Falcon 40B некоторое время лидировал в рейтингах. Модели полностью бесплатны для использования (40B теперь под royalty-free Apache 2.0). Falcon 40B обучена на качественных данных (RefinedWeb) и отлично себя показала, демонстрируя вклад за пределами США/ЕС.
- MosaicML MPT – До покупки Databricks MosaicML представили MPT-7B (примечателен поддержкой длинных контекстов — до 84k токенов благодаря оптимизированному вниманию) и MPT-30B. Эти open-модели используются для дообучения, показывая новые фичи — например, тюнинг системных сообщений или работу с длинным текстом.
- WizardCoder, Phi-1 и др. – Существуют специализированные модели под кодинг: например, WizardCoder (дообученная Code LLaMA), которая в своё время лидировала в открытых рейтингах по программированию. А Phi-1 (от Microsoft) показала, что обучение только на коде и математических текстах позволяет даже модели на 1,3B (!) параметров решать сложнейшие задачи Leetcode — то есть инновационное обучение может превзойти просто масштаб в отдельных нишах.
- Grok от xAI – В конце 2023 новая AI-компания Илона Маска xAI выпустила бета-версию Grok — чат-бота с “дерзким” характером, эксклюзивно для подписчиков X (Twitter). Сообщается, что Grok основан на open-source фундаменте (скорее всего, дообученная LLaMA 2, возможно, на 70B параметров). Маск обещает, что Grok будет “AI, ищущим истину”, с меньшими ограничениями на юмор и другие темы. Хотя по академическим метрикам Grok пока не удивляет, это культовое событие: Маск хочет сделать альтернативу ChatGPT/Bard без “лжи” о спорных вопросах. Это доказывает, что даже соцсети видят LLM как ключевой инструмент вовлечения аудитории.
- Модели для бизнеса от Big Tech – Компании вроде IBM и Amazon не строили GPT-4-конкурентов, а собирают и размещают модели:
- watsonx.ai от IBM даёт доступ к open-моделям, например LLaMA-2, и подобранным компактным решениям (у самой IBM есть серия Granite около 20B параметров для бизнес-задач NLP).
- Amazon AWS Bedrock размещает модели от Anthropic (Claude), AI21 (Jurassic), Cohere, Stability AI и др., а также свою линейку Titan (около 20B параметров, для классических чат-ботов и суммаризации текста).
- Microsoft фактически поддерживает модели OpenAI (они интегрированы в Azure как Azure OpenAI Service), но у MS также есть исследовательские модели (например, уже упомянутый Phi-1 и другие), и возможно в будущем самостоятельные LLM для нишевых задач.
В итоге, пространство LLM очень разнообразно, и конкуренты занимают свои ниши — будь то корпоративные сервисы (Cohere, AI21), специализированные AI-компаньоны (Inflection Pi) или open-source конкуренты (Meta, Mistral, Falcon). Это отлично для пользователя: можно выбрать модель по своим критериям — максимальная точность, минимальная цена, наибольший контроль и приватность или самая строгая модерация и выравненность.
Теперь, когда мы рассмотрели основных игроков на рынке LLM, в следующей таблице приведено сравнение их ключевых характеристик:
Таблица сравнения: ведущие LLM (ChatGPT, Claude, Gemini, LLaMA, Mistral и др.)
Модель (разработчик) | Год выпуска | Архитектура | Количество параметров | Масштаб обучающих данных | Мультимодальность? | Доступ (открытая vs закрытая) | Ключевые сильные стороны | Ключевые слабые стороны | Лицензия/Использование |
---|---|---|---|---|---|---|---|---|---|
ChatGPT (OpenAI) (GPT-4 через API или UI) | 2022 (GPT-3.5), 2023 (GPT-4) | Трансформер (плотный); RLHF-адаптация; предполагается MoE в GPT-4 | GPT-3.5: 175B; GPT-4: Не раскрыто (≈1,8 трлн параметров по слухам) explodingtopics.com | Обучен на сотнях миллиардов токенов (веб-тексты, книги, код); вычисления ~$100 млн+ explodingtopics.com | Текст и изображения (GPT-4 Vision) | Закрытая (API OpenAI или приложение ChatGPT; веса недоступны) | — Лучшее в классе широкое знание и беглость речи; — Отличные рассуждения, программирование, креативность; — Огромная экосистема и интеграция (плагины, инструменты) | — Уверенно выдаёт вымышленные факты; — Непрозрачная модель, нет настройки за пределами условий OpenAI; — Лимиты использования и стоимость полного доступа к GPT-4 | Закрытая ИС; пользователь обязан соблюдать требования API OpenAI (нет самостоятельного хостинга). |
Claude 2 (Anthropic) | 2023 | Трансформер (плотный); выверенное соответствие принципам “конституционного ИИ” | ~137B (оценка) datasciencedojo.com | Обучен на ~1+ трлн токенов (текст + код) с тщательно подобранными данными | Только текст (мультимодальность планируется в будущем) | Закрытая (API Anthropic и ограниченный веб-клиент; веса недоступны) | — Экстремально длинный контекст (100k токенов) en.wikipedia.org; — Сильные этические барьеры (меньше токсичности/оскорблений); — Очень последовательные диалоги на длинных отрезках | — Иногда слишком осторожен или многословен; — Немного уступает GPT-4 в самых сложных задачах; — Ограниченная публичная доступность (инвайт/ожидание для ряда функций) | Закрытый API; политику использования определяет Anthropic (принципы “конституционного ИИ”). |
Gemini Ultra (Google DeepMind) | 2023 (1.0 Ultra); обновления в 2024 (1.5) | Трансформер + смешение экспертов (MoE с v1.5) en.wikipedia.org; мультимодальная архитектура | Не раскрыто; вероятно, >500B плотных, MoE – триллионы эффективных параметров | Обучен на огромном корпусе Google (тексты, код, изображения, транскрипции YouTube en.wikipedia.org); работал на кластерах TPU v5 | Да – мультимодальный (текст, изображения; аудио/видео в будущем) en.wikipedia.org | Закрытая (Используется в Google Bard, Cloud Vertex AI; веса не публикуются) | — Мультимодальность с нуля (текст+изображения); — Современная производительность (обходит GPT-4 по многим тестам) en.wikipedia.org; — Интеграция в продукты Google (поиск, Android и др.) | — Недоступен для широкой публики на старте (Ultra ограничен ради безопасности) en.wikipedia.org; — Закрытый исходный код (зависимость от платформы Google); — Безопасность пока дорабатывается для полного открытия | Проприетарный; доступен по условиям Google AI через Bard/Cloud (Google придерживается своих обязательств по AI-безопасности en.wikipedia.org). |
LLaMA 3.1 (Meta) и LLaMA 2 | 2023 (LLaMA 1 и 2); 2024 (LLaMA 3) | Трансформер (плотный); открытые модели; LLaMA 3 ввёл поддержку vision и 405B-модель | LLaMA 2: 7B, 13B, 70B; LLaMA 3.1: 8B, 70B, 405B параметров ibm.com | LLaMA 2 обучен на 2 трлн токенов originality.ai; LLaMA 3 обучен на ещё большем количестве + мультимодальные данные | Да (LLaMA 3 поддерживает vision; LLaMA 2 только текст) | Открытая (условно) – Модели и код доступны (бесплатно для исследований/бизнеса с некоторыми условиями) huggingface.co | — Открытый исходный код: можно дообучать, проверять, развёртывать свободно; — Сильная производительность (405B догоняет GPT-4 по многим задачам) ibm.com; — Широкий спектр размеров моделей для разных нужд | — Маленькие LLaMA требуют дообучения для конкуренции; — Крупнейшая 405B очень требовательна к ресурсам; — Лицензия запрещает использование очень крупными компаниями (>700 млн пользователей) без разрешения huggingface.co | Специальная лицензия Meta (LLaMA 2 – “Meta license”, LLaMA 3 – аналогично). Практически свободное использование; требование атрибуции; ограничения для крупных IT-компаний. |
Mistral 7B и Mixtral 8×7B (Mistral AI) | 2023 | Трансформер (Mistral 7B – плотный); Mixtral: Трансформер-MoE (8 экспертов) mistral.ai | Mistral 7B: 7,3B; Mixtral 8×7B: 46,7B всего (задействует 12,9B на токен за счёт MoE) mistral.ai | Обучена на фильтрованных веб-данных, коде и прочем в 2023; Mistral 7B создана за 3 месяца siliconangle.com. Mixtral обучена с нуля с MoE-маршрутизацией. | Только текст (поддержка многих языков, кода) | Открытая (лицензия Apache 2.0 – для любых целей) | — Маленькая модель с большой производительностью (7B ≈ 13B+ среди конкурентов-открытых) siliconangle.com; — Mixtral MoE превосходит 70B-модели за малую стоимость mistral.ai; — Совершенно открытая лицензия, простая интеграция | — Абсолютная производительность немного уступает крупнейшим закрытым моделям на сложных задачах; — Очень новая – малоэкосистемы/поддержки; — Базовые модели требуют настройки по безопасности (могут выдавать что угодно без инструкций) | Apache 2.0 (максимально свободная; практически без ограничений). |
Cohere Command R (Cohere) | 2024 (последняя версия) | Трансформер (плотный), заточен под чат; поддержка длинного контекста | 35B (Command R) huggingface.co; (Также есть “Command R+” – больше) | Обучен на большом многоязычном корпусе (10+ языков) huggingface.co; дообучен на обратной связи от людей и “агентных” задачах | Только текст | Гибрид — API-сервис; веса доступны для исследований (лицензия CC BY-NC) huggingface.co | — Длинный контекст в 128k токенов docs.cohere.com; — Отлично подходит для структурированных задач, работы с инструментами, интеграции поиска docs.cohere.com; — Ориентирован на бизнес (надёжный API, безопасность, развёртывание по регионам) | — Не SOTA в “IQ” (35B ограничивает пик производительности); — Стоимость API (нет бесплатного публичного чат-бота); — Не для коммерческого использования – лицензия для исследовательских задач | API по условиям Cohere; открытые веса только для исследований (CC BY-NC 4.0). |
(Примечания к таблице: “Параметры” для GPT-4 и Gemini приблизительны, т.к. официально не опубликованы. “Мультимодальность” — есть ли поддержка не только текста. Открытая/закрытая — есть ли доступ к весам модели. В колонке “Лицензия” — как можно использовать модель.)
Тренды, перспективы и выбор подходящей большой языковой модели (LLM)
Стремительное развитие ChatGPT и его альтернатив показало главное: возможности ИИ развиваются с головокружительной скоростью. Вот ключевые тенденции и их значение для будущего, а также рекомендации, как пользователям и бизнесу ориентироваться на рынке LLM:
Основные тенденции отрасли
- Мультимодальность — будущее: Модели, способные обрабатывать текст, изображения, аудио и другие типы данных, станут стандартом. Мы уже видим это в GPT-4 с возможностью восприятия изображений, в том, что Gemini от Google с самого начала мультимодальна, а Meta развивает LLaMA с поддержкой обработки визуальной информации. В ближайшем будущем LLM смогут без труда анализировать скриншоты веб-страниц, таблицы или расшифровки видео и отвечать на вопросы, комбинируя все эти источники. Бизнесам стоит ожидать ИИ, понимающего все форматы данных, что позволит создавать более сложные приложения (например, ИИ, который может читать макеты дизайна, код и технические задания вместе и давать обратную связь).
- Более длинный контекст и память: Увеличение окна контекста до 100 тыс. токенов и больше en.wikipedia.org говорит о том, что вскоре проблема «забывчивости» станет менее актуальной. Возможно, появятся модели, которые смогут сразу «съедать» целые базы данных или книги. В сочетании с лучшей генерацией с извлечением информации (когда модель активно ищет нужные данные), LLM фактически получат внешнюю память — всегда имея под рукой самые актуальные знания. Это снизит количество «галлюцинаций» и повысит точность, так как модели смогут обращаться к исходникам.
- Рост open-source-движения: Эпоха монополии нескольких компаний на лучшие модели уходит. Модель LLaMA 3 405B от Meta, сравнявшаяся по качеству с закрытыми решениями ibm.com — переломный момент. Стартапы вроде Mistral доказывают, что инновации возможны даже малыми командами. Мы увидим расцвет открытых специализированных моделей (для медицины, права, финансов и др.) и развитие инструментов для их дообучения и внедрения. Для организаций, заботящихся о приватности, это отличная новость — можно запускать мощный ИИ на своей инфраструктуре. Крупные IT-компании также поддерживают этот тренд: Google выпустила Gemma, а Meta открывает исходные модели. В будущем гармонично уживутся как закрытые, так и открытые модели.
- Эффективность и новые архитектуры: Не все могут позволить себе модели с триллионами параметров, поэтому акцент смещается в сторону умных, а не просто больших моделей. Приёмы, такие как Mixture-of-Experts (MoE) (реализованы в Gemini 1.5 en.wikipedia.org и Mixtral mistral.ai), Low-Rank Adaptation (LoRA) для быстрого дообучения и дистиллированные модели дают возможность получать мощные результаты при меньших ресурсах. Интенсивно развивается идея модульного или композитного ИИ — когда несколько небольших специализированных моделей (одна для рассуждений, другая для математики, третья для кода и т.д.) работают в связке. Возможно, LLM будущего будет на деле командой моделей «под капотом».
- Регулирование и безопасность: По мере массового использования LLM к ним привлекается все больше внимания регуляторов. На уровне государств обсуждаются прозрачность обучающих данных, поведение моделей и меры против злоупотреблений (спам, дипфейки и др.). Компании уже сейчас внедряют решения по безопасности — у Anthropic в Claude реализован Конституционный ИИ, OpenAI регулярно совершенствует фильтры, а Meta добавляет оценки токсичности и предвзятости в релизах. Ожидайте больше пользовательских настроек — например, «регулятор токсичности» для выбора степени безопасности или специальные панели для мониторинга выводов ИИ. Также активно развиваются методы водяных знаков для ИИ-текста (OpenAI работает над этим), что может стать стандартом для обнаружения искусственно сгенерированного контента.
- Интеграция и агентные ИИ: LLM становятся частью агентных систем — например, autoGPT или агенты LangChain, которые не только выдают результат, но и способны выполнять действия (искать в интернете, запускать код и др.). В GPT-4 от OpenAI есть плагины для вызова API (например, чтобы забронировать билет или провести вычисления). Тренд таков: ИИ теперь не только «разговаривает», но и действует — использует инструменты, сам обновляется по новым данным и может выполнять цепочки действий автономно. Бизнес сможет внедрять ИИ-агентов для многокроковых бизнес-процессов (под человеческим контролем). Это расширяет возможности LLM, но также требует хороших механизмов защиты (чтобы ошибки не приводили к цепным сбоям).
- Кастомизация и дообучение: Растёт спрос на дообучение LLM под собственные данные и фирменный стиль. Открытые модели позволяют это проще реализовать (можно обновить веса), а закрытые все чаще открывают функции для настройки — например, OpenAI запустила function calling и system messages для кастомизации ChatGPT, а функция Azure “On Your Data” позволяет привязать ChatGPT к корпоративным данным. В будущем, вероятно, появятся персонализированные LLM — например, ИИ-ассистент, знающий вашу почту, предпочтения, рабочие документы (все локально, безопасно) и поэтому выдающий максимально релевантные ответы. Также активно развиваются дешёвые методы дообучения (например, LoRA), так что даже средний бизнес сможет иметь ИИ, «заточенный» под себя.
Как выбрать подходящую LLM под задачи
При таком изобилии вариантов — как выбрать нужную модель? Вот основные критерии:
- Возможности vs. цена: Если вам нужно абсолютно лучшее качество (например, для сложных юридических задач или поиска самых свежих знаний), GPT-4, Gemini Ultra или LLaMA 3 405B — лидеры, но стоят дорого (цены на API или высокий барьер по инфраструктуре). Во многих случаях модели среднего класса (Claude 2, Cohere Command, открытые модели 13B-70B) дадут почти топ-результат за небольшие деньги. Оцените свою задачу: например, генерация кода отлично решается на 34B модели, дообученной на коде (CodeLlama, WizardCoder), и не всегда нужен GPT-4. Пользуйтесь бенчмарками как ориентиром, но обязательно тестируйте на своих примерах.
- Открытость и контроль: Если критична приватность (медицина, финансы, госструктуры), выбирайте open-source-модели. LLaMA 2, LLaMA 3, Mistral/Mixtral, Falcon и др. можно развернуть у себя, не передавая данные третьим лицам. Также можно провести аудит модели (на проверку предвзятости). Минус — нужны ML-специалисты для поддержки. Закрытые API (OpenAI, Anthropic и др.) избавляют от этих хлопот — они обеспечивают масштабирование, и обновление, и безопасность данных, что удобно, если можно использовать облако. Разумный компромисс — комбинировать: для общих задач — облако, для чувствительных — open-source в своей инфраструктуре.
- Потребность в длине контекста: Нужно ли вам загружать большие документы или многочасовые диалоги? Если да, то 100k контекст у Claude или 128k у Cohere решают задачу. Если ваша задача — суммирование книг или анализ длинных договоров, ориентируйтесь на модели с поддержкой большого контекста. Открытые модели здесь тоже догоняют (например, некоторые варианты LLaMA можно «растянуть» до 32k токенов), но из коробки рекордсмены по длине — это Claude и Command R.
- Мультимодальность: Если нужно, чтобы ИИ анализировал изображения/диаграммы вместе с текстом — сейчас основные варианты это GPT-4 с поддержкой vision (через ChatGPT Plus) или Gemini. Другие обязательно появятся, но по состоянию на 2025 OpenAI и Google — лидеры в «видении». Если критично (например, для анализа скриншотов интерфейса или диаграмм), ориентируйтесь на эти платформы.
- Профильные области: Некоторые модели изначально заточены под конкретные задачи. Например, для медицины — Med-PaLM от Google или открытая модель, дообученная на медицинских данных, дадут лучший результат, чем базовый ChatGPT. Для кода — code-davinci от OpenAI или Code Llama от Meta оптимизированы именно для этого. Модели от Cohere хорошо подходят для бизнес-документов. Изучайте профильные решения — они зачастую превосходят универсальные модели в своей области. А если подходящей нет — можно дообучить универсальную на своих данных.
- Безопасность и модерация: У разных провайдеров — разная политика. OpenAI довольно строг (ChatGPT часто отказывает в выполнении «рискованных» задач). Claude от Anthropic тоже строг, но старается переформулировать запрос корректнее. Открытые модели в целом исполняют всё (если их явно не дообучали на отказ). Для публичного приложения стоит выбрать модель с модерацией по умолчанию или дополнительно внедрить внешний фильтр. Если бренд критичен, рискован «острый» ИИ, склонный к провокационным ответам. Enterprise-решения (Cohere, Azure OpenAI) часто позволяют включить дополнительные фильтры или аудит. Оцените, важно ли вам «правильное» поведение модели по умолчанию — или вы готовы сами строить защиту.
- Лицензии и условия: Убедитесь, что лицензия модели позволяет то, что вы задумали. У OpenAI и прочих есть ограничения (например, запрет на генерацию фейков или обработку персональных данных особых типов). Лицензия Meta LLaMA запрещает использовать модель для улучшения других моделей (чтобы защитить от конкурентов). Если встраиваете модель в продукт — читайте условия внимательно. Открытые лицензии Apache/MIT — самые простые (почти без ограничений). Некоторые открытые модели (например, LLaMA 2) требуют указания авторства или рекомендации делиться улучшениями. И для «крупных игроков» учтите пункт про 700 млн. пользователей в лицензии на модели Meta.
Что дальше?
Конкуренция между ChatGPT, Claude, Gemini, LLaMA и другими принесла огромную пользу пользователям и бизнесу — качество ИИ выросло, возможностей стало больше. Ожидайте ещё большую конвергенцию: закрытые модели перенимают открытые практики (OpenAI собирается выпустить инструмент для безопасного локального хостинга моделей, Google открывает исходный код небольших моделей), а open-source быстро подхватывает лучшие идеи из закрытых исследований.
Для пользователей это означает больше выбора и, скорее всего, снижение стоимости. Запуск мощного ИИ вскоре может стать таким же дешёвым, как и хостинг веб-сервера, благодаря оптимизациям. Бизнес, вероятно, будет использовать портфель LLM: возможно, закрытую модель высокого класса для критически важных этапов рассуждения, открытую модель для чувствительных к данным задач суммаризации и несколько специализированных моделей для таких задач, как OCR или программный код.
Выбирая “подходящую” LLM, помните: не существует универсального решения. Сначала определите, что для вас важно — быстрота? цена? точность? приватность? — и используйте сравнения выше в качестве ориентира. Прекрасно то, что вы можете экспериментировать со многими из этих моделей бесплатно или почти бесплатно (например, через пробные периоды или открытые загрузки). Хорошей практикой будет сделать прототип вашей задачи на 2–3 разных моделях, посмотреть качество результатов и затем принять решение.
Одно можно сказать наверняка: LLM здесь надолго, и они будут становиться лучше. Следить за этой стремительно развивающейся областью — мудрое решение. Подписывайтесь на AI-новости, пробуйте новые релизы моделей (кажется, новый “убийца GPT” выходит каждые несколько месяцев!), а возможно, и выстраивайте отношения с несколькими AI-провайдерами — так вы всегда будете иметь лучший инструмент под рукой. Будь вы конечным пользователем, которому нужен умный помощник, или компанией, желающей встроить ИИ в свои продукты, выбор никогда ещё не был настолько интересным.
В эту новую эпоху ИИ знание – сила: как знание, которое содержится в LLM, так и знание о том, чем они различаются. Надеюсь, этот отчёт дал вам второе, чтобы вы могли максимально использовать первое.