LIM Center, Aleje Jerozolimskie 65/79, 00-697 Warsaw, Poland
+48 (22) 364 58 00

ЧатGPT проти світу: огляд найкращих сучасних мовних моделей ШІ

ЧатGPT проти світу: огляд найкращих сучасних мовних моделей ШІ

ChatGPT vs the World: Inside Today’s Top AI Language Models

Вступ: Чи може ШІ написати ваш курсовий, виправити код і спланувати вечерю краще за вас? Великі мовні моделі (LLM), такі як ChatGPT, стрімко увірвалися в масову свідомість, вражаючи світ розмовами, схожими на людські, та надпотужними знаннями. Лише за два місяці після запуску ChatGPT досяг позначки у 100 мільйонів користувачів – це найшвидше зростання додатку в історії reuters.com. Ці чарівники зі світу штучного інтелекту працюють на нейронних мережах з мільярдами – а то й трильйонами параметрів, натренованих на океанах тексту. Найновіша модель ChatGPT від OpenAI (GPT-4) оцінюється в дивовижні 1,8 трильйона параметрів explodingtopics.com, використовуючи просунутий дизайн “суміш експертів” (mixture-of-experts), щоб вмістити більше інтелекту. Але OpenAI не самотня – конкуренти, такі як Claude від Anthropic, Gemini від Google DeepMind, LLaMA від Meta, Mixtral від Mistral AI та інші борються за корону LLM. Кожна має власну архітектуру, сильні сторони і особливості.

У цьому докладному огляді ми розвіємо міфи про LLM – як вони працюють і чому це так важливо – а потім детально розглянемо ChatGPT та його основних конкурентів. Ми порівняємо їхні технічні характеристики, можливості (навіть мультимодальні фішки, як робота з зображеннями!), відкритість і плюси/мінуси, що можуть визначити ваш досвід роботи з ШІ. Нарешті, підсумуємо тенденції та дамо поради щодо вибору моделі ШІ саме для ваших потреб. Пристебніть паски – вас чекає захоплюючий тур сучасним ландшафтом штучного інтелекту!

Вступ до LLM: Як вони працюють і чому це революція

Що таке LLM? Великі мовні моделі — це системи ШІ, які навчаються розуміти та генерувати текст. Вони побудовані на архітектурі Transformer, яка використовує механізми самоуваги для вивчення мовних патернів. Фактично, LLM читає величезну кількість тексту й навчається передбачати наступне слово в реченні. Шляхом тренування на мільярдах і трильйонах слів (книги, вебсайти, код — на будь-чому), ці моделі досягають майже надприродного розуміння мови, фактів і навіть деяких аспектів міркувань. Сучасні LLM спершу проходять попереднє навчання на загальному корпусі (вчаться продовжувати чи вставляти текст), а потім часто дофінетюються під конкретні завдання або інструкції en.wikipedia.org en.wikipedia.org. Такі техніки, як навчання з підкріпленням на основі людського зворотного зв’язку (RLHF), використовуються для узгодження моделей з людськими вподобаннями, щоб вони краще виконували інструкції й залишалися корисними anthropic.com anthropic.com.

Масштаби: “Великі” в LLM – не перебільшення: перші трансформери (наприклад, GPT-2) мали 1,5 мільярда параметрів, але зараз вже понад 100 мільярдів стало нормою, а найсучасніші моделі наближаються до трильйона. Наприклад, GPT-3 мала 175 мільярдів параметрів, а архітектура GPT-4 (хоча офіційно не розкривається) чутками включає близько 8 моделей × 220B параметрів кожна (≈1,76 трильйона) explodingtopics.com explodingtopics.com. Такий масштаб надає LLM надзвичайну “пам’ять” про навчальні дані та здатність генерувати дуже плавний і доречний текст. Проте це робить їх і ресурсоємними – на тренування GPT-4, за повідомленнями, було витрачено понад 100 мільйонів доларів на обчислення explodingtopics.com, а дослідники попереджають, що наступні моделі можуть коштувати 10 мільярдів доларів на тренування до 2025 року explodingtopics.com. Для запуску таких моделей потрібні потужні GPU чи спеціалізоване обладнання.

Контекст і “пам’ять”: LLM не зовсім розуміють, як люди, проте використовують вікно контексту для відстеження історії розмови чи документа. Ранні моделі працювали з близько 2 тисячами токенів (~1500 слів), але сучасні мають величезні довжини контексту — Claude 2 від Anthropic приймає до 100 тисяч токенів (приблизно 75 тисяч слів), а Gemini 1.5 від Google експериментувала з надзвичайним вікном контексту у 1 мільйон токенів en.wikipedia.org. Це означає, що LLM може аналізувати цілу книгу або години діалогу як вхідні дані, дозволяючи вести довгі розмови й робити глибокий аналіз. Проте це також вимагає більше обчислювальних ресурсів та може розфокусувати увагу моделі від справді важливих моментів en.wikipedia.org.

Мультимодальність: Якщо перші LLM працювали тільки з текстом, то зараз на передньому краї розвитку — мультимодальні моделі, здатні обробляти зображення, аудіо чи відео разом із текстом. “Мультимодальні LLM” можуть описувати картинки, створювати графіку з опису чи сприймати голосовий ввід. Наприклад, GPT-4 від OpenAI може розпізнавати зображення (у ChatGPT Vision), а Google Gemini розроблялася з нуля як мультимодальна — обробляє текст, зображення й інше en.wikipedia.org en.wikipedia.org. Такий підхід відкриває шлях до ШІ, який здатен бачити й розмовляти, а не лише читати й писати.

Виникаючі можливості і обмеження: Зі зростанням LLM проявилися нові здібності — вирішення текстових математичних задач, написання коду, проходження тестів знань — усе це моделі роблять без прямого програмування на такі завдання. Наприклад, GPT-4 майже набрала 90-й перцентиль на іспиті з права (де GPT-3.5 лише ~10-й) law.stanford.edu, а також здатна отримувати найвищі оцінки на численних академічних і професійних тестах. Такі моделі генерують логічний, контекстно доречний і креативний текст. Проте вони мають і добре відомі слабкі сторони. Вони галюцинують – тобто можуть впевнено вигадувати або помилятись en.wikipedia.org. Їм бракує справжнього розуміння чи міркування і вони можуть помилятися з логікою або подіями, що стались після їхнього навчання. Більше того, закриті моделі — це “чорна скринька”: ми не завжди знаємо, чому вони так відповідають, а їхні знання обмежуються датою завершення тренування (наприклад, база знань ChatGPT довго була зафіксована на кінець 2021 року).

Відкриті проти закритих моделей: Деякі LLM відкриті (open-source або open-weight), тобто їхні моделі доступні для будь-кого у використанні чи донавчанні. Це дає розквіт спільноти розробників та підвищує прозорість. Meta започаткувала цей тренд із LLaMA у 2023 році, а інші гравці, як Mistral AI та Cohere, з того часу також відкрили свої потужні моделі. Відкриті моделі дозволяють створювати власні застосунки, запускати моделі на своїх серверах і проводити аудит їхньої поведінки mistral.ai ibm.com. Водночас більшість топових моделей (від OpenAI та Google) — закриті: доступ до них тільки через API або із суттєвими обмеженнями. Закриті моделі часто лідирують за якістю, але вимагають довіри до власника і мають обмеження у використанні.

Після цього вступу познайомимося з основними LLM, які формують сучасний ІІ-ландшафт — їхньою архітектурою, сильними і слабкими сторонами та можливостями для порівняння.

ChatGPT (OpenAI): Першопроходець розмовного ШІ

Огляд: ChatGPT від OpenAI — це ШІ, який розпалив уяву громадськості. Запущений як безкоштовний чат-бот у листопаді 2022 року, він миттєво набув популярності завдяки вмінню вести природні діалоги, вирішувати задачі та генерувати будь-який текст на вимогу. До січня 2023-го він уже налічував 100 мільйонів користувачів, ставши найшвидше зростаючим споживчим застосунком в історії reuters.com. ChatGPT працює на моделях серії GPT від OpenAI — спочатку GPT-3.5 (дофайн-тюнена 175-мільярдна модель на основі GPT-3 зразка 2020-го), нині ж для платних користувачів здебільшого GPT-4. GPT-4 — це масивна нейромережа на основі Transformer, про яку ходять чутки, що вона використовує архітектуру Mixture-of-Experts із близько 1,7–1,8 трильйона параметрів, розподілених між 8 експертними моделями explodingtopics.com explodingtopics.com. OpenAI не підтверджує подробиць, але зрозуміло, що GPT-4 значно більша й просунутіша за своїх попередників.

Тренування і технології: Моделі GPT — це трансформери лише-декодери, які навчаються на гігантських текстових наборах даних (GPT-4 тренували на текстах і коді з інтернету, книг, Вікіпедії тощо, ймовірно, загальний обсяг досягав трильйонів токенів). Модель навчається передбачати наступний токен у послідовності, що під час тренування вчить її граматиці, фактам і певним навичкам міркування. Після попереднього навчання ChatGPT пройшов налаштування відповідно до інструкцій і RLHF — в OpenAI люди надавали відгуки щодо відповідей моделі, а потім використовували навчання з підкріпленням, щоб модель краще виконувала інструкції і була зручною для користувача anthropic.com anthropic.com. Тому ChatGPT пояснює відповіді крок за кроком або відмовляє у виконанні небажаних запитів відповідно до встановлених обмежень. GPT-4 додав мультимодальні можливості: він може приймати зображення як вхідні дані, описувати або аналізувати їх (ChatGPT Vision). Також розширено контекст до 32 000 токенів (близько 24 тис. слів) для релізу 2023 року, що дає змогу опрацьовувати довгі документи чи вести тривалі діалоги explodingtopics.com.

Використання та інтеграція: ChatGPT доступний через веб-інтерфейс в режимі чату та API OpenAI, що робить використання простим для будь-кого. Зараз його інтегровано в безліч продуктів — наприклад, функції Bing Chat і Copilot від Microsoft працюють на основі GPT-4, багато додатків пропонують плагіни ChatGPT. Ця широка доступність та перевага першого запуску дали ChatGPT конкурентну перевагу першопрохідця у залученні користувачів і розробників reuters.com reuters.com. Його використовують для допомоги у написанні текстів, програмуванні, дослідженнях, навчанні, творчих брейнштормінгах, чат-ботів для клієнтської підтримки — застосування майже безмежне. OpenAI також пропонує тонке налаштування для моделей GPT-3.5, тож компанії можуть адаптувати ChatGPT під спеціалізовані завдання (тонке налаштування під GPT-4 — у планах).

Переваги: ChatGPT (особливо з GPT-4) досі вважається золотим стандартом у багатьох сферах. Він має надзвичайно широкі знання (завдяки тренуванню на майже усьому інтернеті). Дає зв’язні, грамотні, доречні за контекстом відповіді різними мовами. Помітно краще від попередників виконує складні логічні й програмні завдання — наприклад, GPT-4 розв’язує складні задачі з математики та пише довгі кодові блоки, а також здобув високі бали на багатьох професійних іспитах (BAR, LSAT тощо), входячи до топ-відсотків law.stanford.edu. ChatGPT дуже зручний для користувача: він спроєктований для чіткого виконання інструкцій і надання докладних відповідей, за допомогою RLHF зазвичай реагує безпечно та корисно. Тому чудово підходить для творчих завдань — написання історій, брейнштормінгу, а також може чітко пояснити концепції чи навчати. Значний контекст дозволяє опрацьовувати великі обсяги інформації (наприклад, цілі статті) й підтримувати довгі діалоги. Нарешті, ефект мережі — безліч плагінів, інтеграцій і форумів створили навколо ChatGPT потужну екосистему.

Слабкі сторони: Попри потужність, ChatGPT має суттєві обмеження. Найбільший мінус — схильність галюцинувати інформацію: може вигадувати факти чи давати неправдивий зміст з повною впевненістю en.wikipedia.org. Наприклад, може назвати дослідження або закони, яких не існує, бо модель підбирає правдоподібну відповідь навіть при відсутності впевненості. Інша проблема — труднощі з дуже актуальними подіями (залежить від зрізу даних; GPT-4 навчали на даних до середини 2021 року, додано часткове оновлення через Bing). Ще одна слабкість — відсутність прозорості: як закрита модель, ми не знаємо точних джерел даних або деталей роботи, що може бути критично при генерації упередженого або помилкового контенту. Обмеження для безпеки від OpenAI означають, що ChatGPT може відмовитися відповідати на певні запити або дати стандартне “Як ШІ, я не можу це зробити”, що дратує деяких користувачів. За продуктивністю GPT-4 потужний, але повільний та дорогий у використанні; безкоштовна версія (GPT-3.5) іноді помітно поступається у логіці чи точності. Нарешті, для використання ChatGPT потрібно довіряти OpenAI — оскільки модель не є відкритою, а її використання можливе тільки через їхню платформу, слід враховувати питання приватності та залежності від сервісу OpenAI (особливо це важливо для бізнесу).

Підсумовуючи: ChatGPT лишається проривним універсальним ШІ-асистентом із найвищими можливостями, але його закритість та часом дезінформація залишають простір для конкурентів — і такі конкуренти вже з’явилися.

Claude (Anthropic): Етичний співрозмовник із гігантською пам’яттю

Огляд: Claude — це LLM, розроблена Anthropic, стартапом із фокусом на безпеці ШІ, заснованим колишніми дослідниками OpenAI. Якщо ChatGPT — масовий улюбленець, то Claude — альтернатива з орієнтацією на безпеку, створена бути корисною, чесною й нешкідливою. Anthropic запустила Claude на початку 2023 року, а оновлену модель Claude 2 — у липні 2023. Claude працює аналогічно до ChatGPT (теж доступний у чаті чи через API), але Anthropic зробили ставку на етичне навчання й надзвичайно великий контекст. Claude 2 анонсовано з контекстом до 100 000 токенів (приблизно 75 тис. слів), тобто може обробляти цілі документи чи навіть книги за раз en.wikipedia.org. Це був порядок більший за контекст GPT-4 на той час, що зробило Claude привабливим для задач масштабного аналізу текстів чи довгих діалогів, де ШІ “не забуває” деталі попередньої розмови.

Архітектура та навчання: Claude працює на базі трансформерної архітектури, схожої на GPT, і хоча Anthropic не повідомляє точні розміри, Claude 2 оцінюють у ~137 мільярдів параметрів (проти ~93 млрд у Claude 1) datasciencedojo.com. Це трохи менше за розміром, ніж GPT-4, але у тому ж діапазоні, що й PaLM 2. Ключова інновація Anthropic — «Конституційний ШІ» — техніка тренування, де модель орієнтують на набір письмових принципів (“конституцію”) для регулювання поведінки anthropic.com anthropic.com. Замість повної залежності від людського фідбеку Anthropic дозволяють Claude оцінювати і покращувати власні відповіді за списком правил щодо нешкідливого й корисного поведінки. Наприклад, у конституції Claude є норми з Загальної декларації прав людини та інших етичних кодексів anthropic.com anthropic.com. Мета — щоб модель самостійно відмовлялася від небажаних запитів і уникала токсичних чи упереджених відповідей. На практиці Claude дуже не схильний давати небажаний контент — ввічливо відхиляє запити на насильство, ненависть, нелегальну поведінку тощо, посилаючись на свої принципи. Anthropic відзначає, що фідбек від ШІ (коли модель сама себе оцінює по конституції) краще масштабується й захищає людей-модераторів від небажаного контенту anthropic.com anthropic.com.

Можливості: За якістю Claude приблизно дорівнює GPT-3.5 / GPT-4, залежно від задачі. Чудово справляється з довготривалими діалогами й збереженням контексту, завдяки гігантській пам’яті: йому можна подати цілий роман й отримати глибокий аналіз чи правки сюжету. Класно працює з розгорнутими задачами — підсумовує стенограми, пише код, відповідає на питання, часто на рівні ChatGPT. У деяких тестах Claude 2 дуже наблизився до GPT-4 (в кінці 2023 вже тестували Claude 2.1, а Claude 3 мав ще більше можливостей). Claude також багатомовний: підтримує англійську, французьку тощо, хоча головна сила — англійська. Anthropic стверджує, що Claude менш схильний до галюцинацій і генерує менше токсичного контенту — завдяки тренуванню він обережніший, охоче і докладно пояснює свої відмови чи сумніви. Одна із “фішок” — Claude дозволяє створювати видатно довгі тексти (наприклад, розділ книги), максимально використовуючи розмір контексту.

Доступ і використання: Спочатку Claude пропонували через API (наприклад, як асистент для Slack у бета-версії). Далі Anthropic відкрили веб-інтерфейс (claude.ai) для прямого використання. Зараз він безкоштовний із певними обмеженнями, а також Anthropic співпрацює з бізнесом (Claude доступний на платформах типу AWS Bedrock). Claude ще не має стільки інтеграцій, як ChatGPT, але у деяких сервісах (наприклад, Poe від Quora) Claude можна обрати як варіант. Через пріоритет безпеки Claude може стати вибором для корпоративних чи навчальних середовищ, де важливо контролювати поведінку ШІ.

Сильні сторони: Найбільшими сильними сторонами Claude є його гігантське вікно контексту – він може приймати та аналізувати набагато більше інформації за раз, ніж більшість конкурентів, що є безцінним для обробки довгих PDF або багатогодинних транскриптів зустрічей. Він також налаштований на високі етичні стандарти; дуже рідко генерує образливий чи ризикований контент і часто пояснює свою логіку, що підвищує довіру користувачів. Користувачі часто відзначають, що Claude має дуже дружню, оптимістичну особистість й добре справляється з творчим письмом. Його відповіді детальні, і він рідше відмовляє у виконанні коректного запиту (намагається бути корисним, одночасно дотримуючись правил). У завданнях з програмування Claude 2 — конкурентоспроможний, і завдяки великому обсягу контексту добре працює з дуже великими кодовими базами або документами. Ще одна сильна сторона: Anthropic постійно поліпшує знання та логіку Claude – наприклад, Claude 2 набрав понад 80% на серії академічних і кодингових тестів, скоротивши розрив з GPT-4 ibm.com ibm.com. Нарешті, для організацій Claude пропонує альтернативу повній залежності від OpenAI – завжди корисно мати ще одну топову модель на ринку.

Слабкі сторони: Claude, хоч і потужний, іноді може здаватися менш різким, ніж GPT-4 у найскладніших завданнях. Його знання можуть бути дещо обмеженіші (якщо кількість параметрів і навчальних даних справді менша за GPT-4). Він також схильний до балаканини: відповіді Claude можуть бути надзвичайно довгими та надто структурованими (інколи повторює запитання або дає занадто докладні пояснення). Така багатослівність – це наслідок тренування бути корисним і не пропускати деталей, але користувачу часто доводиться скеровувати модель назад до суті. Попри акцент на правдивості, Claude іноді все ще галюцинує – він не застрахований від вигадувань, якщо «вважає», що повинен відповісти. Ще одна проблема: Доступність та інтеграція. Поза технічним середовищем Claude менш відомий, ніж ChatGPT, і пересічні користувачі можуть навіть не знати про його існування. Його інтерфейс і екосистема менш розвинуті (менше плагінів чи публічних демо). Також, будучи закритою моделлю (хоч і менш жорстко контрольованою, ніж OpenAI), доступ до API чи платформи Anthropic потрібно отримувати за запрошенням для деяких функцій. Нарешті, ультра-велике вікно контексту Claude, хоч і є перевагою, може працювати повільно – обробка 100 тис. токенів може бути повільною або дорогою, тому реальне застосування повного вікна поки що обмежене обчислювальними ресурсами.

Підсумовуючи, Claude від Anthropic схожий на відповідального друга ChatGPT — можливо, не такий блискучий, як GPT-4 у своїх кращих проявах, зате надійний, надзвичайно контекстно-обізнаний і максимально орієнтований на безпеку і корисність. Це сильний вибір для завдань, які потребують обробки великих обсягів тексту чи суворого дотримання етичних стандартів.

Gemini (Google DeepMind): Багатомодальна потужність, що готується обігнати GPT-4

Огляд: Gemini — це флагманська LLM від Google DeepMind, представлена наприкінці 2023 року як відповідь Google на GPT-4. Це не просто одна модель, а сімейство моделей різних масштабів (подібно до того, як у OpenAI є GPT-4 та версія GPT-4 “Turbo”). Розробка Gemini була спільною роботою Google Brain і DeepMind (після об’єднання в Google DeepMind у 2023 році) en.wikipedia.org. З самого початку Google активно просувала Gemini як штучний інтелект покоління “next-gen”, що мав обігнати ChatGPT, поєднуючи передові підходи — зокрема, ті, що лежать в основі AlphaGo (штучного інтелекту для гри в го), надаючи йому здатності до планування й вирішення задач en.wikipedia.org. На відміну від багатьох LLM, що працюють лише з текстом, Gemini із самого початку є мультимодальним. Він може обробляти текст, зображення, а потенційно і інші типи даних, як-от аудіо чи відео, в межах однієї моделі en.wikipedia.org en.wikipedia.org. Фактично, Google створила Gemini як рушій для AI-функцій у Пошуку, Google Cloud та споживчих продуктах.

Архітектура та масштаб: Google дещо неохоче розкриває деталі внутрішньої будови Gemini, але відоме таке. Gemini 1.0 стартував у грудні 2023 року у трьох класах: Gemini Nano (малий, для мобільних пристроїв та IoT), Gemini Pro (середній, універсальний), і Gemini Ultra (великий, для найскладніших завдань) en.wikipedia.org. На старті Ultra була найбільшою й найпотужнішою моделлю Google – її називали “найбільшою і найздатнішою AI-моделлю Google” en.wikipedia.org. Повідомлялося, що вона перевершила GPT-4 від OpenAI, Claude 2 від Anthropic, LLaMA 2 70B від Meta та ін. на багатьох тестових завданнях en.wikipedia.org. Фактично, Gemini Ultra — перша модель, що перевищила 90% на тестовому бенчмарку MMLU, випередивши показники людських експертів en.wikipedia.org. Під капотом до виходу Gemini 1.5 (початок 2024 року) Google оголосила про використання архітектури Mixture-of-Experts (MoE), а також створення колосального контекстуального вікна на 1 мільйон токенів en.wikipedia.org en.wikipedia.org. MoE означає, що модель складається з багатьох підмоделей-“експертів”, з яких на кожен запит активується тільки частина mistral.ai – це суттєво збільшує загальну кількість параметрів без відповідного зниження продуктивності. (Можна припустити, що Gemini Ultra має трильйони параметрів – масштаби GPT-4, проте точних чисел Google не розкриває.) Довге вікно контексту (1 млн токенів) — це прорив: це приблизно ціла книжка або 700 тисяч слів у контексті en.wikipedia.org, хоч скоріш за все це експериментальна функція із спеціалізованою інфраструктурою. На кінець 2024 року вже тривала розробка Gemini 2.0, а також опубліковано Gemma – меншу відкриту серію (моделі на 2B і 7B параметрів), пов’язану з Gemini, для спільноти en.wikipedia.org.

Інтеграція з продуктами Google: Gemini швидко була інтегрована в екосистему Google. При запуску Bard (чат-бот Google) був оновлений до Gemini (спершу Gemini Pro для більшості користувачів, а Ultra — у вигляді “Bard Advanced” через список очікування) en.wikipedia.org. Смартфон Google Pixel 8 отримав на пристрій Gemini Nano для AI-функцій en.wikipedia.org. Google також анонсувала плани імплементувати Gemini у Пошук (Search Generative Experience тепер використовує Gemini для генерування відповідей), Google Ads (допомагає створювати рекламні тексти), Google Workspace (Duet AI) для написання в Docs/Gmail, Chrome (для більш розумної допомоги під час перегляду), а також у інструменти розробки ПЗ en.wikipedia.org. На початку 2024 року Google зробила Gemini Pro доступним корпоративним клієнтам через хмарну платформу Vertex AI en.wikipedia.org. По суті, Gemini стала AI-ядром Google як для споживацьких, так і для корпоративних сервісів — що забезпечує їй величезний охоплення.

Можливості: Gemini — це передовий інструмент за багатьма напрямками. Вона чудово справляється з розумінням та генерацією тексту різними мовами. Також спеціалізується на коді (один із варіантів моделі ймовірно оптимізований для програмування, як і “Codey”-версія Google PaLM 2). Її мультимодальна природа дозволяє подавати на вхід зображення й ставити запитання — подібно до GPT-4 з підтримкою бачення — або ж генерувати описи. CEO Google Сундар Пічаї заявив, що Gemini може малювати контекстуальні зображення за текстовими запитами, що натякає на вбудований текст-у-зображення генератор en.wikipedia.org. З огляду на залучення DeepMind, Gemini може включати й просунуті механізми логіки – наприклад, планувальні алгоритми чи використання інструментів, натхненних підходами AlphaGo, для розв’язання складних задач (Деміс Хассабіс припустив, що тут поєднано потужність AlphaGo з LLM en.wikipedia.org). На тестах, як зазначалося, Gemini Ultra зрівнялася або перевершила GPT-4 у багатьох академічних й “naive” задачах en.wikipedia.org. Gemini 1.5 ще більше покращила продуктивність із меншими обчисленнями (оптимізація завдяки новій архітектурі) blog.google blog.google. Можна впевнено сказати, що Gemini — серед найсильніших моделей на 2024–2025 роки.

Переваги: Однією з головних переваг Gemini є мультимодальність — якщо здатність GPT-4 до розпізнавання зображень дещо обмежена і не всі моделі це підтримують, Gemini спочатку розроблявся для роботи з різними типами даних en.wikipedia.org. Це відкриває можливості для більш багатих взаємодій (наприклад, аналізувати зображення діаграми і відповідати на питання або створювати зображення за описом у реальному часі). Ще одна перевага — тісна інтеграція з пошуком/даними. Оскільки Google контролює і LLM, і пошуковий індекс, Bard на основі Gemini може отримувати інформацію у реальному часі й посилатися на джерела, зменшуючи вигадані факти й підтримуючи актуальність відповідей. (Google продемонструвала, як Bard проводить живий пошук фактів — ChatGPT може це лише за допомогою плагінів або режиму перегляду.) Лідерство Gemini у продуктивності на тестах на кшталт MMLU свідчить про його силу в різних галузях знань en.wikipedia.org. Також Google зробила акцент на ефективності та безпеці: Gemini 1.5 досяг якості рівня GPT-4 з меншими обчислювальними затратами blog.google blog.google, а це означає швидший та дешевший інференс. Також був впроваджений потужний захист — публічний запуск Gemini Ultra відклали до завершення ретельного тестування на безпеку en.wikipedia.org. Ще одна перевага: екосистема. Розробники можуть використовувати Gemini через Google Cloud, а також він доступний у знайомих додатках (мільйонам користувачів Gmail або Android не потрібно окремо реєструватися). Для бізнесу, що вже працює на платформі Google, впровадження сервісів Gemini відбувається безшовно.

Недоліки/Обмеження: На початковому етапі доступ до Gemini був обмеженим — при запуску Gemini Ultra (найкраща модель) не був одразу доступний для всіх через міркування безпеки та обмеження обчислювальних ресурсів en.wikipedia.org. Доступ отримали лише окремі партнери або платні користувачі, і широкому загалу спочатку була доступна версія Bard з певними обмеженнями. Як продукт Google, він є закритим (крім мініатюрних моделей Gemma). Немає можливості завантажити Gemini Ultra для локального запуску — необхідно користуватися лише API чи інтерфейсом Google. Це означає, що з оновленням чи змінами моделі користувачі повинні прийняти це (модель постійно змінюється, хай і вдосконалюється). Ще один можливий недолік — довіра та упередженість: користувачі можуть хвилюватися через ймовірну упередженість, оскільки модель навчена на матеріалах, обраних Google, і налаштована згідно з політикою безпеки Google. (Хоча випуск відкритих моделей Google свідчить про прагнення до більшої прозорості en.wikipedia.org.) Слід також відзначити, що попри інтеграцію з пошуком, деякі користувачі оцінили Bard (Gemini) як менш креативний або менш “схильний до ризику”, ніж ChatGPT. Він схильний уникати особистих думок чи уявних гіпотетичних ситуацій, ймовірно, через жорсткіші обмеження. Це може сприйматися як більша обмеженість чи шаблонність відповідей, хоча така поведінка часто еволюціонує з оновленнями. І нарешті, конкуренція також має значення — на момент виходу Gemini, GPT-4 вже міцно закріпився, а відкриті моделі Meta швидко вдосконалювалися. Тож Gemini має довести свою перевагу на практиці, а не лише на тестах. Справжній іспит розпочнеться, коли більше користувачів будуть випробовувати його у продуктах Google.

По суті, Gemini — це важковаговик Google на арені LLM — потужний, універсальний і глибоко інтегрований. Якщо OpenAI спочатку задав темп, то Google стрімко намагається повернути першість із ШІ, який живе у всьому: від пошукового рядка до смартфона.

LLaMA (Meta): Відкриті LLM для всіх — від 7B до 405B параметрів

Огляд: LLaMA (Large Language Model Meta AI) — це сімейство великих мовних моделей від Meta (материнської компанії Facebook), яке очолило революцію відкритого ШІ. Стратегія Meta відрізнялася від OpenAI/Google — замість роботи лише через “чорні скриньки” API, Meta відкрила ваги своїх моделей спочатку для дослідників, а згодом для широкого загалу, дозволяючи кожному запускати й удосконалювати їх. Оригінальна LLaMA 1 була анонсована у лютому 2023 як набір моделей від 7B до 65B параметрів, призначених для дослідницького використання. Хоча LLaMA 1 спочатку поширювалася за закритою ліцензією (лише для досліджень), її ваги швидко злили в інтернет, і спільнота ШІ почала масово донавчати модель під різні сценарії (чат-боти, помічники з коду тощо). Побачивши інтерес, Meta зробила ставку на LLaMA 2, яку представили у липні 2023 року вже як відкриту (доступну всім) з лояльною ліцензією (дозволено комерційне використання з певними умовами) siliconangle.com siliconangle.com. LLaMA 2 охопила моделі на 7B, 13B та 70B параметрів, а також спеціальні чат-версії з донавчанням. Але на цьому Meta не зупинилася — вже 2024 року представила LLaMA 3, зокрема гігантську 405B-параметричну модель (Llama 3.1), яка є найбільшою відкрито доступною LLM на сьогодні і може зрівнятися за розміром із закритими, як GPT-4 ai.meta.com ibm.com.

Архітектура та навчання: Моделі LLaMA побудовані на архітектурі Transformer, лише декодер, за структурою схожій на GPT. Вони тренуються на величезних масивах текстових даних; наприклад, LLaMA 2 була навчена на 2 трильйонах токенів (удвічі більше ніж LLaMA 1) originality.ai viso.ai. Використано широкий спектр джерел (відкриті дані інтернету, код, Вікіпедія тощо) з ретельним чищенням. Мета Meta — показати сильний результат уже на менших параметрах завдяки ефективнішому навчанню: LLaMA 1 вразила світ, перевершивши GPT-3 (175B) за багатьма задачами вже у 13B-параметричній версії siliconangle.com. Успіх забезпечили більший обсяг даних та акуратне налаштування. LLaMA 2 70B ще більше покращила кодування й міркування. У LLaMA 3 Meta не тільки істотно підняла масштаб (з’явилася модель на 405B), а й прокачала багатомовність, розширила контекст, а в окремих варіантах навіть додала підтримку зору ai.meta.com ai.meta.com. (Meta анонсувала мультимодальність LLaMA 3 і справді згодом випустила версії з підтримкою зору ai.meta.com.) Гігантська 405B Llama 3.1 використовує grouped-query attention та інші оптимізації для розширення контексту (ймовірно, до 32k токенів, точні специфікації досить технічні). Важливо, що Meta випускає як претреновані моделі, так і інструкціонно-налаштовані версії (наприклад, Llama-2-Chat, Llama-3.1-Instruct), які з коробки пристосовані для діалогів.

Відкриті ваги та спільнота: Відкритість LLaMA стала каталізатором вибухового зростання інновацій у спільноті. Після зливу LLaMA 1 дослідники стали донавчати її під власні потреби, з’явилися Alpaca (7B-версія зі Стенфорда, донавчена на відповідях GPT), Vicuna, WizardLM та безліч інших — і часто це коштувало дуже дешево! Це довело, що невеликі відкриті мовні моделі можуть демонструвати несподівано високу якість. З офіційним відкритим релізом LLaMA 2 (у партнерстві з Microsoft/Azure) бізнес і стартапи почали використовувати LLaMA як базу для власних продуктів, уже без юридичних ризиків siliconangle.com siliconangle.com. Такі компанії, як IBM, Amazon та інші, вже впровадили LLaMA у власні хмарні сервіси ibm.com ibm.com. Випуск 405B-моделі фактично вирівняв масштаб із топ-пропрієтарними системами та відкрив спільноті величезний простір для експериментів ibm.com ibm.com. Ця модель Llama 3.1 405B вже показує паритет із найкращими закритими системами за багатьма показниками — наприклад, отримала 87,3% на тесті MMLU, практично зрівнявшись із GPT-4 та Claude 3 ibm.com. Вона також чудово проявила себе у програмуванні (HumanEval), читанні тексту тощо, часто наздоганяючи чи навіть випереджаючи GPT-4 Turbo та Google Gemini у внутрішніх тестах ibm.com ibm.com.

Застосування та варіанти використання: Завдяки тому, що будь-хто може запускати моделі LLaMA локально (за наявності достатнього обладнання) або на власних серверах, ці моделі знайшли застосування у різноманітних сферах. Користувачі доопрацьовували LLaMA для спеціалізованих задач: боти для медичних консультацій, аналізатори юридичних документів, чат-боти з рольовим спілкуванням, помічники для програмування та дослідницькі інструменти. Моделі LLaMA 2 із 7B та 13B параметрами можуть працювати навіть на потужних ноутбуках чи смартфонах (із квантуванням), забезпечуючи ШІ на периферії. LLaMA також стала дослідницькою платформою – науковці використовують її для вивчення поведінки моделей, узгодженості та методів оптимізації, адже вони можуть безпосередньо отримати доступ до ваг моделі. Meta інтегрувала LLaMA і в споживчі продукти: наприкінці 2023 року Meta запустила Meta AI Assistant у WhatsApp, Instagram та Messenger, який спочатку працював на LLaMA 2, а потім був оновлений до LLaMA 3 about.fb.com about.fb.com. Цей асистент може відповідати на запитання в чаті, генерувати зображення (промпти “/imagine”), а також має AI-персони із зірками – демонструючи можливості LLaMA в реальному використанні.

Переваги: Очевидна перевага – це відкритість. Наявність ваг моделі означає повну прозорість і контроль – розробники можуть налаштовувати модель (до-навчати на своїх даних), перевіряти її на наявність упереджень чи вразливостей та розгортати, не передаючи дані третім особам у хмару. Це чудово для захисту приватності та чутливих застосувань. Моделі LLaMA також дуже ефективні відносно співвідношення продуктивність/параметр. Менші LLaMA (7B, 13B) “б’ють вище своєї вагової категорії”, забезпечуючи доволі хорошу продуктивність на середньому обладнанні siliconangle.com. Водночас, найбільші LLaMA (70B, 405B) виявилися світового класу за можливостями ibm.com ibm.com. Ще одна перевага – підтримка спільноти: тисячі ентузіастів додають розширення: бібліотеки квантування для зменшення розміру, рецепти до-навчання, розширення для довшого контексту або пам’яті. Meta також впровадила механізми безпеки у LLaMA 2 і 3, випустивши карти моделей і політику прийнятного використання; відкриті моделі не “без гальм” за замовчуванням – чат-версії цілком помірно налаштовані, щоб не генерувати заборонений контент (хоча не так жорстко, як у закритих ШІ, що для деяких користувачів – плюс). Універсальність розгортання на власних серверах – великий плюс для бізнесу, що переймається управлінням даними. І стрімка еволюція Meta (від LLaMA 1 до 3 лише за рік) демонструє прагнення утримувати відкриті моделі на передовій.

Недоліки: Попри ентузіазм, моделі LLaMA мають певні застереження. З коробки менші (7B/13B) все ще слабші за гігантів на кшталт GPT-4: вони можуть “спотикатися” на складних логічних задачах, надавати загальніші відповіді або плутатися з деталями. До-навчання це частково вирішує, але потребує зусиль. Найбільша LLaMA (405B) має величезні можливості, але запуск моделі – нетривіальне завдання: для інференсу потрібно сотні гігабайт відеопам’яті й це повільно; більшість користувачів будуть використовувати хмару або квантизовані версії з втратою якості. Також відкритим моделям бракує масштабного до-навчання RLHF, як у ChatGPT – є варіанти з напрацюваннями спільноти, але за якістю вони можуть поступатися. Через це базові відкриті моделі іноді видають менш “відфільтровані” чи менш відшліфовані результати (що для когось плюс, а для когось мінус). Галюцинації й помилки залишаються проблемою: LLaMA 2 Chat показав хорошу якість, але не убезпечений від вигаданого. Інший нюанс – відповідальність. Якщо ви самостійно розгортаєте відкриту модель, у вас немає фільтрів і політик OpenAI чи Google – потрібно самим запобігати зловживанням. Це дає свободу, але й ризик (хтось може до-навчити модель під зловмисні цілі, на що часто звертають увагу). Ліцензія Meta для LLaMA містить обмеження: якщо ваш застосунок має понад 700 млн користувачів (фактично, ви рівня Google чи OpenAI), потрібно отримати спеціальну ліцензію від Meta huggingface.co huggingface.co – це не проблема майже для всіх, але варто знати. І нарешті, підтримка та відповідальність: якщо відкрита модель “зламанулась”, нема окремої служби підтримки – треба покладатися на форуми, що дехто вважає недоліком для бізнесу.

У підсумку, LLaMA демократизувала ШІ. Вона довела, що топові мовні моделі не повинні бути “охоронюваним скарбом” кількох компаній – ви можете мати власний аналог GPT, якщо готові подбати про інженерію. Зі стрімким розвитком LLaMA 3 на 405B параметрів, яка зрівнялася із закритими ШІ на багатьох задачах ibm.com ibm.com, різниця між відкритими та закритими моделями практично зникає. Meta робить ставку на майбутнє, де відкриті моделі – стандарт для розробників (а Meta AI Assistant демонструє їх у продуктах). Для користувачів і бізнесу LLaMA – це гнучкість і свобода: потужний інструмент, який ви можете налаштувати під свої потреби без “корпоративного наглядача”.

Mistral і Mixtral: стартап із великими ідеями у відкритому ШІ

Огляд: Mistral AI – це французький стартап, який стрімко заявив про себе у 2023 році з амбітною ціллю: створити найкращі у світі відкриті LLM, конкуруючи з великими гравцями невеликою командою й інноваційним підходом. Всього через чотири місяці після створення (і після великого фінансування у €105 млн), Mistral випустив Mistral 7B у вересні 2023 року – це модель на 7,3 млрд параметрів, яка одразу встановила нову планку у своєму класі siliconangle.com siliconangle.com. Хоча вона крихітна порівняно з GPT-4, Mistral 7B змогла обігнати всі відкриті моделі до 13B і навіть конкурувати з окремими 34B на стандартних тестах siliconangle.com. Вона повністю з відкритим кодом (ліцензія Apache 2.0) і без обмежень на використання siliconangle.com siliconangle.com, що цілком відповідає філософії Mistral – відкритість стимулює розвиток. Компанія на цьому не зупинилася – у грудні 2023 вони презентували Mixtral 8×7B, розріджену модель Mixture-of-Experts, що ще більше підняла ефективність відкритого ШІ mistral.ai mistral.ai. “Mixtral” (від Mistral + Mixture) засвідчив готовність команди йти далі класичного масштабування трансформерів.

Філософія дизайну: Основна ідея Mistral полягає у переконанні, що відкриті рішення швидко обженуть закриті, якщо поєднати внески спільноти й технічну досконалість mistral.ai mistral.ai. Вони свідомо порівнюють AI-ландшафт з минулими епохами розробки, де у фіналі преважав відкритий код (як для ОС Linux чи для хмари Kubernetes) mistral.ai. Відкрито випускаючи потужні моделі, вони прагнуть надати розробникам потужність, уникнути централізації або “AI-олігархії” та забезпечити налаштування, яке закриті API не дають mistral.ai mistral.ai. Це ще й виклик інженерній ефективності: замість того, щоб просто збільшувати обчислення, Mistral прагне до максимуму на мінімумі заліза. Навчання Mistral 7B передбачало створення з нуля складного data pipeline за 3 місяці mistral.ai і максимізацію кількості токенів та методів навчання, щоб перейти межу звичного. Її результат (~60% MMLU там, де це раніше вимагало сотень мільярдів параметрів) став доказом дієвості підходу mistral.ai. Команду очолюють колишні дослідники Meta і Google (один із співзасновників керував розробкою LLaMA у Meta siliconangle.com), тож глибокий досвід забезпечено.

Mistral 7B: Ця модель має 7,3 мільярда параметрів, контекст у 8 тисяч токенів і навчалася на спеціально відібраному високоякісному датасеті (точні деталі не повністю оприлюднені, але ймовірно схожі на джерела LLaMA). Після релізу Mistral 7B продемонструвала чудові можливості у генерації прози, узагальненні інформації та навіть доповненні коду siliconangle.com siliconangle.com. Генеральний директор Mistral похвалився, що модель показала результати на рівні з LLaMA 34B в багатьох завданнях siliconangle.com, що вражає з огляду на різницю у розмірах. Вона також працює набагато швидше і дешевше, що робить її ідеальною для застосувань з низькою затримкою чи запуску на скромних апаратних засобах siliconangle.com. По суті, Mistral 7B довела, що з правильним навчанням невелика модель може робити те, що роблять великі — це перемога для ефективності. Завдяки ліцензії Apache-2.0 компанії могли вільно її інтегрувати. Дійсно, користувачі швидко донавчали Mistral 7B на інструкціях (згодом компанія випустила офіційну версію Mistral-7B-Instruct), і вона стала популярною основою для чат-ботів на смартфонах або у відкритих чат-додатках.

Mixtral 8×7B (розріджена MoE-модель): Тут Mistral стала справжнім інноватором. Традиційні LLM — «щільні»: кожен параметр використовується для кожного токена. Mixtral впровадив розрідженість: у нього 8 експертних підмереж (кожна ~7 мільярдів параметрів) і мережа «гейтів», що активує лише 2 експерти для кожного токена mistral.ai mistral.ai. Результат? Загальна кількість параметрів моделі 46,7 млрд, але для кожного токена використовується 12,9 млрд mistral.ai. Це як 46-мільярдна «мозкова» модель, що думає, використовуючи лише ~13 млрд одночасно, суттєво зменшуючи обчислювальні потреби. Це забезпечує набагато швидше виведення — Mixtral працює на швидкості 13B-моделі, але якість відповідає значно більшим моделям. У тестах Mixtral 8×7B випередила LLaMA-2 70B від Meta і навіть дорівнювала або перевершувала GPT-3.5 від OpenAI в багатьох стандартних завданнях mistral.ai mistral.ai. І все це — у 6 разів швидше, ніж модель на 70B mistral.ai. Вона легко опрацьовує 32 тисяч токенів у контексті mistral.ai, підтримує кілька мов (англійську, французьку, німецьку тощо) mistral.ai mistral.ai, а також добре працює з кодом. Mistral випустила як базову, так і інструкторно донавчену версію Mixtral 8×7B, яка отримала дуже високий бал (8,3) у чат-бенчмарку MT-Bench — найвищий серед відкритих моделей на той момент, майже на рівні GPT-3.5 в інтерактивному спілкуванні mistral.ai. Важливо, що Mixtral 8×7B також має ліцензію Apache 2.0, тобто абсолютно відкритий.

Реальний вплив: Моделі Mistral, хоча й нові, дуже швидко були прийняті open-source AI-спільнотою. Mixtral особливо викликав захват, бо довів: MoE може реалізувати себе у LLM. Розробники використовують Mistral 7B та Mixtral для роботи чат-ботів у open-source проєктах (наприклад, інтеграції з text-generation-webui, демо на Hugging Face тощо). З огляду на їх продуктивність, ці моделі підходять для ботів підтримки користувачів, віртуальних помічників на пристроях або як дешевша альтернатива GPT-3.5 для обробки тексту. Mistral AI також має власну платформу, де можна напряму звертатися до їхніх моделей (там є чат-бот “Le Chat” та API в бета-режимі mistral.ai). Вони також зробили внесок у open-source інструментарій — наприклад, оптимізували бібліотеку vLLM для швидшого виведення з їхніми моделями mistral.ai.

Переваги: Поєднання високої продуктивності та відкритості — козир Mistral. Mistral 7B зробила передову AI доступною кожному з ноутбуком (завдяки 4-бітній квантизації, модель може навіть працювати на деяких побутових відеокартах). Mixtral відкрила шлях для масштабування без типових витрат — середньорозмірна модель поводиться як велика. Така ефективність чудова для впровадження і з точки зору екології. Фокус Mistral на багатомовності та роботі з кодом означає, що їхні моделі не лише для англійськомовних — це плюс для глобальних користувачів та розробників mistral.ai mistral.ai. Завдяки відкритій ліцензії Apache 2.0 ніяких обмежень — використовуйте комерційно, модифікуйте, що завгодно, жодних дзвінків «додому». Це важливо для компаній, яким не потрібні API-платежі чи передача даних третім сторонам. Ще одна сила — швидкість інновацій: стартап іноді рухається швидше, і Mistral показала, що може за кілька місяців запустити модель світового рівня, а потім — нову MoE-модель ще через декілька місяців. Така гнучкість може принести ще більше проривів (є чутки, що у 2024-му Mistral тренувала ще більші моделі та більше експертів у MoE — наприклад, 8×22B). Також європейський бренд Mistral як відкритої AI-компанії відгукується тим, хто проти монополізації ШІ великими американськими корпораціями – це додає різноманіття екосистемі.

Недоліки: Наразі Mistral ще молода. Її моделі, хоч і видатні для свого розміру, не можуть повністю зрівнятися з найбільшими моделями у всіх завданнях. Наприклад, Mixtral 8×7B, хоч і обганяє 70B-моделі, може не перевершити 100B+ щільну модель у надскладних завданнях чи нішевих областях знань — задачі з фізики, або складна логіка, ймовірно, залишаються за GPT-4 чи Llama-405B. Сам підхід MoE може бути складнішим для донавчання (гейти та експерти ускладнюють тренування, хоча Mistral блискуче впоралася з препрейнінгом). Ще один момент: підтримка та стійкість. Дорожня карта компанії перспективна, але як стартапу їм бракує ресурсів Google чи Meta – чи зможуть вони стабільно змагатися у тренуванні нових поколінь моделей (які будуть 100B+ щільними чи з десятками експертів)? Це ще питання часу. А ще відкритість означає менше централізованого контролю — наприклад, налаштування на безпечність у Mistral не настільки глибоке, як у ChatGPT. Базова модель Mixtral охоче виконає будь-яку інструкцію (і навіть може створити небажаний контент), якщо не накласти власний фільтр чи не донавчити mistral.ai. Тобто тим, хто впроваджує Mistral публічно, треба самим забезпечувати фільтрацію. Серед функцій, наразі у Mistral немає мультимодальності (немає підтримки зображень, тільки текст). І практичний мінус: для повторення їхніх результатів потрібне високопродуктивне обладнання; натренувати такі моделі складно (хоча це актуально для всіх моделей на передньому краї).

Як підсумок, Mistral AI — це передній край досягнень, які може зробити спритна компанія з фокусом на відкритість. Вони створили моделі, що перевершують свої розміри й надали їх вільно для спільноти, що пришвидшило прогрес. Якщо вам потрібне відкрите ефективне LLM-рішення і ви не хочете залежати від великих платформ, рішення від Mistral — одні з найкращих. Слідкуйте за ними — вони втілюють ідею, що наступні ШІ-прориви можуть з’явитися і завдяки сміливим стартапам, а не лише технологічним гігантам.

Cohere, Command R та інші відомі LLM: ширша панорама

Бум штучного інтелекту призвів до появи багатої екосистеми LLM, окрім найвідоміших гравців. У цій частині ми підкреслимо моделі Cohere (наприклад, Command R) та кілька інших значущих ініціатив, щоб сформувати повну картину того, що пропонує ринок.

Cohere та Command R

Cohere — це стартап (заснований колишніми дослідниками Google Brain), що зосереджений на наданні NLP-моделей бізнесу через API. Вони одними з перших запропонували послуги великих мовних моделей комерційно (приблизно з 2021 року), фокусуючись на підприємствах із потребами у кастомній NLP. Моделі Cohere спочатку не мали гучних назв на кшталт “GPT”, а лише позначалися розмірами (small, medium, xlarge). Проте у 2023–2024 Cohere запустила лінійку Command, спеціально налаштовану для виконання інструкцій і діалогів (на відміну від серії “Embed” для векторних ембедингів).

Флагман — Command R (за твердженням Cohere, “R” означає “Reasoning” (міркування) і довгий контекст (Range)). Це 35-мільярдна трансформер-модель, натренована на масивному багатомовному корпусі та донавчена для діалогів, складних інструкцій, інтеграції з інструментами та “RAG”-завдань huggingface.co huggingface.co. Cohere зробила важливий крок наприкінці 2024 року — відкрила ваги Command R для спільноти (для дослідницького/не комерційного використання) через Hugging Face huggingface.co huggingface.co. Це зробило потужну модель на 35B доступною спільноті (з ліцензією, що забороняє комерційне використання без дозволу). Command R має 128-тисяч токенів у контексті docs.cohere.com docs.cohere.com, подібно до Claude — ідеально для великих документів. Модель також є багатомовною (впевнено підтримує 10 мов) docs.cohere.com huggingface.co, і Cohere спеціально налаштовувала її під генерацію з підкріпленням (RAG) та навіть “агентні” завдання (де модель сама приймає рішення про виклик зовнішніх інструментів) docs.cohere.com docs.cohere.com. На практиці, Command R може працювати з дуже деталізованими запитами, логічно міркувати крок за кроком, а за потреби витягувати факти з бази знань.

Cohere також пропонує Command R+ — покращену версію, ймовірно, з більшим обсягом навчання або розміром моделі (деякі джерела вказують, що це може бути ансамбль або 70B модель). На AWS Bedrock та інших хмарних платформах Command R і R+ подаються як високоякісні альтернативи GPT-3.5, орієнтовані на підприємства, які потребують зберігання даних у певних юрисдикціях (Cohere дозволяє розгортання у конкретних регіонах) і більший контроль над поведінкою моделі.

Переваги LLM-моделей Cohere: Вони готові для підприємств — тобто мають підтримку SLA, можуть розгортатися у віртуальних приватних хмарах і добре документовані з орієнтацією на бізнес-кейси. Моделі Command демонструють високу ефективність у бізнес-завданнях, як-от підсумки, написання листів, вилучення інформації, і вони сконструйовані для інтеграції з системами отримання інформації (Cohere пропонує повний стек, включаючи embedding-и, rerankers тощо). Ще одна перевага — оптимізація затримки/пропускної здатності: Cohere приділяє увагу тому, щоб їхні моделі були швидкими й економічними у виробничому використанні docs.cohere.com docs.cohere.com. Наприклад, оновлення Command R за серпень 2024 забезпечило на 50% більшу пропускну здатність і на 20% меншу затримку порівняно з попередніми версіями docs.cohere.com. Також вони впровадили «режими безпеки», де розробник може налаштовувати суворість фільтрації контенту за необхідності docs.cohere.com, що дає зручний, деталізований контроль для модерації.

Слабкі сторони: Ім’я Cohere не таке впізнаване за межами корпоративного ринку, тому спільнота довкола нього менша. Хоча Command-моделі потужні, вони трохи відставали від абсолютного рівня передових (наприклад, 35B модель не зрівняється з GPT-4 або LLaMA-70B+ у найскладніших завданнях). До відкриття Command R у вигляді дослідницької моделі, Cohere була повністю закритою — це означало менше зворотного зв’язку від спільноти для вдосконалення. Відкрита вага випущена лише для некомерційного використання, тож бізнесу доведеться платити за API чи отримувати спецліцензію. Крім того, орієнтація Cohere на безпеку для підприємств інколи означала надто консервативні відповіді (схоже на ранній Bard), через що генерація інколи була менш креативною. Але модель постійно вдосконалюють, і про Command R+ кажуть, що вона набагато краща (навіть є відгуки, що у багатьох аспектах наближається до GPT-4).

Інші визначні LLM

Окрім детально описаної «Великої П’ятірки», ще чимало гравців пропонують значимі LLM-рішення:

  • PaLM 2 (Google) — До Gemini головною LLM Google була PaLM 2 (запущена на I/O 2023). Це модель з 340 мільярдами параметрів, навчена на 3,6 трильйонах токенів cnbc.com research.google, із сильними навичками багатомовності, логіки та програмування. PaLM 2 забезпечувала роботу Google Bard протягом більшої частини 2023 року та мала варіанти різного розміру (Gecko, Otter, Bison). Вона відзначалася особливою вправністю у програмуванні й розв’язуванні логічних задач, а також доонавчалася для вузьких сфер (наприклад, Med-PaLM для медичних питань та відповідей). PaLM 2 підготувала ґрунт для Gemini й підтвердила компетентність Google (її вже вважали прогресивнішою за оригінальну PaLM із 540B параметрами, але менш навченою). Bard із PaLM 2 першим впровадив функцію експорту у Gmail/Docs, інтегруючи LLM у робочі процеси. Хоча PaLM 2 нині поступається Gemini, вона досі працює у багатьох сервісах Google Cloud і залишається потужною моделлю.
  • Jurassic-2 (AI21 Labs) — Ізраїльський стартап AI21 був одним із перших конкурентів OpenAI. Їхній Jurassic-1 (178B параметрів) у 2021 був на той час однією з найбільших моделей. Jurassic-2, випущена у 2023, продовжила цей напрям, запропонувавши моделі для різних мов (із фокусом на івриті та французькій тощо). Моделі AI21 відомі своєю якістю для генерації довгих текстів та знань, частково тому, що співзасновники компанії — ветерани NLP (один із них — співавтор архітектури Transformer). Вони пропонують свої моделі через API AI21 Studio, а також через продукти на кшталт Wordtune (асистент для написання текстів). Jurassic-2 має «J2 Jumbo» імовірно на рівні ~178B і менші «Large» моделі (~20B). Переваги: дуже зв’язне письмо, інколи — вища фактологічність відповідей. Недоліки: слабше програмування та відсутність відкритого коду.
  • Claude Instant та інші (Anthropic) — Окрім основного Claude, Anthropic пропонує Claude Instant — легшу модель (~1/5 розміру), яка працює швидше і дешевше. Вона підходить для завдань чату в реальному часі, де не потрібна максимум-якість. Аналогічно, OpenAI розвиває GPT-3.5 Turbo як швидшу й дешевшу альтернативу GPT-4. Такі молодші моделі важливі тим, що роблять масові застосунки економічно вигідними (наприклад, клієнтський чат-бот може обслуговувати тисячі запитів за допомогою Claude Instant, передаючи складні випадки Claude 2).
  • Inflection-1 / Pi (Inflection AI) — Inflection AI, співзаснована Мустафою Сулейманом (екс-DeepMind), запустила Pi — особистого AI-ассистента, орієнтованого радше на розмови (часто емоційні/підтримуючі), а не на вирішення завдань. Він працює на власній LLM Inflection (Inflection-1, до кінця 2023 готували Inflection-2). Pi відзначається дружньою, балакучою манерою і принципово не пише коду і не відповідає на фактологічні питання; це експеримент у створенні «друга»-AI. На ринку з’явилася інформація про суперкомп’ютер із 22 000 GPU для тренування, тож модель Inflection-2 ймовірно дуже велика (деякі чутки — понад 100B параметрів). Коду не відкривали, досвід взаємодії повністю керований, доступний через додаток або сайт.
  • Відкриті моделі спільноти — Окрім LLaMA і Mistral, багато колаборативних проектів створювали помітні LLM:
    • BLOOM (BigScience) — багатомовна модель із 176B параметрами, випущена в середині 2022 року за відкритою ліцензією. Це був важливий етап як перша відкрита модель масштабу GPT-3. BLOOM працює доволі якісно, особливо поза англійською, хоча поступається новішим моделям у ефективності. Втім, вона стала прецедентом для великих ініціатив під проводом волонтерів.
    • Falcon (Інститут інноваційних технологій ОАЕ) — Falcon 40B і 7B випущені у 2023 році як провідні відкриті моделі, деякий час Falcon 40B очолювала рейтинги. Вони також безкоштовні (40B — це вже Apache 2.0). Falcon 40B навчали на якісних даних (RefinedWeb) і вона показала високі результати, що продемонструвало внесок поза межами США/Європи.
    • MosaicML MPT — До придбання Databricks компанія MosaicML випустила MPT-7B (дозволяла збільшене вікно контексту — до 84к токенів завдяки ефективним механізмам уважності) і MPT-30B. Ці відкриті моделі широко використовувалися для подальших донавчань, демонстрували нові фічі типу system message tuning і обробки довгого тексту.
    • WizardCoder, Phi-1 тощо — Є спеціалізовані моделі для кодування, наприклад, WizardCoder (файн-тюн Code LLaMA), певний час лідирував на відкритих бенчмарках для коду. А Phi-1 (Microsoft) показав, що навчання лише на коді та текстах з математики дало 1.3B (!) моделі можливість вирішувати складні задачі Leetcode — тобто інноваційні методи тренування здатні конкурувати з масштабом у нішах.
  • Grok від xAI — Наприкінці 2023 року новий AI-проект Елона Маска xAI випустив бета-версію Grok, чат-бота із дещо «безкомпромісним» стилем, ексклюзивно для підписників X (Twitter). Grok, імовірно, побудований на відкритих основах (ймовірно, fine-tune LLaMA 2, деякі припускали 70B). Маск заявляє, що Grok буде «AI, який шукає правду» з меншими обмеженнями щодо гумору тощо. Хоча Grok і не вражає в наукових метриках, у культурі він помітний як альтернатива ChatGPT/Bard, яка, на думку Маска, не буде «брехати» про суперечливі теми. Його розвиток також підкреслює, що навіть соцмережі вважають LLM’и ключем до залучення користувачів.
  • Корпоративні моделі від Big Tech — Такі компанії як IBM і Amazon не створювали з нуля конкурентів GPT-4, а радше курирують і розміщують моделі:
    • watsonx.ai від IBM дозволяє працювати з відкритими моделями на кшталт LLaMA-2 та спеціально підібраними меншими (і має власну Granite series десь на 20B параметрів для вузькоспеціальних бізнес-NLP задач).
    • Хмарний сервіс AWS Bedrock від Amazon надає моделі від Anthropic (Claude), AI21 (Jurassic), Cohere, Stability AI тощо, а також власну лінійку Titan (в околі 20B параметрів, основні функції — підтримка клієнтів, підсумки тексту).
    • Microsoft фактично підтримує моделі OpenAI (інтегровані в Azure як Azure OpenAI Service), але розробляє й дослідницькі моделі (той же Phi-1 та інші) й може випускати власні LLM для вузьких сегментів.

Підсумовуючи: у просторі LLM панує конкуренція, де кожен виробник відвойовує свою нішу — чи це корпоративні сервіси (Cohere, AI21), спеціалізовані AI-компаньйони (Inflection Pi), чи відкриті опоненти (Meta, Mistral, Falcon). Це різноманіття вигідне для користувача: можна вибирати модель під власні потреби — найкраща точність, мінімальні витрати, найбільший контроль і приватність або максимальна безпека й відповідність етичним вимогам.


Тепер, коли ми розглянули основних гравців на ринку LLM, наступна таблиця пропонує порівняння їх ключових характеристик:

Таблиця порівняння: провідні LLM (ChatGPT, Claude, Gemini, LLaMA, Mistral тощо)

Модель (Розробник)Рік випускуАрхітектураКількість параметрівМасштаб даних навчанняМультимодальність?Доступ (Відкрита чи закрита)Основні перевагиОсновні недолікиЛіцензія/Використання
ChatGPT (OpenAI)
(GPT-4 через API чи UI)
2022 (GPT-3.5), 2023 (GPT-4)Трансформер (щільний); RLHF-узгоджений; ймовірний MoE у GPT-4GPT-3.5: 175 млрд;
GPT-4: Не розкрито (≈1,8 трлн параметрів, за чутками) explodingtopics.com
Навчений на сотнях мільярдів токенів (веб-текст, книги, код); ~$100 млн+ обчислювальних ресурсів explodingtopics.comТекст і зображення (GPT-4 Vision)Закритий (API OpenAI або застосунок ChatGPT; немає публічних ваг)– Відмінна загальна ерудиція та розмовність;
– Чудові навички мислення, програмування, креативність;
– Величезна екосистема та інтеграції (плагіни, інструменти)
– Впевнено вигадує факти;
– Не прозорий алгоритм, неможливість донастройки за межами політики OpenAI;
– Ліміти використання та вартість для повного доступу до GPT-4
Закрита ІВ; користувач має погодитись із політикою OpenAI API (неможливо самостійне розгортання).
Claude 2 (Anthropic)2023Трансформер (щільний); узгодження за принципами Constitutional AI~137 млрд (оцінка) datasciencedojo.comНавчений на ~1+ трлн токенів (текст + код) з якісних вибірокЛише текст (планується мультимодальність у майбутньому)Закритий (API Anthropic і обмежений веб-доступ; немає публічних ваг)– Надзвичайно довгий контекст (100 тис. токенів) en.wikipedia.org;
– Суворі етичні запобіжники (менше токсичності/образ);
– Дуже послідовний у довготривалих діалогах
– Інколи надто обережний чи багатослівний;
– Трохи відстає від GPT-4 на найскладніших завданнях;
– Обмежена публічна доступність (запрошення/черга на частину функцій)
Закритий API; політика використання визначається Anthropic (принципи Constitutional AI).
Gemini Ultra (Google DeepMind)2023 (1.0 Ultra); оновлення у 2024 (1.5)Трансформер + Mixture-of-Experts (з v1.5) en.wikipedia.org; мультимодальний дизайнНе розкрито; ймовірно >500 млрд щільних, MoE працює з ефективними трильйонамиНавчений на величезному корпусі Google (текст, код, зображення, транскрипти YouTube en.wikipedia.org); використані кластери Google TPU v5Так – Мультимодальний (текст, зображення; аудіо/відео планується) en.wikipedia.orgЗакритий (використовується у Google Bard, Cloud Vertex AI; немає публічних ваг)– Мультимодальний з нуля (зображення + текст);
– Найкращі результати (випереджає GPT-4 за багатьма бенчмарками) en.wikipedia.org;
– Інтеграція в продукти Google (Пошук, Android тощо)
– Обмежена доступність на старті (Ultra з обмеженнями через безпеку) en.wikipedia.org;
– Закритий код (користувачі залежать від платформ Google);
– Безпека досі доопрацьовується для публічного релізу
Пропрієтарна; доступно за умовами Google AI через Bard/Cloud (Google дотримується політики безпеки AI en.wikipedia.org).
LLaMA 3.1 (Meta)
та LLaMA 2
2023 (LLaMA 1 & 2); 2024 (LLaMA 3)Трансформер (щільний); відкриті моделі; LLaMA 3 додано зір і модель на 405 млрдLLaMA 2: 7 млрд, 13 млрд, 70 млрд;
LLaMA 3.1: 8 млрд, 70 млрд, 405 млрд параметрів ibm.com
LLaMA 2 навчена на 2 трлн токенів originality.ai; LLaMA 3 – ще більше + мультимодальні даніТак (LLaMA 3 має моделі з підтримкою зору; LLaMA 2 лише текстова)Відкритий(умовно) – Моделі та код у вільному доступі (безкоштовно для досліджень/комерції, з певними умовами) huggingface.coВідкритий код: Спільнота може донавчати, перевіряти, впроваджувати;
– Сильна продуктивність, що наближається до закритих моделей (405 млрд – на рівні GPT-4 за багатьма завданнями) ibm.com;
– Різноманітність моделей під різні потреби
– Менші моделі LLaMA вимогливі до донавчання для конкурентності;
– Найбільша модель 405 млрд – ресурсозатратна;
– Ліцензія забороняє використання дуже великими IT-компаніями (>700 млн користувачів) без дозволу huggingface.co
Користувацька ліцензія Meta (LLaMA 2 — “Meta license”, LLaMA 3 – за схожими умовами). Практично вільне використання; потрібне посилання; існують обмеження для великих компаній.
Mistral 7B
& Mixtral 8×7B (Mistral AI)
2023Трансформер (Mistral 7B щільний);
Mixtral: Transformer-MoE (8 експертів) mistral.ai
Mistral 7B: 7,3 млрд;
Mixtral 8×7B: 46,7 млрд загалом (12,9 млрд на токен через MoE) mistral.ai
Навчені на відібраних веб-даних, коді тощо у 2023; Mistral 7B розроблявся 3 місяці siliconangle.com. Mixtral навчений з нуля з MoE-маршрутизацією.Лише текст (підтримка багатьох мов, коду)Відкритий (ліцензія Apache 2.0 – вільно для будь-якого використання)– Мала модель із великою продуктивністю (7B ≈ 13B+ інших відкритих) siliconangle.com;
Mixtral MoE перевершує моделі 70B при значно менших витратах mistral.ai;
– Повністю відкрита ліцензія, легка інтеграція
– Абсолютна продуктивність все ж нижча за найбільші закриті моделі на дуже складних завданнях;
– Дуже новий продукт — менша екосистема/підтримка;
– Базові моделі потребують налаштування безпеки (без інструкцій можуть створювати що завгодно)
Apache 2.0 (дуже ліберальна; практично без обмежень).
Cohere Command R (Cohere)2024 (останній випуск)Трансформер (щільний), налаштований під чат; з довгим контекстом35 млрд (Command R) huggingface.co;
(також доступний більший “Command R+”)
Навчений на великому багатомовному корпусі (10+ мов) huggingface.co; донавчання за зворотним зв’язком і “агентськими” завданнямиЛише текстГібридний – API-сервіс; дослідницькі ваги доступні (ліцензія CC BY-NC) huggingface.co– Довгий контекст на 128 тис. токенів docs.cohere.com;
– Чудовий у структурних завданнях, роботі з інструментами, інтеграції пошуку docs.cohere.com;
– Орієнтація на бізнес (надійний API, захист, доступність у регіоні)
– Не повністю SOTA за “IQ” (35 млрд параметрів обмежують пік продуктивності);
– API платний (немає безкоштовного загальнодоступного чату);
– Ліцензія на ваги лише для некомерційного використання (обмеження для спільноти)
API за політикою Cohere; відкритий реліз ваг лише для досліджень (CC BY-NC 4.0).

(Примітки до таблиці: “Параметри” для GPT-4 та Gemini приблизні, оскільки офіційно не розкриваються. “Мультимодальність” означає, що модель може працювати з даними, окрім тексту. Відкритість вказує, чи доступні ваги моделі. У стовпці “Ліцензія” коротко зазначено умови використання моделі.)

Тренди, майбутні напрямки та вибір відповідної LLM

Стрімкий розвиток ChatGPT та його альтернатив зробив очевидним одне: можливості ШІ розвиваються з шаленою швидкістю. Нижче наведено основні тренди та їхнє значення для майбутнього, а також рекомендації щодо того, як користувачі чи бізнес можуть орієнтуватися у світі LLM:

Ключові галузеві тренди

  • Мультимодальність – майбутнє: Моделі, що можуть працювати з текстом, зображеннями, аудіо та іншим, стануть стандартом. Це видно на прикладі GPT-4 із підтримкою зображень, Gemini від Google, який з першого дня мультимодальний, а також прагнення Meta впровадити зір у LLaMA. Майбутні LLM зможуть безшовно опрацьовувати скріншоти вебсторінок, таблиці чи транскрипти відео й відповідати на запитання, комбінуючи всі ці джерела. Бізнесу варто очікувати появи ШІ, що розуміє усі типи даних, відкриваючи шлях до багатших застосувань (наприклад, ШІ, який читає макети дизайну, код та продуктові специфікації разом і дає зворотний зв’язок).
  • Довший контекст і пам’ять: Збільшення вікна контексту до 100 000 токенів і більше en.wikipedia.org свідчить, що проблема “забудькуватості” незабаром стане неактуальною. Ймовірно, з’являться моделі, які можуть обробити цілі бази даних чи книжки за один раз. У поєднанні з вдосконаленою генерацією з поліпшеним пошуком (коли модель активно шукає релевантну інформацію), LLM діятимуть як із зовнішньою пам’яттю – завжди маючи під рукою найактуальніші знання. Це зменшить кількість галюцинацій і підвищить точність, оскільки моделі зможуть звертатися до джерел.
  • Відкритість і відкрите ПЗ: Часи, коли найкращими моделями володіли лише кілька компаній, минають. Модель LLaMA 3 405B від Meta досягла рівня закритих моделей ibm.com – це змінює правила гри. Стартапи на зразок Mistral доводять, що інновації можливі навіть у невеликих командах. Очікується бум спеціалізованих відкритих моделей (для медицини, права, фінансів тощо) та поява кращих інструментів для донавчання і розгортання. Для організацій, що турбуються про конфіденційність, це чудова новина – тепер можна запускати потужний ШІ на власних серверах. Технологічні гіганти теж рухаються в цьому напрямку: Google випустив Gemma, Meta відкриває свої моделі – схоже, майбутнє буде гібридним, в якому співіснуватимуть і закриті, і відкриті рішення.
  • Ефективність і нові архітектури: Не всі можуть дозволити собі моделі з трильйонами параметрів, тому зараз робиться акцент на те, щоб моделі були розумнішими, а не лише більшими. Такі підходи як Mixture-of-Experts (MoE) (як у Gemini 1.5 en.wikipedia.org та Mixtral mistral.ai), Low-Rank Adaptation (LoRA) для швидкого донавчання та дистильовані моделі роблять можливим отримання високої продуктивності при меншому розмірі. Тривають дослідження і щодо модульних чи композитних ШІ – наприклад, використання кількох дрібніших спеціалізованих моделей у тандемі (одна для логіки, одна для математики, одна для коду тощо). LLM майбутнього, можливо, буде колективом моделей під капотом.
  • Регулювання і безпека: Через масове використання LLM росте інтерес до їхнього регулювання. Прозорість у даних для тренування, поведінці моделі й інструментах стримування від зловживань (спам, дипфейки тощо) обговорюється на урядовому рівні. Великі компанії вже впроваджують заходи безпеки – Claude від Anthropic має “Constitutional AI”, OpenAI постійно вдосконалює фільтри контенту, Meta додає перевірки на токсичність/упередженість при релізах. Очікуйте появи більше користувацьких налаштувань – наприклад, “повзунок токсичності”, щоб регулювати, наскільки безпечно чи “сирою” має бути модель, або корпоративних панелей для моніторингу результатів ШІ на відповідність вимогам. Також активно розробляється watermarking AI-контенту (OpenAI працює над цим) для виявлення штучного тексту – ймовірно, це стане стандартом.
  • Інтеграція й агентні системи: LLM стають частинами більших агентних систем – як-от autoGPT чи агенти LangChain, які можуть брати висновки ШІ і одразу виконувати дії (переглядати веб, запускати код тощо). GPT-4 від OpenAI має плагіни для виклику API (наприклад, для бронювання квитків чи виконання обчислень). Тренд спрямований на ШІ, який не лише спілкується, а й діє – може користуватися інструментами, оновлювати знання через нові дані й навіть виконувати багатокрокові завдання автономно. Бізнес може впроваджувати агентів для виконання складних робочих процесів (з наглядом людини). Це суттєво розширює можливості LLM, але також вимагає надійних захистів (щоб помилки не поширювалися ланцюжком).
  • Кастомізація та донавчання: Зростає попит на донавчання LLM на власних даних або у стилі бренду. Відкриті моделі це полегшують (можна змінювати самі ваги). Навіть закриті моделі пропонують більше гнучкості – OpenAI впровадив функції викликів і системних повідомлень для керування ChatGPT, а Azure “On Your Data” дозволяє підприємствам використовувати власні дані для інтерпретації. У майбутньому можуть з’явитися персоналізовані LLM – особисті помічники, які знають ваші листи, вподобання, робочі документи (все це безпечно, локально донавчене), і тому надають максимально релевантні відповіді. Інструменти для недорогого донавчання (як LoRA) ставатимуть кращими, тому навіть середній бізнес зможе мати ШІ, пристосований саме під себе.

Як обрати LLM під свої задачі

Стільки різних опцій! Як вибрати LLM? Ось основні критерії:

  • Можливості vs. вартість: Якщо вам потрібна максимальна продуктивність (наприклад, для складної юридичної експертизи чи досліджень на новому рівні), варто розглядати GPT-4, Gemini Ultra або LLaMA 3 405B. Але це дорого (API чи інфраструктура для запуску). Для більшості застосувань достатньо моделей середнього рівня (Claude 2, Cohere Command або відкриті 13B-70B моделі), які мають майже топову якість за невелику плату. Оцінюйте на своїх задачах: наприклад, для генерації коду може вистачити 34B-моделі, донавченої на коді (наприклад, CodeLlama чи WizardCoder) і не потрібно кожного разу запускати GPT-4. Користуйтесь бенчмарками як орієнтиром, але також тестуйте свої реальні кейси.
  • Відкритість і контроль: Якщо критично важлива приватність даних чи розгортання на власних серверах (медицина, фінанси, держоргани), обирайте відкриті LLM. LLaMA 2, LLaMA 3, Mistral/Mixtral, Falcon тощо можна розгортати локально без передачі даних стороннім. Також це дає можливість аудиту моделі (наприклад, на упередженість). Недолік — потрібно мати команду для обслуговування. Закриті API (OpenAI, Anthropic тощо) все це беруть на себе — вони керують масштабуванням, оновленнями й безпекою, що може бути зручно, якщо ваші завдання дозволяють працювати в хмарі. Деякі обирають гібрид: загальні задачі — через сервіс, конфіденційні — через локальні моделі.
  • Довжина контексту: Чи потрібно аналізувати дуже великі документи чи вести довгу бесіду з ШІ? Якщо так, для вас вирішальною може бути підтримка 100 000 токенів у Claude чи 128 000 у Cohere. Якщо потрібно підсумовувати книжки чи аналізувати об’ємні контракти — обирайте модель із довгим контекстом. Відкриті моделі також підтягуюсь у цій сфері (деякі модифіковані LLaMA вже дають 32k+ токенів), але “королі” довгого контексту зараз — Claude і Command R.
  • Мультимодальність: Якщо хочете, щоб ШІ аналізував не тільки текст, а й зображення чи діаграми, наразі це можуть GPT-4 із баченням (через ChatGPT Plus) та Gemini. Інші теж скоро підтягнуться, але станом на 2025 рік OpenAI і Google є лідерами у цій сфері. Якщо це критично (наприклад, треба аналізувати скріншоти UI або графіки) — вибір обмежується цими платформами.
  • Спеціалізація по домену: Деякі моделі краще пристосовані до певних сфер. Наприклад, для медичних відповідей краще підійде Med-PaLM від Google чи донавчена відкрита модель для Медицини, аніж звичайний ChatGPT. Для допомоги з кодуванням оптимальні Code Llama або code-davinci від OpenAI. Моделі Cohere добре справляються з бізнес-документами. Завжди перевіряйте, чи існує спеціалізована модель — вона може давати кращі результати для вузьких задач. Якщо ж такої немає, її можна створити самостійно (донавчивши загальну модель на своїх доменних даних).
  • Безпека та модерація: Різні постачальники мають різні підходи. OpenAI досить суворий (ChatGPT часто відмовляється від потенційно ризикованих запитів). Claude від Anthropic теж суворий, але намагається переформулювати прохання так, щоб воно стало безпечним. Відкриті моделі — роблять усе, що ви їм скажете (обмеження з’являються лише, якщо додатково донавчати й змінювати). Для публічних застосунків краще використати модель з вбудованою модерацією або підключити додаткові фільтри. Якщо репутація бренду важлива, модель, схильна до “грубощів” чи ризикованих відповідей — це загроза. Корпоративні рішення (Cohere, Azure OpenAI) часто пропонують додаткові фільтри чи аудити. Оцініть, наскільки критично, щоб модель “поводилася добре” навіть без великих налаштувань з вашого боку.
  • Ліцензія та умови: Переконайтеся, що ліцензія моделі відповідає вашим цілям. OpenAI та інші забороняють деякі застосування (наприклад, генерування дезінформації чи обробку певних типів персональних даних). Ліцензія LLaMA від Meta забороняє використовувати модель для покращення іншої моделі (щоб не тренували конкурентів). Якщо ви хочете вбудовувати модель у продукт, прочитайте всі пункти. Відкриті ліцензії, як Apache/MIT, найбільш вільні (майже без обмежень). Деякі відкриті моделі (LLaMA 2) вимагатимуть атрибуції або поділитися доопрацюваннями. І, як зазначено, для великих компаній зверніть увагу на обмеження за масштабом (наприклад, “700M користувачів” у Meta).

Що далі?

Конкуренція між ChatGPT, Claude, Gemini, LLaMA та іншими значно сприяє користувачам і бізнесу – якість ШІ зростає, а вибір стає ширшим. Далі буде ще більше зближення ринків: закриті моделі перейматимуть відкритість (OpenAI вже обіцяє випустити набір інструментів для безпечного хостингу моделей на серверах клієнта; Google відкриває дрібні моделі), а відкриті – впроваджуватимуть останні досягнення із закритих досліджень.

Для користувачів це означає більше вибору і, ймовірно, нижчі витрати. Запуск потужного ШІ невдовзі може стати таким же дешевим, як і хостинг веб-сервера, завдяки оптимізації. Бізнеси, ймовірно, використовуватимуть портфоліо LLM: можливо, закриту топову модель для критичних кроків міркування, відкриту модель для підсумування чутливих даних і декілька спеціалізованих моделей для завдань на кшталт OCR чи кодування.

Обираючи “правильну” LLM, пам’ятайте: універсального рішення не існує. Визначте, що для вас означає “правильна” – найшвидша? найдешевша? найточніша? найконфіденційніша? – і скористайтеся наведеними вище порівняннями як орієнтиром. Найприємніше те, що багато з цих моделей можна спробувати безкоштовно або за мінімальну вартість (наприклад, за допомогою безкоштовних тестових періодів чи відкритих завантажень). Гарною практикою є прототипування вашого кейсу з 2–3 різними моделями, щоб оцінити якість результату й потім приймати рішення.

Одне можна сказати напевно: LLM залишаться з нами і ставатимуть ще кращими. Мати пильний погляд на цю динамічну сферу – мудре рішення. Підписуйтесь на новини про ШІ, випробовуйте нові релізи моделей (здається, новий “GPT-вбивця” з’являється кожні кілька місяців!), і, можливо, будуйте відносини з кількома постачальниками штучного інтелекту, щоб бути впевненими, що у вас завжди під рукою найкращий інструмент. Чи ви є кінцевим користувачем, який хоче розумного помічника, чи компанією, яка бажає впровадити ШІ у свої продукти – вибір ще ніколи не був настільки захопливим.

У цю нову епоху ШІ знання – це сила: і знання, які містять ці LLM, і знання про їхні відмінності. Сподіваюся, цей звіт озброїв вас другим, щоб ви могли максимально використати перше.

Tags: , ,