ChatGPT vs. svět: Uvnitř dnešních nejlepších AI jazykových modelů

Úvod: Může umělá inteligence napsat vaši seminární práci, opravit chyby v kódu a naplánovat večeři lépe než vy? Velké jazykové modely (LLMs) jako ChatGPT vtrhly do hlavního proudu a ohromily svět konverzacemi připomínajícími lidi a supernabitými vědomostmi. Jen dva měsíce po spuštění dosáhl ChatGPT 100 milionů uživatelů – nejrychleji rostoucí aplikace v historii reuters.com. Tyto AI kouzelníky pohání neuronové sítě s miliardami až biliony parametrů, vytrénovaných na oceánech textů. Nejnovější model ChatGPT od OpenAI (GPT-4) je odhadován na ohromujících 1,8 bilionu parametrů explodingtopics.com, a využívá pokročilou architekturu „mixture-of-experts“ pro ještě větší inteligenci. Ale OpenAI není samo – konkurenti jako Anthropicův Claude, Google DeepMindův Gemini, Meta LLaMA, Mistral AI Mixtral a další soupeří o korunu LLM. Každý má svou vlastní architekturu, přednosti i zvláštnosti.
V této obsáhlé zprávě demystifikujeme LLMs – jak fungují a proč jsou tak významné – a pak se podíváme zblízka na ChatGPT a jeho největší konkurenty. Porovnáme jejich technické parametry, schopnosti (včetně multimodálních triků jako práce s obrázky!), otevřenost i výhody a nevýhody, které mohou ovlivnit vaše zážitky s AI. Na závěr přidáme trendy a tipy, jak vybrat správný AI model podle vašich potřeb. Připoutejte se na vzrušující prohlídku současné AI scény!
Úvod do LLMs: Jak fungují a proč jsou revoluční
Co jsou LLMs? Velké jazykové modely jsou AI systémy, které se učí rozumět a generovat text. Jsou založené na architektuře Transformer, která využívá mechanismů „self-attention“ k učení vzorů v jazyce. Prakticky to znamená, že LLM čte obrovská množství textu a učí se předpovídat další slovo ve větě. Trénováním na miliardách či bilionech slov (knihy, weby, kód, cokoliv vás napadne) si tyto modely osvojují téměř neuvěřitelně dobrý cit pro jazyk, fakta a občas i určité rozumování. Moderní LLMs jsou nejprve předtrénovány na obecném korpusu (učí se doplňovat či pokračovat v textu) a poté často dolaďovány na specifické úkoly či instrukce en.wikipedia.org en.wikipedia.org. K vyladění na lidské preference se používají techniky jako reinforcement learning from human feedback (RLHF), takže modely jsou lepší v dodržování pokynů a zůstávají užitečné anthropic.com anthropic.com.
Obrovský rozsah: „Velké“ v LLM opravdu znamená obrovské – rané Transformer modely jako GPT-2 měly 1,5 miliardy parametrů, dnes je běžné pracovat se stovkami miliard a nejnovější modely překračují dokonce bilion. Například GPT-3 měl 175 miliard parametrů a architektura GPT-4 (byť oficiálně neodhalená) údajně využívá asi 8 modelů × 220B parametrů každý (≈1,76 bilionu) explodingtopics.com explodingtopics.com. Tento rozsah dává LLMs mimořádnou „paměť“ trénovacích dat a schopnost generovat velmi plynulý a kontextově relevantní text. Současně jsou však velmi náročné na zdroje – trénink GPT-4 údajně stál přes 100 milionů dolarů na výpočetním výkonu explodingtopics.com a vědci varují, že příští generace modelů se mohou vyšplhat na 10 miliard dolarů za trénink do roku 2025 explodingtopics.com. Pro běh těchto modelů jsou potřeba výkonné GPU nebo specializovaný hardware.
Kontext a „paměť“: LLMs sice přímo nerozumí jako lidé, ale používají tzv. okno kontextu, ve kterém si drží historii konverzace nebo dokumentu. Rané modely zvládaly okolo 2k tokenů (~1500 slov), nové mají obří délky kontextu – Anthropicův Claude 2 přijme až 100k tokenů (asi 75 000 slov) a Google Gemini 1.5 experimentoval s ohromujícím kontextem až 1 milion tokenů en.wikipedia.org. Díky tomu LLM zvládne zpracovat celou knihu nebo hodiny dialogů najednou, což umožňuje dlouhé konverzace a hlubokou analýzu. Na druhou stranu delší kontext znamená vyšší náročnost na výpočet a může rozostřit pozornost na to důležité en.wikipedia.org.
Multimodalita: Zatímco rané LLMs pracovaly pouze s textem, dnešním vrcholem jsou multimodální modely, které zvládnou obrázky, zvuk nebo video zároveň s textem. „Multimodální LLMs“ umí popsat obrázek, vygenerovat grafiku podle zadání nebo přijmout hlasový vstup. Například OpenAI GPT-4 dokáže interpretovat obrázky (jako ChatGPT Vision) a Google Gemini je od základu navržený pro multimodalitu – zpracovává text, obrázky a další en.wikipedia.org en.wikipedia.org. To otevírá cestu k AI, která nejen čte a píše, ale i vidí a mluví.
Emergentní schopnosti a omezení: Jak LLMs rostly, začaly vykazovat nové schopnosti – řešit matematické slovní úlohy, psát kód, skládat zkoušky – úkoly, které nebyly přímo programované. Například GPT-4 dosáhl na bar examu téměř 90. percentilu (GPT-3.5 jen kolem 10. percentilu) law.stanford.edu a zvládá špičkové výsledky v řadě akademických a profesních testů. Tyto modely vynikají v generování koherentního, kontextově přesného textu a umí být velmi kreativní. Zároveň však mají dobře známé slabiny. Halucinují – vytvářejí sebevědomě znějící, ale chybné nebo nesmyslné odpovědi en.wikipedia.org. Chybí jim skutečné porozumění nebo hlubší logika a mohou mít problém s komplexnějšími úkoly či s aktuálními událostmi mimo tréninková data. Navíc uzavřené modely jsou černé skříňky: často nevíme, proč odpověděly, jak odpověděly, a jejich znalosti jsou omezené datem uzávěrky trénovacích dat (například ChatGPT mělo dlouho znalosti jen do podzimu 2021).
Otevřené vs. uzavřené modely: Některé LLMs jsou open-source nebo open-weight, tedy s volně dostupnými vahami modelu pro kohokoliv k využití či dalšímu tréninku. To podporuje komunitu vývojářů a zvyšuje transparentnost. Meta tuto vlnu odstartovala v roce 2023 s LLaMA a další, jako Mistral AI nebo Cohere, následovaly s výkonnými otevřenými modely. Otevřené modely umožňují vlastní aplikace, provoz ve firmě i auditování chování AI mistral.ai ibm.com. Naopak přední modely (OpenAI a Google) jsou uzavřené, dostupné jen přes API nebo omezené rozhraní. Uzavřené modely jsou často nejsilnější, ale vyžadují „důvěru v poskytovatele“ a s sebou nesou i různá omezení v použití.
S tímto základem se pojďme seznámit s hlavními LLMs, které dnes určují AI scénu – jejich konstrukcí, výhodami, nevýhodami a vzájemným srovnáním.
ChatGPT (OpenAI): průkopník konverzační AI
Přehled: ChatGPT od OpenAI je AI, která rozpoutala veřejné nadšení. Spuštěná zdarma jako chatbot v listopadu 2022 se stala senzací díky schopnosti vést přirozené dialogy, řešit různé problémy a generovat téměř libovolný text na přání. V lednu 2023 měla odhadem už 100 milionů uživatelů, čímž se stala nejrychleji rostoucí spotřebitelskou aplikací v historii reuters.com. ChatGPT pohání modely série GPT od OpenAI – nejprve GPT-3.5 (vyladěný model s 175 miliardami parametrů z roku 2020) a dnes pro platící uživatele zejména GPT-4. GPT-4 je obří neuronová síť typu Transformer, o které se nyní spekuluje, že využívá architekturu Mixture-of-Experts s asi 1,7–1,8 bilionu parametrů rozložených do 8 expertních modelů explodingtopics.com explodingtopics.com. OpenAI detailní informace nepotvrdila, ale GPT-4 je jednoznačně daleko větší a pokročilejší než předchozí modely.
Trénink a technologie: Modely GPT jsou transformatory pouze s dekodérem trénované na obrovských textových datasetech (GPT-4 byla trénována na textech a kódech z internetu, knih, Wikipedie atd., pravděpodobně v řádu bilionů tokenů). Model se učí předpovídat další token v sekvenci, což jej během tréninku naučí gramatiku, fakta a určitou úroveň logického uvažování. Po předtrénování prošel ChatGPT laděním instrukcí a RLHF – OpenAI nechala lidi poskytovat zpětnou vazbu k výstupům modelu a využila posilovacího učení, aby model uměl následovat instrukce a byl uživatelsky vstřícný anthropic.com anthropic.com. Právě proto ChatGPT vysvětluje odpovědi krok za krokem nebo odmítá nevhodné požadavky na základě ochranných opatření. GPT-4 zavedlo multimodální schopnosti: může přijímat obrazové vstupy a popisovat nebo analyzovat je (ChatGPT Vision). Také rozšířilo kontextové okno až na 32 000 tokenů (asi 24 000 slov) v rámci vydání v roce 2023, což umožňuje zpracovávat dlouhé dokumenty nebo rozsáhlé dialogy explodingtopics.com.
Použití a integrace: ChatGPT je dostupný prostřednictvím webového rozhraní pro chat a API OpenAI, což umožňuje snadný přístup komukoli. Nyní je integrován do nespočtu produktů – například Microsoft Bing Chat a funkce Copilot využívají GPT-4 v zákulisí a mnoho aplikací nabízí pluginy ChatGPT. Tato široká dostupnost spolu s náskokem OpenAI dala ChatGPT výhodu prvního tahouna při získávání uživatelů a pozornosti vývojářů reuters.com reuters.com. Lidé jej využívají k pomoci s psaním, asistenci při programování, výzkumu, doučování, kreativnímu brainstormingu, zákaznickým chatbotům – využití je takřka neomezené. OpenAI také nabízí doladění (fine-tuning) pro modely GPT-3.5, aby si firmy mohly ChatGPT přizpůsobit na specializované úkoly (přičemž fine-tuning pro GPT-4 je na obzoru).
Silné stránky: ChatGPT (zejména s GPT-4) je v mnoha oblastech stále považován za zlatý standard. Disponuje pozoruhodně širokými znalostmi (díky tréninku prakticky na celém internetu). Produkuje plynulé, koherentní a kontextově relevantní odpovědi ve více jazycích. Daleko lépe zvládá složité úlohy z oblasti uvažování a programování než dřívější modely – např. GPT-4 dokáže řešit složité slovní úlohy z matematiky a psát rozsáhlý kód, a proslul také tím, že složil mnoho profesionálních zkoušek (Bar, LSAT apod.) v nejvyšších percentilových rozmezích law.stanford.edu. ChatGPT je také velmi uživatelsky vstřícný: byl navržen tak, aby následoval instrukce a poskytoval podrobné odpovědi, a díky RLHF většinou odpovídá užitečně a bezpečně. Vyniká proto při kreativních úlohách jako je psaní příběhů nebo brainstorming, dokáže však i dobře vysvětlit nebo naučit složitější koncepty. Jeho velký kontext umožňuje zpracovat rozsáhlé vstupy (například celé články) a efektivně vést víceotáčkové konverzace. Nakonec je velkým plusem síťový efekt – existuje tolik pluginů, integrací a komunitních fór pro ChatGPT, že uživatelé mají k dispozici bohatý ekosystém.
Slabé stránky: Přes své schopnosti má ChatGPT významná omezení. Tím největším je tendence k halucinování informací – může sebejistě uvádět nepravdivá fakta či si informace zcela vymýšlet en.wikipedia.org. Například může citovat studie nebo zákony, které neexistují, protože model předpoví pravděpodobnou odpověď i v případě nejistoty. Občas má také problém s velmi aktuálními událostmi (v závislosti na datu ukončení znalostí; tréninková data GPT-4 sahají do poloviny roku 2021, s omezenými aktualizacemi přes Bing u novějších informací). Dalším nedostatkem je nedostatečná transparentnost – jelikož jde o uzavřený model, neznáme přesné datové zdroje ani vnitřní fungování, což může být problémové, pokud model vydává zaujatý nebo chybný obsah. Ochranné mantinely OpenAI, byť jsou důležité kvůli bezpečnosti, způsobují, že ChatGPT odmítá některé dotazy nebo produkuje obecné „Jako AI nemohu…“ odpovědi, což může být pro některé uživatele frustrující. Co se týče výkonu, GPT-4 je sice silný, ale pomalý a drahý na provoz; bezplatná verze (GPT-3.5) je někdy znatelně slabší v uvažování či přesnosti. Nakonec používání ChatGPT vyžaduje důvěru v OpenAI – protože model není open-source a využívá se přes jejich platformu, je otázkou ochrana soukromí dat a závislost na službách OpenAI (zejména pro firmy).
Stručně řečeno, ChatGPT zůstává průlomovým univerzálním AI asistentem se špičkovými schopnostmi napříč všemi oblastmi, ale jeho uzavřenost a občasné dezinformace dávají prostor konkurentům – a ti už skutečně dorazili.
Claude (Anthropic): Etický konverzačník s obrovskou pamětí
Přehled: Claude je LLM vyvíjený společností Anthropic, startupem zaměřeným na bezpečnost AI, který založili bývalí výzkumníci OpenAI. Pokud je ChatGPT oblíbencem mainstreamu, pak je Claude alternativou s důrazem na bezpečnost navrženou tak, aby byl nápomocný, poctivý a neškodný. Anthropic spustil Claude začátkem roku 2023 a v červenci 2023 vydal vylepšený model Claude 2. Claude funguje podobně jako ChatGPT (a je rovněž dostupný přes chatovací rozhraní či API), přičemž Anthropic jej odlišuje zejména etickými metodami tréninku a extrémně velkým kontextovým oknem. Claude 2 byl představen s až 100 000 tokeny kontextu (přibližně 75 000 slov), což znamená, že dokáže zpracovat velmi dlouhé dokumenty nebo dokonce celé knihy najednou en.wikipedia.org. To představovalo řádově větší kontext než GPT-4 v té době, díky čemuž byl Claude zvlášť atraktivní pro úkoly jako masivní textová analýza nebo dlouhé rozhovory, aniž by AI „zapomínala“ na předchozí detaily.
Architektura a trénink: Claude je postaven na architektuře Transformer, podobně jako GPT, a i když Anthropic nezveřejnil přesnou velikost, odhaduje se, že Claude 2 má ~137 miliard parametrů (oproti ~93 mld. u původního Claude 1) datasciencedojo.com. To jej řadí mírně pod GPT-4, ale do stejné kategorie jako např. PaLM 2. Klíčovou inovací Anthropicu je „Ústavní AI“ (Constitutional AI) – tréninková technika, při níž je model veden sadou psaných zásad („ústava“), které určují jeho chování anthropic.com anthropic.com. Místo spoléhání pouze na lidskou zpětnou vazbu, která penalizuje špatný výstup, nechal Anthropic model Claude sám hodnotit a vylepšovat své odpovědi podle explicitního seznamu pravidel, co je považováno za neškodné a užitečné. Například ústava Claude čerpá ze Všeobecné deklarace lidských práv a dalších etických směrnic anthropic.com anthropic.com. Tento přístup má vést k tomu, že model sám odmítá nevhodné požadavky a vyhýbá se toxickému či zaujatému výstupu. V praxi je Claude velmi zdrženlivý k poskytnutí zakázaného obsahu – zdvořile odmítne žádosti o násilí, nenávist, nezákonné jednání apod., odkazujíc se na své zásady. Anthropic také poznamenal, že AI zpětná vazba (tedy využití samotného modelu k posouzení svých výstupů podle ústavy) je lépe škálovatelná a šetří lidské hodnotitele nevhodnému obsahu anthropic.com anthropic.com.
Schopnosti: Výkonnost Claude se podle úlohy pohybuje přibližně v rozmezí GPT-3.5 až GPT-4. Je velmi dobrý v dlouhých dialozích a udržení kontextu díky enormní paměti. Uživatelé například vložili do Claude celý román a nechali jej analyzovat nebo upravovat příběh. Dokáže i strukturované úkoly, jako je sumarizace přepisů, psaní kódu nebo odpovídání na dotazy, přičemž kvalita je často srovnatelná s ChatGPT. V některých benchmarcích dosahuje Claude 2 úrovně GPT-4. (Koncem roku 2023 už Anthropic testoval Claude 2.1 a vyvíjel další generaci, přičemž Claude 3 se chystal výrazně rozšířit.) Claude je také multijazyčný a zvládá angličtinu, francouzštinu atd., jeho hlavní síla ale spočívá v angličtině. Anthropic tvrdí, že Claude méně halucinuje a produkuje méně škodlivý obsah, díky způsobu tréninku; bývá obezřetnější a odmítnutí nebo nejisté odpovědi často podrobněji vysvětlí. Významnou funkcí je velký výstupní limit (umí generovat velmi dlouhé odpovědi, využívaje obrovské kontextové okno), což je užitečné například pro tvorbu rozsáhlých textů nebo dokumentů.
Přístup a použití: Zpočátku byl Claude nabízen přes API (a během bety byl znám zejména díky integraci s chatovacím asistentem pro Slack). Později Anthropic otevřel webové rozhraní (claude.ai) pro přímé užití. Aktuálně je dostupný zdarma s určitými limity a Anthropic též spolupracuje s firmami (Claude je dostupný například na platformách jako AWS Bedrock). Claude zatím nemá tolik spotřebitelských integrací jako ChatGPT, ale některé produkty (např. Poe od Quory) nabízejí Claude jako možnost. Díky důrazu Anthropicu na bezpečnost může být Claude preferován v podnikovém nebo vzdělávacím prostředí, kde je klíčová kontrola chování AI.
Silné stránky: Největšími silnými stránkami modelu Claude je jeho obrovské kontextové okno – dokáže přijmout a analyzovat mnohem více informací najednou než většina konkurentů, což je neocenitelné například při zpracování dlouhých PDF souborů nebo několikahodinových přepisů schůzek. Je také nastaven na vysoké etické standardy; jen velmi zřídka generuje urážlivý nebo rizikový obsah a často vysvětluje své uvažování, což může budovat důvěru uživatelů. Uživatelé často uvádějí, že Claude má velmi přátelskou a pozitivní osobnost a je dobrý v kreativním psaní. Jeho odpovědi jsou detailní a méně pravděpodobné, že odmítne oprávněný požadavek (snaží se být nápomocný a zároveň dodržovat pravidla). Při programovacích úlohách je Claude 2 konkurenceschopný a má výhodu při zpracování skutečně velkých kódových základů nebo dokumentů díky velikosti kontextu. Další výhodou je, že Anthropic neustále zlepšuje znalosti a schopnosti uvažování modelu Claude – například Claude 2 dosáhl více než 80 % v sadě akademických a programovacích benchmarků, čímž zmenšil náskok GPT-4 ibm.com ibm.com. A konečně, pro organizace nabízí Claude alternativu ke spoléhání se pouze na OpenAI – je vždy dobré mít na trhu další model špičkové úrovně.
Slabé stránky: Claude, ač silný, může někdy působit méně přesně než GPT-4 u nejtěžších úloh. Jeho znalosti mohou být mírně omezenější (pokud má skutečně méně parametrů a trénovacích dat než GPT-4). Má také tendenci rozvádět odpovědi: Odpovědi Clauda mohou být velmi dlouhé a příliš strukturované (někdy zopakuje otázku nebo poskytuje příliš mnoho vysvětlení). Tato rozvláčnost je vedlejším produktem jeho tréninku na maximální nápomocnost a snahu nezapomenout na žádný detail, může však vyžadovat, aby uživatel vedl konverzaci zpět k jádru věci. Přestože se zaměřuje na pravdivost, Claude stále někdy halucinuje – není imunní vůči tomu, že si začne „vymýšlet“, pokud si „myslí“, že by měl odpovědět. Další problém: Dostupnost a integrace. Mimo technologickou komunitu je Claude méně známý než ChatGPT a běžní uživatelé o jeho existenci často ani neví. Jeho uživatelské rozhraní a ekosystém jsou méně rozvinuté (méně doplňků nebo veřejných demoverzí). Také jako uzavřený model (i když ne tak přísně jako OpenAI) vyžaduje přístup k API nebo platformě Anthropicu, což je u některých funkcí na bázi pozvánek. A nakonec, extrémně velké kontextové okno modelu Claude, byť je to prodejní argument, může být někdy pomalé – zpracování 100 000 tokenů může být zdlouhavé nebo nákladné, takže skutečné využití plného okna je stále omezené výpočetními kapacitami.
Ve shrnutí lze říci, že Claude od Anthropicu je jako zodpovědný přítel ChatGPT – možná není tak okázale inteligentní jako GPT-4 v nejlepších chvílích, ale je spolehlivý, velmi dobře chápe kontext a je nastaven na maximální bezpečnost a užitečnost. Je silnou volbou pro úlohy vyžadující zpracování dlouhých textů nebo přísné dodržování etických pravidel.
Gemini (Google DeepMind): Multimodální síla připravená překonat GPT-4
Přehled: Gemini je nejnovější vlajkový LLM model od Google DeepMind, představený na konci roku 2023 jako odpověď Googlu na GPT-4. Nejde jen o jeden model, ale o rodinu modelů zaměřených na různé škály (podobně jako má OpenAI GPT-4 a verze „Turbo“). Vývoj Gemini byl výsledkem spolupráce týmů Google Brain a DeepMind (po jejich sloučení v rámci Google DeepMind v roce 2023) en.wikipedia.org. Od začátku Google prezentoval Gemini jako AI nové generace, která má převýšit ChatGPT díky využití pokročilých technik – včetně těch ze systému AlphaGo (AI hrající Go) pro implementaci plánovacích a problémových schopností en.wikipedia.org. Na rozdíl od mnoha LLM, které zvládají pouze text, je Gemini od základu multimodální. Je navržen tak, aby zpracovával text, obrázky a potenciálně i další modality jako zvuk či video, vše v rámci jednoho modelu en.wikipedia.org en.wikipedia.org. Google v podstatě vyvinul Gemini jako jádro svých AI funkcí ve Vyhledávání, Google Cloud a uživatelských produktech.
Architektura a škálování: Google byl ohledně interních detailů Gemini poměrně zdrženlivý, ale toto je známo. Gemini 1.0 byl spuštěn v prosinci 2023 ve třech úrovních: Gemini Nano (malý, pro mobily/zařízení), Gemini Pro (střední, univerzální), a Gemini Ultra (obrovský, pro nejnáročnější úkoly) en.wikipedia.org. Při svém uvedení byl Ultra největším a nejschopnějším modelem Google – označovaný jako „největší a nejschopnější AI model Googlu“ en.wikipedia.org. Údajně překonal modely OpenAI GPT-4, Anthropic Claude 2, Meta LLaMA 2 70B ad. v mnoha benchmarcích en.wikipedia.org. Gemini Ultra byl dokonce prvním modelem, který překročil 90 % v benchmarku MMLU, čímž překonal i úroveň lidského experta en.wikipedia.org. Ve verzi Gemini 1.5 (začátek 2024) Google oznámil přechod na architekturu Mixture-of-Experts (MoE) a dosažení obřího kontextového okna o velikosti 1 milionu tokenů en.wikipedia.org en.wikipedia.org. MoE znamená, že model obsahuje více sub-modelových „expertů“, z nichž se vždy aktivuje pouze část podle konkrétního dotazu mistral.ai – díky tomu může mít model řádově více parametrů bez odpovídajícího zpomalení. (Lze předpokládat, že Gemini Ultra má parametry v řádu bilionů, podobně jako GPT-4, ale Google přesná čísla nepotvrdil.) Dlouhý kontext (1M tokenů) je zásadní průlom – jde přibližně o celou knihu nebo 700 000 slov v paměti en.wikipedia.org – i když jde pravděpodobně o experimentální funkci s nutností specializované infrastruktury. Koncem roku 2024 bylo ve vývoji Gemini 2.0 a Google vydal také Gemma, menší open-source řadu (2B a 7B parametrů) související s Gemini pro komunitu en.wikipedia.org.
Integrace s produkty Google: Gemini byl rychle začleněn do ekosystému Google. Hned při spuštění byl Bard (chatbot Googlu) povýšen na Gemini (původně Gemini Pro pro většinu uživatelů, verze Ultra pod názvem „Bard Advanced“ byla na čekací listině) en.wikipedia.org. Chytrý telefon Google Pixel 8 získal pro AI funkce Gemini Nano přímo v zařízení en.wikipedia.org. Google také oznámil začlenění Gemini do Vyhledávání (Search Generative Experience nyní používá Gemini pro generování odpovědí), Google Ads (pro generování reklamních textů), Google Workspace (Duet AI) pro návrhy v Dokumentech/Gmailu, Chrome (pro chytřejší asistenci při prohlížení) a dokonce i nástrojů pro vývojáře softwaru en.wikipedia.org. Na začátku roku 2024 zpřístupnil Google Gemini Pro firemním zákazníkům přes cloudovou platformu Vertex AI en.wikipedia.org. Prakticky vzato je Gemini páteřní AI technologií Googlu napříč službami pro spotřebitele i firmy – čímž získává obrovský dopad.
Schopnosti: Gemini patří v mnoha ohledech ke špičce. Vyniká v porozumění jazyku a jeho generování v několika jazycích. Je také specializovaný na kód (jeden z jeho variant je pravděpodobně přizpůsobený pro programování, podobně jako „Codey“ u Google PaLM 2). Multimodální schopnosti znamenají, že mu můžete zadat obrázek a pokládat k němu otázky – podobně jako vision funkce u GPT-4 – nebo nechat vygenerovat popisy. CEO Googlu Sundar Pichai uvedl, že Gemini dokáže vytvářet kontextové obrázky na základě zadaných promptů, což naznačuje možné propojení s generováním obrázků z textu en.wikipedia.org. Díky zapojení DeepMind lze předpokládat, že Gemini zahrnuje také pokročilé strategie uvažování – např. schopnost plánovat a používat nástroje, inspirované AlphaGo, pro řešení složitých úloh (Demis Hassabis naznačil možnost spojení síly AlphaGo s LLM en.wikipedia.org). V benchmarcích, jak už bylo zmíněno, Gemini Ultra v mnoha akademických a „common-sense“ testech vyrovnal nebo předčil GPT-4 en.wikipedia.org. Gemini 1.5 ještě více zvýšil výkon při nižší výpočetní náročnosti (efektivita díky nové architektuře) blog.google blog.google. Je možné s jistotou říci, že Gemini patří mezi nejsilnější modely v letech 2024–2025.
Silné stránky: Jednou z hlavních předností Gemini je multimodalita – zatímco schopnosti GPT-4 rozumět obrázkům jsou poněkud omezené a ne všechny modely ji nabízejí, Gemini byl od počátku navržen tak, aby nativně zvládal více datových typů en.wikipedia.org. To umožňuje bohatší interakce (např. analyzovat obrázkový graf a odpovědět na otázky, nebo na základě popisu na místě vygenerovat obrázek). Další předností je těsná integrace s vyhledáváním/datovými zdroji. Protože Google ovládá jak LLM, tak i index vyhledávače, Gemini poháněný Bard dokáže získávat aktuální informace a citovat zdroje, což snižuje halucinace a udržuje odpovědi aktuální. (Google ukázal, jak Bard provádí živé vyhledávání faktů na Googlu – něco, co ChatGPT zvládá jen s pluginy nebo v režimu procházení.) Výsledky výkonnostního vedení Gemini v benchmarcích jako MMLU ukazují jeho sílu v různorodých oblastech znalostí en.wikipedia.org. Google navíc klade velký důraz na efektivitu a bezpečnost: Gemini 1.5 dosáhl kvality na úrovni GPT-4 s menším výpočetním výkonem blog.google blog.google, což znamená rychlejší a levnější inference. Součástí je i důkladné bezpečnostní testování – veřejné spuštění Gemini Ultra bylo odloženo do dokončení pečlivého red-teamingu en.wikipedia.org. Další výhoda: ekosystém. Vývojáři mohou používat Gemini přes Google Cloud a k dispozici je v dobře známých aplikacích (miliony uživatelů Gmailu nebo Androidu nemusí zakládat nové účty). Pro firmy už využívající platformu Google znamená nasazení služeb Gemini bezproblémovou integraci.
Slabiny/Omezení: V počáteční fázi byla dostupnost Gemini omezená – při spuštění nebyl Gemini Ultra (nejlepší model) okamžitě otevřen všem kvůli bezpečnostním a výpočetním omezením en.wikipedia.org. Přístup měl jen omezený okruh partnerů nebo platících uživatelů, takže široká veřejnost si Gemini mohla nejprve vyzkoušet jen prostřednictvím Barda a s určitými limity. Jako Google produkt je také uzavřený (až na malé modely Gemma). Gemini Ultra není možné stáhnout a spustit lokálně – je třeba používat Google API či rozhraní. Pokud Google změní či aktualizuje model, uživatelé to musí přijmout (jde o pohyblivý cíl, i když se zlepšuje). Další možnou slabinou je důvěra a bias – lidé mohou mít obavy z biasu vzhledem k tomu, že model je trénován na datech vybraných Googlem a je v souladu s jeho pravidly AI bezpečnosti. (Google však zpřístupněním otevřených modelů ukazuje snahu o větší transparentnost en.wikipedia.org.) Je třeba zmínit, že ačkoli je Gemini propojený s vyhledáváním, uživatelé někdy vnímali Bard (Gemini) na začátku jako méně kreativní nebo méně „ochotný riskovat“ než ChatGPT. Spíš se vyhýbal osobním názorům či představivé hypotéze, pravděpodobně kvůli přísnějším pravidlům. To může jeho odpovědi činit více svázané či generické, i když toto chování se často s aktualizacemi mění. Nakonec hraje roli i konkurence – v době, kdy Gemini vyšel, byl GPT-4 už zavedený a otevřené modely od Meta se rychle zlepšovaly. Gemini tak musí svou převahu potvrdit v reálném nasazení, nejen v benchmarcích. Skutečný test ukáže, až ho začne masivně používat více uživatelů v produktech Googlu.
V podstatě je Gemini těžkou váhou Googlu mezi LLM – výkonný, všestranný a hluboce integrovaný. Pokud OpenAI udalo tempo, Google nyní tvrdě usiluje o znovudobytí dominance s AI, která je přítomná všude – od vyhledávače až po váš chytrý telefon.
LLaMA (Meta): Open-Source LLMs pro všechny – od 7B do 405B parametrů
Přehled: LLaMA (Large Language Model Meta AI) je rodina LLM od Meta (mateřská společnost Facebooku), která stojí v čele open-source revoluce v oblasti AI. Meta zvolila jinou strategii než OpenAI/Google – místo pouhého nabízení black-box API uvolnila Meta váhy svých modelů nejprve pro výzkumníky a později pro veřejnost, což umožnilo komukoli je spouštět a dále na nich stavět. Původní LLaMA 1 byla oznámena v únoru 2023 jako sada modelů od 7B do 65B parametrů určených pro výzkumné účely. I když byla LLaMA 1 původně s uzavřenou licencí (pouze pro výzkum), její váhy unikly na internet a brzy ji AI komunita začala ladit pro nejrůznější účely (chatboti, asistenti pro programování atd.). Vzhledem k obrovskému zájmu Meta nasadila vše na open-source s LLaMA 2, představenou v červenci 2023, která již byla open-source (dostupná všem) s benevolentní licencí (umožňující komerční použití za určitých podmínek) siliconangle.com siliconangle.com. LLaMA 2 obsahovala modely s 7B, 13B a 70B parametry plus vyladěné „Chat“ verze. Meta se však nezastavila – v roce 2024 představila LLaMA 3 včetně obřího modelu s 405 miliardami parametrů (Llama 3.1), což je největší otevřeně dostupný LLM v historii a velikostí srovnatelný s uzavřenými modely jako GPT-4 ai.meta.com ibm.com.
Architektura a trénink: Modely LLaMA jsou pouze dekodérové architektury Transformer, podobné konstrukci jako GPT. Jsou trénovány na obrovských textových korpusech; například LLaMA 2 byla trénována na 2 bilionech tokenů dat (dvojnásobek LLaMA 1) originality.ai viso.ai. Důraz byl na různorodý mix zdrojů (veřejná webová data, kód, Wikipedie atd.) s důsledným čištěním dat. Meta si dala za cíl dosáhnout vysoké kvality i v menším měřítku díky tréninkové efektivitě – LLaMA 1 překvapila svět tím, že 13B model překonal GPT-3 (175B) v řadě úloh siliconangle.com. Umožnilo to použití více tokenů a pečlivé ladění. LLaMA 2 70B dále posílila výkon v oblasti kódování a uvažování. LLaMA 3 už nejenže navýšila počet parametrů (až na 405B), ale také zlepšila podporu pro více jazyků, délku kontextu a u některých variant přidala i vizuální podporu ai.meta.com ai.meta.com. (Meta avizovala, že LLaMA 3 bude multimodální a skutečně později vydala i vision modely Llama ai.meta.com.) Velký model Llama 3.1 405B údajně využívá grouped-query attention a další optimalizace pro práci s delším kontextem až kolem 32k tokenů, detaily jsou však vysoce technické. Důležité je, že Meta zveřejňuje jak předtrénované modely, tak instručně vyladěné verze (např. Llama-2-Chat, Llama-3.1-Instruct), které jsou již z výroby sladěné pro dialog.
Otevřené váhy a komunita: Díky otevřenosti LLaMA došlo k explozi inovací ze strany komunity. Po úniku LLaMA 1 ji výzkumníci vylepšovali a vznikly modely jako Alpaca (Stanfordský 7B model trénovaný na výstupech GPT), Vicuna, WizardLM a nespočet dalších variant – často za velmi nízké náklady – což ukázalo, že menší otevřené modely mohou dosahovat překvapivě vysoké kvality. Po oficiálním otevření LLaMA 2 (ve spolupráci s Microsoft/Azure) začaly firmy a start-upy využívat LLaMA jako základ pro své vlastní modely bez právních rizik spojených s únikem siliconangle.com siliconangle.com. Společnosti jako IBM, Amazon a další zařadily modely rodiny LLaMA do svých cloudových služeb ibm.com ibm.com. Uvolněním 405B modelu Meta v podstatě dorovnala měřítko špičkových proprietárních modelů a dala komunitě obrovský prostor pro experimenty ibm.com ibm.com. Tento 405B model (Llama 3.1 405B) prokázal výkon srovnatelný s nejlepšími uzavřenými modely v různých benchmarcích – například dosáhl 87,3 % v MMLU, tedy téměř totožně s GPT-4 i Claude 3 v tomto testu ibm.com. Skvělých výsledků dosáhl také v programování (HumanEval), porozumění textu a dalších oblastech, často dorovnával nebo překonával GPT-4 Turbo a Google Gemini ve vnitřních testech ibm.com ibm.com.
Aplikace a případy použití: Protože kdokoli může spouštět modely LLaMA lokálně (se dostatečným hardwarem) nebo na vlastních serverech, tyto modely našly využití v celé řadě aplikací. Lidé LLaMA dolaďovali pro specializované domény: chatboty s lékařskou radou, analyzátory právních dokumentů, chatboti pro hraní rolí, asistenti pro kódování a výzkumné nástroje. Modely LLaMA 2 7B a 13B je dokonce možné provozovat na výkonných noteboocích nebo chytrých telefonech (při kvantizaci), což umožňuje AI na okraji sítě. LLaMA se také stala výzkumnou platformou – vědci ji využívají ke studiu chování modelů, jejich sladění a technik efektivity, protože mohou přímo zkoumat jejich váhy. Sama Meta integrovala LLaMA do svých spotřebitelských produktů: na konci roku 2023 spustila Meta Meta AI Assistant pro WhatsApp, Instagram a Messenger, který byl původně poháněn LLaMA 2 a později upgradován na LLaMA 3 about.fb.com about.fb.com. Tento asistent umí odpovídat na otázky v chatu, generovat obrázky (příkazy „/imagine“) a má AI osobnosti s tématikou celebrit, což v reálném prostředí ukazuje schopnosti LLaMA.
Silné stránky: Zjevnou výhodou je otevřenost. Přístup k vahám modelu znamená plnou transparentnost a kontrolu – vývojáři mohou model přizpůsobit (dolaďovat na vlastních datech), zkoumat ho kvůli zaujatosti nebo slabinám a nasadit bez nutnosti odesílat data do cloudové služby třetí strany. To je skvělé pro soukromí a citlivé aplikace. Modely LLaMA jsou také vysoce efektivní z hlediska výkonu na parametr. Menší modely LLaMA (7B, 13B) překonávají svou kategorii a umožňují poměrně dobrý výkon i na slabším hardwaru siliconangle.com. Největší modely LLaMA (70B, 405B) prokázaly světovou úroveň schopností ibm.com ibm.com. Další síla spočívá v podpoře komunity – s tisíci přispěvatelů je k dispozici mnoho vylepšení: knihovny na kvantizaci ke zmenšení modelu, návody na doladění modelu a rozšíření pro delší kontext či paměť. Meta také integrovala do LLaMA 2 a 3 bezpečnostní prvky, vydala modelové karty a politiku přijatelného využití; otevřené modely nejsou ve výchozím nastavení „nezřízené“ – chatovací verze jsou rozumně nastaveny, aby negenerovaly zakázaný obsah (byť ne tak přísně jako uzavřené AI, což někomu vyhovuje). Velkou výhodou je také univerzálnost nasazení on-premise pro firmy, které řeší správu dat. Rychlá iterace v Metě (od LLaMA 1 po 3 asi za rok) ukazuje, že se Meta snaží držet otevřené modely na špici.
Slabé stránky: Přes veškeré nadšení mají modely LLaMA i svá úskalí. V základu jsou menší modely (7B/13B) stále slabší než giganti jako GPT-4 – mohou mít potíže se složitým uvažováním, poskytovat obecnější odpovědi nebo selhávat při velmi detailních dotazech. Doladění to může zmírnit, ale vyžaduje to práci. Největší LLaMA (405B) je velmi výkonná, avšak inference není triviální – spuštění modelu 405B vyžaduje obrovské množství paměti (stovky GB VRAM) a je pomalé; většina uživatelů využije cloudové služby, případně kvantizované verze s určitou ztrátou kvality. Otevřené modely také postrádají rozsáhlé dolaďování RLHF, jaké má ChatGPT – komunitní dolaďování existuje, ale často není tak důkladné. To znamená, že základní otevřené modely mohou někdy produkovat neupravené nebo méně uhlazené výstupy (což může být klad i zápor). Halucinace a nepřesnosti stále představují problém; LLaMA 2 Chat byla slušná, ale ne imunní vůči vymýšlení informací. Další problém: odpovědnost. Pokud nasadíte otevřený model sami, nemáte filtry ani zásady obsahu od OpenAI nebo Googlu – zabránění zneužití je na vás. To je posilující, ale i rizikové (někdo může otevřený model doladit ke škodlivým účelům, což se často řeší). Licence Meta pro LLaMA obsahuje významné omezení: pokud má vaše aplikace přes 700 milionů uživatelů (tedy v podstatě pokud jste úrovně Google nebo OpenAI), máte povinnost získat od Mete speciální licenci huggingface.co huggingface.co – pro většinu uživatelů to však není relevantní, ale stojí za zmínku. Poslední otázkou je podpora a odpovědnost: pokud se otevřený model „rozbije“, neexistuje žádná hotline; spoléháte na fóra komunity, což některé firmy může odrazovat.
Celkově vzato, LLaMA demokratizovala AI. Dokázala, že špičkové jazykové modely nemusí být střeženým pokladem několika firem – pokud zvládnete technickou stránku, můžete mít vlastní model na úrovni GPT. S tím, jak LLaMA 3 (405B) dosahuje stejných výsledků jako proprietární AI v mnoha úlohách ibm.com ibm.com, se rozdíl mezi otevřenými a uzavřenými modely v zásadě smazal. Meta sází na budoucnost, kde otevřené modely budou standardem pro vývojáře (a Meta AI Assistant ukazuje jejich využití v produktech). Pro uživatele a firmy nabízí LLaMA svobodu a flexibilitu: výkonný nástroj, který si můžete uzpůsobit bez zásahu korporátního správce.
Mistral a Mixtral: malý startup s velkými plány v otevřené AI
Přehled: Mistral AI je francouzský startup, který v roce 2023 vtrhl na scénu s ambiciózní misí: vybudovat nejlepší otevřené LLM na světě a s malým týmem a inovativními nápady vyzvat velké hráče. Jen čtyři měsíce po svém vzniku (a velkém investičním kole €105M) vydal Mistral Mistral 7B v září 2023 – model o 7,3 miliardách parametrů, který okamžitě nastavil nový standard ve své velikostní kategorii siliconangle.com siliconangle.com. Přestože je ve srovnání s GPT-4 malý, Mistral 7B dokázal překonat všechny otevřené modely do 13B a vyrovnat se dokonce některým 34B modelům v běžných benchmarcích siliconangle.com. Byl kompletně open-source (licence Apache 2.0) a bez jakýchkoli omezení použití siliconangle.com siliconangle.com, což odpovídá filozofii Mistralu, že otevřené modely podporují inovace. Společnost tím neskončila u hustého modelu – v prosinci 2023 představili Mixtral 8×7B, řídký model Mixture-of-Experts, který posunul laťku otevřené AI efektivity ještě výš mistral.ai mistral.ai. „Mixtral“ (slovní hříčka z Mistral + Mixture) ukazuje ochotu Mistralu zkoumat pokročilé architektury mimo běžné škálování Transformerů.
Designová filozofie: Základní přesvědčení Mistralu je, že otevřená řešení rychle překonají proprietární díky využití komunitního přispění a technické excelence mistral.ai mistral.ai. Výslovně přirovnávají prostředí AI k předchozím technologickým epochám, kdy open-source nakonec převládl (např. Linux u OS, Kubernetes v cloudu) mistral.ai. Otevřeným vydáváním výkonných modelů chtějí dát vývojářům možnost, vyhnout se centralizované kontrole či „AI oligopolu“ a umožnit přizpůsobení, které uzavřená API neumožňují mistral.ai mistral.ai. Znamená to i důraz na efektivitu: místo pouhého vytváření monstrózního modelu s extrémními výpočetními nároky se Mistral snaží získat víc s menšími prostředky. Trénink Mistral 7B zahrnoval návrh sofistikovaného datového pipeline od nuly za 3 měsíce mistral.ai a maximalizaci počtu trénovacích tokenů a technik, aby model překonal svou váhovou třídu. Jeho výkon – dosažení ~60 % MMLU, čehož historicky dosahovaly až stonásobně větší modely – byl důkazem konceptu mistral.ai. Tým vedou bývalí výzkumníci z Meta a Googlu (jeden ze spoluzakladatelů vedl vývoj LLaMA v Meta siliconangle.com), což jim dává silné odborné zázemí.
Mistral 7B: Tento model má 7,3 miliardy parametrů, kontext pro 8 000 tokenů a byl trénován na kurátorsky vybíraném, vysoce kvalitním datasetu (přesné detaily nejsou plně veřejné, ale pravděpodobně šlo o podobné zdroje jako LLaMA). Po svém vydání předvedl Mistral 7B vynikající schopnosti v generování prózy, sumarizaci a dokonce i doplňování kódu siliconangle.com siliconangle.com. CEO Mistralu se pochlubil, že jeho výkonnost se vyrovná modelu LLaMA o velikosti 34B na mnoha úlohách siliconangle.com, což je ohromující vzhledem k rozdílu ve velikosti modelů. Navíc běžel mnohem rychleji a levněji, což ho činí ideální volbou pro aplikace vyžadující nízkou latenci či provoz na omezeně výkonném hardwaru siliconangle.com. V podstatě Mistral 7B ukázal, že při správném tréninku malý model zvládne úkoly velkého modelu – což je vítězství ve smyslu efektivity. Díky licenci Apache-2.0 jej firmy mohly svobodně integrovat. Lidé také rychle začali Mistral 7B jemně dolaďovat na instrukce (firma později vydala oficiální verzi Mistral-7B-Instruct) a model se stal populární základnou pro chatboty na smartphonech či v open-source chatovacích aplikacích.
Mixtral 8×7B (Sparse MoE model): Tady přišel Mistral se skutečnou inovací. Tradiční LLM jsou „husté“ – každý parametr je využíván pro každý zpracovávaný token. Mixtral zavedl řídkost: má 8 expertních subnetworků (každá asi 7B parametrů) a řídící síť, která zapíná jen 2 experty na token mistral.ai mistral.ai. Výsledek? Model má celkově 46,7 miliardy parametrů, ale v jeden okamžik využívá jen 12,9 miliardy parametrů na token vstupu mistral.ai. Je to tedy jako mít mozek o 46 miliardách parametrů, který přemýšlí vždy jen ~13 miliardami naráz – a tím dramaticky snižuje potřebný výpočetní výkon. Díky tomu umožňuje mnohem rychlejší inference – Mixtral běží rychlostí srovnatelnou s 13B modelem, přičemž kvalita odpovídá mnohem větším modelům. V benchmarcích Mixtral 8×7B překonal Meta LLaMA-2 70B a dokonce vyrovnal nebo předčil OpenAI GPT-3.5 na řadě standardních úloh mistral.ai mistral.ai. A to vše za 6× vyšší rychlosti než 70B model mistral.ai. Bez problémů zvládá 32 000 tokenový kontext mistral.ai, podporuje více jazyků (angličtina, francouzština, němčina, atd.) mistral.ai mistral.ai a je silný v generování kódu. Mistral vydal jak základní model, tak instruovanou (Instruct) jemně vyladěnou verzi Mixtral 8×7B, která dosáhla velmi vysokého skóre (8,3) v chatovacím benchmarku MT-Bench – nejlepší mezi open modely v té době, téměř na úrovni GPT-3.5 v interaktivním chatu mistral.ai. Důležité je, že Mixtral 8×7B je také licencován pod Apache 2.0, tedy zcela otevřený.
Dopad v reálném světě: Modely Mistral, přestože jsou nové, byly velmi rychle přijaty open-source AI komunitou. Mixtral vzbudil velké nadšení, když se ukázalo, že MoE dokáže naplnit svůj potenciál i u LLM. Vývojáři použili Mistral 7B a Mixtral k pohánění chatbotů v open-source projektech (například integrace s text-generation-webui, demo na Hugging Face, atd.). Díky svým výkonům jsou tyto modely vhodné například pro zákaznickou podporu, virtuální asistenty na zařízeních či jako levnější alternativa ke GPT-3.5 pro zpracování textů. Mistral AI také provozuje vlastní platformu, kde si můžete jejich modely vyzkoušet (mají vlastní chatbot „Le Chat“ a API v betě mistral.ai). Přispěli také do open-source nástrojů – např. optimalizací knihovny vLLM pro rychlejší inference s jejich modely mistral.ai.
Silné stránky: Kombinace vysokého výkonu a otevřenosti je hlavním trumfem Mistralu. Mistral 7B zpřístupnil špičkové AI každému s notebookem (přes 4-bitovou kvantizaci jej lze provozovat i na některých běžných GPU). Mixtral ukázal cestu ke škálování bez typických nákladů – středně velký model se chová jako velký. Tato efektivita je výhodná i z hlediska nasazení a ekologické stopy. Důraz Mistralu na vícejazyčnost a schopnost generovat kód znamená, že jejich modely nejsou jen anglocentrické – což je plus pro globální uživatele i vývojáře mistral.ai mistral.ai. Open-source pod Apache 2.0 znamená bez omezení – používejte komerčně, upravujte, cokoliv, žádné volání domů. Tuto svobodu oceňují firmy, které chtějí vyhnout poplatkům za API nebo sdílení dat. Další silnou stránkou je rychlost inovací: startup se někdy pohybuje rychleji a Mistral ukázal, že umí přejít od ničeho k špičkovému modelu během několika měsíců a pak během dalších měsíců přijít s unikátním modelem MoE. Tato agilita může přinést další průlomy (proslýchá se, že Mistral v roce 2024 trénoval větší modely a více expertů, třeba 8×22B). Značka Mistralu coby evropského open-AI hráče navíc rezonuje s těmi, kdo si přejí AI, kterou nedominuje jen velká americká trojka – rozmanitost v ekosystému.
Slabiny: V tuto chvíli je Mistral stále mladý. Jeho modely, přestože jsou vynikající vzhledem ke své velikosti, stále nemohou plně konkurovat těm úplně největším modelům ve všech úlohách. Například Mixtral 8×7B, přestože překonává i mnohé 70B modely, nemusí překonat hustý model o velikosti 100B+ na extrémně složitém uvažování nebo v oboru specifických znalostí – fyzikální problémy či subtilní rozumová logika zatím možná zůstane doménou GPT-4 nebo Llama-405B. MoE přístup může být navíc náročnější na dolaďování (řízení expertů a brány činí trénink složitější, ačkoliv Mistral zvládl pre-trénink elegantně). Další aspekt: podpora a dlouhodobá udržitelnost. Roadmapa Mistralu je slibná, ale jako startup nemá zdroje Googlu či Meta – bude schopný systematicky soupeřit ve vývoji další generace modelů (které mohou být 100B+ husté nebo s více experty)? Uvidí se. Také díky otevřenosti je menší centrální kontrola – např. ladění bezpečnosti u modelů Mistral není tak rozsáhlé jako u ChatGPT. Základní Mixtral model klidně vyhoví jakékoli instrukci (včetně generování „zakázaného“ obsahu), pokud neaplikujete vlastní prompt na moderaci nebo finetune mistral.ai. To znamená, že uživatelé Mistralu by měli implementovat vlastní filtry, pokud model nasazují veřejně. Co do funkcí, modely Mistral aktuálně nemají multimodální schopnosti (žádný input obrázku apod., zaměřeny pouze na text). A jedna praktická slabina: chcete-li replikovat výsledky Mistralu, potřebujete špičkový hardware; trénink těchto modelů je mimo dosah většiny uživatelů (což ale platí o všech hraničních modelech).
Stručně řečeno, Mistral AI představuje špičku v tom, čeho lze dosáhnout rychlým a otevřeným přístupem. Přinesli modely, které výrazně překonávají svou velikostí a dali je volně k dispozici, což katalyzovalo mnoho vývoje v komunitě. Pokud hledáte otevřené LLM, které je efektivní a nechcete být závislí na API Gigantů, nabídky Mistralu patří mezi nejlepší na trhu. Sledujte je – představují myšlenku, že další AI průlom může přijít stejně dobře od nových dravců jako od obrů technologického průmyslu.
Cohere, Command R a další zajímavé LLM: širší krajina
Rozmach AI vedl k bohaté škále LLM přesahující hlavní hráče zmíněné výše. V této části představujeme modely Cohere (například Command R) a několik dalších významných LLM iniciativ, abychom doplnili obraz o tom, co je aktuálně k dispozici.
Cohere a Command R
Cohere je startup (založený bývalými výzkumníky z Google Brain), který se zaměřuje na poskytování NLP modelů firmám skrze API. Byl jedním z prvních, kdo komerčně nabídl služby velkých jazykových modelů (kolem roku 2021) se zaměřením na podniky, které potřebují vlastní NLP. Modely Cohere zprvu neměly chytlavá jména jako „GPT“, ale nesly označení podle velikosti (small, medium, xlarge). V letech 2023–2024 však Cohere představil sérii modelů Command, která je speciálně laděna na následování instrukcí a konverzační použití (na rozdíl od jejich modelů „Embed“ pro vektorová zapouzdření).
Vlajkovou lodí je Command R, což podle Cohere znamená model optimalizovaný na „Reasoning“ (uvažování) a dlouhý rozsah kontextu. Jde o transformer model s 35 miliardami parametrů, trénovaný na masivním vícejazyčném korpusu a poté laděný tak, aby výborně zvládal dialogy, složité instrukce, práci s nástroji a úlohy s podporou vyhledávání (retrieval-augmented tasks) huggingface.co huggingface.co. Cohere udělal v roce 2024 něco zajímavého – uvolnil váhy Command R ve formě open-source (pro výzkumné/nekomeční použití) na Hugging Face huggingface.co huggingface.co. To znamená, že výkonný model 35B je nyní k dispozici komunitě (pod licencí, která zakazuje komerční použití bez povolení). Command R má kontextové okno o délce 128k tokenů docs.cohere.com docs.cohere.com, podobně jako Claude, což je ideální pro dlouhé dokumenty. Je také vícejazyčný (podporuje 10 jazyků na vysoké úrovni) docs.cohere.com huggingface.co a Cohere jej speciálně ladil na úlohy jako Retrieval-Augmented Generation (RAG) a dokonce i na „agentní“ případy (kdy model rozhoduje o zavolání externích nástrojů/funkcí) docs.cohere.com docs.cohere.com. V praxi Command R zvládne velmi detailní dotazy, provádí krok za krokem uvažování a podle potřeby si i dohledá fakta z napojené znalostní báze.
Cohere také nabízí Command R+, vylepšenou verzi, která je údajně lépe natrénovaná nebo větší (některé zdroje uvádějí, že by to mohl být soubor více modelů nebo model o velikosti 70B). Na AWS Bedrock a jiných cloudových platformách jsou Command R a R+ prezentovány jako vysoce kvalitní alternativa ke GPT-3.5, určené pro firmy, které potřebují držet data v určitých jurisdikcích (Cohere umožňuje cloudové nasazení v konkrétních regionech) a chtějí mít větší kontrolu nad chováním modelu.
Silné stránky LLM od Cohere: Jsou připravené pro podnikové použití – mají SLA podporu, lze je nasadit ve virtuálních privátních cloudech a jsou dobře dokumentované s doporučenými postupy využití. Modely Command dosahují vysokého výkonu v podnikově zaměřených úlohách, jako je sumarizace, sepisování emailů, extrakce informací a jsou navrženy pro integraci se systémy pro vyhledávání (Cohere nabízí celý tento stack včetně embeddingů, rerankerů atd.). Další výhodou je optimalizace latence a propustnosti – Cohere klade důraz na to, aby jejich modely byly rychlé a nákladově efektivní pro provoz docs.cohere.com docs.cohere.com. Opravdu, srpnový update Command R z roku 2024 přinesl o 50 % vyšší propustnost a o 20 % nižší latenci než dříve docs.cohere.com. Zavedli také „safety módy“, kde si vývojář může nastavit přísnost filtrování obsahu dle potřeby docs.cohere.com, což je velmi jemné nastavení pro moderaci.
Slabé stránky: Jméno Cohere není příliš známé mimo podnikovou sféru, takže kolem něj existuje menší komunita. Modely Command, i když jsou silné, zaostávaly za absolutní světovou špičkou (například 35B model nemůže překonat GPT-4 nebo LLaMA-70B+ v nejtěžších úlohách). Také až do výzkumného uvolnění Command R bylo Cohere zcela uzavřené – což znamenalo méně zpětné vazby od komunity pro vylepšení detailů modelu. Otevřené váhy jsou uvolněny pouze pro nekomerční použití, takže firmy stejně musí platit za API nebo získat speciální licenci. Navíc se občas Cohere, kvůli orientaci na bezpečnost v podnicích, chovalo v odpovědích velmi konzervativně (podobně jako dřívější Bard), což ho mohlo činit méně nápaditým. Stále jej ale zdokonalují a o Command R+ se říká, že je výrazně lepší (některá komunitní hodnocení dokonce tvrdí, že se v mnoha oblastech blíží kvalitě GPT-4).
Další významné LLM modely
Mimo „Velké pětky“, které jsme rozebrali, mají významné modely i další hráči:
- PaLM 2 (Google) – Před Gemini byl hlavním LLM Googlu model PaLM 2 (uvedený na I/O 2023). Jedná se o model o 340 miliardách parametrů natrénovaný na 3,6 bilionu tokenů cnbc.com research.google, s velmi dobrou vícejazyčností, rozumovými schopnostmi a codingem. PaLM 2 poháněl Google Bard po většinu roku 2023 a byl dostupný v různých verzích (Gecko, Otter, Bison) podle velikosti. Výrazně vynikal v programování a logických hádankách, byl také doladěn do speciálních modelů jako Med-PaLM (pro lékařské otázky a odpovědi). PaLM 2 připravil půdu pro Gemini a ukázal, že Google drží krok (už byl pokročilejší než původní PaLM, který měl sice 540B parametrů, ale menší objem trénovacích dat). Bard s PaLM 2 byl první, kdo představil funkci exportovat do Gmail/Docs a integroval LLM pomoc do běžných workflowů. I když je dnes PaLM 2 zastíněn Geminim, stále běží v řadě Google Cloud služeb a představuje kvalitní model sám o sobě.
- Jurassic-2 (AI21 Labs) – AI21, izraelský startup, byl jedním z prvních konkurentů OpenAI. Jejich Jurassic-1 (178B parametrů) z roku 2021 byl tehdy jedním z největších na světě. Jurassic-2, uvedený v roce 2023, dál tuto linii rozvíjí a přidává modely ve více jazycích (včetně zaměření na hebrejštinu, francouzštinu atd.). Modely AI21 jsou známé hlavně pro dlouhotrvající, konzistentní psaní a znalosti, částečně protože zakladatelé AI21 jsou ostřílení NLP výzkumníci (jeden z nich spoluvytvářel Transformer architekturu). Modely jsou dostupné přes AI21 Studio API. AI21 také stojí za produkty jako Wordtune (psací asistent). Jurassic-2 má „J2 Jumbo“ pravděpodobně kolem velikosti 178B a menší „Large“ modely (asi 20B). Síla: velmi plynulé psaní a podle některých i větší faktická přesnost u znalostních dotazů. Slabina: není tak silný v code úlohách a není open-source.
- Claude Instant & další (Anthropic) – Vedle hlavního Claude nabízí Anthropic i Claude Instant, odlehčený model (~1/5 velikosti), který je rychlejší a levnější. Skvělý pro real-time chat, kde není nutná špičková kvalita. Podobně OpenAI nabízí GPT-3.5 Turbo jako rychlejší/levnější variantu GPT-4. Tyto menší sourozenecké modely jsou zásadní, protože umožňují ekonomicky zvládat obrovské objemy dotazů (například zákaznický chatbot může použít Claude Instant pro tisíce jednoduchých dotazů, těžší úlohy přepošle na Claude 2).
- Inflection-1 / Pi (Inflection AI) – Společnost Inflection AI, kterou spoluzaložil Mustafa Suleyman (známý z DeepMind), spustila Pi, osobního AI společníka, který je zaměřený více na konverzaci (často emoční/podpůrnou) než na plnění úloh. Běží na vlastním LLM Inflectionu (Inflection-1 a koncem roku 2023 již vznikal Inflection-2). Pi je známá pro svůj přátelský, upovídaný styl a odmítání například kódování nebo odpovědí na znalostní otázky; jde o experiment, jak udělat z AI „přítele“. Přestože se neřadí mezi nejlepší v benchmarkech, reprezentuje trend specializovaných LLM zážitků. Inflection údajně postavil superpočítač s 22 000 GPU pro trénink, takže Inflection-2 může být dost velký (některé zvěsti hovoří o cíli >100B parametrů). Modely neuvolnili open-source; jde o kurátorovaný zážitek přístupný přes jejich aplikaci/web.
- Modely open-source komunity – Mimo LLaMA a Mistral vzniklo mnoho dalších významných komunitních projektů:
- BLOOM (od BigScience) – 176B-parametrový vícejazyčný model uvolněný v polovině roku 2022 pod otevřenou licencí. Šlo o milník jakožto první otevřený model velikosti GPT-3. BLOOM se drží slušně, zvlášť v jazycích mimo angličtinu, v efektivitě zaostává za novějšími modely. Přesto ukázal, že je možné velkorysé dobrovolnické projekty realizovat.
- Falcon (od Technology Innovation Institute v SAE) – Falcon 40B a 7B vyšly v roce 2023 jako špičkové open modely, přičemž Falcon 40B okupoval žebříčky nejlepších modelů. Jsou k dispozici zdarma (40B je nyní pod Apache 2.0 bez licenčních poplatků). Falcon 40B byl trénován na špičkových datech (RefinedWeb) a dosáhl výborných výsledků, což ukazuje na kvalitní příspěvky mimo US/EU sféru.
- MosaicML MPT – Než byl MosaicML koupen Databricks, uvedl MPT-7B (umožňuje dlouhý kontext, až 84 tisíc tokenů díky úsporné pozornosti) a MPT-30B. Tyto open modely byly široce využity k různým finetunům a představily nové vlastnosti, jako ladění systémových zpráv a práci s dlouhými texty.
- WizardCoder, Phi-1, atd. – Pro kódování vznikly i specializované modely: např. WizardCoder (finetune Code LLaMA), který chvíli vedl otevřené benchmarky v programování. Phi-1 (od výzkumníků Microsoftu) ukázal, že když je model trénován jen na kódu a matematických textech, může i 1,3B (!) model vyřešit Leetcode hard úlohy – což naznačuje, že inovativní trénink může v úzké oblasti překonat pouhou velikost.
- xAI Grok – Koncem roku 2023 vydal nový AI projekt Elona Muska xAI v betě Grok, chatbot s trochu „neuctivou“ osobností, exkluzivně na platformě X (Twitter) pro předplatitele. Grok je prý založen na open-source základu (pravděpodobně finetune LLaMA 2, některé spekulace říkají 70B model). Musk naznačil, že Grok bude „AI hledající pravdu“ s méně restrikcemi v oblasti humoru apod. I když Grok v oblasti výzkumu neudělal velký dojem, kulturně je zajímavý jako součást Muskova úsilí nabídnout alternativu ke ChatGPT/Bard, která prý nebude „lhát“ o kontroverzních tématech. Jeho vývoj také dokazuje, že LLM modely hrají důležitou roli pro zapojení uživatelů i ve světě sociálních sítí.
- Podnikově zaměřené modely od Big Techu – Firmy jako IBM a Amazon se rozhodly nestavět vlastní konkurenty GPT-4 od nuly, ale kurátorovat nebo provozovat modely třetích stran:
- IBM watsonx.ai nabízí přístup k otevřeným modelům jako LLaMA-2 a kurátoruje menší modely (a mají svou řadu Granite kolem 20B parametrů, zaměřenou na podnikové NLP úlohy).
- Amazoní služba AWS Bedrock hostuje modely od Anthropicu (Claude), AI21 (Jurassic), Cohere, Stability AI atd. a také Amazonovu vlastní rodinu Titan (modely kolem 20B parametrů na úlohy jako zákaznické chaty či sumarizace).
- Microsoft v podstatě stojí za modely OpenAI (jsou integrovány jako Azure OpenAI Service), ale zároveň má i vlastní výzkumné modely (viz Phi-1 výše a další) a může uvést další doménově zaměřené LLM modely z vlastní dílny.
Stručně řečeno, scéna LLM je plná konkurentů, přičemž každý si hledá svůj výklenek – ať už jde o podnikové služby (Cohere, AI21), specializované konverzační AI (Inflection Pi) či open-source vyzyvatele (Meta, Mistral, Falcon). Tato rozmanitost je výhodná pro uživatele: můžete si vybrat model podle svých konkrétních potřeb – ať už požadujete nejvyšší přesnost, nejnižší náklady, co největší kontrolu a soukromí, nebo maximální bezpečnost a sladění.
Nyní, když jsme prozkoumali hlavní hráče v oblasti LLM, následující tabulka poskytuje vedlejší srovnání jejich klíčových vlastností:
Srovnávací tabulka: Přední LLMs (ChatGPT, Claude, Gemini, LLaMA, Mistral, atd.)
Model (Tvůrce) | Rok vydání | Architektura | Počet parametrů | Měřítko trénovacích dat | Multimodální? | Přístup (Otevřený vs Uzavřený) | Klíčové silné stránky | Klíčové slabé stránky | Licence/Využití |
---|---|---|---|---|---|---|---|---|---|
ChatGPT (OpenAI) (GPT-4 přes API nebo UI) | 2022 (GPT-3.5), 2023 (GPT-4) | Transformer (dense); RLHF-alignment; údajně MoE v GPT-4 | GPT-3.5: 175B; GPT-4: Nezveřejněno (≈1,8 T parametrů, odhad) explodingtopics.com | Trénováno na stovkách miliard tokenů (webový text, knihy, kód); ~$100M+ compute explodingtopics.com | Text & Obrázky (GPT-4 Vision) | Uzavřený (OpenAI API nebo ChatGPT aplikace; veřejné váhy nejsou dostupné) | – Špičková šíře znalostí a plynulost; – Výborné v logickém myšlení, programování, kreativitě; – Obrovský ekosystém a integrace (pluginy, nástroje) | – Sebevědomě halucinuje fakta; – Netransparentní model, vyladění možné jen podle podmínek OpenAI; – Omezení používání & náklady pro plný přístup k GPT-4 | Uzavřené IP; uživatel musí souhlasit s podmínkami OpenAI API (žádné self-host). |
Claude 2 (Anthropic) | 2023 | Transformer (dense); zarovnání přes Constitutional AI | ~137B (odhad) datasciencedojo.com | Trénováno na ~1+ bilionu tokenů (text + kód) s kurátorovanými kvalitními daty | Pouze text (plány do budoucna pro multimodalitu) | Uzavřený (Anthropic API & omezený webový klient; váhy nejsou veřejně) | – Extrémně dlouhý kontext (100k tokenů) en.wikipedia.org; – Silné etické mantinely (méně toxický/urážlivý); – Velmi koherentní v dlouhých dialozích | – Někdy příliš opatrný nebo rozvláčný; – Mírně za GPT-4 v nejtěžších úlohách; – Omezená veřejná dostupnost (pozvánky/čekací listina pro některé funkce) | Uzavřené API; podmínky používání stanovuje Anthropic (principy Constitutional AI). |
Gemini Ultra (Google DeepMind) | 2023 (1.0 Ultra); aktualizace v 2024 (1.5) | Transformer + Mixture-of-Experts (od v1.5) en.wikipedia.org; navrženo multimodálně | Nezveřejněno; pravděpodobně >500B dense, MoE s efektivitou v trilionech | Trénováno na obrovském Google korpusu (text, kód, obrázky, přepisy YouTube en.wikipedia.org); použity Google TPU v5 clustery | Ano – Multimodální (text, obrázky; zvuk/video plánováno) en.wikipedia.org | Uzavřený (Použit v Google Bard, Cloud Vertex AI; váhy nejsou veřejně) | – Multimodální od začátku (obraz+text); – Špičkový výkon (překonává GPT-4 v mnoha benchmarcích) en.wikipedia.org; – Integrace v produktech Google (Hledání, Android, atd.) | – Při spuštění omezeně dostupný (Ultra blokováno kvůli bezpečnosti) en.wikipedia.org; – Uzavřený kód (uživatel závisí na platformě Google); – Bezpečnostní opatření ještě nejsou pro plné veřejné nasazení dokončená | Proprietární; dostupné dle podmínek AI Google přes Bard/Cloud (Google dodržuje závazky AI bezpečnosti en.wikipedia.org). |
LLaMA 3.1 (Meta) a LLaMA 2 | 2023 (LLaMA 1 & 2); 2024 (LLaMA 3) | Transformer (dense); otevřené modely; LLaMA 3 přinesla vizi a model s 405B | LLaMA 2: 7B, 13B, 70B; LLaMA 3.1: 8B, 70B, 405B parametrů ibm.com | LLaMA 2 trénována na 2 bilionech tokenů originality.ai; LLaMA 3 na ještě více + multimodální data | Ano (LLaMA 3 má modely s vizí; LLaMA 2 byla pouze textová) | Otevřený (částečně) – Modely & kód k dispozici (zdarma pro výzkum/komerční nasazení s určitými podmínkami) huggingface.co | – Open-source: komunita může volně dolaďovat, auditovat, nasazovat; – Vysoký výkon srovnatelný s uzavřenými modely (405B konkuruje GPT-4 v mnoha úlohách) ibm.com; – Široká nabídka velikostí modelů dle potřeb | – Menší modely LLaMA potřebují dolaďování pro konkurenceschopnost; – Největší model (405B) je náročný na zdroje; – Licence zakazuje užití velmi velkým technologickým firmám ( >700M uživatelů) bez povolení huggingface.co | Vlastní licence Meta (LLaMA 2 „Meta licence“, LLaMA 3 pod podobnými podmínkami). Prakticky volné užití; vyžaduje uvedení autorství; jistá omezení při použití u velkých firem. |
Mistral 7B a Mixtral 8×7B (Mistral AI) | 2023 | Transformer (Mistral 7B dense); Mixtral: Transformer-MoE (8 expertů) mistral.ai | Mistral 7B: 7,3B; Mixtral 8×7B: 46,7B celkem (používá 12,9B na token díky MoE) mistral.ai | Trénováno na filtrovaných webových datech, kódu atd. v roce 2023; Mistral 7B vyvinut během 3 měsíců siliconangle.com. Mixtral trénován od nuly s MoE routingem. | Pouze text (podpora více jazyků, kódu) | Otevřený (licence Apache 2.0 – bez omezení použití) | – Malý model s velkým výkonem (7B ≈ 13B+ open rivalové) siliconangle.com; – Mixtral MoE model překonává 70B modely při zlomku nákladů mistral.ai; – Plně otevřená licence, snadná integrace | – Absolutní výkon stále nižší než u největších uzavřených modelů na velmi složitých úlohách; – Velmi nový model – menší ekosystém/podpora; – Základní modely potřebují bezpečnostní úpravy (mohou generovat cokoli bez omezení) | Apache 2.0 (velmi permisivní, prakticky žádná omezení). |
Cohere Command R (Cohere) | 2024 (nejnovější verze) | Transformer (dense) vyladěný na chat; podpora dlouhého kontextu | 35B (Command R) huggingface.co; (k dispozici i větší „Command R+“) | Trénováno na rozsáhlém vícejazyčném textovém korpusu (10+ jazyků) huggingface.co; dolaďováno s lidskou zpětnou vazbou a „agentními“ úlohami | Pouze text | Hybridní – služba přes API; výzkumné váhy k dispozici (licence CC BY-NC) huggingface.co | – Dlouhý kontext 128k tokenů docs.cohere.com; – Vynikající ve strukturovaných úlohách, práci s nástroji, integraci vyhledávání docs.cohere.com; – Zaměření na podniky (spolehlivé API, bezpečnostní kontroly, regionální nasazení) | – Není plně SOTA v „raw IQ“ (35B param. limituje špičkový výkon); – Přístup přes API je zpoplatněn (žádný volně dostupný chatbot); – Ne-komerční licence u modelových vah (omezuje komunitní využití) | API podle podmínek Cohere; Uvolnění otevřených vah pouze pro výzkum (CC BY-NC 4.0). |
(Poznámky k tabulce: “Parametry” pro GPT-4 a Gemini jsou přibližné, protože nejsou oficiálně zveřejněné. “Multimodální” znamená, zda model umí zpracovávat modality jiné než text. Otevřený vs uzavřený označuje dostupnost modelových vah. Sloupec Licence shrnuje možnosti využití modelu.)
Trendy, budoucí směřování a výběr správného LLM
Rychlý rozvoj ChatGPT a jeho alternativ ukázal jednu věc jasně: Schopnosti AI se vyvíjejí závratným tempem. Zde jsou některé klíčové trendy a co znamenají pro budoucnost – a také rady, jak se mohou uživatelé či firmy orientovat v oblasti LLM:
Klíčové trendy v oboru
- Multimodalita je budoucností: Modely, které dokáží zpracovávat text, obrázky, audio i další typy dat, se stanou normou. Vidíme to u obrazových vstupů GPT-4, Google Gemini je multimodální od začátku a Meta směřuje k tomu, aby měl LLaMA i vizuální vnímání. Budoucí LLM možná hladce přijmou screenshot webové stránky, tabulku či přepis videa a odpoví na otázky kombinací všech těchto vstupů. Firmy by měly očekávat AI, které rozumí všem formám dat, což umožní bohatší aplikace (například AI, která společně čte návrhy designu, kód i specifikace produktu a dává zpětnou vazbu).
- Delší kontexty & paměť: Rozšiřování kontextového okna na 100k tokenů a více en.wikipedia.org naznačuje, že zapomětlivost modelů brzy přestane být problémem. Možná získáme modely, které zvládnou naráz vstřebat celé databáze či knihy. Ve spojení s vylepšenou generací s načítáním relevantních informací (model si sám dohledává, co zrovna potřebuje) budou LLM fungovat jako externí paměť – vždy budou mít po ruce nejpodstatnější znalosti. Tím se sníží halucinace a zvýší faktická přesnost, jelikož se model může vracet ke zdrojům.
- Nárůst open-source: Období, kdy mělo několik firem monopol na nejlepší modely, končí. Model LLaMA 3 405B od Mety dosahuje parity s uzavřenými modely ibm.com, což mění pravidla hry. Startupy jako Mistral dokazují, že inovace může přijít i z malých týmů. Pravděpodobně uvidíme proliferaci specializovaných otevřených modelů (pro medicínu, právo, finance atd.) a lepší nástroje na jejich ladění a nasazení. Pro organizace s důrazem na soukromí je to skvělá zpráva – mohou provozovat výkonnou AI přímo u sebe. I technologičtí giganti jdou tímto směrem: Google vydává Gemmu a Meta open-sourcuje modely, což naznačuje hybridní budoucnost, kde budou prosperovat uzavřené i otevřené modely.
- Efektivita & nové architektury: Ne všichni si mohou dovolit modely s triliony parametrů, a proto je důraz na to, aby modely byly chytřejší, nejen větší. Techniky jako Mixture-of-Experts (MoE) (viděli jsme u Gemini 1.5 en.wikipedia.org a Mixtral mistral.ai), Low-Rank Adaptation (LoRA) pro rychlé doladění a destilované modely umožní dosahovat vysokého výkonu s menšími nároky. Probíhá také výzkum modulární nebo kompozitní AI – například orchestrací více menších modelů specializovaných na různé úkoly (jeden na logické uvažování, další na matematiku, další na kód atd.). LLM budoucnosti může být ve skutečnosti tým modelů pod jednou kapotou.
- Regulace a bezpečnost: S rostoucím nasazením LLM pro miliony uživatelů sílí i regulatorní zájem. Transparentnost ohledně trénovacích dat, chování modelů a ochranná opatření proti zneužití (spam, deepfaky atd.) se diskutují na vládní úrovni. Firmy zavádějí preventivní bezpečnostní opatření – Claude od Anthropic má Constitutional AI, OpenAI neustále zpřesňuje filtry na obsah, Meta do svých vydání staví testy toxicity a zaujatosti. Očekávejte více uživatelských ovládacích prvků – například “toxicitu” nastavitelnou podle bezpečnosti vs. autentičnosti modelu, nebo podnikovou analytiku na monitoring výstupů AI pro compliance. Také se aktivně řeší vodoznakování AI obsahu (OpenAI na něm pracuje), aby bylo možné AI text spolehlivě rozpoznat – to by se v budoucnu mohlo stát standardem.
- Integrace a agentní AI: LLM stále častěji fungují jako části větších agentních systémů – jako autoGPT či LangChain agenti, kteří převezmou výstup AI a realizují akce (procházejí web, spouštějí kód atd.). GPT-4 od OpenAI má plug-iny, které mu dovolí volat API (například rezervovat let či provádět výpočty). Trend směřuje k AI, která nejen konverzuje, ale i jedná – umí používat nástroje, sama si aktualizovat data a případně řetězit více kroků autonomně. Firmy mohou nasazovat AI agenty, kteří zvládnou vícestupňové workflow (s lidským dohledem). To maximalizuje schopnosti LLM, ale vyžaduje i robustní ochranu (aby se chyby neřetězily).
- Přizpůsobení a doladění: Stoupá poptávka po tom, doladit LLM na proprietární data nebo ve stylu konkrétní značky. Otevřené modely to usnadňují (protože můžete aktualizovat jejich váhy). I uzavřené modely nabízejí více customizace – OpenAI zavedlo volání funkcí a systémové zprávy pro řízení ChatGPT a Azure má “On Your Data” pro ChatGPT, což umožňuje ukotvit AI do firemních dat. Do budoucna nejspíš uvidíme personalizované LLM – vašeho AI asistenta, který zná vaše maily, preference i pracovní dokumenty (vše bezpečně, doladěno lokálně) a poskytuje vysoce relevantní odpovědi. Nástroje na levné doladění (jako LoRA) se budou dál zlepšovat, takže i střední firmy si budou moci vytvořit své vlastní AI na míru.
Jak vybrat správné LLM pro vaše potřeby
Při tolika možnostech – jak si LLM vybrat? Zvažte následující kritéria:
- Schopnosti vs. cena: Pokud potřebujete zcela špičkový výkon (například pro složité právní úvahy či nejpokročilejší odpovědi na výzkumné otázky), jsou GPT-4, Gemini Ultra nebo LLaMA 3 405B tou správnou volbou. Jsou ale drahé (ať už v API tarifech nebo na provozním hardwaru). Pro většinu aplikací bude střední model (jako Claude 2, Cohere Command, nebo otevřený model 13B–70B) poskytovat téměř špičkový výkon za zlomek ceny. Hodnoťte na konkrétních úkolech: například pro generování kódu může stačit 34B model doladěný na kód (jako CodeLlama nebo WizardCoder), není nutné vždy použít GPT-4. Berte jako vodítko benchmarky, ale nezapomeňte pilotně otestovat na vlastních příkladech.
- Otevřenost a kontrola: Pokud je pro vás zásadní ochrana dat nebo provoz na vlastním hardwaru (zdravotnictví, finance, státní správa), volte open-source LLM. LLaMA 2, LLaMA 3, Mistral/Mixtral, Falcon a spol. lze provozovat ve vlastní infrastruktuře bez nutnosti posílat data třetím stranám. Navíc umožňují audit modelů (kontrola zaujatosti atd.). Nevýhoda je, že potřebujete ML inženýry na údržbu. Uzavřené API (OpenAI, Anthropic atd.) se o všechno starají samy – zvládají škálování, aktualizace i bezpečnost, což se vyplatí, pokud vám cloud nevadí. Některé firmy volí hybrid: na běžné úkoly používají uzavřené API, na citlivá data otevřené modely.
- Potřebná délka kontextu: Potřebujete zadávat velmi rozsáhlé dokumenty nebo konverzovat s AI celé hodiny? Pokud ano, rozhodující může být 100k kontext u Claude nebo 128k u Cohere. Podobně, pokud budete shrnovat celé knihy nebo analyzovat dlouhé smlouvy, upřednostněte model známý zvládáním dlouhého kontextu. Mezi otevřenými modely to rychle dohání LLaMA s některými doladěnými verzemi (32k+ díky speciálním technikám), ale králi hned po startu jsou pro dlouhý kontext Claude a Command R.
- Požadavky na multimodalitu: Pokud chcete, aby AI analyzovala i obrázky nebo diagramy, aktuálně jsou hlavní možnosti GPT-4 s vizí (přes ChatGPT Plus) nebo Gemini. Ostatní budou následovat, ale v roce 2025 vedou OpenAI a Google v integraci vizuálního vnímání. Pokud je to zásadní (například potřebujete AI, která zkontroluje screenshot uživatelského rozhraní nebo přečte grafy), vaše volba se zužuje na tyto platformy.
- Oborová specializace: Některé modely jsou od základu lépe vyladěny na určité domény. Například pro medicínské odpovědi bývá Google Med-PaLM nebo otevřený model doladěný na medicínské Q&A vhodnější než základní ChatGPT. Pro kódování zas modely jako OpenAI code-davinci nebo Meta Code Llama. Modely Cohere jsou chváleny pro úlohy s byznys dokumenty. Vždy se ptejte, jestli existuje model specializovaný na danou oblast – často může překonat obecný model na úzce vymezených úkolech. A pokud ne, lze si ho vytvořit (doladěním generálního modelu na vašich datech).
- Bezpečnost a moderace: Různí poskytovatelé mají různé přístupy. OpenAI je poměrně přísná (ChatGPT odmítá leccos potenciálně rizikového). Claude od Anthropicu je také přísný, ale snaží se být nápomocný tím, že dotaz přeformuluje bezpečně. Otevřené modely udělají cokoli, co jim zadáte (neodmítají nic, pokud nejsou přetrenované na restriktivní chování). Pro veřejné aplikace zvažte model se zabudovanou moderací nebo použijte externí filtr. Pokud je v sázce vaše reputace, příliš “nezkrotný” nebo urážlivý model je risk. Podnikoví poskytovatelé (Cohere, Azure OpenAI) často umožňují zapnout další filtry na obsah nebo audity. Jako uživatel zvažte, zda je pro vás důležitější, aby se model “choval slušně” ihned po spuštění, nebo si kontroly implementujete sami.
- Licence a podmínky: Ujistěte se, že licence modelu odpovídá vašemu zamýšlenému použití. OpenAI a další zakazují některé scénáře (například generování dezinformací, zpracování specifických osobních údajů). U licence Meta LLaMA je zakázáno používat model pro vylepšení jiného modelu (snahy zabránit využití pro trénování konkurentů). Pokud model integrujete do produktu, čtěte podmínky podrobně. Otevřenou licenci typu Apache/MIT je nejjednodušší (prakticky žádná omezení). Některé otevřené modely (např. LLaMA 2) vyžadují uvádění autora nebo sdílení vylepšení. A pokud jste velká firma, dejte si pozor na klauzuli “700M uživatelů” u modelů od Mety.
Kam dál?
Konkurence mezi ChatGPT, Claude, Gemini, LLaMA a dalšími byla velkým přínosem pro spotřebitele i firmy – kvalita AI vzrostla a možnosti přístupu jsou širší. Do budoucna očekávejte ještě větší konvergenci: uzavřené modely převezmou otevřené praktiky (OpenAI mluví o vydání nástrojů pro bezpečný on-prem hosting modelů; Google open-sourcuje menší modely) a otevřené modely si budou brát nejnovější techniky z uzavřeného výzkumu.
Pro uživatele to znamená více možností a pravděpodobně nižší náklady. Provozování výkonné umělé inteligence může být brzy stejně levné jako provoz webového serveru, a to díky optimalizacím. Firmy pravděpodobně využijí portfolia LLM: možná špičkový uzavřený model pro klíčové kroky vyžadující důkladné uvažování, otevřený model pro sumarizaci citlivých dat a několik specializovaných modelů například pro OCR nebo kódování.
Při výběru „správného“ LLM mějte na paměti, že neexistuje univerzální odpověď. Stanovte si, co pro vás znamená „správně“ – nejrychlejší? nejlevnější? nejpřesnější? nejvíce soukromé? – a použijte výše uvedená srovnání jako vodítko. Krásné je, že mnoho z těchto modelů můžete vyzkoušet zdarma nebo téměř bez nákladů (např. díky bezplatným zkušebním verzím nebo otevřeným stažením). Je dobrým zvykem navrhnout prototyp svého případu použití s 2–3 různými modely, abyste viděli kvalitu výstupu a pak se rozhodli.
Jedno je jisté: LLM tu zůstanou a budou se neustále zlepšovat. Vyplatí se sledovat toto rychle se vyvíjející odvětví. Odběr novinek ze světa AI, zkoušení nově vydaných modelů (zdá se, že každých pár měsíců je tu nový „zabiják GPT“!), a možná i budování vztahů s více dodavateli AI vám zajistí, že budete mít vždy po ruce ten nejlepší nástroj. Ať už jste koncový uživatel hledající chytrého asistenta, nebo firma usilující o integraci AI do svých produktů, možnosti nikdy nebyly vzrušivější.
V této nové éře AI platí, že znalosti jsou moc – jak znalosti, které LLM obsahují, tak znalosti o tom, jak se od sebe liší. Doufáme, že vám tato zpráva poskytla to druhé, abyste mohli to první využít na maximum.