LIM Center, Aleje Jerozolimskie 65/79, 00-697 Warsaw, Poland
+48 (22) 364 58 00

ChatGPT kontra świat: Najlepsze dzisiejsze modele językowe AI

ChatGPT kontra świat: Najlepsze dzisiejsze modele językowe AI

ChatGPT vs the World: Inside Today’s Top AI Language Models

Wprowadzenie: Czy SI może napisać Twoją pracę semestralną, debugować kod i zaplanować kolację lepiej niż Ty? Duże modele językowe (LLM) takie jak ChatGPT szturmem podbiły mainstream, zadziwiając świat rozmowami na ludzkim poziomie i turbo-doładowaną wiedzą. Zaledwie dwa miesiące po debiucie ChatGPT osiągnął 100 milionów użytkowników – to najszybciej rosnąca aplikacja w historii reuters.com. Te czarodzieje SI napędzane są przez sieci neuronowe o miliardach lub bilionach parametrów trenowanych na oceanie tekstów. Najnowszy model ChatGPT firmy OpenAI (GPT-4) szacowany jest na oszałamiające 1,8 biliona parametrów explodingtopics.com, korzystając z zaawansowanej architektury „mixture-of-experts”, by zmieścić w sobie jeszcze więcej inteligencji. Ale OpenAI nie jest samotne – konkurenci tacy jak Claude Anthropic, Gemini Google DeepMind, LLaMA meta, Mixtral Mistral AI i inni walczą o tron LLM. Każdy z nich ma własną architekturę, mocne strony i cechy szczególne.

W tym obszernym raporcie odczarujemy LLM-y – wyjaśnimy jak działają i czemu są tak ważne – a potem przyjrzymy się z bliska ChatGPT i jego głównym rywalom. Porównamy ich specyfikacje techniczne, możliwości (nawet multimodalne sztuczki jak obrazy!), otwartość oraz zalety/wady, które mogą przesądzić o Twoim doświadczeniu ze SI. Na koniec podsumujemy trendy i podpowiemy, jak wybrać odpowiedni model SI do Twoich potrzeb. Zapnij pasy na emocjonującą wycieczkę po aktualnej panoramie SI!

Wprowadzenie do LLM: Jak działają i dlaczego są rewolucyjne

Czym są LLM-y? Duże modele językowe (Large Language Models) to systemy SI szkolone do rozumienia i generowania tekstu. Powstają w oparciu o architekturę Transformer, która wykorzystuje mechanizmy samo-uwagi (self-attention) do nauki wzorców w języku. W skrócie: LLM czyta olbrzymie ilości tekstu i uczy się przewidywać kolejne słowa w zdaniu. Trenując na miliardach lub bilionach słów (książkach, stronach www, kodzie – dosłownie wszystkim), te modele wykształcają niemal nadprzyrodzoną biegłość językową, wiedzę faktograficzną, a nawet pewne umiejętności rozumowania. Nowoczesne LLM są najpierw wstępnie trenowane (pre-trained) na ogólnym zbiorze tekstów (uczą się uzupełniać i kontynuować tekst), a następnie często dostrajane (fine-tuned) do konkretnych zadań lub instrukcji en.wikipedia.org en.wikipedia.org. Takie techniki jak uczenie ze wzmocnieniem z informacją zwrotną od człowieka (RLHF) służą dostosowywaniu modeli do ludzkich preferencji, dzięki czemu lepiej wykonują polecenia i pozostają przydatne anthropic.com anthropic.com.

Skala działania: „Duże” w nazwie LLM nie wzięło się znikąd – wczesne modele Transformer, takie jak GPT-2, miały 1,5 miliarda parametrów, ale dziś 100+ miliardów staje się normą, a czołówka przekracza bilion. Przykładowo, GPT-3 miał 175 miliardów parametrów, a architektura GPT-4 (choć oficjalnie nieujawniona) prawdopodobnie korzysta z ok. 8 modeli × 220 mld parametrów każdy (≈1,76 biliona) explodingtopics.com explodingtopics.com. Tak wejściowa skala zapewnia LLM-om niezwykłą pamięć na temat danych treningowych i możliwość generowania nadzwyczaj płynnego, kontekstowo trafnego tekstu. Oznacza to jednak także ogromny apetyt na zasoby – trening GPT-4 kosztował ponoć ponad 100 milionów dolarów mocy obliczeniowej explodingtopics.com, a naukowcy ostrzegają, że kolejne generacje mogą kosztować 10 miliardów dolarów za samo szkolenie do 2025 roku explodingtopics.com. Do uruchomienia takich modeli potrzebne są potężne GPU lub specjalistyczny sprzęt.

Kontekst i „pamięć”: LLM-y nie do końca rozumieją jak człowiek, ale używają okna kontekstowego, by śledzić historię rozmowy czy dokumentu. Wcześniejsze modele obsługiwały może 2 tysiące tokenów (~1500 słów), ale nowsze mogą pochwalić się olbrzymią długością kontekstu – Claude 2 Anthropic obsługuje do 100 tys. tokenów (ok. 75 000 słów), a Gemini 1.5 Google eksperymentował z niebywałym oknem kontekstu na 1 milion tokenów en.wikipedia.org. Oznacza to, że LLM może wziąć pod uwagę całą książkę lub godziny dialogu jako dane wejściowe, umożliwiając długie rozmowy i głęboką analizę. Jednak długie konteksty wymagają więcej obliczeń i mogą rozpraszać uwagę modelu en.wikipedia.org.

Multimodalność: Wczesne LLM-y operowały tylko na tekście, najnowsza granica to modele multimodalne, które są w stanie przetwarzać obrazy, dźwięki czy wideo równocześnie z tekstem. „Multimodalne LLM-y” potrafią opisywać obrazy, generować grafiki na podstawie opisów, czy też rozumieć polecenia głosowe. Na przykład GPT-4 OpenAI potrafi interpretować obrazy (w ChatGPT Vision), a Gemini Google zostało zaprojektowane od zera jako multimodalne – obsługujące tekst, obrazy i więcej en.wikipedia.org en.wikipedia.org. Otwiera to drzwi do SI, która nie tylko czyta i pisze, ale też widzi i mówi.

Wyłaniające się zdolności i ograniczenia: Wraz z rozwojem LLM zaczął ujawniać się efekt wyłaniających się umiejętności – rozwiązywanie zadań matematycznych, pisanie kodu, zaliczanie egzaminów wiedzy – zadań, do których nie programowano ich „wprost”. Przykładowo, GPT-4 osiągnął niemal 90 percentyla na amerykańskim egzaminie adwokackim (GPT-3.5 zaledwie ~10 percentyla) law.stanford.edu i potrafi zdobywać najwyższe noty na wielu testach akademickich i zawodowych. Modele te świetnie generują spójny, kontekstowo trafny tekst i bywają bardzo kreatywne. Mają jednak też dobrze znane słabości. Halucynują – podają przekonująco brzmiące, lecz błędne lub bezsensowne odpowiedzi en.wikipedia.org. Brakuje im prawdziwego zrozumienia czy rozumowania i mogą mieć problemy z bardzo złożoną logiką lub najnowszymi wydarzeniami poza zakresem danych treningowych. Co więcej, zamknięte modele to często czarne skrzynki: nie zawsze wiemy, czemu model odpowiada tak a nie inaczej, a jego wiedza ogranicza się do daty zakończenia zbioru treningowego (np. długo ChatGPT „wiedział” tylko do końca 2021).

Modele otwarte vs zamknięte: Niektóre LLM-y są open-source lub open-weight, co oznacza, że ich wagi modelu są publicznie udostępnione do wykorzystania i dalszego dostrajania przez każdego. To wspiera społeczność programistów budujących na ich podstawie i zwiększa przejrzystość. Meta rozpoczęła tę modę modelem LLaMA w 2023 roku, a potem poszły za nią takie firmy jak Mistral AI czy Cohere – również udostępniając potężne modele otwarcie. Otwarte modele umożliwiają tworzenie własnych zastosowań, wdrożenia lokalne i audytowanie zachowania SI mistral.ai ibm.com. Z drugiej strony, wiele topowych modeli (OpenAI, Google) to modele zamknięte, dostępne tylko przez API lub ograniczony interfejs. Modele zamknięte często górują czystą mocą, ale wymagają zaufania do dostawcy i niosą ze sobą ograniczenia licencyjne i użytkowe.

Z tym bagażem wiedzy poznajmy czołowe LLM-y kształtujące obecny krajobraz SI – ich budowę, silne i słabe strony, oraz wzajemne przewagi.

ChatGPT (OpenAI): Pionier konwersacyjnej SI

Opis: ChatGPT firmy OpenAI to SI, która rozpaliła wyobraźnię mas. Wypuszczona jako darmowy chatbot w listopadzie 2022 roku, zyskała błyskawiczną popularność dzięki zdolności do prowadzenia naturalnych rozmów, rozwiązywania problemów i generowania dowolnego tekstu na zamówienie. Już w styczniu 2023 miała szacunkowo 100 milionów użytkowników, co czyni ją najszybciej rosnącą konsumencką aplikacją w historii reuters.com. ChatGPT napędzany jest przez serię modeli GPT firmy OpenAI – początkowo GPT-3.5 (dostrojony model 175 mld parametrów z GPT-3 z 2020 r.), a obecnie częściej GPT-4 dla użytkowników płatnych. GPT-4 to ogromna sieć neuronowa typu Transformer, z pogłoskami o architekturze Mixture-of-Experts z ok. 1,7–1,8 biliona parametrów rozłożonych na 8 ekspertów explodingtopics.com explodingtopics.com. OpenAI nie potwierdziło tych szczegółów, ale GPT-4 jest bez wątpienia znacznie większy i bardziej zaawansowany niż poprzednie wersje.

Szkolenie i technologia: Modele GPT to transformatory oparte wyłącznie na dekoderze, trenowane na gigantycznych zbiorach danych tekstowych (GPT-4 uczył się na tekstach i kodzie z internetu, książkach, Wikipedii itd., prawdopodobnie w sumie bilionach tokenów). Model uczy się przewidywać następny token w sekwencji, co podczas treningu pozwala mu przyswajać gramatykę, fakty i pewne umiejętności rozumowania. Po pre-treningu ChatGPT przeszedł dostrajanie instrukcyjne i RLHF – OpenAI zaangażowało ludzi do oceny odpowiedzi modelu, a następnie zastosowało uczenie przez wzmocnienie, by model lepiej wykonywał polecenia i był przyjazny użytkownikowi anthropic.com anthropic.com. To dlatego ChatGPT potrafi tłumaczyć odpowiedzi krok po kroku lub odmówić wykonania nieodpowiednich zapytań na podstawie zabezpieczeń. GPT-4 wprowadził umiejętności multimodalne: potrafi przyjmować obrazy jako dane wejściowe i je opisywać lub analizować (ChatGPT Vision). Ponadto rozszerzono okno kontekstu do 32 000 tokenów (około 24 tys. słów) w wydaniu z 2023 roku, co pozwala na pracę z długimi dokumentami lub rozbudowanymi konwersacjami explodingtopics.com.

Zastosowanie i integracja: ChatGPT jest dostępny poprzez webowy interfejs czatu oraz API OpenAI, co umożliwia łatwe testowanie każdemu. Teraz jest zintegrowany z niezliczoną liczbą produktów – na przykład funkcje Bing Chat i Copilot od Microsoft korzystają z GPT-4 pod maską, a wiele aplikacji oferuje wtyczki ChatGPT. Ta szeroka dostępność, plus przewaga pierwszego ruchu OpenAI, dały ChatGPT przewagę pioniera w zdobywaniu użytkowników i uwagi developerów reuters.com reuters.com. Ludzie wykorzystują go do pomocy w pisaniu, kodowaniu, badaniach, korepetycjach, kreatywnym burzy mózgów, obsłudze klienta – przypadki użycia są niezliczone. OpenAI umożliwia także fine-tuning modeli GPT-3.5, by firmy mogły dostosować ChatGPT do wyspecjalizowanych zadań (fine-tuning GPT-4 nadchodzi).

Mocne strony: ChatGPT (szczególnie z GPT-4) wciąż uchodzi za złoty standard w wielu dziedzinach. Posiada niezwykle szeroką wiedzę (dzięki treningowi praktycznie na całym internecie). Generuje płynne, spójne i kontekstowo adekwatne odpowiedzi w wielu językach. Radzi sobie znacznie lepiej od wcześniejszych modeli z trudnymi zadaniami wymagającymi rozumowania i kodowania – np. GPT-4 potrafi rozwiązywać złożone zadania tekstowe z matematyki i pisać rozbudowany kod, a także słynnie zdał liczne egzaminu zawodowe (Bar, LSAT itd.) w najwyższych percentylach law.stanford.edu. ChatGPT jest także bardzo przyjazny dla użytkownika: zaprojektowany, by wykonywać polecenia i udzielać szczegółowych odpowiedzi, a dzięki RLHF na ogół odpowiada w sposób pomocny i bezpieczny. Rezultatem jest świetnie sprawdzająca się kreatywność (np. do opowieści lub burzy mózgów), a także jasne wyjaśnianie i nauczanie pojęć. Duży kontekst pozwala mu trawić dłuższe dane wejściowe (np. całe artykuły) i skutecznie prowadzić wieloetapowe rozmowy. Wreszcie efekt sieciowy to atut – tak wiele istnieje wtyczek, integracji i forów społeczności, że użytkownicy mają do dyspozycji bogaty ekosystem.

Słabe strony: Mimo swoich możliwości, ChatGPT ma zauważalne ograniczenia. Największym z nich jest tendencja do halucynowania informacji – potrafi przedstawiać nieprawdziwe fakty lub zmyślać treści z pełnym przekonaniem en.wikipedia.org. Na przykład, może cytować badania czy ustawy, które nie istnieją, ponieważ przewiduje prawdopodobną odpowiedź nawet gdy nie jest pewien. Często ma też trudności z bardzo aktualnymi wydarzeniami (zależnie od daty odcięcia wiedzy; dane treningowe GPT-4 pochodzą do połowy 2021, z ograniczonymi aktualizacjami przez Bing). Kolejnym problemem jest brak przejrzystości – jako model zamknięty, nie znamy dokładnych źródeł danych czy sposobu działania, co może być kłopotliwe, jeśli model wygeneruje stronnicze lub błędne treści. Zabezpieczenia OpenAI, choć ważne dla bezpieczeństwa, sprawiają, że ChatGPT odmawia niektórym zapytaniom lub produkuje ogólne odpowiedzi typu „Jako AI nie mogę tego zrobić”, co frustruje część użytkowników. Wydajnościowo, GPT-4 jest potężny, ale wolny i kosztowny w obsłudze; darmowa wersja (GPT-3.5) bywa zauważalnie słabsza w rozumowaniu czy precyzji. Na koniec, korzystanie z ChatGPT wymaga zaufania do OpenAI – ponieważ model nie jest open-source, a dostęp uzyskuje się przez ich platformę, prywatność danych i uzależnienie od usług OpenAI stają się istotne (szczególnie dla firm).

Podsumowując, ChatGPT wciąż pozostaje przełomowym uniwersalnym asystentem AI z topowymi możliwościami w praktycznie każdym zakresie, jednak jego zamknięty charakter i okazjonalne dezinformacje zostawiają miejsce konkurencji – która już pojawiła się na rynku.

Claude (Anthropic): Etyczny konwersacyjny gigant z ogromną pamięcią

Przegląd: Claude to LLM stworzony przez firmę Anthropic, startup skoncentrowany na bezpieczeństwie AI założony przez byłych badaczy OpenAI. Jeśli ChatGPT jest ulubieńcem mainstreamu, Claude to alternatywa na pierwszym miejscu stawiająca bezpieczeństwo, zaprojektowana, by być pomocna, uczciwa i nieszkodliwa. Anthropic uruchomiło Claude na początku 2023 roku, a w lipcu 2023 wypuściło Claude 2 jako ulepszoną wersję. Claude działa bardzo podobnie do ChatGPT (dostęp przez interfejs czatu lub API), ale Anthropic wyróżniło się etycznymi metodami szkolenia oraz wyjątkowo dużym oknem kontekstu. Claude 2 ma do 100 000 tokenów kontekstu (około 75 tys. słów), co pozwala mu przetwarzać bardzo długie dokumenty, a nawet całe książki na raz en.wikipedia.org. To był skok o rząd wielkości względem kontekstu GPT-4 w tamtym czasie, czyniąc Claude wyjątkowo atrakcyjnym do zadań takich jak analiza dużych tekstów czy prowadzenie długich rozmów bez „zapominania” przez AI wcześniejszych szczegółów.

Architektura i trening: Claude opiera się na architekturze Transformera podobnej do GPT, a choć Anthropic nie ujawnił konkretnych rozmiarów, szacuje się, że Claude 2 ma ~137 miliardów parametrów (w porównaniu do ~93 mld w oryginalnym Claude 1) datasciencedojo.com. To czyni go nieco mniejszym niż GPT-4 pod względem skali, ale bliskim np. PaLM 2. Kluczową innowacją Anthropic jest „AI konstytucyjna” – technika szkoleniowa, w której modelowi przydziela się zestaw spisanych zasad („konstytucję”), które mają rządzić jego zachowaniem anthropic.com anthropic.com. Zamiast polegać wyłącznie na ludzkiej ocenie, by karać złe odpowiedzi, Anthropic sprawia, że Claude sam ocenia i poprawia swoje wypowiedzi według jasno określonych zasad, co jest uznane za nieszkodliwe i pomocne. Przykładowo, konstytucja Claude’a odwołuje się do Powszechnej Deklaracji Praw Człowieka i innych wytycznych etycznych anthropic.com anthropic.com. Takie podejście ma na celu stworzenie modelu, który samodzielnie odmawia niewłaściwym prośbom i unika toksycznych lub stronniczych odpowiedzi. W praktyce Claude jest wyjątkowo niechętny do generowania niedozwolonych treści – grzecznie odmawia zapytań o przemoc, nienawiść, nielegalne działania itp., powołując się na swoje zasady. Anthropic wskazuje, że AI feedback (ocenianie odpowiedzi przez model według konstytucji) lepiej się skaluje i chroni ludzkich recenzentów przed szkodliwymi treściami anthropic.com anthropic.com.

Możliwości: Claude w działaniu dorównuje mniej więcej modelowi GPT-3.5 do GPT-4, w zależności od zadania. Jest bardzo dobry w długich dialogach i utrzymywaniu kontekstu, dzięki ogromnej pamięci. Przykładowo, użytkownicy przekazywali Claude’owi całe powieści i prosili o analizę czy redakcję fabuły. Potrafi także wykonywać zadania strukturalne, takie jak streszczanie transkryptów, pisanie kodu czy odpowiadanie na pytania, często jakościowo porównywalnie do ChatGPT. W niektórych testach Claude 2 zbliża się do poziomu GPT-4. (Pod koniec 2023 roku Anthropic testowało już Claude 2.1 i wyżej; Claude 3 był zapowiadany jako znacznie większy). Claude potrafi obsługiwać wiele języków (multilingual), jednak najmocniejszy jest w języku angielskim. Anthropic twierdzi, że Claude rzadziej halucynuje lub generuje szkodliwe treści dzięki treningowi; zwykle jest nieco bardziej ostrożny i obszerniej wyjaśnia odmowy czy niepewne odpowiedzi. Wyróżnia się też tym, że ma bardzo wysoki limit odpowiedzi (może generować bardzo długie teksty, wykorzystując szerokie okno kontekstu), co jest użyteczne np. do generowania długich dokumentów czy opowiadań.

Dostęp i użytkowanie: Początkowo Claude był dostępny przez API (i, co ciekawe, zintegrowany jako asystent czatu w Slacku podczas fazy beta). Później Anthropic otworzyło interfejs webowy (claude.ai) do bezpośredniego użytku. Aktualnie jest dostępny bezpłatnie z pewnymi limitami, a Anthropic współpracuje także z biznesem (Claude dostępny jest na platformach takich jak AWS Bedrock). Claude nie ma jeszcze tylu konsumenckich integracji jak ChatGPT, ale w niektórych produktach (np. Poe od Quory) można go wybrać jako opcję. Ponieważ Anthropic przykłada wagę do bezpieczeństwa, Claude może być preferowany w środowiskach firmowych lub edukacyjnych, gdzie ważne jest kontrolowanie zachowania AI.

Mocne strony: Największymi atutami Claude’a są jego ogromne okno kontekstowe – jest w stanie przyjąć i przeanalizować znacznie więcej informacji na raz niż większość konkurentów, co jest nieocenione przy zadaniach takich jak przetwarzanie długich PDF-ów czy wielogodzinnych transkrypcji spotkań. Model ten dostrojony jest również do wysokich standardów etycznych; bardzo rzadko generuje treści obraźliwe lub ryzykowne, często tłumaczy także swoje rozumowanie, co może budować zaufanie użytkownika. Użytkownicy często zgłaszają, że Claude ma przyjazną, pogodną osobowość i świetnie radzi sobie z twórczym pisaniem. Odpowiedzi są szczegółowe i rzadziej odmawia wykonania uzasadnionych poleceń (stara się być pomocny, jednocześnie przestrzegając zasad). W zadaniach programistycznych Claude 2 wypada konkurencyjnie, a dzięki rozmiarowi okna kontekstowego ma przewagę w przetwarzaniu naprawdę dużych baz kodu lub dokumentów. Kolejny plus: Anthropic stale ulepsza wiedzę i rozumowanie Claude’a – na przykład Claude 2 uzyskał ponad 80% w zestawie akademickich i programistycznych benchmarków, zmniejszając dystans do GPT-4 ibm.com ibm.com. Wreszcie, dla organizacji Claude stanowi alternatywę wobec polegania wyłącznie na OpenAI – zawsze dobrze mieć kolejny model najwyższej klasy na rynku.

Słabości: Claude, choć potężny, czasem wydaje się mniej błyskotliwy niż GPT-4 przy najtrudniejszych problemach. Jego wiedza może być minimalnie bardziej ograniczona (jeśli rzeczywiście liczba parametrów i dane treningowe są mniejsze niż u GPT-4). Ma też tendencję do przegadywania: odpowiedzi Claude’a mogą być bardzo długie i nadmiernie uporządkowane (czasem powtarza pytanie lub tłumaczy wszystko zbyt szczegółowo). Ta rozwlekłość to efekt treningu ukierunkowanego na bycie pomocnym i niepomijanie detali, ale czasem wymaga to od użytkownika naprowadzenia modelu na właściwy tor. Mimo nacisku na prawdomówność, Claude wciąż czasem halucynuje – nie jest odporny na „zmyślanie”, jeśli „uzna”, że powinien odpowiedzieć. Kolejny problem: Dostępność i integracja. Poza branżą technologiczną Claude jest mniej rozpoznawalny od ChatGPT; zwykli użytkownicy mogą nawet nie wiedzieć o jego istnieniu. Jego interfejs i ekosystem są mniej rozwinięte (mniej wtyczek i publicznych wersji demo). Jako model zamknięty (choć nie tak restrykcyjnie jak OpenAI), aby uzyskać dostęp do API lub platformy Anthropica, trzeba mieć zaproszenie do niektórych funkcji. Na koniec, ultraduże okno kontekstowe Claude’a, choć to jego zaleta, może być wolne – przetwarzanie 100 tys. tokenów bywa powolne lub kosztowne, więc w praktyce realne wykorzystanie pełnego okna wciąż ograniczają zasoby obliczeniowe.

Podsumowując, Claude Anthropica to jak odpowiedzialny przyjaciel ChatGPT – może nie tak efektownie inteligentny jak GPT-4 w najlepszej formie, ale niezawodny, świetnie radzi sobie z kontekstem i został zaprojektowany tak, by być jak najbezpieczniejszy i najbardziej pomocny. To mocny wybór do zadań wymagających przetwarzania długich tekstów lub rygorystycznego przestrzegania zasad etycznych.

Gemini (Google DeepMind): Multimodalna potęga gotowa zdetronizować GPT-4

Przegląd: Gemini to najnowszy flagowy LLM od Google DeepMind, zaprezentowany pod koniec 2023 roku jako odpowiedź Google na GPT-4. Nie jest to jeden model, lecz cała rodzina modeli przeznaczonych do różnych zastosowań (podobnie jak OpenAI ma GPT-4 i jego wersje „Turbo”). Nad Geminim pracowały wspólnie zespoły Google Brain i DeepMind (po połączeniu w Google DeepMind w 2023 r.) en.wikipedia.org. Google od początku reklamowało Gemini jako AI nowej generacji, która dzięki zaawansowanym technikom – w tym stojącym za AlphaGo (AI grająca w Go) – zyska umiejętności planowania i rozwiązywania problemów en.wikipedia.org. W przeciwieństwie do wielu LLMów obsługujących jedynie tekst, Gemini jest z założenia modelem multimodalnym. Został zaprojektowany do przetwarzania tekstu, obrazów i potencjalnie innych modalności, jak audio czy wideo, wszystko w ramach jednego modelu en.wikipedia.org en.wikipedia.org. Google zasadniczo zbudowało Gemini jako silnik napędzający funkcje AI w Search, Google Cloud i produktach konsumenckich.

Architektura i skala: Google niezbyt chętnie dzieli się szczegółami technicznymi Gemini, ale oto co wiadomo. Gemini 1.0 wystartował w grudniu 2023 w trzech wersjach: Gemini Nano (dla urządzeń mobilnych), Gemini Pro (średni, uniwersalny), oraz Gemini Ultra (ogromny, do najbardziej zaawansowanych zadań) en.wikipedia.org. W momencie startu Ultra był największym i najpotężniejszym modelem AI Google w historii – określanym jako „największy i najbardziej zaawansowany model AI Google” en.wikipedia.org. Podobno przewyższył GPT-4 od OpenAI, Claude 2 od Anthropica, LLaMA 2 70B od Meta itd., w wielu testach en.wikipedia.org. Co więcej, Gemini Ultra był pierwszym modelem, który przekroczył 90% w benchmarku egzaminu MMLU, wyprzedzając nawet ekspertów-ludzi en.wikipedia.org. Wewnątrz, gdy pojawił się Gemini 1.5 (początek 2024), Google ujawniło wykorzystanie architektury Mixture-of-Experts (MoE) oraz osiągnięcie okna kontekstu o wielkości aż 1 miliona tokenów en.wikipedia.org en.wikipedia.org. MoE oznacza, że model składa się z wielu mniejszych modeli „ekspertów” i jedynie część z nich aktywuje się dla danego zapytania mistral.ai – to pozwala drastycznie zwiększyć liczbę parametrów bez proporcjonalnego spowolnienia. (Można zakładać, że Gemini Ultra ma biliony parametrów, podobnie jak GPT-4, ale Google nie podaje dokładnych liczb.) Długie okno kontekstu (1M tokenów) to przełomowa innowacja – to mniej więcej cała książka lub 700 tys. słów jednocześnie en.wikipedia.org – przy czym pewnie jest to funkcja eksperymentalna, wymagająca specjalnej infrastruktury. Pod koniec 2024 roku trwają prace nad Gemini 2.0, a Google wypuściło również Gemma – mniejszą, otwartą serię modeli (2B i 7B parametrów), powiązaną z Gemini, dla społeczności en.wikipedia.org.

Integracja z produktami Google: Gemini szybko stał się częścią ekosystemu Google. Po premierze Bard (chatbot Google) został zaktualizowany do Gemini (początkowo Gemini Pro dla większości użytkowników, Ultra dostępne na listę oczekujących jako „Bard Advanced”) en.wikipedia.org. Smartfon Google Pixel 8 zyskał Gemini Nano na pokładzie dla funkcji AI en.wikipedia.org. Google ogłosiło też wprowadzanie Gemini do wyszukiwarki (Search) (Search Generative Experience korzysta teraz z Gemini do generowania odpowiedzi), Google Ads (pomoc w tworzeniu tekstów ogłoszeń), Google Workspace (Duet AI) jako podpowiedzi przy pisaniu w Docs/Gmail, Chrome (inteligentna asysta przy przeglądaniu) oraz do narzędzi programistycznych en.wikipedia.org. Na początku 2024 roku Google udostępniło Gemini Pro klientom biznesowym w chmurze Vertex AI en.wikipedia.org. W zasadzie Gemini jest fundamentem AI Google dla usług konsumenckich i biznesowych – zapewniającą olbrzymi zasięg wdrożeniowy.

Możliwości: Gemini jest na światowym poziomie pod wieloma względami. Świetnie radzi sobie z rozumieniem i generowaniem języka w różnych językach. Jest również wyspecjalizowany w kodzie (jedna z wersji jest zapewne dostrojona do zadań programistycznych, tak jak PaLM 2 miało wariant „Codey”). Jego multimodalność oznacza, że można podać mu obraz i zadawać pytania – podobnie jak GPT-4 z funkcją vision – lub generować opisy. CEO Google Sundar Pichai mówił, że Gemini potrafi tworzyć kontekstowe obrazy na podstawie poleceń tekstowych, co sugeruje integrację generowania obrazów z tekstu en.wikipedia.org. Dzięki udziałowi DeepMind, Gemini może zostać wzbogacony o zaawansowane strategie rozumowania – np. wykorzystywanie algorytmów planowania czy narzędzi, wzorowanych na podejściu AlphaGo, do rozwiązywania złożonych zadań (Demis Hassabis sugerował, że model może łączyć moc AlphaGo z LLM-ami en.wikipedia.org). W benchmarkach, jak wspomniano, Gemini Ultra dorównywał lub przewyższał GPT-4 w wielu testach akademickich i zdroworozsądkowych en.wikipedia.org. Gemini 1.5 jeszcze bardziej poprawił wyniki, używając mniej zasobów obliczeniowych (efekt nowej architektury) blog.google blog.google. Śmiało można stwierdzić, że Gemini to jeden z najmocniejszych modeli 2024–2025 roku.

Mocne strony: Jedną z głównych zalet Gemini jest multimodalność – podczas gdy rozumienie obrazów przez GPT-4 jest dość ograniczone i nie wszystkie modele to oferują, Gemini został zaprojektowany natywnie do obsługi wielu typów danych en.wikipedia.org. Może to umożliwić bogatsze interakcje (np. analizę obrazu wykresu i odpowiadanie na pytania lub generowanie obrazu na podstawie opisu w locie). Kolejną mocną stroną jest ścisła integracja z wyszukiwarką i danymi. Ponieważ Google kontroluje zarówno LLM, jak i indeks wyszukiwania, Bard oparty na Gemini potrafi pobierać informacje w czasie rzeczywistym oraz cytować źródła, co ogranicza halucynacje i utrzymuje aktualność odpowiedzi. (Google zademonstrowało Barda, który wykonuje na żywo wyszukiwania Google w celu zdobycia faktów – coś, co ChatGPT może robić tylko przez wtyczki lub tryb przeglądarki.) Przewaga Gemini w wydajności na benchmarkach takich jak MMLU pokazuje jego siłę w różnorodnych dziedzinach wiedzy en.wikipedia.org. Ponadto Google kładzie duży nacisk na efektywność i bezpieczeństwo: Gemini 1.5 osiągnął jakość GPT-4 przy mniejszym zużyciu zasobów blog.google blog.google, dzięki czemu wnioskowanie jest szybsze i tańsze. Wbudowano również zaawansowane testowanie pod kątem bezpieczeństwa – publiczna premiera Gemini Ultra została opóźniona do czasu przeprowadzenia szczegółowych testów en.wikipedia.org. Dodatkowa zaleta: ekosystem. Programiści mogą korzystać z Gemini przez Google Cloud, a rozwiązanie to jest dostępne w znanych aplikacjach (miliony użytkowników Gmaila czy Androida nie potrzebują osobnej rejestracji). Dla firm już pracujących w ekosystemie Google wdrożenie Gemini jest płynne i proste.

Słabości/Ograniczenia: Na początkowym etapie dostępność Gemini była ograniczona – podczas debiutu Gemini Ultra (najlepszego modelu) nie udostępniono od razu wszystkim ze względu na kwestie bezpieczeństwa oraz ograniczenia wydajności en.wikipedia.org. Dostęp otrzymali jedynie wybrani partnerzy lub użytkownicy płatni, więc szeroka publiczność miała początkowo styczność z Gemini przez Barda, ze sporymi ograniczeniami. Ponadto, jako produkt Google, Gemini jest zamknięty źródłowo (poza niewielkimi modelami Gemma). Nie da się pobrać Gemini Ultra i uruchomić lokalnie – trzeba korzystać z API lub interfejsu Google. To oznacza, że jeśli Google zmieni lub zaktualizuje model, użytkownicy muszą to zaakceptować (to ciągle poruszający się cel, choć stale ulepszany). Potencjalną słabością jest także zaufanie i stronniczość – niektórzy mogą obawiać się stronniczości modelu, biorąc pod uwagę, że model uczy się na danych wyselekcjonowanych przez Google i jest dostosowany do zasad bezpieczeństwa AI obowiązujących w Google. (Mimo wszystko upublicznienie przez Google części modeli pokazuje próbę zwiększenia transparentności en.wikipedia.org.) Warto zauważyć, że mimo integracji z wyszukiwarką, część użytkowników uznała, że Bard (Gemini) początkowo był mniej kreatywny i „bardziej ostrożny” niż ChatGPT. Często unikał wyrażania pewnych opinii osobistych czy hipotetycznych, być może ze względu na bardziej rygorystyczne zabezpieczenia. Może to sprawić, że odpowiedzi będą bardziej zachowawcze czy ogólne, choć takie zachowanie zazwyczaj ewoluuje w kolejnych aktualizacjach. Na końcu warto pamiętać o konkurencji – w chwili premiery Gemini GPT-4 był już dobrze ugruntowany, a otwarte modele Mete szybko nadrabiały zaległości. Gemini musi więc udowodnić swą przewagę w praktyce, nie tylko na wykresach i benchmarkach. Prawdziwy sprawdzian nastąpi, gdy coraz więcej osób będzie go testować w produktach Google.

W istocie, Gemini to ciężki zawodnik Google na rynku LLM – potężny, wszechstronny i głęboko zintegrowany. Jeśli OpenAI nadał tempo na początku, Google mocno ściga się, by odzyskać dominację dzięki AI obecnemu w każdym narzędziu – od paska wyszukiwania po smartfon.

LLaMA (Meta): Otwarty LLM dla wszystkich – od 7B do 405B parametrów

Przegląd: LLaMA (Large Language Model Meta AI) to rodzina modeli językowych od Meta (spółki-matki Facebooka), która stała się symbolem otwartej rewolucji AI. Strategia Metu różniła się od tej OpenAI/Google – zamiast oferować tylko zamknięte API, Meta udostępniła wagi swoich modeli naukowcom, a później publicznie, umożliwiając każdemu uruchamianie i rozwijanie ich na własną rękę. Oryginalny LLaMA 1 został ogłoszony w lutym 2023 jako zestaw modeli od 7B do 65B parametrów, przeznaczony do badań. Choć początkowo LLaMA 1 miał zamkniętą licencję (wyłącznie do celów badawczych), jego wagi wyciekły do sieci i społeczność AI szybko zaczęła je dostrajać do najróżniejszych zastosowań (czaty, asystenci kodu itp.). Widząc zainteresowanie, Meta zwiększyła swoje zaangażowanie i w lipcu 2023 zaprezentowała LLaMA 2, który był już otwarty (dostępny dla wszystkich) na elastycznej licencji (pozwalającej na komercyjne wykorzystanie, z pewnymi warunkami) siliconangle.com siliconangle.com. LLaMA 2 obejmował modele 7B, 13B i 70B parametrów oraz dostosowane „Chat” do dialogu. Ale Meta nie poprzestała na tym – w 2024 roku wprowadziła LLaMA 3, w tym ogromny model 405 miliardów parametrów (Llama 3.1), największy publicznie dostępny LLM, dorównujący rozmiarem zamkniętym modelom jak GPT-4 ai.meta.com ibm.com.

Architektura i trening: Modele LLaMA to dekoderowe architektury Transformer, bardzo podobne do modeli GPT. Są trenowane na ogromnych zbiorach tekstowych – przykładowo, LLaMA 2 był trenowany na 2 bilionach tokenów danych (podwójnie większy zbiór niż LLaMA 1) originality.ai viso.ai. Skupiono się na różnorodnych źródłach (dane z internetu, kod, Wikipedia itp.) i dokładnym czyszczeniu danych. Celem Mete była wysoka wydajność przy małej skali dzięki efektywnemu treningowi – LLaMA 1 zaskoczył społeczność pokazując, że model 13B może przewyższać GPT-3 (175B) w wielu zadaniach siliconangle.com. Osiągnięto to poprzez wykorzystanie większej liczby tokenów i staranne strojenie. LLaMA 2 70B jeszcze bardziej poprawił zdolności kodowania i rozumowania. Wraz z LLaMA 3 Meta nie tylko zwiększyła parametry (405B), ale także wzmocniła wielojęzyczność, długość kontekstu oraz dodała obsługę wizji w niektórych wariantach ai.meta.com ai.meta.com. (Meta zapowiedziała, że LLaMA 3 będzie multimodalny i rzeczywiście później pojawiły się wersje z obsługą wizji ai.meta.com.) Duży model 405B Llama 3.1 wykorzystuje ponoć grouped-query attention i inne optymalizacje, by obsłużyć kontekst nawet do 32 tys. tokenów, choć szczegółowe dane są bardzo techniczne. Co ważne, Meta udostępnia zarówno modele przedtreningowe, jak i wyregulowane instrukcjami (np. Llama-2-Chat, Llama-3.1-Instruct), które są od razu dostosowane do dialogu.

Otwarte wagi i społeczność: Otwarty charakter LLaMA doprowadził do eksplozji innowacji napędzanych przez społeczność. Po wycieku wag LLaMA 1 naukowcy dostrajali go, by stworzyć Alpaca (model Stanfordu 7B uczony na odpowiedziach GPT), Vicuna, WizardLM i setki innych wariantów – często za bardzo niewielkie środki – pokazując, że nawet mniejsze otwarte modele mogą osiągać zaskakująco dobrą jakość. Po oficjalnym otwarciu LLaMA 2 (we współpracy z Microsoft/Azure) firmy i start-upy zaczęły używać LLaMA jako bazy do swoich rozwiązań bez prawnych obaw, jakie wiązały się z przeciekiem siliconangle.com siliconangle.com. Firmy takie jak IBM, Amazon i inne zaadaptowały modele rodziny LLaMA do swoich usług chmurowych ibm.com ibm.com. Udostępniając model 405B Meta praktycznie zrównała się rozmiarem z topowymi modelami komercyjnymi i dała społeczności ogromne pole do eksperymentów ibm.com ibm.com. Ten model 405B (Llama 3.1 405B) pokazuje wydajność równą najlepszym zamkniętym modelom na wielu benchmarkach – zdobył 87,3% na MMLU, wiążąc się praktycznie z GPT-4 i Claude 3 w tym egzaminie ibm.com. Model ten świetnie wypada także w kodowaniu (HumanEval), rozumieniu tekstu i w innych zadaniach, często dorównując lub przewyższając GPT-4 Turbo oraz Google Gemini w testach wewnętrznych ibm.com ibm.com.

Zastosowania i przykłady użycia: Ponieważ każdy może uruchomić modele LLaMA lokalnie (mając odpowiedni sprzęt) lub na własnych serwerach, te modele znalazły zastosowanie w wielu dziedzinach. Ludzie dostosowali LLaMA do wyspecjalizowanych zadań: boty doradzające w medycynie, analizatory dokumentów prawnych, chatboty do odgrywania ról, asystenci programistyczni i narzędzia badawcze. Modele LLaMA 2 o wielkości 7B i 13B mogą nawet działać na zaawansowanych laptopach lub smartfonach (po kwantyzacji), umożliwiając sztuczną inteligencję na krawędzi. LLaMA stała się także platformą badawczą – naukowcy wykorzystują ją do analizowania zachowania modeli, dopasowania i technik optymalizacji, ponieważ mogą bezpośrednio analizować wagi. Sama Meta zintegrowała LLaMA ze swoimi produktami konsumenckimi: pod koniec 2023 roku Meta uruchomiła Meta AI Assistant na WhatsApp, Instagramie i Messengerze, który początkowo był oparty na LLaMA 2, a następnie został zaktualizowany do LLaMA 3 about.fb.com about.fb.com. Ten asystent potrafi odpowiadać na pytania w czacie, generować obrazy (polecenia “/imagine”) i posiada osobowości AI wzorowane na celebrytach – pokazując możliwości LLaMA w rzeczywistym zastosowaniu.

Mocne strony: Oczywistą zaletą jest otwartość. Posiadanie wag modelu oznacza pełną przejrzystość i kontrolę – deweloperzy mogą dostosować model (trenując go na własnych danych), badać pod kątem uprzedzeń lub słabości i wdrażać bez przesyłania danych do zewnętrznej chmury. To świetne dla prywatności i rozwiązań wymagających szczególnej ochrony danych. Modele LLaMA są także wysoce wydajne pod względem wydajności na parametr. Mniejsze modele (7B, 13B) dają ponadprzeciętne wyniki przy skromnych zasobach sprzętowych siliconangle.com. Z kolei największe modele LLaMA (70B, 405B) okazały się światowej klasy pod względem możliwości ibm.com ibm.com. Innym atutem jest wspólnota – tysiące kontrybutorów tworzą wiele ulepszeń: biblioteki kwantyzacji do zmniejszania modeli, procedury dostrajania oraz rozszerzenia do obsługi dłuższego kontekstu i pamięci. Meta dodała też elementy bezpieczeństwa do LLaMA 2 i 3, publikując karty modeli i politykę dopuszczalnego użycia; otwarte modele nie są domyślnie “odstrojone” – czatowe wersje są dość dobrze wyregulowane, by nie generować niedozwolonych treści (choć nie tak restrykcyjnie jak zamknięte AI, co niektórzy użytkownicy sobie cenią). Wszechstronność wdrożenia lokalnego to ogromna zaleta dla przedsiębiorstw dbających o zarządzanie danymi. Szybka iteracja Mety (od LLaMA 1 do 3 w ciągu ok. roku) pokazuje, że otwarte modele pozostaną w czołówce postępu.

Słabości: Pomimo entuzjazmu, modele LLaMA mają pewne ograniczenia. W wersji podstawowej te mniejsze (7B/13B) są nadal słabsze od gigantów, takich jak GPT-4 – mogą mieć trudności z bardziej złożonym rozumieniem, udzielać bardziej ogólnych odpowiedzi lub zawodzić przy bardzo szczegółowych pytaniach. Można to poprawić przez dostrajanie, ale wymaga to pracy. Największy model LLaMA (405B) jest bardzo potężny, lecz wnioskowanie jest nietrywialne – uruchomienie modelu 405B wymaga ogromnej ilości pamięci (setki GB VRAM) i jest powolne; większość użytkowników korzysta z usług chmurowych lub wersji kwantyzowanych z pewną utratą jakości. Otwarte modele nie dysponują też tak szeroko zakrojonym doświadczeniem RLHF jak ChatGPT – fine-tuning społecznościowy istnieje, ale może być mniej dopracowany. To oznacza, że podstawowe otwarte modele mogą czasem generować bardziej “nieskorygowane” lub mniej wypolerowane odpowiedzi (co może być zarówno plusem, jak i minusem). Halucynacje i nieścisłości wciąż są otwartym problemem; LLaMA 2 Chat był niezły, ale nie był odporny na wymyślanie treści. Kolejny problem to odpowiedzialność. Gdy samodzielnie wdrażasz otwarty model, nie masz filtrów czy polityk OpenAI/Google – to Ty odpowiadasz za zapobieganie nadużyciom. Jest to upoważniające, ale i ryzykowne (ktoś może dostroić otwarty model do celów szkodliwych, co często się podnosi). Licencja Mety dla LLaMA zakłada też istotne ograniczenie: jeśli Twoja aplikacja ma ponad 700 milionów użytkowników (w praktyce: jeśli jesteś na poziomie Google lub OpenAI), musisz uzyskać specjalną licencję od Mety huggingface.co huggingface.co – dla prawie wszystkich nie ma to znaczenia, ale warto znać ten wymóg. Ostatnia kwestia to wsparcie i odpowiedzialność: gdy otwarty model przestaje działać, nie ma dedykowanej infolinii – korzystasz z pomocy społeczności, co nie każdej firmie się podoba.

Ogólnie rzecz biorąc, LLaMA zdemokratyzowała AI. Udowodniła, że modele językowe najwyższej klasy nie muszą być pilnie strzeżonym skarbem garstki firm – możesz mieć własny model na poziomie GPT, jeśli potrafisz zadbać o inżynierię. Model LLaMA 3 o wielkości 405B dorównuje zamkniętym AI w wielu zadaniach ibm.com ibm.com – różnica między otwartym a zamkniętym praktycznie się zatarła. Meta stawia na przyszłość, w której modele otwarte będą standardem dla programistów (ze swoim Meta AI Assistant pokazującym ich zastosowanie w produktach). Dla użytkowników i firm LLaMA to elastyczność i wolność: potężne narzędzie, które można dopasować do własnych potrzeb, bez korporacyjnego strażnika.

Mistral i Mixtral: Mały startup, wielkie idee w otwartej AI

Przegląd: Mistral AI to francuski startup, który pojawił się na rynku w 2023 roku z ambitną misją: budować najlepsze otwarto-dostępne LLM-y na świecie, rzucając wyzwanie gigantom przy użyciu niewielkiego zespołu i innowacyjnych pomysłów. Zaledwie cztery miesiące po powstaniu (i dużej rundzie finansowania na 105 mln euro) Mistral wypuścił Mistral 7B we wrześniu 2023 – model o 7,3 miliarda parametrów, który natychmiast ustanowił nowe standardy w swojej klasie siliconangle.com siliconangle.com. Pomimo niewielkich rozmiarów w porównaniu z GPT-4, Mistral 7B przewyższył wszystkie otwarte modele aż do 13B parametrów i dorównał nawet niektórym 34B w standardowych benchmarkach siliconangle.com. Był całkowicie open-source (licencja Apache 2.0) bez żadnych ograniczeń w użytkowaniu siliconangle.com siliconangle.com, zgodnie z filozofią Mistral, że otwarte modele napędzają innowacje. Firma nie poprzestała na gęstym modelu – w grudniu 2023 ujawnili Mixtral 8×7B, sparse Mixture-of-Experts (mieszankę ekspertów), która jeszcze bardziej podniosła poprzeczkę efektywności otwartej AI mistral.ai mistral.ai. „Mixtral” (portmanteau od Mistral + Mixture) pokazał gotowość Mistral do eksplorowania zaawansowanych architektur poza klasyczne skalowanie Transformerów.

Filozofia projektowania: Podstawowym przekonaniem Mistral jest, że otwarte rozwiązania szybko przewyższą te zamknięte, korzystając z wkładu społeczności i technicznej doskonałości mistral.ai mistral.ai. Mistral otwarcie porównuje krajobraz AI do poprzednich epok technologicznych, gdzie projekty open-source finalnie dominowały (np. Linux dla systemów operacyjnych, Kubernetes dla chmur) mistral.ai. Udostępniając potężne modele publicznie, chcą umożliwić twórcom pełną swobodę, wyeliminować centralizację czy „oligopol AI”, a także dać opcje dostosowania, których nie dają zamknięte API mistral.ai mistral.ai. To oznacza także nacisk na wydajność: zamiast tworzyć monstrualny model wymagający ogromnych zasobów, Mistral stara się osiągnąć więcej mniejszym nakładem. Trening Mistral 7B obejmował zaprojektowanie wyrafinowanego pipeline’u danych od podstaw w 3 miesiące mistral.ai i maksymalizowanie tokenów treningowych oraz technik, by przekroczyć utarte oczekiwania. Jego wynik – ok. 60% MMLU, co historycznie wymagało setek miliardów parametrów – był dowodem koncepcji mistral.ai. Zespół jest prowadzony przez byłych badaczy z Meta i Google (jeden z założycieli kierował projektem LLaMA w Meta siliconangle.com), co zapewnia im głęboką ekspertyzę.

Mistral 7B: Ten model ma 7,3 miliarda parametrów, kontekst 8k tokenów i był trenowany na wyselekcjonowanym, wysokiej jakości zbiorze danych (szczegóły nie są w pełni ujawnione, ale prawdopodobnie źródła są podobne jak w LLaMA). Po premierze Mistral 7B wykazał doskonałe możliwości generowania prozy, podsumowywania oraz nawet uzupełniania kodu siliconangle.com siliconangle.com. Dyrektor generalny Mistral chwalił się, że model osiągnął wydajność porównywalną z LLaMA 34B w wielu zadaniach siliconangle.com, co jest zdumiewające, biorąc pod uwagę różnicę w rozmiarze. Model działał też znacznie szybciej i taniej, dzięki czemu idealnie nadaje się do zastosowań wymagających niskich opóźnień lub działania na skromnym sprzęcie siliconangle.com. W zasadzie Mistral 7B udowodnił, że przy odpowiednim trenowaniu mały model może dorównać dużym – to zwycięstwo efektywności. Licencja Apache-2.0 oznaczała, że firmy mogły go integrować bez ograniczeń. W rzeczywistości Mistral 7B szybko został dostrojony do zadań instrukcyjnych (firma później wydała oficjalną wersję Mistral-7B-Instruct) i stał się popularną bazą dla chatbotów na smartfonach i w open-source’owych aplikacjach czatujących.

Mixtral 8×7B (model Sparse MoE): Tutaj Mistral naprawdę sięgnął po innowacje. Tradycyjne LLM-y są „gęste” – każdy parametr jest używany przy każdym przetwarzanym tokenie. Mixtral wprowadził rzadkość: posiada 8 eksperckich sieci podrzędnych (każda ok. 7B parametrów) oraz sieć gatingową, która aktywuje tylko 2 eksperty na token mistral.ai mistral.ai. Efekt? Całkowita liczba parametrów modelu to 46,7 miliarda, ale w danej chwili wykorzystuje on 12,9 miliarda parametrów na token wejściowy mistral.ai. To jakby mieć mózg o wielkości 46B parametrów, który myśli naraz tylko około 13B parametrami, drastycznie ograniczając wymagane obliczenia. Pozwala to na znacznie szybsze wnioskowanie – Mixtral działa z prędkością porównywalną do modelu 13B, a jego jakość jest zbliżona do dużo większych modeli. W testach Mixtral 8×7B przewyższył LLaMA-2 70B od Meta, a nawet dorównał lub pokonał GPT-3.5 od OpenAI w wielu standardowych zadaniach mistral.ai mistral.ai. A wszystko to przy sześciokrotnie większej prędkości działania w porównaniu do modelu 70B mistral.ai. Model z łatwością obsługuje kontekst 32k tokenów mistral.ai, obsługuje wiele języków (angielski, francuski, niemiecki itp.) mistral.ai mistral.ai oraz świetnie radzi sobie z generowaniem kodu. Mistral wydał zarówno wersję bazową, jak i dostrojoną Instruct Mixtral 8×7B, która osiągnęła bardzo wysoki wynik (8.3) na benchmarku czatowym MT-Bench – najlepszy spośród modeli otwartych w tamtym momencie, blisko poziomu GPT-3.5 w interaktywnej konwersacji mistral.ai. Co ważne, Mixtral 8×7B jest także objęty licencją Apache 2.0, czyli w pełni otwarty.

Wpływ w świecie rzeczywistym: Modele Mistrala, choć nowe, szybko zostały przyjęte przez społeczność open-source AI. Mixtral w szczególności wzbudził entuzjazm, udowadniając, że MoE może spełnić swoją obietnicę dla LLM-ów. Programiści użyli Mistral 7B i Mixtral do zasilania chatbotów w projektach open-source (np. integracje z text-generation-webui, dema na Hugging Face itd.). Biorąc pod uwagę ich wydajność, modele te nadają się do zastosowań takich jak boty wsparcia klienta, wirtualni asystenci na urządzeniach czy tańsza alternatywa dla GPT-3.5 do przetwarzania tekstu. Mistral AI prowadzi też własną platformę, gdzie można zadawać pytania modelom (mają chatbota „Le Chat” i API w wersji beta mistral.ai). Wnieśli również wkład w narzędzia open-source – np. optymalizując bibliotekę vLLM do szybszego wnioskowania na ich modelach mistral.ai.

Mocne strony: Połączenie wysokiej wydajności i otwartości to as atutowy Mistrala. Mistral 7B sprawił, że zaawansowana AI stała się dostępna dla każdego posiadacza laptopa (dzięki 4-bitowej kwantyzacji można ją uruchomić nawet na niektórych kartach konsumenckich). Mixtral pokazał drogę do skalowania bez typowych kosztów – model średniej wielkości zachowuje się jak duży. Ta efektywność jest świetna zarówno pod kątem wdrożeń, jak i śladu środowiskowego. Skupienie Mistrala na umiejętnościach wielojęzycznych i programistycznych oznacza, że ich modele nie są tylko anglocentryczne – to plus dla użytkowników i programistów na całym świecie mistral.ai mistral.ai. Dzięki open-source na licencji Apache 2.0, nie ma żadnych haczyków – można używać komercyjnie, modyfikować, bez „telefonu do domu”. Tę wolność doceniają firmy chcące uniknąć opłat API lub dzielenia się danymi. Kolejna zaleta to szybkość innowacji: startup potrafi działać szybciej, a Mistral pokazał, że potrafi w kilka miesięcy przejść od zera do modelu klasy światowej, a potem wypchnąć nowatorski model MoE w kolejne kilka miesięcy. Ta zwinność może przynieść kolejne przełomy (krążą plotki, że w 2024 Mistral trenował większe modele i więcej ekspertów MoE, np. 8×22B). Ponadto, marka Mistral podkreślana jako europejski gracz open-AI trafia do tych, którym zależy na AI niezdominowanej przez duże amerykańskie firmy – różnorodność w ekosystemie.

Słabości: Na ten moment Mistral jest jeszcze młody. Jego modele, choć świetne jak na swój rozmiar, nie mogą w pełni dorównać największym modelom we wszystkich zadaniach. Przykładowo, Mixtral 8×7B, choć pokonuje wiele modeli 70B, może nie przewyższać gęstego modelu 100B+ w ekstremalnie złożonym rozumowaniu czy niszowej wiedzy – problemy z fizyki czy subtelny zdrowy rozsądek mogą nadal faworyzować GPT-4 lub Llama-405B. Podejście MoE może być też trudniejsze do dostrajania (gating i eksperci komplikują trening, choć pre-trening Mistral przeprowadził bardzo sprawnie). Kolejna kwestia to wsparcie i długowieczność. Roadmapa Mistral AI jest obiecująca, ale jako startup nie ma zasobów Google’a czy Metay – czy będą w stanie stale konkurować w trenowaniu kolejnych generacji modeli (które mogą być gęste 100B+ lub mieć jeszcze więcej ekspertów)? Czas pokaże. Otwartość oznacza też mniejszą centralną kontrolę – np. dostrajanie pod kątem bezpieczeństwa modeli Mistrala nie jest tak rozbudowane jak w ChatGPT. Podstawowy model Mixtral wykona każdą instrukcję (również zakazaną), jeśli sam nie dodasz promptu moderującego lub nie dostroisz modelu mistral.ai. Oznacza to, że użytkownicy modeli Mistral powinni wdrożyć własne filtry, jeśli chcą używać ich publicznie. Pod względem funkcji modele Mistrala obecnie nie mają możliwości multimodalnych (brak obrazów, skupienie wyłącznie na tekście). I jedna praktyczna słabość: żeby powtórzyć wyniki Mistrala, potrzeba bardzo mocnego sprzętu; trenowanie tych modeli nie jest osiągalne dla większości (choć dotyczy to wszystkich modeli z czołówki).

Podsumowując, Mistral AI reprezentuje najnowocześniejsze osiągnięcia, jakie można uzyskać dzięki zwinności i otwartości. Dostarczyli modele, które zdecydowanie przewyższają swoją wagę i udostępnili je za darmo, katalizując postępy w społeczności. Jeśli szukasz otwartego rozwiązania LLM, które jest efektywne i nie chcesz polegać na API Big Techu, oferta Mistrala należy do najlepszych na rynku. Warto ich obserwować – ucieleśniają myśl, że przełomy AI mogą nadejść zarówno ze strony gigantów, jak i zwinnych start-upów.

Cohere, Command R oraz inne znaczące LLM-y: szeroki krajobraz

Boom AI doprowadził do powstania bogatego krajobrazu LLM-ów wykraczających poza główne medialne tytuły. W tej części przybliżamy modele Cohere (takie jak Command R) oraz kilka innych znaczących inicjatyw LLM, by pokazać pełnię dostępnych rozwiązań.

Cohere i Command R

Cohere to startup (założony przez byłych badaczy Google Brain) koncentrujący się na dostarczaniu modeli NLP dla biznesu poprzez API. Byli jednymi z pierwszych, którzy zaoferowali komercyjne usługi dużych modeli językowych (około 2021 roku), z naciskiem na przedsiębiorstwa potrzebujące niestandardowego NLP. Modele Cohere z początku nie miały chwytliwych nazw jak „GPT”, początkowo były oznaczane tylko rozmiarami (small, medium, xlarge). Jednak w latach 2023–2024 Cohere wprowadziło serię modeli Command, specjalnie dostrojonych do wykonywania poleceń i zastosowań konwersacyjnych (w przeciwieństwie do ich modeli „Embed” przeznaczonych do osadzania wektorów).

Sztandarowym modelem jest Command R, co według Cohere oznacza model zoptymalizowany pod kątem „rozumowania” oraz długiego kontekstu. To transformer o 35 miliardach parametrów, wytrenowany na ogromnym wielojęzycznym korpusie i następnie dostrojony pod kątem dialogu, złożonych instrukcji, wykorzystania narzędzi i zadań typu retrieval-augmented huggingface.co huggingface.co. Cohere zrobiło coś szczególnego pod koniec 2024 roku – otwarcie udostępnili wagi Command R (do badań/wyłącznie niekomercyjnie) na Hugging Face huggingface.co huggingface.co. Oznaczało to, że potężny model 35B stał się dostępny dla społeczności (na licencji zabraniającej użycia komercyjnego bez zgody). Command R ma kontekst okna 128 tysięcy tokenów docs.cohere.com docs.cohere.com, podobnie jak Claude, co czyni go świetnym do długich dokumentów. Jest też wielojęzyczny (wsparcie dla 10 języków na wysokim poziomie) docs.cohere.com huggingface.co, a Cohere specjalnie dostroiło go do takich zastosowań jak Retrieval-Augmented Generation (RAG) oraz nawet „agentowych” (gdzie model może samodzielnie decydować o wywoływaniu zewnętrznych narzędzi/funkcji) docs.cohere.com docs.cohere.com. W praktyce Command R potrafi obsługiwać bardzo szczegółowe zapytania, przeprowadzać rozumowanie krok po kroku, a następnie pobierać fakty po połączeniu do bazy wiedzy.

Cohere oferuje także Command R+, ulepszoną wersję, która prawdopodobnie przeszła więcej treningów lub ma większy rozmiar (niektóre źródła wskazują, że może to być ensemble albo model 70B). Na AWS Bedrock i innych platformach chmurowych Command R i R+ prezentowane są jako wysokiej jakości alternatywy dla GPT-3.5, skierowane do przedsiębiorstw, które muszą przechowywać dane w określonych jurysdykcjach (Cohere umożliwia wdrożenie chmury w konkretnych regionach) i oferują większą kontrolę nad zachowaniem modelu.

Mocne strony LLM Cohere:gotowe do wdrożenia w przedsiębiorstwie – czyli posiadają wsparcie SLA, można je wdrażać w prywatnych chmurach wirtualnych, a także mają dokumentację z praktycznymi wskazówkami do użycia. Modele Command świetnie radzą sobie z zadaniami biznesowymi takimi jak podsumowywanie, pisanie maili, ekstrakcja informacji; są też zaprojektowane do integracji z systemami wyszukiwania (Cohere oferuje cały stack, łącznie z embeddingami, rerankerami itd.). Dodatkową zaletą są optymalizacje opóźnień/przepustowości – Cohere mocno podkreśla szybkość i opłacalność swoich modeli w środowiskach produkcyjnych docs.cohere.com docs.cohere.com. Aktualizacja Command R z sierpnia 2024 zapewniła 50% większą przepustowość i 20% niższe opóźnienie względem starszych wersji docs.cohere.com. Wprowadzono także „tryby bezpieczeństwa”, w których deweloper może regulować poziom rygoru filtrowania treści według potrzeb docs.cohere.com, co daje precyzyjną kontrolę nad moderacją.

Słabości: Nazwa Cohere nie jest tak rozpoznawana poza środowiskiem enterprise, więc ich społeczność jest mniejsza. Modele Command, choć potężne, trochę ustępowały absolutnej czołówce (np. model 35B nie dorówna GPT-4 czy LLaMA-70B+ w najtrudniejszych zadaniach). Do czasu badawczego udostępnienia Command R Cohere pozostawał w pełni zamknięty – co ograniczało opinie społeczności i eliminowanie mankamentów działania. Udostępnienie wag jest niekomercyjne, więc firmy nadal muszą płacić za API lub uzyskiwać specjalną licencję. Ponadto nacisk Cohere na bezpieczeństwo enterprise sprawiał czasem, że model udzielał bardzo zachowawczych odpowiedzi (podobnie jak wczesny Bard), co mogło ograniczać jego kreatywność. Jednak firma cały czas go udoskonala, a Command R+ wypada znacznie lepiej (niektóre testy społecznościowe wskazują, że w wielu zastosowaniach poziom ten jest zbliżony do GPT-4).

Inne Godne Uwagii LLM-y

Poza opisaną „Wielką Piątką” wielu innych graczy oferuje znaczące modele LLM:

  • PaLM 2 (Google) – Przed Gemini głównym LLM Google był PaLM 2 (uruchomiony na I/O 2023). To model z 340 miliardami parametrów wytrenowany na 3,6 biliona tokenów cnbc.com research.google, z bardzo dobrym wielojęzycznym rozumieniem, rozumowaniem i kodowaniem. PaLM 2 napędzał Google Bard w większości 2023 roku, a występował w wariantach (Gecko, Otter, Bison) o różnych rozmiarach. Wyróżniał się kodowaniem i łamigłówkami logicznymi oraz był dostrajany do modeli specjalistycznych (np. Med-PaLM do Q&A medycznych). PaLM 2 utorował drogę Gemini i pokazał technologiczną siłę Google (był już bardziej zaawansowany niż oryginalny PaLM: 540B parametrów, ale mniej treningu). Bard z PaLM 2 jako pierwszy wprowadził funkcję eksportu do Gmail/Docs integrując pomoc LLM ze środowiskiem pracy. Choć obecnie PaLM 2 jest przyćmiony przez Gemini, nadal jest wykorzystywany w różnych usługach Google Cloud i sam w sobie pozostaje solidnym modelem.
  • Jurassic-2 (AI21 Labs) – AI21, izraelski startup, był jednym z pierwszych konkurentów OpenAI. Jurassic-1 (178B parametrów) z 2021 roku należał do największych w tamtym czasie. Jurassic-2, wydany w 2023 roku, kontynuował tę linię z modelami w wielu językach (w tym nacisk na hebrajski, francuski itd.). Modele AI21 wyróżniają się tworzeniem dłuższych tekstów z dużą wiedzą, częściowo dzięki temu, że współzałożyciele AI21 to weterani NLP (jeden współtworzył architekturę Transformer). Oferują API AI21 Studio oraz produkty takie jak Wordtune (asystent pisania). Jurassic-2 ma edycję „J2 Jumbo” prawdopodobnie w okolicach 178B parametrów oraz mniejsze „Large” (np. 20B). Zaleta: bardzo spójne teksty, zdaniem niektórych nieco większa faktograficzność odpowiedzi. Wada: słabszy do programowania, brak kodu otwartego.
  • Claude Instant i inne (Anthropic) – Oprócz głównego modelu Claude, Anthropic oferuje Claude Instant, lżejszy model (~1/5 rozmiaru), który jest szybszy i tańszy. Świetny do czatów w czasie rzeczywistym, gdzie nie jest wymagana absolutnie najwyższa jakość. Podobnie OpenAI ma GPT-3.5 Turbo jako szybką/tańszą alternatywę dla GPT-4. Te mniejsze modele-sąsiedzi są ważne, bo umożliwiają ekonomiczne wdrożenie aplikacji masowych (np. bot obsługi klienta może używać Claude Instant do obsługi tysięcy zapytań, a tylko najtrudniejsze eskalować do Claude 2).
  • Inflection-1 / Pi (Inflection AI) – Inflection AI, współzałożone przez Mustafę Suleymana (znanego z DeepMind), uruchomiło Pi, osobistego AI-companiona skupionego bardziej na rozmowie (często wspierającej/emocjonalnej) niż wykonywaniu zadań. Działa na własnym LLM Inflection (Inflection-1, a pod koniec 2023 powstawał już Inflection-2). Pi jest znany z przyjacielskiego, gadatliwego stylu i odmowy zajmowania się programowaniem czy faktograficznym Q&A; to eksperyment, jak uczynić AI „przyjacielem”. Choć nie konkuruje bezpośrednio w benchmarkach, reprezentuje trend na wyspecjalizowane LLM-y do określonych wrażeń. Inflection zbudował ponoć superkomputer z 22 000 GPU do treningu, więc Inflection-2 może być bardzo duży (niektóre plotki mówiły o >100B parametrów). Nie wydano żadnej otwartej wersji; dostęp wyłącznie przez aplikację/stronę.
  • Modele open-source tworzone przez społeczność – Poza LLaMA i Mistral wiele projektów kolektywnych wydało cenione LLM-y:
    • BLOOM (BigScience) – Model wielojęzyczny z 176B parametrów opublikowany w połowie 2022 r. na licencji open source. Był przełomem jako pierwszy otwarty model na skalę GPT-3. BLOOM radzi sobie dobrze, zwłaszcza w językach innych niż angielski, choć ustępuje wydajnością najnowszym modelom. Mimo to wyznaczył standard dużych projektów ochotniczych.
    • Falcon (UAE Technology Innovation Institute) – Falcon 40B i 7B wypuszczone w 2023 roku jako czołowe otwarte modele, gdzie Falcon 40B przez pewien czas był liderem rankingów. Również bezpłatny (40B dostępny na licencji Apache 2.0). Falcon 40B trenowano na wysokiej jakości danych (RefinedWeb) i osiągnął bardzo dobre wyniki, pokazując wkład poza USA/Eur.
    • MosaicML MPT – Przed przejęciem przez Databricks, MosaicML wydał MPT-7B (umożliwiający wyjątkowo długie konteksty, do 84k tokenów dzięki efektywnej atencji) oraz MPT-30B. Te otwarte modele były używane do różnych fine-tune’ów, demonstrując nowe możliwości jak customizacja komunikatów systemowych czy obsługa długich tekstów.
    • WizardCoder, Phi-1, itp. – Powstały specjalistyczne modele do programowania: np. WizardCoder (fine-tune Code LLaMA), który przez jakiś czas miał najwyższe wyniki w benchmarkach kodowania wśród otwartych modeli. Phi-1 (badaczy Microsoftu) dowiódł, że trening wyłącznie na kodzie i matematyce pozwala zbudować model 1,3B (!) rozwiązujący trudne zadania z Leetcode – wskazując, że innowacyjny trening może konkurować ze skalą w określonych niszach.
  • Grok od xAI – Pod koniec 2023 r. nowy projekt AI Elona Muska, xAI, udostępnił betę Grok, czatbota o „zuchwałej” osobowości, wyłącznie na X (Twitter) dla subskrybentów. Grok bazuje ponoć na open-source (pewnie fine-tune LLaMA 2, być może model 70B). Musk twierdził, że Grok będzie AI „poszukującą prawdy” z mniejszą liczbą ograniczeń dotyczących humoru itp. Grok nie budzi sensacji w metrykach badawczych, ale jest ciekawostką kulturową – to próba Muska stworzenia alternatywy dla ChatGPT/Bard, która, jak twierdzi, „nie kłamie” o kontrowersyjnych tematach. Pokazuje także, jak nawet firmy social media widzą LLM-y jako klucz do zaangażowania użytkowników.
  • Modele dla firm od Big Techu – Firmy takie jak IBM i Amazon nie budowały własnych rywali GPT-4, lecz dobierały i hostowały modele:
    • IBM watsonx.ai umożliwia dostęp do otwartych modeli jak LLaMA-2 czy wyselekcjonowanych mniejszych (IBM ma też serię Granite ok. 20B parametrów do zadań biznesowych NLP).
    • Amazonowa usługa AWS Bedrock hostuje modele Anthropic (Claude), AI21 (Jurassic), Cohere, Stability AI itd., oraz własną rodzinę Titan (ok. 20B parametrów do podstawowych zastosowań jak czaty obsługi klienta i podsumowania tekstów).
    • Microsoft polega zasadniczo na modelach OpenAI (dostępnych jako Azure OpenAI Service), ale prowadzi też własne badania (m.in. model Phi-1 i inne) i może wypuścić własne modele do niszowych zastosowań.

Podsumowując, przestrzeń LLM tętni konkurencją – każdy wypracowuje własną niszę: usługi enterprise-ready (Cohere, AI21), wyspecjalizowana AI-companion (Inflection Pi) czy otwartoźródłowi pretendenci (Meta, Mistral, Falcon). Ta różnorodność to plus dla użytkowników: możesz dobrać model pod własne potrzeby – czy to maksymalna dokładność, najniższy koszt, największa kontrola i prywatność, czy bezpieczeństwo i zgodność z wartościami.


Po omówieniu najważniejszych graczy na rynku LLM, poniższa tabela przedstawia porównanie ich kluczowych cech w układzie obok siebie:

Tabela porównawcza: Wiodące LLM-y (ChatGPT, Claude, Gemini, LLaMA, Mistral itp.)

Model (Twórca)Rok wydaniaArchitekturaLiczba parametrówSkala danych treningowychMultimodalny?Dostępność (otwarty vs zamknięty)Kluczowe zaletyKluczowe słabościLicencja/Użytkowanie
ChatGPT (OpenAI)
(GPT-4 poprzez API lub UI)
2022 (GPT-3.5), 2023 (GPT-4)Transformer (gęsty); RLHF; domniemany MoE w GPT-4GPT-3.5: 175 mld;
GPT-4: Nieujawnione (≈1,8 bln param. – pogłoski) explodingtopics.com
Wytrenowany na setkach miliardów tokenów (teksty z sieci, książki, kod); ~$100+ mln mocy obliczeniowej explodingtopics.comTekst i obrazy (GPT-4 Vision)Zamknięty (API OpenAI lub aplikacja ChatGPT; brak publicznych wag)– Najlepsza ogólna wiedza i płynność;
– Doskonałe rozumowanie, kodowanie, kreatywność;
– Ogromny ekosystem i integracje (wtyczki, narzędzia)
– Pewne halucynacje faktów;
– Niejawny model, brak dostrajania poza warunkami OpenAI;
– Limity wykorzystania i koszty pełnego dostępu do GPT-4
Własność zamknięta; użytkownik musi zaakceptować warunki OpenAI API (brak własnego hostowania).
Claude 2 (Anthropic)2023Transformer (gęsty); Constitutional AI alignment~137 mld (szacunek) datasciencedojo.comWytrenowany na ~1+ bln tokenów (tekst + kod) przy użyciu wysokiej jakości danychTylko tekst (planowane tryby multimodalne w przyszłości)Zamknięty (API i ograniczony klient web Anthropic; brak wag)– Bardzo długi kontekst (100k tokenów) en.wikipedia.org;
– Silne zabezpieczenia etyczne (mniej toksyczny/obraźliwy);
– Bardzo spójny w rozbudowanych dialogach
– Bywa zbyt ostrożny lub rozwlekły;
– Nieznacznie ustępuje GPT-4 w najtrudniejszych zadaniach;
– Ograniczona publiczna dostępność (zaproszenia/listy oczekujących na wybrane funkcje)
Zamknięte API; polityka użytkowania określana przez Anthropic (Constitutional AI).
Gemini Ultra (Google DeepMind)2023 (1.0 Ultra); aktualizacje 2024 (1.5)Transformer + Mixture-of-Experts (od v1.5) en.wikipedia.org; projekt multimodalnyNieujawnione; prawdopodobnie >500 mld parametrów gęstych, MoE sumarycznie bilionyTrenowany na ogromnym zasobie Google (tekst, kod, obrazy, transkrypcje YouTube en.wikipedia.org); wykorzystuje klastry Google TPU v5Tak – Multimodalny (tekst, obrazy; w planach audio/wideo) en.wikipedia.orgZamknięty (Używany w Google Bard, Cloud Vertex AI; brak publicznych wag)– Multimodalność od podstaw (obraz+tekst);
– Najwyższy poziom (wyprzedza GPT-4 w wielu testach) en.wikipedia.org;
– Integracja z produktami Google (Wyszukiwarka, Android, itd.)
– Ograniczona dostępność na starcie (Ultra ograniczony bezpieczeństwem) en.wikipedia.org;
– Zamknięty kod (użytkownik zależy od Google);
– Bezpieczeństwo nadal rozwijane przed pełnym udostępnieniem
Własnościowy; dostęp poprzez warunki AI Google (przez Bard/Cloud); Google deklaruje zobowiązania bezpieczeństwa AI en.wikipedia.org.
LLaMA 3.1 (Meta)
i LLaMA 2
2023 (LLaMA 1 i 2); 2024 (LLaMA 3)Transformer (gęsty); modele otwarte; LLaMA 3 wprowadził wizję i model 405 mldLLaMA 2: 7 mld, 13 mld, 70 mld;
LLaMA 3.1: 8 mld, 70 mld, 405 mld param. ibm.com
LLaMA 2 trenowany na 2 bln tokenów originality.ai; LLaMA 3 na jeszcze większym + danych multimodalnychTak (LLaMA 3 to modele z wizją; LLaMA 2 tylko tekstowe)Otwarty(o) – Modele i kod dostępne (darmowe do celów nauk./kom. z pewnymi warunkami) huggingface.coOtwartoźródłowy: społeczność może dostrajać, analizować, wdrażać;
– Mocna wydajność na poziomie zamkniętych modeli (405B dorównuje GPT-4 w wielu zadaniach) ibm.com;
– Szeroka gama rozmiarów modeli
– Mniejsze LLaMA wymagają dostrojenia, by konkurować;
– Największy model 405B wymaga ogromnych zasobów do uruchomienia;
– Licencja zabrania użycia przez bardzo duże firmy ( >700 mln użytkowników) bez zgody huggingface.co
Własna licencja Meta (LLaMA 2 na „licencji Meta”, LLaMA 3 na podobnych warunkach). Praktycznie darmowe użycie; wymóg atrybucji; ograniczenia dla big tech.
Mistral 7B
oraz Mixtral 8×7B (Mistral AI)
2023Transformer (Mistral 7B gęsty);
Mixtral: Transformer-MoE (8 ekspertów) mistral.ai
Mistral 7B: 7,3 mld;
Mixtral 8×7B: 46,7 mld (12,9 mld na token przez MoE) mistral.ai
Trening na przefiltrowanych danych z sieci, kodzie itd. w 2023; Mistral 7B powstał w 3 miesiące siliconangle.com. Mixtral trenowany od zera z ruotowaniem MoE.Tylko tekst (wiele języków, kod)Otwarty (licencja Apache 2.0 – dowolne użycie)– Mały model o dużej wydajności (7B ≈ otwarte 13B+) siliconangle.com;
Mixtral MoE przewyższa modele 70B przy ułamku kosztu mistral.ai;
– Całkowicie otwarta licencja, łatwa integracja
– Bezwzględna wydajność nadal tuż poniżej największych zamkniętych na bardzo złożonych zadaniach;
– Bardzo nowy – mniejszy ekosystem/wsparcie;
– Bazowe modele wymagają strojenia bezpieczeństwa (mogą generować wszystko, jeśli nie ograniczone wstępnie)
Apache 2.0 (bardzo liberalna; praktycznie bez ograniczeń).
Cohere Command R (Cohere)2024 (najnowsza wersja)Transformer (gęsty) dostrojony do chatu; obsługa długiego kontekstu35 mld (Command R) huggingface.co;
(Dostępny także większy „Command R+”)
Trenowany na dużych, wielojęzycznych zbiorach tekstu (10+ języków) huggingface.co; dostrajany przez sprzężenie zwrotne ludzi oraz „agentowe” zadaniaTylko tekstHybrydowy – serwis API; wagi badawcze dostępne (licencja CC BY-NC) huggingface.co– Długi kontekst 128k tokenów docs.cohere.com;
– Świetny w zadaniach strukturalnych, wykorzystaniu narzędzi, integracjach wyszukiwawczych docs.cohere.com;
– Skierowany do firm (stabilne API, mechanizmy kontroli bezpieczeństwa, wdrożenia regionalne)
– Nie w pełni SOTA pod względem IQ (35 mld param. ogranicza szczytową wydajność);
– Koszt API (brak darmowego chatbota);
– Licencja na wagi modelu wyłącznie do użytku naukowego (ogranicza użycie przez społeczność)
API na warunkach Cohere; Wagi otwarte tylko do badań (CC BY-NC 4.0).

(Uwagi do tabeli: „Parametry” dla GPT-4 i Gemini są przybliżone, bo nie są oficjalnie ujawnione. „Multimodalny” oznacza możliwość przetwarzania czegoś więcej niż tekst. Otwartość oznacza publiczną dostępność wag modelu. Kolumna Licencja podsumowuje możliwe zasady użycia modelu.)

Trendy, przyszłe kierunki i wybór odpowiedniego LLM

Gwałtowny rozwój ChatGPT i jego alternatyw pokazał jedno: możliwości AI rozwijają się w zawrotnym tempie. Oto kilka kluczowych trendów, ich znaczenie dla przyszłości oraz wskazówki, jak użytkownicy lub firmy mogą poruszać się po krajobrazie LLM:

Kluczowe trendy w branży

  • Multimodalność to przyszłość: Modele potrafiące obsługiwać tekst, obrazy, dźwięk i inne formaty staną się normą. Widzimy to już w GPT-4 z możliwością przetwarzania obrazów, Gemini od Google, które od początku jest multimodalne oraz w dążeniu Meta, by LLaMA miała również wizję. Przyszłe LLM będą mogły płynnie analizować zrzut ekranu strony internetowej, arkusz kalkulacyjny czy transkrypcję wideo i odpowiadać na pytania, łącząc te wszystkie dane. Firmy powinny przygotować się na AI rozumiejące wszystkie formy danych, co pozwoli tworzyć bogatsze zastosowania (np. AI, która czyta makiety projektowe, kod i specyfikacje produktu jednocześnie i daje feedback).
  • Dłuższy kontekst i pamięć: Rozszerzenie okna kontekstu do 100 tys. tokenów i więcej en.wikipedia.org sugeruje, że wkrótce problem „zapominania” będzie znacznie mniejszy. Możemy spodziewać się modeli, które „pochłoną” całe bazy danych czy książki za jednym razem. Połączenie tego z lepszym retrieval-augmented generation (gdzie model aktywnie „ściąga” potrzebne informacje), LLM-y będą funkcjonowały jakby miały zewnętrzną pamięć – zawsze z najważniejszą wiedzą pod ręką. Zmniejszy to halucynacje i poprawi dokładność faktów, bo model będzie mógł sięgać do źródeł.
  • Rozwój open-source: Era monopolu kilku firm na najlepsze modele się kończy. Model Meta LLaMA 3 405B osiągający parytet z zamkniętymi rozwiązaniami ibm.com to zmiana zasad gry. Start-upy takie jak Mistral udowadniają, że innowacja może pochodzić od małych zespołów. Czeka nas wysyp specjalistycznych modeli open-source (dla medycyny, prawa, finansów itd.) i lepszych narzędzi do ich dostrajania i wdrażania. Dla firm z obawami o prywatność to świetna wiadomość – można uruchomić potężną AI lokalnie. Nawet giganci IT to przyjmują: Google wypuszcza Gemma, a Meta otwiera modele, co zwiastuje hybrydową przyszłość, gdzie współistnieją modele zamknięte i otwarte.
  • Wydajność i nowe architektury: Nie wszyscy mogą sobie pozwolić na modele z bilionami parametrów, więc coraz większy nacisk kładzie się na to, by modele były inteligentniejsze, a nie tylko większe. Techniki takie jak Mixture-of-Experts (MoE) (jak Gemini 1.5 en.wikipedia.org i Mixtral mistral.ai), Low-Rank Adaptation (LoRA) do szybkiego dostrajania oraz modele destylowane sprawiają, że możliwe będzie uzyskanie wielkiej mocy przy mniejszym zużyciu zasobów. Trwa też badanie modularnych lub kompozytowych AI – czyli wykorzystania wielu mniejszych, wyspecjalizowanych modeli współdziałających ze sobą (np. jeden od wnioskowania, drugi od matematyki, kolejny od kodu itd.). LLM przyszłości może być faktycznie zespołem modeli „pod maską”.
  • Regulacje i bezpieczeństwo: Ponieważ LLM-y są używane przez miliony, coraz więcej uwagi regulatoryjnej poświęca się AI. Przejrzystość danych treningowych, zachowań modelu czy zabezpieczenia przed nadużyciami (spam, deepfake’i itd.) są tematami na poziomie rządowym. Firmy już wdrażają środki bezpieczeństwa – Claude od Anthropic ma Constitutional AI, OpenAI stale ulepsza filtry treści, a Meta buduje ewaluacje pod kątem toksyczności/uprzedzeń. Spodziewaj się większej kontroli użytkownika – np. „pokrętła toksyczności” do regulowania bezpieczeństwa modelu, lub paneli dla firm monitorujących wyniki AI pod kątem zgodności z przepisami. Watermarkowanie treści AI to też gorący temat (nad czym pracuje OpenAI) — może stać się standardem do wykrywania tekstów generowanych przez AI.
  • Integracja i agentowa AI: LLM-y stają się częścią większych systemów agentowych — jak autoGPT czy agenty LangChain wykonujące polecenia AI (przeglądanie internetu, wykonywanie kodu itd.). GPT-4 od OpenAI ma wtyczki pozwalające wywoływać API (np. rezerwacja lotu czy uruchamianie obliczeń). Trend zmierza ku AI, które nie tylko rozmawia, ale działa — korzysta z narzędzi, aktualizuje się o nowe dane, a nawet autonomicznie łączy wiele kroków. Firmy mogą wdrażać agentów AI obsługujących wieloetapowe procesy (z nadzorem człowieka). To wzmacnia możliwości LLM, ale też wymaga silnych zabezpieczeń (by błędy nie multiplikowały się lawinowo).
  • Dostosowanie i fine-tuning: Coraz większe jest zapotrzebowanie na dostrajanie modeli LLM do własnych danych lub pod markowy język. Modele open-source są tu łatwiejsze (możesz aktualizować wagi). Nawet modele zamknięte oferują coraz więcej personalizacji – OpenAI wprowadziło function calling i system messages do sterowania ChatGPT, a Azure’s “On Your Data” dla ChatGPT pozwala na podpięcie danych firmowych. W przyszłości zobaczymy zapewne spersonalizowane LLM-y – własnego asystenta AI znającego twoje maile, preferencje, dokumenty służbowe (wszystko lokalnie, bezpiecznie dostrojone) i dającego bardzo trafne odpowiedzi. Narzędzia do taniego fine-tuningu (jak LoRA) będą coraz lepsze, więc nawet średnie firmy będą mogły mieć AI „pod siebie”.

Jak wybrać odpowiedni LLM do swoich potrzeb?

Przy tak wielu opcjach – jak wybrać LLM? Weź pod uwagę poniższe kryteria:

  • Możliwości kontra koszty: Jeśli potrzebujesz absolutnie najwyższej wydajności (np. do złożonego wnioskowania prawnego czy najnowszych badań naukowych), GPT-4, Gemini Ultra czy LLaMA 3 405B sprawdzą się najlepiej. Jednak są kosztowne (opłaty za API lub infrastruktura do uruchomienia). Do wielu celów wystarczy model średniego poziomu (np. Claude 2, Cohere Command lub otwarty 13B-70B) z prawie najwyższą jakością za ułamek ceny. Skorzystaj z benchmarków, ale też przetestuj na własnych danych. Np. generowanie kodu może świetnie wypaść przy 34B dostrojonym pod kod (CodeLlama czy WizardCoder) bez konieczności użycia GPT-4 za każdym razem.
  • Otwartość i kontrola: Jeśli kluczowe są prywatność danych i wdrożenie lokalne (ochrona zdrowia, finanse, administracja), wybierz otwarte LLM-y. LLaMA 2, LLaMA 3, Mistral/Mixtral, Falcon itd. możesz wdrożyć we własnej infrastrukturze bez wysyłania danych na zewnątrz. Pozwalają one też audytować model (np. pod kątem tendencyjności). W zamian musisz mieć inżynierów ML do obsługi modeli. Zamknięte API (OpenAI, Anthropic itd.) wszystko to upraszczają — dbają o skalowanie, aktualizacje i bezpieczeństwo — co może być warte tej ceny, jeśli możesz działać w chmurze. Część firm wybiera hybrydę: API do ogólnych zadań, a otwarte modele do zadań wrażliwych.
  • Zapewnienie długiego kontekstu: Potrzebujesz przekazywać bardzo długie dokumenty lub prowadzić godzinne rozmowy z AI? Jeśli tak, 100k kontekstu Claude’a lub 128k Cohere mogą być decydujące. Podobnie, jeśli Twoje zastosowanie to streszczenie książek lub analiza długich umów – wybierz model znany z obsługi długiego kontekstu. Otwarte modele szybko tu doganiają (niektóre wersje LLaMA dostrojone mają już 32k+), ale bezpośrednio po wyjęciu z pudełka liderami są Claude i Command R.
  • Wymagania multimodalne: Jeśli chcesz, by AI analizowała obrazy/diagramy razem z tekstem, teraz głównie GPT-4 (z wizją przez ChatGPT Plus) oraz Gemini to takie możliwości. Inni dołączą, ale w 2025 roku to OpenAI i Google wiodą prym w rozpoznawaniu wizji. Jeśli to kluczowe (np. chcesz ciężko AI rozwiązywać problemy na podstawie zrzutów interfejsu lub wykresów), te platformy będą pierwszym wyborem.
  • Specjalizacja dziedzinowa: Niektóre modele są lepiej dopasowane do określonych domen. Jeśli zależy Ci na odpowiedziach medycznych, lepszy będzie Google Med-PaLM lub otwarty model dostrojony na Q&A medycznych niż zwykły ChatGPT. Jeśli chodzi o kodowanie – code-davinci od OpenAI czy Code Llama od Meta są do tego zoptymalizowane. Modele Cohere są chwalone w zadaniach związanych z analizą dokumentów biznesowych. Sprawdź, czy istnieje model specjalizowany — może znacząco prześcignąć ogólny w zadaniach niszowych. Jeśli nie — możesz go stworzyć (dostrajając ogólny model swoim danymi).
  • Bezpieczeństwo i moderacja: Różni dostawcy mają różne podejścia. OpenAI jest bardzo restrykcyjny (ChatGPT odmówi wielu niebezpiecznych zapytań). Claude od Anthropic także, ale próbuje być pomocny poprzez bezpieczne przeformułowanie odpowiedzi. Modele otwarte zrobią wszystko, co im powiesz (chyba że zostaną dostrojone pod odrzucanie określonych poleceń). Do aplikacji dostępnych publicznie możesz wybrać model z wbudowaną moderacją lub dodać własny filtr. Jeśli reputacja Twojej marki jest ważna, zbyt „kontrowersyjny” lub podatny na wulgaryzmy model może być ryzykowny. Dostawcy dla firm (Cohere, Azure OpenAI) zwykle oferują opcję dodatkowych filtrów i audytów. Warto rozważyć, na ile ważne jest, by model „zachowywał się” od razu, a na ile sam się tym zajmujesz.
  • Licencjonowanie i warunki: Upewnij się, że licencja modelu pozwala na zamierzony sposób użycia. OpenAI i inni zakazują niektórych zastosowań (np. generowania dezinformacji, przetwarzania określonych danych osobowych). Licencja LLaMA od Meta zabrania wykorzystywania modelu do ulepszania innych modeli (by utrudnić konkurencji szkolenie na nim). W przypadku użycia modelu w produkcie – przeczytaj dokładnie warunki. Licencje open-source jak Apache/MIT są najprostsze (praktycznie bez ograniczeń). Niektóre modele (np. LLaMA 2) wymagają wzmianki o źródle lub informowania o ulepszeniach. I jak wspomniano: jeśli jesteś bardzo dużą firmą, sprawdź klauzulę „700M użytkowników” przy licencji Meta.

Co przed nami?

Rywalizacja między ChatGPT, Claude, Gemini, LLaMA i innymi bardzo korzystnie wpłynęła na konsumentów i firmy – jakość AI rośnie, a możliwości dostępu są coraz większe. W przyszłości można się spodziewać jeszcze większego zbliżenia: modele zamknięte przejmą praktyki open-source (OpenAI zapowiada toolkit do bezpiecznego uruchamiania modeli lokalnie; Google udostępnia małe modele open-source), a otwarte modele będą implementować najnowsze techniki zamkniętych modeli.

Dla użytkowników oznacza to większy wybór i prawdopodobnie niższe koszty. Uruchomienie potężnej sztucznej inteligencji może wkrótce być równie tanie, jak hostowanie serwera internetowego, dzięki optymalizacjom. Firmy najprawdopodobniej będą korzystać z portfela LLM-ów: może najlepszy zamknięty model do kluczowych etapów rozumowania, otwarty model do podsumowań wrażliwych na dane oraz kilka modeli specjalistycznych, np. do OCR lub kodowania.

Wybierając „właściwy” LLM, pamiętaj, że to nie jest rozwiązanie uniwersalne. Zdefiniuj, co oznacza dla Ciebie „właściwy” – najszybszy? najtańszy? najdokładniejszy? najbardziej prywatny? – i skorzystaj z powyższych porównań jako przewodnika. Piękne jest to, że możesz eksperymentować z wieloma z tych modeli za darmo lub minimalnym kosztem (np. poprzez darmowe wersje próbne lub otwarte pliki do pobrania). Dobrym zwyczajem jest przetestowanie swojego przypadku użycia na 2–3 różnych modelach, aby sprawdzić jakość wyników, a następnie podjąć decyzję.

Jedno jest pewne: LLM-y zostaną z nami na dłużej i będą się stale ulepszać. Warto śledzić tę dynamicznie rozwijającą się dziedzinę. Subskrypcja wiadomości ze świata AI, testowanie nowych wersji modeli (nowy „pogromca GPT” pojawia się wydaje się co kilka miesięcy!) oraz ewentualne budowanie relacji z kilkoma dostawcami AI mogą zapewnić Ci zawsze najlepsze narzędzia pod ręką. Niezależnie od tego, czy jesteś użytkownikiem końcowym chcącym mieć inteligentnego asystenta, czy firmą chcącą wprowadzić AI do swoich produktów, nigdy wcześniej opcje nie były bardziej ekscytujące.

W tej nowej erze AI wiedza to potęga – zarówno wiedza zawarta w tych LLM-ach, jak i wiedza o tym, jak się one różnią. Mam nadzieję, że ten raport wyposażył Cię w tę drugą, żebyś mógł w pełni wykorzystać tę pierwszą.

Tags: , ,