LIM Center, Aleje Jerozolimskie 65/79, 00-697 Warsaw, Poland
+48 (22) 364 58 00

Top 10 AI hlasových a řečových technologií, které ovládnou rok 2025 (TTS, STT, Klonování hlasu)

Top 10 AI hlasových a řečových technologií, které ovládnou rok 2025 (TTS, STT, Klonování hlasu)

Top 10 AI Voice and Speech Technologies Dominating 2025 (TTS, STT, Voice Cloning)

Úvod

Hlasová AI technologie v roce 2025 je charakterizována pozoruhodným pokrokem v oblastech Text-to-Speech (TTS), Speech-to-Text (STT) a hlasového klonování. Přední platformy na trhu poskytují stále přirozenější syntézu řeči a vysoce přesné rozpoznávání řeči, což umožňuje využití od virtuálních asistentů a přepisu v reálném čase až po realistické dabingy a vícejazyčný překlad. Tato zpráva profiluje 10 nejlepších platforem pro hlasovou AI, které dominují roku 2025 a vynikají alespoň v jedné z uvedených oblastí. Každá položka obsahuje přehled schopností, klíčových vlastností, podporovaných jazyků, použité technologie, příkladů využití, ceny, silných a slabých stránek, nejnovějších inovací (2024–2025) a odkaz na oficiální produktovou stránku. Pro rychlý přehled hlavních předností je k dispozici také srovnávací tabulka.

Souhrnná srovnávací tabulka

PlatformaSchopnosti (TTS/STT/Klonování)Cenový modelCíloví uživatelé & případy využití
Google Cloud Speech AITTS (hlasy WaveNet/Neural2); STT (120+ jazyků); možnost vlastní hlasové klonování cloud.google.com id.cloud-ace.comPlatba za použití (za znak pro TTS; za minutu pro STT); k dispozici bezplatné kredity cloud.google.comPodniky a vývojáři tvořící globální hlasové aplikace (call centra, mediální přepisy, IVR, atd.) krisp.ai cloud.google.com
Microsoft Azure Speech ServiceTTS (neurální hlasy – 400+ hlasů, 140+ jazyků techcommunity.microsoft.com); STT (75+ jazyků, překlady) telnyx.com krisp.ai; Custom Neural Voice (klonování)Platba za použití (za znak/hodinu); zdarma testovací kredity telnyx.comFirmy požadující bezpečnou, přizpůsobitelnou hlasovou AI (vícejazyčné aplikace, hlasoví asistenti, přepisy ve zdravotnictví/právu) krisp.ai krisp.ai
Amazon AWS Voice AI (Polly & Transcribe)TTS (100+ hlasů, 40+ jazyků aws.amazon.com, neurální a generativní hlasy); STT (reálný čas & batch, 100+ jazyků aws.amazon.com)Platba za použití (za milion znaků pro TTS; za sekundu pro STT); bezplatný tarif na 12 měsíců aws.amazon.com aws.amazon.comFirmy na AWS, které potřebují škálovatelné hlasové služby (nahrávání médií, přepis hovorů se zákazníky, hlasově interaktivní aplikace) telnyx.com aws.amazon.com
IBM Watson Speech ServicesTTS (neurální hlasy v několika jazycích); STT (reálný čas & batch, modely pro specifické domény)Platba za použití (bezplatný lite tarif; odstupňované ceny podle využití)Podniky ve specializovaných oborech (finance, zdravotnictví, právo) vyžadující vysoce přizpůsobitelná a bezpečná řešení rozpoznávání řeči krisp.ai telnyx.com
Nuance Dragon (Microsoft)STT (velmi přesné diktování; oborově specifické verze – např. medicína, právo); Hlasové příkazyLicence na uživatele nebo předplatné (software Dragon); podnikové licence pro cloudové službyProfesionálové (lékaři, právníci) a firmy vyžadující transkripci a hlasové dokumentace s vysokou přesností krisp.ai krisp.ai
OpenAI Whisper (open source)STT (špičkový vícejazyčný ASR – cca 99 jazyků zilliz.com; také překlady)Open source (MIT Licence); využití OpenAI API za cca 0,006 USD/minutuVývojáři a výzkumníci požadující špičkové rozpoznávání řeči (např. transkripční služby, jazykové překlady, analýzy hlasových dat) zilliz.com zilliz.com
DeepgramSTT (firemní úroveň, modely na bázi transformerů s o 30 % nižší chybovostí vůči konkurenci deepgram.com); rozvíjející se možnosti TTSPředplatné nebo cena dle využití API (bezplatné kredity, odstupňované ceny; cca 0,004–0,005 USD/min za nejnovější model) deepgram.comTechnologické firmy a call centra potřebující reálné přepisy ve velkém objemu s možností úprav modelu telnyx.com deepgram.com
SpeechmaticsSTT (self-supervised ASR, 50+ jazyků s libovolným přízvukem audioxpress.com); některá řešení integrující LLM (Flow API pro ASR+TTS) audioxpress.com audioxpress.comPředplatné nebo podnikové licence (cloud API či na vlastním serveru); individuální nabídky pro větší objemMediální firmy a globální podniky vyžadující inkluzivní, na přízvuk nezávislý přepis (živé titulky, hlasová analytika) s možností provozu ve vlastní infrastruktuře kvůli ochraně soukromí speechmatics.com speechmatics.com
ElevenLabsTTS (ultrarealistické, expresivní hlasy); Klonování hlasu (vlastní hlas z nahrávky); vícejazyčná syntéza (30+ jazyků ve vlastním hlasu) elevenlabs.io resemble.aiBezplatné (cca 10 min/měsíc); placené od $5/měsíc (30 min+) zapier.com zapier.comTvůrci obsahu, vydavatelé a vývojáři požadující vysoce kvalitní voiceovery, audioknihy, postavy či klonování hlasu pro média zapier.com zapier.com
Resemble AITTS & klonování hlasu (okamžité klonování s emocemi; převod řeči na řeč); dabing ve 50+ jazycích v jednom hlasu aibase.com resemble.aiPodnikové a dle využití (individuální plány; zkušební verze zdarma)Média, herní a marketingové týmy vytvářející vlastní brandový hlas, lokalizovaný hlasový obsah či převod hlasu v reálném čase v interaktivních aplikacích resemble.ai resemble.ai

1. Google Cloud Speech AI (TTS & STT) – Google

Přehled: Nabídka Google Cloud Speech AI zahrnuje API Cloud Text-to-Speech a Speech-to-Text, které jsou známé vysokou přesností a škálovatelností. Google’s TTS vytváří přirozený, lidsky znějící hlas pomocí pokročilých deep learning modelů (např. WaveNet, Neural2) videosdk.live, zatímco STT zajišťuje přesný přepis v reálném čase ve více než 120 jazycích a dialektech krisp.ai. Cíloví uživatelé sahají od firem potřebujících globální vícejazyčné hlasové aplikace až po vývojáře integrující hlas do svých aplikací nebo zařízení. Google nabízí také možnost Custom Voice, kdy mohou klienti vytvořit jedinečný AI hlas pomocí svých vlastních nahrávek id.cloud-ace.com (s etickými zárukami).

Klíčové funkce:

  • Převod textu na řeč: Více než 380 hlasů ve více než 50 jazycích/variantách cloud.google.com, včetně hlasů WaveNet a nejnovějších hlasů Neural2 pro věrohodnou intonaci. Nabízí různé hlasové styly (např. „Studio“ hlasy imitující profesionální vypravěče) a detailní úpravu přes SSML pro tón, výšku, rychlost a pauzy videosdk.live videosdk.live.
  • Přepis řeči na text: Transkripce v reálném čase i v dávkách s podporou více než 125 jazyků, automatická interpunkce, časování slov a rozpoznání mluvčích krisp.ai krisp.ai. Umožňuje přizpůsobení řeči (vlastní slovníky) pro zlepšení rozpoznávání oborově specifických výrazů krisp.ai krisp.ai.
  • Vlastní modely: Cloud STT umožňuje ladění modelů s použitím specifické terminologie, Cloud TTS nabízí Custom Voice (neuronové klonování hlasu) pro vlastní hlasovou identitu značky id.cloud-ace.com id.cloud-ace.com.
  • Integrace & nástroje: Bezproblémová integrace s ekosystémem Google Cloud (např. Dialogflow CX pro voiceboty). Nabízí SDK/REST API a podporuje nasazení na různých platformách.

Podporované jazyky: Více než 50 jazyků pro TTS (pokrytí všech hlavních světových jazyků i mnoha regionálních variant) cloud.google.com a 120+ jazyků pro STT krisp.ai. Tato rozsáhlá jazyková podpora umožňuje použití pro globální aplikace a lokalizace. Obě API zvládají různé anglické akcenty a dialekty; STT umí automaticky detekovat jazyk v vícejazyčném audiu, a dokonce přepsat mluvení s přepínáním jazyků (až 4 jazyky v jednom výrazu) googlecloudcommunity.com googlecloudcommunity.com.

Technické základy: Google TTS staví na výzkumu DeepMind – například neuronové vokodéry WaveNet a další pokroky jako AudioLM/Chirp pro expresivní, nízkolatenční hlas cloud.google.com cloud.google.com. Hlasy jsou syntetizovány hlubokými neuronovými sítěmi, které dosahují téměř lidské úrovně prozódie. STT využívá end-to-end hluboké učení (podpořené rozsáhlými zvukovými daty Google); poslední aktualizace využily architekturu Transformer a rozsáhlý trénink pro neustálé zlepšování přesnosti. Google zajišťuje, že modely jsou optimalizované pro nasazení ve velkém měřítku v cloudu, nabízí funkce jako streamovací rozpoznávání s nízkou latencí a robustní zvládání šumu díky tréninku na rušném zvuku.

Oblasti použití: Univerzálnost hlasových API Google umožňuje případy použití jako:

  • Automatizace kontaktních center: IVR systémy a voiceboti, kteří přirozeně komunikují se zákazníky (například hlasový agent Dialogflow poskytující informace o účtu) cloud.google.com.
  • Přepis a titulkování médií: Přepisování podcastů, videí nebo živých vysílání (titulky v reálném čase) v různých jazycích pro zpřístupnění či indexaci.
  • Hlasová asistence & IoT: Pohon virtuálních asistentů na telefonech a chytrých domácích zařízeních (Google Assistant to sám využívá) i hlasové ovládání v IoT aplikacích.
  • Vzdělávání a tvorba obsahu: Generování audio knih nebo voice-overů k videím s přirozenými hlasy a přepisování přednášek či schůzek pro pozdější prohlížení.
  • Zpřístupnění: Převod textu na řeč pro čtečky obrazovky a asistivní technologie, a převod řeči na text pro diktování namísto typování.

Ceník: Google Cloud využívá model platíš při použití. U TTS je cena za milion znaků (např. okolo 16 USD za 1M znaků u hlasů WaveNet/Neural2, méně u standardních hlasů). STT je účtováno za 15 sekund nebo za minutu záznamu (~0,006 USD za 15 s standardního modelu) v závislosti na zvoleném modelu a režimu (realtime/dávka). Google má štědrý free-tier – noví zákazníci získají kredit 300 USD a měsíční bezplatné limity (např. 1 hodina STT a několik milionů znaků v TTS) cloud.google.com. To zajišťuje nízké náklady pro počáteční testování. Pro vysoké objemy jsou k dispozici objemové slevy a kontrakty na závazky.

Silné stránky: Platforma Google vyniká kvalitou zvuku a přesností (využívá výzkumu Google AI). Může se pochlubit širokou jazykovou podporou (opravdový globální dosah) a škálovatelností na infrastruktuře Google (zvládá rozsáhlé reálné zátěže). Služby jsou vstřícné pro vývojáře díky jednoduchému REST/gRPC API a klientským knihovnám. Neustálé inovace Google (nové hlasy, vylepšení modelů) garantují špičkový výkon cloud.google.com. Jako plnohodnotný cloudový balík se navíc dobře integruje s dalšími službami (Storage, Translation, Dialogflow) pro vývoj komplexních hlasových aplikací.

Slabé stránky: Cena může být při velkém zatížení vysoká, hlavně pro dlouhodobý TTS nebo nonstop přepisy – uživatelé uvádějí, že Google může být nákladný při velkokapacitním využití bez objemových slev telnyx.com. Někteří uživatelé upozorňují, že přesnost STT stále kolísá u silných přízvuků nebo při vyšším šumu, což vyžaduje adaptaci modelu. Reálný provoz STT může při velkém vytížení mít drobnou latenci telnyx.com. Dalším aspektem je správa dat – přestože služba nabízí možnosti ochrany soukromí, organizace s citlivými daty mohou preferovat on-premise řešení (které Google, na rozdíl od některých konkurentů, přímo nenabízí).

Novinky (2024–2025): Google nadále vylepšuje své hlasové služby. Koncem roku 2024 začal upgradovat mnoho TTS hlasů v evropských jazycích na nové, přirozeněji znějící verze googlecloudcommunity.com googlecloudcommunity.com. Cloud TTS nyní podporuje hlasy Chirp v3 (vycházející z AudioLM pro autentickou spontánní konverzaci) a syntézu vícemluvčích dialogů cloud.google.com cloud.google.com. U STT Google spustil vylepšené modely s lepší přesností a rozšířeným jazykovým krytím nad 125 jazyků gcpweekly.com telnyx.com. Významné je, že Google učinil Custom Voice obecně dostupným – zákazníci tak mohou trénovat a nasazovat vlastní TTS hlasy s vlastním zvukovým materiálem (při dodržení etické revize Google) id.cloud-ace.com id.cloud-ace.com. Tyto inovace, spolu s postupným přidáváním jazyků a dialektů, drží Google i v roce 2025 na špici hlasového AI.

Oficiální web: Google Cloud Text-to-Speech cloud.google.com (pro TTS) a produktové stránky Speech-to-Text krisp.ai.

2. Microsoft Azure Speech Service (TTS, STT, Klonování hlasu) – Microsoft

Přehled: Azure AI Speech od Microsoftu je podniková platforma nabízející Neural Text-to-Speech, Speech-to-Text a funkce jako Překlad řeči a Custom Neural Voice. Azure TTS poskytuje obrovský výběr hlasů (více než 400 hlasů ve 140 jazycích/variantách) s lidskou kvalitou techcommunity.microsoft.com, včetně stylů a emocí. STT (rozpoznávání řeči) je velmi přesné, podporuje přes 70 jazyků pro reálný čas nebo dávkové přepisy telnyx.com a dokáže naživo překládat mluvený zvuk do jiných jazyků krisp.ai. Typickým rysem je podniková customizace: zákazníci mohou trénovat vlastní akustické/jazykové modely nebo vytvořit klonovaný hlas své značky. Azure Speech je úzce integrován s cloudovým ekosystémem Azure (pomocí SDK a REST API) a je podpořen dekádami vývoje řeči od Microsoftu (včetně technologií od firmy Nuance, kterou Microsoft koupil).

Klíčové vlastnosti:

  • Neural Text-to-Speech: Obrovská knihovna předpřipravených neurálních hlasů ve 144 jazycích/variantách (446 hlasů k polovině roku 2024) techcommunity.microsoft.com — od neformálních konverzačních tónů po formální narativní styly. Hlasy jsou vytvářeny pomocí hlubokých modelů Microsoftu pro suprasegmentální stránku řeči (např. varianty Transformer a Tacotron). Azure nabízí unikátní styly hlasu (veselý, empatický, zákaznický servis, zpravodaj, atd.) a detailní ovládání (přes SSML) výšky, tempa i výslovnosti. Výrazným rysem je multilingvální a multi-speaker podpora: některé hlasy zvládnou code-switching a služba podporuje více rolí mluvčích pro tvorbu dialogů.
  • Speech-to-Text: Vysoce přesný ASR s režimy reálného přenosu i dávkového přepisu. Podpora 75+ jazyků a dialektů telnyx.com; funkce jako automatická interpunkce, filtrování vulgarismů, diarizace mluvčích, vlastní slovníky a překlad řeči (přepíše a přeloží řeč v jediném kroku) krisp.ai. Azure STT lze využít jak pro krátké příkazy, tak dlouhé přepisy, s možností vylepšených modelů pro specifické použití (např. call centra).
  • Custom Neural Voice: Služba klonování hlasu umožňující organizacím vytvořit unikátní AI hlas na základě zvoleného mluvčího (vyžaduje cca 30 minut trénovacího zvuku a přísné ověření souhlasu). Vzniklý syntetický hlas reprezentuje značku či postavu — využívá se například v imerzivních hrách nebo konverzačních agentech. Custom Neural Voice Microsoftu je známá kvalitou, jak ukazují např. hlasy „Flo“ od Progressive nebo chatbotů AT&T.
  • Zabezpečení & nasazení: Azure Speech klade důraz na bezpečnost podniků – šifrování dat, soulad s normami ochrany soukromí, možnost kontejnerizovaných endpointů (firmy tak mohou modely nasadit na vlastní infrastrukturu nebo na okraji sítě pro citlivé scénáře) krisp.ai. Flexibilita (cloud či on-premises přes kontejner) je ceněná např. ve zdravotnictví.
  • Integrace: Navrženo pro integraci s ekosystémem Azure – např. použití s Cognitive Services (Překlad, Cognitive Search), Bot Framework (pro hlasové boty) či Power Platform. Součástí nabídky je také rozpoznávání mluvčích (hlasová autentizace).

Podporované jazyky: Hlasová AI Azure je mimořádně vícejazyčná. TTS pokrývá 140+ jazyků a variant (hlasové varianty ve všech hlavních jazycích i mnoha regionálních, např. množství anglických přízvuků, čínských dialektů, indických a afrických jazyků) techcommunity.microsoft.com. STT podporuje 100+ jazyků pro přepis (a dokáže jazyk v nahrávce automaticky rozpoznat nebo zvládá vícejazyčnou řeč) techcommunity.microsoft.com. Funkce překladače mluvené řeči podporuje desítky jazykových párů. Microsoft neustále přidává i méně rozšířené jazyky, s cílem inkluze. Tato šíře činí z Azure špičkovou volbu pro aplikace vyžadující mezinárodní dosah či podporu místních jazyků.

Technologické základy: Řečové technologie Microsoftu stojí na hlubokých neuronových sítích a dlouhodobém výzkumu (část pochází z Microsoft Research i odkoupené Nuance). Neurální TTS využívá modely typu Transformer a varianty FastSpeech pro syntézu řečových vln, s vocodery podobnými systému WaveNet. Největším pokrokem bylo dosažení lidské parity v některých TTS úkolech – díky rozsáhlému trénování a fine-tuningu pro imitaci lidských nuancí techcommunity.microsoft.com. Pro STT Azure používá kombinaci akustických a jazykových modelů; od roku 2023 zavádí akustické modely založené na Transformeru (vyšší přesnost a robustnost vůči šumu) a sjednocené modely „Conformer“. Azure rovněž využívá ensemble modelování a reinforcement learning pro průběžné vylepšování. Nabízí též adaptivní učení — možnost zlepšit rozpoznávání na konkrétní terminologii poskytnutím textových dat (custom jazykové modely). Na infrastrukturní úrovni dokáže Azure Speech využívat akceleraci GPU v cloudu pro streamování s nízkou latencí a automaticky škáluje kapacitu při špičkách (například živé titulkování velkých událostí).

Použití: Azure Speech je využíván napříč odvětvími:

  • Zákaznický servis & IVR: Mnohé firmy využívají Azure STT a TTS pro IVR systémy a hlasové boty v call centrech. Například letecká společnost může použít STT pro přepis telefonických přání zákazníka a odpovídat syntetickým neurálním hlasem, případně i překládat mezi jazyky podle potřeby krisp.ai.
  • Virtuální asistenti: Pohání hlas virtuálních agentů jako Cortana a dalších asistentů integrovaných například v autech nebo domácích spotřebičích. Funkce custom voice umožňuje vytvořit pro asistenty originální hlasovou identitu.
  • Tvorba obsahu & média: Herní a animační studia využívají Custom Neural Voice k vytvoření unikátních hlasů postav bez nutnosti rozsáhlého nahrávání s dabéry (scénáře lze číst klonovaným hlasem herce). Mediální společnosti používají Azure TTS pro čtení zpráv, audioknihy i vícejazykový dabing.
  • Přístupnost & vzdělávání: Přesné STT Azure umožňuje tvořit živé titulky pro schůzky (např. v Microsoft Teams) a přednášky, což pomáhá lidem se ztrátou sluchu či jazykovou bariérou. TTS je využita např. v funkcích pro předčítání textu ve Windows, v e-knihách a výukových aplikacích.
  • Podniková produktivita: Přepisování schůzek, hlasové zprávy nebo diktování dokumentů patří mezi běžná použití. Technologie Nuance Dragon (nyní pod Microsoftem) je integrována např. do zdravotnictví (přepis lékařských poznámek STT) a pro právníky (diktování s vysokou přesností na odborné termíny) krisp.ai krisp.ai.

Ceny: Azure Speech využívá model účtování podle spotřeby. STT se účtuje podle hodin zpracovaného zvuku (lišné ceny pro standardní vs. custom nebo vylepšené modely). Například standardní přepis v reálném čase vychází asi na 1 dolar za hodinu zvuku. TTS se platí podle počtu znaků (příp. za 1 milion znaků, přibližně 16 USD za milion znaků u neurálních hlasů, podobně jako konkurence). Custom Neural Voice vyžaduje navíc poplatek za nastavení/trénování i poplatky za používání. Azure nabízí free tier: např. určitý počet hodin STT zdarma v prvních 12 měsících a bezplatné TTS znaky. Do balíčku Cognitive Services, kdy si podniky mohou koupit služby ve větším objemu za zvýhodněnou cenu, patří i řečové služby. Celkově je oceňování konkurenceschopné, avšak za pokročilé vlastnosti (custom modely, prémiové styly) mohou být účtovány vyšší poplatky.

Silné stránky: Microsoftův řečový servis je připravený pro podniky – je známý robustním zabezpečením, ochranou soukromí a shodou s předpisy (důležité pro regulovaná odvětví) krisp.ai. Nabízí bezkonkurenční možnosti přizpůsobení: vlastní hlasy a modely STT dávají organizacím detailní kontrolu. Šířka jazykové a hlasové podpory je v odvětví vedoucí techcommunity.microsoft.com, což z něj činí jediné řešení pro globální potřeby. Integrace se širším ekosystémem Azure a vývojářskými nástroji (vynikající SDK pro .NET, Python, Java, apod.) je silnou stránkou a zjednodušuje vývoj komplexních řešení. Hlasy Microsoftu jsou velmi přirozené, často chválené za svou výraznost a různorodost stylů. Další výhodou je flexibilní nasazení – možnost provozu v kontejnerech znamená využití offline nebo na okraji sítě, což nabízí jen málo cloudových poskytovatelů. Nakonec, kontinuální aktualizace Microsoftu (často inspirované vlastními produkty jako Windows, Office a Xbox využívajícími řečové technologie) znamenají, že Azure Speech služba těží z nejmodernějšího výzkumu a rozsáhlého testování v reálném světě.

Slabé stránky: Přestože je kvalita Azure vysoká, náklady se mohou rychle navýšit při intenzivním využití, zejména u Custom Neural Voice (která vyžaduje významnou investici a schvalovací proces od Microsoftu) a při dlouhodobém přepisu, pokud nejste na podnikové smlouvě telnyx.com. Široká nabídka funkcí a možností znamená vyšší náročnost na zvládnutí – noví uživatelé mohou mít problém se v nastaveních zorientovat (například vybrat ten správný hlas nebo konfigurovat vlastní modely vyžaduje jistou odbornost). Co se týče přesnosti, Azure STT patří k lídrům na trhu, ale některé nezávislé testy ukazují, že Google nebo Speechmatics mohou být v určitých benchmarkech o něco napřed (přesnost závisí na jazyce či přízvuku). Plné využití potenciálu Azure Speech často předpokládá, že jste již v ekosystému Azure – integruje se nejlépe s Azure Storage apod., což nemusí vyhovovat těm, kdo používají více cloudových řešení nebo chtějí jednodušší samostatnou službu. Stejně jako u každé cloudové služby, používání Azure Speech znamená zasílat data do cloudu – organizace s velmi citlivými daty mohou preferovat řešení pouze on-premise (Azure kontejnery to částečně řeší, ale nejsou zdarma).

Nejnovější aktualizace (2024–2025): Microsoft agresivně rozšiřuje nabídku jazyků a hlasů. V roce 2024 přidal Azure Neural TTS 46 nových hlasů a 2 nové jazyky, čímž dosáhl 446 hlasů ve 144 jazycích techcommunity.microsoft.com. Byly také vyřazeny starší „standardní“ hlasy ve prospěch výhradně neuronových hlasů (od září 2024), aby byla zajištěna vyšší kvalita learn.microsoft.com. Microsoft představil inovativní funkci Voice Flex Neural (preview), která umožňuje ještě dynamičtější úpravy stylů řeči. V oblasti STT Microsoft integroval některé schopnosti Dragon od Nuance do Azure – například Dragon Legal a Medical modely jsou k dispozici na Azure pro oborově specifické přepisy s vysokou přesností odborných termínů. Proběhly také aktualizace Speech Studio, grafického nástroje pro snadné vytváření vlastních modelů a hlasů. Další velký posun: služba Speech to Text v Azure získala vylepšení díky novému foundation modelu (s uváděnými miliardami parametrů), což zlepšilo přesnost asi o 15 % a umožnilo přepis smíšených jazyků najednou aws.amazon.com aws.amazon.com. Dále Microsoft oznámil integraci řečových služeb s Azure OpenAI – umožňující například převod řeči ze schůzky na text a následné shrnutí pomocí GPT-4 (vše v rámci Azure). Průběžná integrace generativní AI (např. GPT) s řečovými technologiemi a vylepšování práce s akcenty a biasem (část vyplývá z partnerství Microsoftu s organizacemi za účelem snížení chybovosti u různorodých mluvčích) drží Azure Speech na špici i v roce 2025.

Oficiální web: Azure AI Speech Service techcommunity.microsoft.com (oficiální stránka produktu Microsoft Azure pro řečové služby).

3. Amazon AWS Voice AI – Amazon Polly (TTS) & Amazon Transcribe (STT)

Přehled: Amazon Web Services (AWS) poskytuje výkonnou cloudovou hlasovou AI prostřednictvím Amazon Polly pro převod textu na řeč (TTS) a Amazon Transcribe pro převod řeči na text (STT). Polly převádí text do živě znějící řeči v různých hlasech a jazycích, zatímco Transcribe využívá automatické rozpoznávání řeči (ASR) k tvorbě vysoce přesných přepisů zvuku. Tyto služby jsou součástí širších AI možností AWS a těží ze škálovatelnosti a integrace AWS. Hlasové technologie Amazonu vynikají spolehlivostí a jsou využívány napříč odvětvími pro úkoly jako IVR systémy, titulkování médií, hlasové asistenty a další. Přestože Polly a Transcribe jsou samostatné služby, společně pokrývají celé spektrum potřeb vstupu i výstupu hlasu. Amazon nabízí také další související služby: Amazon Lex (pro konverzační chatboty), Transcribe Call Analytics (pro inteligenci kontaktních center) a program Brand Voice na zakázku (Amazon zde vytvoří vlastní TTS hlas pro značku klienta). AWS Voice AI cílí na vývojáře a firmy, které již využívají AWS, a nabízí jim snadnou integraci s dalšími AWS zdroji.

Klíčové vlastnosti:

  • Amazon Polly (TTS): Polly nabízí 100+ hlasů ve 40+ jazycích a variantách aws.amazon.com, včetně mužských i ženských hlasů a směsi neuronových a standardních možností. Hlasy jsou „živé“, vytvořené hlubokým učením pro zachycení přirozené intonace a rytmu. Polly podporuje neurální TTS pro vysoce kvalitní řeč a nedávno zavedla Neural Generative TTS engine – špičkový model (s 13 ultra-expresivními hlasy ke konci 2024), který produkuje emotivnější a konverzační řeč aws.amazon.com aws.amazon.com. Polly poskytuje funkce jako Speech Synthesis Markup Language (SSML) pro jemné ladění výstupu řeči (výslovnost, důraz, pauzy) aws.amazon.com. Zahrnuje také speciální styly řeči; například Newscaster styl čtení nebo konverzační styl pro uvolněný tón. Jedinečnou funkcí je možnost Polly automaticky přizpůsobovat rychlost řeči u dlouhých textů (dýchání, interpunkce) pomocí long-form enginu, což zajišťuje přirozenější čtení audioknih nebo zpráv (mají i speciální hlasy pro dlouhé texty).
  • Amazon Transcribe (STT): Transcribe zvládá jak dávkové přepisy předem nahraných audio souborů, tak reálný čas přepisu. Podporuje 100+ jazyků a dialektů pro přepis aws.amazon.com a umí automaticky rozpoznat mluvený jazyk. Klíčové vlastnosti zahrnují diarizaci mluvčích (rozeznání jednotlivých mluvčích ve vícemluvčím záznamu) krisp.ai, vlastní slovníky (pro výuku systému oborových pojmů či jmen) telnyx.com, interpunkci a velká písmena (automaticky vkládá pro lepší čitelnost) krisp.ai, a generování časových informací pro každé slovo. Transcribe má také filtry obsahu (pro zamaskování/pro označení vulgarismů/PII) a možnosti redakce – to je užitečné při nahrávkách z call center pro zamaskování citlivých údajů. Pro telefony a schůzky existují specializovaná vylepšení: např. Transcribe Medical pro zdravotnictví (HIPAA-ready) a Call Analytics, což nejen přepisuje, ale i analyzuje sentiment, kategorizuje hovory a generuje shrnutí s využitím ML aws.amazon.com aws.amazon.com.
  • Integrace & nástroje: Polly i Transcribe se integrují s dalšími službami AWS. Výstup z Transcribe může přímo vstupovat do Amazon Comprehend (NLP služba) pro hlubší analýzu textu nebo do Translate pro překlady přepisů. Polly může spolupracovat s AWS Translate pro generování hlasových výstupů v jiných jazycích. AWS poskytuje SDK v mnoha jazycích (Python boto3, Java, JavaScript, apod.) pro snadné volání těchto služeb. Pohodlné funkce nabízí například Amazon MediaConvert, který zvládne využít Transcribe pro automatickou tvorbu titulků k videím. Navíc AWS nabízí Presign API, umožňující bezpečné nahrání pro přepis či streamování přímo z klienta.
  • Přizpůsobení: Přestože Polly nabízí předpřipravené hlasy, AWS nabízí program Brand Voice, kde odborníci z Amazonu vytvoří na zakázku hlas TTS pro klienta (nejde o samoobslužnou službu, jedná se o spolupráci – např. KFC Kanada pracovalo s AWS na tvorbě hlasu plukovníka Sanderse prostřednictvím Polly’s Brand Voice venturebeat.com). U Transcribe se přizpůsobuje přes vlastní slovník nebo Custom Language Models (pro některé jazyky můžete nahrát vlastní trénovací data, v omezeném preview).
  • Výkon & škálovatelnost: Služby Amazonu jsou známé tím, že jsou ověřené v produkci ve velkém měřítku (Amazon pravděpodobně využívá Polly a Transcribe i interně pro Alexa a další služby AWS). Oboje zvládne vysoké objemy: Transcribe streaming zvládne paralelně zpracovávat řadu streamů, dávkové úlohy přepisují velké objemy audia uloženého na S3. Polly zvládne rychlou syntézu řeči, podporuje i cachování výsledků a nabízí neurální cachování často opakovaných vět. Latence je nízká, hlavně při využití regionů AWS blízko uživatelů. Pro IoT či edge využití AWS nenabízí offline kontejnery pro tyto služby (na rozdíl od Azure), ale poskytují edge konektory přes AWS IoT pro streamování do cloudu.

Podporované jazyky:

  • Amazon Polly: Podporuje desítky jazyků (aktuálně kolem 40+). Zahrnuje většinu hlavních jazyků: angličtinu (US, UK, AU, Indie atd.), španělštinu (EU, US, LATAM), francouzštinu, němčinu, italštinu, portugalštinu (BR a EU), hindštinu, arabštinu, čínštinu, japonštinu, korejštinu, ruštinu, turečtinu a další aws.amazon.com. Mnoho jazyků má více hlasů (např. US angličtina má 15+ hlasů). AWS nadále přidává další jazyky – například na konci roku 2024 přibyly hlasy pro češtinu a švýcarskou němčinu docs.aws.amazon.com. Není pokryto každé jazykové prostředí na světě, ale výběr je široký a stále roste.
  • Amazon Transcribe: Od roku 2025 podporuje 100+ jazyků a variant pro přepis aws.amazon.com. Původně bylo podporováno asi 31 jazyků (většinou západní jazyky), ale Amazon jej výrazně rozšířil díky nové generaci modelů a zahrnul mnohem více jazyků (včetně např. vietnamštiny, perštiny, svahilštiny atd.). Podporuje i vícejazyčný přepis – dokáže detekovat a přepisovat bilingvní konverzace (například smíšenou angličtinu a španělštinu v jednom hovoru). Specificky v oblasti: Transcribe Medical momentálně podporuje lékařské diktáty v několika variantách angličtiny a španělštiny.

Technické základy: Amazonův generativní hlas (Polly) využívá pokročilé neuronové sítě, včetně transformer modelu s miliardou parametrů pro nejnovější hlasy aws.amazon.com. Tato architektura umožňuje Polly generovat řeč v reálném čase a zároveň udržet vysokou kvalitu – výsledná řeč je „emocionálně zapojená a velmi hovorová“ aws.amazon.com. Starší hlasy používají konkatenační přístup nebo starší neuronové sítě pro standardní hlasy, ale nyní je těžiště vývoje plně v neuronovém TTS. Na straně STT je Amazon Transcribe poháněn nadcházející generací foundation ASR modelu (více miliard parametrů), který Amazon sám postavil a natrénoval na velkém množství audia (údajně miliony hodin) aws.amazon.com. Model pravděpodobně používá architekturu Transformer nebo Conformer pro dosažení vysoké přesnosti. Je optimalizován na zvládání různých akustických podmínek a akcentů (Amazon explicitně zmiňuje, že počítá s různými přízvuky a šumem v pozadí) aws.amazon.com. Vývoj Transcribe byl výrazně ovlivněn pokroky Amazon Alexa v oblasti rozpoznávání řeči – vylepšení z modelů Alexa často přecházejí do Transcribe. AWS používá techniky self-supervised learningu (podobně jako SpeechMix nebo wav2vec) pro rozšíření podpory méně rozšířených jazyků. Co se týče nasazení, tyto modely běží na spravované infrastruktuře AWS; AWS má specializované inference čipy (jako AWS Inferentia), které mohou být využívány k efektivnímu provozu modelů z hlediska nákladů.

Příklady použití:

  • Interaktivní hlasová odezva (IVR): Mnoho firem používá Polly pro výstup hlasových instrukcí a Transcribe na zachycení toho, co volající říkají v telefonních menu. Například IVR v bance může přečíst informace o účtu pomocí Polly a pomocí Transcribe rozpoznat mluvený požadavek.
  • Analýza kontaktního centra: Použití Transcribe k přepisu hovorů zákaznického servisu (přes Amazon Connect nebo jiné call centrum platformy) a následná analýza sentimentu zákazníků nebo výkonu agentů. Funkce Call Analytics (s detekcí sentimentu a sumarizací) pomáhají automatizovat kontrolu kvality hovorů aws.amazon.com aws.amazon.com.
  • Média & zábava: Polly se využívá pro generování hlasového doprovodu pro zpravodajské články nebo blogové příspěvky (některé zpravodajské weby nabízejí funkci „poslechnout si článek“ pomocí hlasů Polly). Přepis Transcribe využívají vysílatelé pro titulkování živého TV vysílání nebo video platformy pro automatickou tvorbu titulků u uživatelských videí. Produkční studia mohou využívat Transcribe pro získání přepisu záznamů při editaci (hledání v záznamu podle textu).
  • E-learning a přístupnost: Platformy pro e-learning využívají Polly k převodu psaného obsahu do audio ve více jazycích, což zpřístupňuje výukové materiály širšímu publiku. Transcribe pomáhá s tvorbou přepisů lekcí nebo umožňuje studentům vyhledávat v záznamech přednášek.
  • Hlasové funkce zařízení a aplikací: Mnoho mobilních aplikací nebo IoT zařízení využívá AWS pro hlasové služby. Například mobilní aplikace může využívat Transcribe pro hlasové hledání (nahrajete otázku, odešlete do Transcribe, získáte text). Hlasy Polly lze zabudovat do zařízení jako chytrá zrcadla nebo hlásiče k přečtení oznámení nebo výstrah.
  • Vícejazyčný dabing: Kombinací služeb AWS (Transcribe + Translate + Polly) mohou vývojáři vytvořit automatizované dabovací řešení. Například vezmete anglické video, přepíšete ho, přeložíte přepis do španělštiny a pomocí španělského hlasu Polly vytvoříte dabovanou španělskou audio stopu.
  • Hry a interaktivní média: Herní vývojáři mohou používat Polly pro dynamické dialogy NPC postav (aby bylo možné převést textové dialogy rovnou do hlasové podoby bez nahrávání hereckých replik). Polly má dokonce speciální NTTS hlas (Justin), který je určen k zpěvu a našel uplatnění i v kreativních projektech.

Ceny: Ceny AWS jsou na základě spotřeby:

  • Amazon Polly: Účtováno podle milionu znaků vstupního textu. Prvních 5 milionů znaků za měsíc je zdarma po dobu 12 měsíců (nové účty) aws.amazon.com. Poté stojí standardní hlasy zhruba $4 za 1M znaků a neuronové hlasy kolem $16 za 1M znaků (ceny se lehce liší podle regionu). Nové „generativní“ hlasy mohou být zpoplatněny prémiově (například vyšší cena za znak kvůli vyšší výpočetní náročnosti). Cena Polly je přibližně srovnatelná s Google/Microsoft v neuronové kategorii. Za ukládání nebo streamování audia se neúčtuje žádný extra poplatek (kromě minimálních poplatků za S3 nebo přenos dat, pokud ukládáte/streamujete).
  • Amazon Transcribe: Účtováno za sekundu audia. Například běžný přepis je zpoplatněn $0.0004 za sekundu (tedy $0.024 za minutu). Jedna hodina tak stojí přibližně $1.44. U některých funkcí jsou ceny mírně vyšší: např. Transcribe Call Analytics nebo Medical stojí asi $0.0008/sekundu. Přepis v reálném čase je účtován podobně za sekundu. AWS nabízí 60 minut přepisu zdarma měsíčně po dobu 12 měsíců pro nové uživatele aws.amazon.com. Také AWS často nabízí stupňovité slevy při větším objemu nebo v podnikových smlouvách skrze AWS Enterprise Support.
  • Přístup AWS je modulární: pokud využijete Translate nebo jiné služby, platí se zvlášť. Výhodou však je, že platíte jen za skutečné využití a můžete škálovat až na nulu v případě nevyužívání. To je efektivní pro nepravidelné použití, ale u opravdu velkých kontinuálních objemů je potřeba domluva na slevách nebo využití AWS saving plans.

Silné stránky: Největší předností hlasových služeb AWS je prokázaná škálovatelnost a spolehlivost – jsou navrženy pro produkční provoz (SLA AWS 99,9 %, redundance v několika regionech apod.). Hloubková integrace s ekosystémem AWS je výhodou pro zákazníky již na AWS (IAM pro řízení přístupu, S3 pro vstup/výstup atd. – vše hladce spolupracuje). Hlasy Polly jsou obecně považovány za velmi přirozené a nové generativní hlasy ještě více zužují rozdíl mezi syntetickým a lidským projevem, navíc nabízejí speciální emocionální projev aws.amazon.com. Transcribe je známý odolností i v náročných audio podmínkách (byl jedním z prvních, kdo se soustředil na rozpoznávání různých akcentů a hluku v pozadí aws.amazon.com). Služby jsou poměrně snadno použitelné přes API, AWS má kvalitní dokumentaci a ukázky kódu. AWS nabízí konkurenční ceny a zdarma pro nové uživatele. Další předností je rychlé tempo inovací – Amazon pravidelně přidává nové funkce (například detekci toxických projevů v Transcribe pro moderování), zlepšuje podporu jazyků i na základě potřeb skutečných zákazníků. Bezpečnost je na vysoké úrovni: obsah je šifrován a můžete zvolit, že se data nebudou ukládat nebo budou automaticky mazána po zpracování. Pro podnikové zákazníky AWS nabízí také lidskou podporu a architekty řešení pro efektivní nasazení služeb.

Slabé stránky: Pro některé vývojáře může být nevýhodou, že AWS vyžaduje založení účtu a určité porozumění IAM a AWS konzoli, což je někdy zbytečně složité, pokud potřebujete pouze rychlý hlasový test (naproti tomu někteří konkurenti nabízejí jednodušší veřejná API nebo GUI nástroje). Na rozdíl od některých konkurentů (Google, Microsoft) AWS nenabízí samoobslužné vytváření vlastních hlasových klonů pro všechny – Brand Voice je dostupný jen u větších projektů. To znamená, že menší uživatelé nemohou trénovat své vlastní hlasy na AWS (kromě lexikonu). AWS zatím nenabízí on-premise/offline variantu Polly nebo Transcribe – služby jsou pouze cloudové (můžete použít Amazon Outposts nebo Local Zones, ale není to totéž jako offline kontejner). Co se týče přesnosti, i když je Transcribe silný, v některých nezávislých testech byly výsledky Microsoftu nebo Google mírně lepší v konkrétních jazycích nebo případech použití (může se lišit; nový model AWS většinu rozdílů odstranil). Dalším aspektem je jazyková pokrytí v TTS – 40+ jazyků je dobré, ale Google i Microsoft podporují ještě více jazyků, AWS může aktuálně trochu zaostávat v některých lokalizovaných variantách (například Google má víc indických jazyků v TTS než Polly). Nakonec množství souvisejících služeb AWS může některé uživatele mást (například rozhodování mezi Transcribe vs. Lex u určitých úloh), je tedy potřeba alespoň základní znalost cloudové architektury.

Nedávné aktualizace (2024–2025): AWS provedlo významné aktualizace jak u Polly, tak u Transcribe:

  • Polly: V listopadu 2024 AWS spustilo šest nových „generativních“ hlasů v několika jazycích (francouzština, španělština, němčina, různé varianty angličtiny), čímž rozšířilo tuto kategorii z 7 na 13 hlasů aws.amazon.com. Tyto hlasy využívají nový generativní TTS engine a jsou velmi expresivní, zaměřené na konverzační AI využití. Také byly přidány Long-Form NTTS hlasy pro španělštinu a angličtinu, které si udržují čitelnost i při velmi dlouhých textech aws.amazon.com aws.amazon.com. Již začátkem roku 2024 AWS představilo hlas Newscaster style v brazilské portugalštině a dalších jazycích. V březnu 2025 dokumentace Amazon Polly ukazuje podporu jazyků čeština a švýcarská němčina, což odráží průběžné rozšiřování jazykové nabídky docs.aws.amazon.com. Další aktualizace: AWS vylepšilo kvalitu neuronových hlasů Polly (pravděpodobně aktualizace základního modelu) – někteří uživatelé zaznamenali plynulejší prozodii v nových hlasových verzích.
  • Transcribe: V polovině roku 2024 Amazon oznámil novou generaci ASR modelu (Nova) pohánějící Transcribe, který významně zvýšil přesnost a rozšířil počet podporovaných jazyků na 100+ aws.amazon.com. Také byla celosvětově spuštěna služba Transcribe Call Analytics s možností získávat shrnutí konverzace pomocí generativní AI (integrovatelné s AWS Bedrock nebo OpenAI modely) – což v podstatě znamená automatické shrnutí klíčových bodů hovoru po přepisu. Další novinkou je detekce toxicity v reálném čase (uvedeno koncem 2024), která umožňuje vývojářům detekovat nenávistné projevy nebo obtěžování v živém zvuku prostřednictvím Transcribe; to je klíčové pro moderování živých hlasových chatů aws.amazon.com. V roce 2025 je AWS v preview s možností vlastních jazykových modelů (CLM) pro Transcribe, které umožňují firmám doladit ASR na vlastních datech (tímto konkuruje Azure Custom STT). Co se týče ceny, AWS učinilo Transcribe výhodnějším pro zákazníky s velkým objemem dat díky automatickému zavedení objemových slev po překročení určitých hodinových limitů měsíčně. Všechny tyto novinky ukazují odhodlání AWS zůstat v čele hlasové AI, neustále vylepšovat kvalitu i funkce.

Oficiální weby: Amazon Polly – Služba převodu textu na řeč aws.amazon.com aws.amazon.com; Amazon Transcribe – Služba převodu řeči na text aws.amazon.com aws.amazon.com.

4. IBM Watson Speech Services (TTS & STT) – IBM

Přehled: IBM Watson nabízí jak Text-to-Speech, tak Speech-to-Text v rámci svých Watson AI služeb. IBM má dlouhou tradici ve vývoji řečových technologií a jeho cloudové služby kladou důraz na přizpůsobení, odbornou znalost domény a ochranu dat. Watson Text-to-Speech zvládne syntetizovat přirozeně znějící řeč v několika jazycích, Watson Speech-to-Text poskytuje vysoce přesný přepis a možnost adaptace na specializovanou slovní zásobu. IBM řečové služby jsou obzvláště populární v sektorech jako zdravotnictví, finance či právo, kde je slovník složitý a bezpečnost dat zásadní. IBM umožňuje nasazení svých modelů ve firemních prostředích (pomocí IBM Cloud Pak), což je lákavé pro organizace, které nemohou využívat veřejný cloud k přenosu hlasových dat. Ačkoliv má IBM menší tržní podíl v oblasti cloudových řečových služeb oproti velké trojce (Google, MS, AWS), zůstává důvěryhodným, enterprise-grade poskytovatelem pro řečová řešení, která potřebují vyladit na specifickou terminologii či integrovat do širšího Watson ekosystému (který zahrnuje překladače, framework asistenta apod.).

Klíčové vlastnosti:

  • Watson Text-to-Speech (TTS): Podporuje několik hlasů v 13+ jazycích (včetně angličtiny US/UK, španělštiny, francouzštiny, němčiny, italštiny, japonštiny, arabštiny, brazilské portugalštiny, korejštiny, čínštiny aj.). Hlasy jsou „neuronové“ a IBM je průběžně vylepšuje – např. nové expresivní neuronové hlasy byly přidány pro některé jazyky (např. expresivní australská angličtina) cloud.ibm.com. IBM TTS umožňuje upravovat parametry jako výška, rychlost nebo důraz pomocí rozšířeného SSML od IBM. Některé hlasy nabízejí expresivní čtení (například hlas, který zní empaticky či nadšeně). IBM také zavedlo vlastní hlas – klienti mohou ve spolupráci s IBM vytvořit unikátní syntetický hlas (typicky brand voice, služba zejména pro enterprise sektor). Výjimečnou vlastností je streamování s nízkou latencí – IBM TTS může vracet audio ve skutečných reálných blocích, což je zásadní pro pohotové hlasové asistenty.
  • Watson Speech-to-Text (STT): Nabízí přepis v reálném čase i dávkově s funkcemi jako diarizace mluvčích (rozlišení jednotlivých osob v konverzaci) krisp.ai, detekce klíčových slov (možnost vyznačit časové značky u důležitých pojmů), či alternativy slov (seznam možností pro neurčité přepisy s uvedením pravděpodobnosti). Watson STT je známý bohatou podporou vlastních jazykových modelů: uživatelé mohou nahrávat tisíce doménově specifických termínů nebo i audio nahrávky s přepisy ke zlepšení modelu např. pro lékařskou či právní terminologii krisp.ai krisp.ai. To výrazně zlepšuje přesnost v těchto odvětvích. IBM navíc podporuje více modelů pro širokopásmový a úzkopásmový zvuk optimalizovaných pro telefonní vs. vysoce kvalitní audio. Umí okolo 10 jazyků (angličtina, španělština, němčina, japonština, čínština aj.) s vysokou přesností a má i telefonní modely pro některé jazyky (umí lépe pracovat s rušením a kodeky). Zajímavá vlastnost je automatické chytré formátování – např. přeformátování dat, měn, čísel přímo v přepisu pro lepší čitelnost.
  • Optimalizace pro domény: IBM nabízí předtrénované oborové modely jako Watson Speech Services for Healthcare adaptované na lékařskou dikci a přepis pro média & zábavu s knihovnou vlastních jmen pro mediální průmysl. Tyto možnosti reflektují konzultační přístup IBM, kdy je výsledné řešení přímo uzpůsobené potřebám klienta.
  • Zabezpečení a nasazení: Klíčovou výhodou je možnost spustit Watson Speech služby ve vlastním prostředí zákazníka (mimo IBM Cloud) přes IBM Cloud Pak for Data. Tato kontejnerová nabídka znamená, že citlivá audio-data nikdy neopouštějí servery firmy, což plně řeší otázky rezidence a ochrany dat. I v IBM Cloudu se data standardně neukládají a vše je šifrováno. IBM splňuje přísné regulace (HIPAA, připraveno na GDPR).
  • Integrace: Watson Speech lze napojit na Watson Assistant (pro jednoduché přidání STT/TTS do chatbotů). Propojuje se i s širším IBM AI portfoliem – například lze výsledky přepisu posílat do Watson Natural Language Understanding pro analýzu sentimentu nebo do Watson Translate pro vícejazyčné workflow. IBM nabízí rozhraní web sockets i REST API pro streaming a dávkové zpracování.

Podporované jazyky:

  • TTS: IBM TTS pokrývá přibližně 13 jazyků (a některé dialekty). Patří sem hlavní obchodní jazyky. Oproti Google nebo Amazonu nabízí IBM menší jazykové pokrytí, ale klade důraz na kvalitu hlasů. Zásadní jazyky: angličtina (US, UK, AU), francouzština, němčina, italština, španělština (EU a LatAm), portugalština (BR), japonština, korejština, zjednodušená čínština (mandarínština), arabština a možná ruština. V posledních aktualizacích přibylo více hlasů ve stávajících jazycích spíš než nové jazyky, např. IBM představilo 27 nových hlasů v 11 jazycích v jednom updatu voximplant.com (např. dětské hlasy, nové dialekty).
  • STT: IBM STT podporuje přibližně 8–10 jazyků (angličtina, španělština, francouzština, němčina, japonština, korejština, brazilská portugalština, moderní standardní arabština, mandarínská čínština a italština). Angličtina (US i UK) je nejbohatší na funkce (vlastní modely, narrowband apod.). Některé jazyky mají možnost překladu do angličtiny přímo ve Watsonu (využívá však samostatnou službu Watson Translate). Oproti konkurenci je jazykové pokrytí IBM menší, ale zahrnuje nejžádanější světové jazyky v enterprise oblasti a umožňuje v těchto jazycích přizpůsobení modelů.

Technologické pozadí: Řečová technologie IBM vychází z jejich výzkumu (IBM byla průkopníkem s HMM technologií ve ViaVoice už v 90. letech, později byla převedena na deep learning). Moderní Watson STT využívá hluboké neuronové sítě (zřejmě bi-directional LSTM nebo Transformer akustické modely) a jazykové modely založené na n-gram nebo na neuronech. IBM klade důraz na doménovou adaptaci – pravděpodobně používá transfer learning pro dolaďování základních modelů na data z konkrétní oblasti. Také využívá tzv. „Speaker Adaptive Training“ ve výzkumu – tedy umožňuje modelu adaptovat se na konkrétního pravidelného mluvčího (užitečné pro diktování). Watson TTS používá neuronový sequence-to-sequence model pro syntézu řeči; IBM má technologii expressive tuning – při trénování hlasů používá expresivní nahrávky, takže hlasy zvládnou i citově zabarvenou intonaci. Výzkum IBM v oblasti emoční TTS (např. práce „Expressive Speech Synthesis“) pomáhá hlasům Watsonu generovat jemné intonační nuance. IBM také zavádělo attention mechanismus v TTS pro lepší zvládnutí zkratek či neznámých slov. Co se týče infrastruktury, služby IBM běží jako kontejnerizované mikroslužby; výkon je obecně velmi dobrý, ačkoliv dříve si uživatelé všimli, že Watson STT může být o něco pomalejší než Google (prioritizuje přesnost před rychlostí, byť se to mohlo zlepšit). IBM pravděpodobně také využívá akceleraci na GPU pro generování řeči v TTS.

Příklady použití:

  • Zdravotnictví: Nemocnice používají Watson STT (často prostřednictvím partnerů) pro přepisování diktovaných poznámek lékařů (běžný je Dragon Medical, ale IBM nabízí alternativu pro některé případy). Také hlasová interaktivita ve zdravotnických aplikacích (např. zdravotní sestra klade hlasem dotaz nemocničnímu informačnímu systému a dostává odpověď přes Watson Assistant s STT/TTS).
  • Zákaznický servis: IBM Watson Assistant (virtuální agent) v kombinaci s Watson TTS/STT pohání hlasové boty na zákaznických linkách. Například telekomunikační společnost může mít hlasového agenta na bázi Watsonu, který vyřizuje rutinní hovory (pomocí Watson STT slyší požadavek volajícího, Watson TTS odpovídá).
  • Soulad s předpisy a média: Obchodníci na finančních trzích mohou použít Watson STT k přepisu hovorů traderů kvůli monitorování souladu, s využitím bezpečnosti a možnosti nasazení Watsonu on-premise. Média mohou Watson využít k přepisům videí nebo archivaci vysílání (zejména pokud potřebují on-premise řešení pro velké archivy).
  • Vzdělávání & přístupnost: Univerzity použily Watson k přepisu přednášek nebo poskytování titulků, zejména když je důležité soukromí obsahu a chtějí jej provozovat interně. Watson TTS byl použit k generování audia pro digitální obsah a čtečky obrazovky (např. e-shop využívá Watson TTS k přečtení popisů produktů uživatelům se zrakovým postižením).
  • Státní správa: Bezpečné nasazení Watsonu jej činí vhodným pro státní úřady, které potřebují hlasové technologie, například k přepisu veřejných jednání (s vlastním slovníkem pro lokální názvy/pojmy) nebo poskytnutí vícejazyčných hlasových odpovědních systémů pro služby občanům.
  • Automotive: IBM měla partnerství pro Watson v infotainmentových systémech do automobilů – používání STT pro hlasové příkazy v autě a TTS pro mluvené odpovědi (navigace, informace o vozidle). Funkce vlastního slovníku je užitečná pro automobilový žargon (názvy modelů aut, apod.).

Ceny: IBM nabízí Lite plán s nějakým volným používáním (například 500 minut STT měsíčně a určitý počet tisíc znaků TTS) – to je vhodné pro vývoj. Nad tento rámec je cena dle spotřeby:

  • STT: Přibližně 0,02 USD za minutu pro standardní modely (což je 1,20 USD za hodinu) na IBM Cloudu. Vlastní modely stojí více (možná cca 0,03 USD/min). Tyto částky se ale mohou lišit; IBM často sjednává individuální enterprise dohody. Ceny IBM jsou obecně konkurenceschopné, někdy za minutu i nižší než u velkých cloudových konkurentů pro STT, aby přilákaly klienty. Nevýhoda je menší počet jazyků.
  • TTS: Účtováno za milion znaků, přibližně 20 USD za milion znaků pro Neural hlasy (standardní hlasy jsou levnější). Předchozí cena IBM byla 0,02 USD za cca 1000 znaků, což odpovídá 20 USD za milion. Výrazové hlasy bývají za stejnou cenu. Nízký tarif Lite nabízí například 10 000 znaků zdarma.
  • Unikátní možnost IBM je on-prem licencování – pokud nasazujete pomocí Cloud Pak, možná platíte za roční licenci nebo přes kredity, což může být významný náklad, ale zahrnuje neomezené použití až do kapacitních limitů. To je atraktivní pro velké uživatele, kteří preferují fixní cenový model nebo potřebují uchovávat data interně.

Silné stránky: Hlavní předností IBM je možnost přizpůsobení a odbornost v daném oboru. Watson STT lze jemně nastavit na zvládnutí složitého žargonu s vysokou přesností krisp.ai krisp.ai, čímž překonává obecné modely v prostředí jako lékařská diktace či právní přepisy. Klienti často oceňují ochotu IBM spolupracovat na zakázkových řešeních – IBM může pomoci s tvorbou vlastního modelu či hlasu (za poplatek). Ochrana dat a on-prem možnosti jsou velkým plusem; málokdo nabízí podobnou míru kontroly. IBM je proto preferovaná pro státní správu a korporace. Přesnost Watson STT na čistém zvuku s řádným nastavením je špičková – v některých benchmarcích byl Watson STT nejlepší v oblastech jako telekomunikační řeč. Hlasy IBM TTS, přestože jich není mnoho, jsou velmi kvalitní (zvlášť nové neuronové hlasy). Další výhodou je integrace s celým AI portfoliem IBM – pro firmy už používající Watson NLP, Knowledge Studio či datové platformy IBM je přidání řeči jednoduché. IBM má také silnou síť podpory; zákazníci na enterprise plánech často získávají přímou technickou podporu pro služby Watson. V neposlední řadě značka IBM v AI (po úspěchu DeepQA/Watson v Jeopardy) dává jistotu – řada rozhodovatelů kvůli tomu svěřuje IBM kritické systémy.

Slabé stránky: Hlasové služby IBM mají menší šíři jazyků a hlasů oproti konkurenci – například pokud potřebujete švédské TTS nebo vietnamské STT, IBM je možná nenabízí, zatímco ostatní ano. To omezuje využití pro globální spotřebitelské aplikace. Rozhraní IBM Cloud a dokumentace, přestože jsou slušné, někdy zaostávají v uživatelské přívětivosti oproti velmi dobře navrženým dokumentacím AWS, nebo integrovaným studiím Azure. Dynamika IBM na trhu AI zpomalila vůči novým hráčům; proto je méně komunitní podpory či open source ukázek pro Watson Speech. Další slabinou je škálovatelnost pro velmi velké real-time zátěže – IBM sice škáluje, ale pro Watson nemá tolik datacenter jako např. Google, takže latence může být vyšší, pokud jste mimo IBM cloud region. Cenově – pokud potřebujete mnoho jazyků nebo hlasů, IBM vás může vyjít dráž, protože budete potřebovat i další dodavatele. Soustředění IBM na enterprise znamená také méně „samoobslužných“ funkcí – např. customizace modelu může vyžadovat manuální kroky či kontaktování IBM, zatímco Google/AWS vám umožní nahrát data a jemně doladit automaticky. IBM také nehlásí tak často zlepšení přesnosti modelů – vzniká tak dojem, že modely nejsou často aktualizovány (i když je IBM aktualizuje, jen méně nápadně). Nakonec, ekosystém IBM není mezi vývojáři tak rozšířený, což může být nevýhoda, pokud chcete širokou komunitní nebo třetí integrační podporu.

Novinky (2024–2025): IBM dále modernizuje své hlasové služby. V roce 2024 zavedla Large Speech Models (v režimu early access) pro angličtinu, japonštinu a francouzštinu, což výrazně zlepšuje přesnost díky větším neuronovým sítím (viz poznámky k vydání Watson STT) cloud.ibm.com. Watson TTS získal nové hlasy: IBM přidala enhanced neural voices pro australskou angličtinu, korejštinu a nizozemštinu v polovině 2024 cloud.ibm.com. Dále byly vylepšeny výrazové styly u některých hlasů (například americká angličtina „Allison“ má novou aktualizaci, aby zněla konverzačněji ve Watson Assistant). V oblasti nástrojů vydalo IBM integraci Watson Orchestrate – jejich low-code orchestrátor AI umožňuje snadné propojení STT/TTS např. pro přepis schůzky a následnou sumarizaci pomocí Watson NLP. IBM pracovala také na snižování biasů v rozpoznávání řeči a přiznala, že starší modely měly vyšší chybovost u některých dialektů; nový velký anglický model prý zlepšil rozpoznávání pro různé mluvčí díky rozmanitějším trénovacím datům. Zásadní novinka pro 2025: IBM začala pro některé úlohy využívat foundation models od huggingface a spekuluje se, že by mohla integrovat/open-source modely typu Whisper pro jazyky, které sama nenabízí – žádné oficiální ohlášení ale zatím není. Shrnutí: aktualizace IBM míří na zvyšování kvality a udržení relevance (byť nejsou tak „lesklé“ jako oznámení konkurence). Závazek IBM k hybridnímu AI v cloudu znamená, že lze očekávat další usnadňování nasazení Watson Speech na Kubernetes a integraci do multi-cloud strategií.

Oficiální web: IBM Watson Speech-to-Text telnyx.com telnyx.com a stránky produktů Text-to-Speech na IBM Cloudu.

5. Nuance Dragon (Rozpoznávání řeči & hlasová diktace) – Nuance (Microsoft)

Přehled: Nuance Dragon je špičková technologie rozpoznávání řeči, která byla dlouho zlatým standardem pro hlasovou diktaci a přepis, zejména v profesionálních oblastech. Nuance Communications (nyní firma Microsoft, od roku 2022) vyvinula Dragon jako sadu produktů pro různé obory: Dragon Professional pro běžnou diktaci, Dragon Legal, Dragon Medical atd., každý přizpůsobený slovní zásobě daného segmentu. Dragon je známý velmi vysokou přesností převodu hlasu na text, zvlášť po krátkém uživatelském zaškolení. Podporuje také hlasové ovládání (ovládání softwaru hlasem). Na rozdíl od cloudových API běžel Dragon historicky jako software na PC nebo podnikových serverech, takže byl vhodný pro uživatele, kteří potřebují diktovat v reálném čase bez internetu nebo s garantovaným soukromím. Po akvizici byla jádrová technologie Nuance integrována i do cloudu Microsoftu (Azure Speech a funkce Office 365), ale značka Dragon zůstává samostatnou produktovou řadou. V roce 2025 je Dragon v tomto přehledu specialistou: kde jsou jiní platformami pro vše, Dragon je zaměřen na osobní produktivitu a oborově přesnou dikci.

Typ: Především Speech-to-Text (STT). (Nuance má i TTS produkty a hlasové biometrii, ale značka „Dragon“ znamená STT. Zde se zaměřujeme na Dragon NaturallySpeaking a příbuzné produkty).

Společnost/vývojář: Nuance (nyní vlastněná společností Microsoft). Nuance má desítky let zkušeností s rozpoznáváním řeči; byla průkopníkem v mnoha hlasových inovacích (poháněla například starší telefonní IVR nebo první backend Siri). Nyní pod Microsoftem jejich výzkum posiluje schopnosti Azure.

Schopnosti & cíloví uživatelé: Funkce Dragonu jsou zaměřeny na nepřetržité rozpoznávání řeči s minimem chyb a hlasově řízenou práci na počítači. Cíloví uživatelé zahrnují:

  • Zdravotníci: Dragon Medical One je široce používán lékaři pro diktování lékařských záznamů přímo do EHR, zvládá složitou medicínskou terminologii a názvy léků s přesností ~99 % krisp.ai.
  • Právníci: Dragon Legal je vyškolen na právní terminologii a formátování (zná citace, právní fráze). Právníci jej používají k hlasovému sepisování dokumentů.
  • Obecné podnikání & jednotlivci: Dragon Professional umožňuje komukoli diktovat e-maily, zprávy či ovládat počítač (otevírat programy, zadávat příkazy) hlasem a zvýšit tak produktivitu.
  • Zpřístupnění: Lidé s postižením (například omezenou pohyblivostí) často spoléhají na Dragon pro ovládání počítače bez rukou.
  • Policie a veřejná bezpečnost: Některá policejní oddělení používají Dragon k diktování hlášení o incidentech přímo v autech.

Klíčové vlastnosti:

  • Vysoce přesné diktování: Dragon se učí hlas uživatele a po krátkém tréninku (přečtení ukázkového textu) a pokračujícím užívání dosahuje velmi vysoké přesnosti. Používá kontext pro správný výběr homofonů a přizpůsobuje se opravám uživatele.
  • Vlastní slovníky a makra: Uživatelé si mohou přidat vlastní slova (například jména, odborné termíny) i hlasové příkazy (makra). Například lékař si může přidat šablonu, která se vloží po vyslovení „vlož běžný odstavec fyziologického vyšetření“.
  • Průběžné učení: Jak uživatel opravuje chyby, Dragon aktualizuje svůj profil. Může analyzovat uživatelovy e-maily a dokumenty pro lepší pochopení stylu psaní a slovní zásoby.
  • Offline provoz: Dragon funguje lokálně (u verzí pro PC), nevyžaduje připojení k internetu, což je zásadní pro soukromí a nízkou prodlevu.
  • Integrace hlasových příkazů: Kromě diktování umožňuje Dragon plné ovládání počítače hlasem. Stačí říct „Otevři Microsoft Word“ nebo „Klikni na nabídku Soubor“, případně ovládat formátování („tučně tu poslední větu“) a další operace.
  • Podpora více mluvčích ve specializacích: I když je jeden Dragon profil na uživatele, v případech, jako je přepis nahrávky, nabízí Nuance řešení Dragon Legal Transcription, které rozpozná různé mluvčí v nahraných vícemluvčích diktátech (ale toto je spíše specifické řešení než jádrová funkce).
  • Cloudové/Firemní řízení: Pro firmy nabízí Dragon centralizovanou správu uživatelů a nasazení (Dragon Medical One je například cloudová služba na předplatné, takže lékaři ji mohou používat na více zařízeních). U cloudových řešení je šifrovaný klient-server provoz.

Podporované jazyky: Především angličtina (různé přízvuky). Nuance má verze i pro další hlavní jazyky, ale vlajkovou lodí je americká angličtina. Existují produkty Dragon pro britskou angličtinu, francouzštinu, italštinu, němčinu, španělštinu, nizozemštinu atd. Každý je obvykle prodáván zvlášť, protože je upravený pro daný jazyk. Odborné verze (Medical, Legal) jsou převážně zaměřené na angličtinu (Nuance však dříve nabízela lékařskou i pro některé další jazyky). K roku 2025 má Dragon nejsilnější pozici na anglofonních trzích. Jeho přesnost v anglickém diktování je bezkonkurenční, ale nepodporuje například čínštinu nebo arabštinu ve stejné kvalitě (Nuance má jiné enginy pro kontaktní centra, ale ne jako spotřebitelský Dragon).

Technické základy: Dragon začínal s modely skrytých Markovových řetězců a pokročilými n-gram jazykovými modely. Postupně Nuance integroval hluboké učení (neuronové sítě) do akustického modelování. Nejnovější verze Dragonu využívají akustický model založený na hluboké neuronové síti (DNN), který se přizpůsobuje hlasu a prostředí uživatele, což zvyšuje přesnost zejména u přízvuků či mírného šumu v pozadí. Disponuje také rozsáhlým jazykovým modelem pro plynulé rozpoznávání řeči s dekódováním na základě kontextu (analyzuje celé fráze a rozhoduje podle nich). Klíčovou technologií je adaptace na mluvčího: model pomalu přizpůsobuje váhy konkrétnímu hlasu uživatele. Odborné jazykové modely (pro právníky nebo lékaře) zase zajišťují, že upřednostňuje odborné termíny (například ve zdravotnické verzi „organ“ chápe spíš jako část těla než hudební nástroj dle kontextu). Nuance má i patentované metody pro zvládání slovních neplynulostí a pro automatické formátování (např. ví, kdy vložit čárku nebo tečku při pauze v řeči). Po akvizici Microsoftem lze předpokládat, že do backendu pronikají i technologie na bázi transformerů, ale komerční Dragon 16 (aktuální PC verze) stále používá hybrid neuronového a tradičního modelu optimalizovaný pro výkon na lokálním PC. Dalším aspektem je víceprůchodové rozpoznávání – nejprve rychlý průchod, poté vylepšený s vyšší jazykovou analýzou. Obsahuje i algoritmy pro odstranění šumu v mikrofonním vstupu (Nuance prodává certifikované mikrofony pro nejlepší výsledky).

Rozšířené scénáře použití:

  • Klinická dokumentace: Lékaři diktují záznamy o setkání s pacientem – např. „Pacient udává 5 dní trvající horečku a kašel…“ Dragon to okamžitě přepíše do EHR, lékař tak může udržet oční kontakt s pacientem namísto psaní. Někteří používají Dragon i v reálném čase během návštěvy pacienta.
  • Sestavování dokumentů: Advokáti používají Dragon k sepisování smluv nebo podání pouze hlasem, což je pro dlouhé dokumenty často rychlejší než psaní.
  • E-mail a poznámky: Zaneprázdnění profesionálové, kteří chtějí vyřizovat emaily nebo si dělat poznámky ze schůzek hlasovým diktováním místo psaní.
  • Ovládání počítače bez rukou: Uživatelé s bolestmi z opakovaného namáhání (RSI) nebo s postižením, kteří používají Dragon pro kompletní ovládání PC (otevření aplikace, surfování po webu, diktování textu) pouze hlasem.
  • Přepisovatelské služby: Nuance nabízí produkt Dragon Legal Transcription, který zvládá převod audiozáznamů (například nahraných rozhovorů či soudních jednání) do textu. To využívají advokátní kanceláře nebo policie pro přepis záznamů z kamer, výslechů atd.

Cenový model: Nuance Dragon se obvykle prodává jako licencovaný software:

  • Dragon Professional Individual (PC) – licence na jedno použití (např. cca 500 USD) nebo předplatné. Trendem je ale přechod na předplatné (např. Dragon Professional Anywhere je formou předplatného).
  • Dragon Medical One – předplatné SaaS, často okolo 99 USD/uživatel/měsíc (je dražší kvůli specializované slovní zásobě a podpoře).
  • Dragon Legal – jednorázově nebo předplatné, většinou dražší než Professional.
  • Velké organizace mohou využít multilicenční zvýhodnění. Díky propojení s Microsoftem se některé funkce mohou objevit i v Microsoft 365 (např. nové diktování v Office má Nuance vylepšení).
  • V Azure nyní Microsoft nabízí „Azure Cognitive Services – Custom Speech“, který částečně využívá technologie Nuance. Ale samotný Dragon zůstává zatím samostatným produktem.

Silné stránky:

  • Nepřekonatelná přesnost při odborném diktování, hlavně po adaptaci krisp.ai krisp.ai. Dragon dokáže téměř bezchybně přepsat i složité lékařské zprávy s názvy léků a měrnými jednotkami.
  • Personalizace pro uživatele: Vytváří uživatelský profil, který se učí – přesnost se používáním výrazně zlepšuje, což běžná cloudová API pro jednotlivce nenabídnou.
  • Okamžitá odezva a offline režim: Prakticky žádné zpoždění; text se objevuje téměř v reálném čase (na slušném PC). Nepotřebujete internet – žádná data neopouští váš počítač (velké plus pro důvěrná data).
  • Hlasové příkazy a integrace do pracovních postupů: Můžete diktovat a formátovat v jednom sledu („Otevři Outlook a odpověz na tento e-mail: Vážený Johne, nový řádek, děkuji za vaši zprávu…“) – zvládá kombinovat diktování s příkazy.
  • Specializované produkty: Dostupnost připravených verzí (Medical, Legal) znamená okamžité řešení pro daný obor bez nutnosti složitého nastavování.
  • Spolehlivost a důvěra: Mnoho profesionálů používá Dragon už roky a věří mu – zralé, prověřené řešení. Díky zázemí Microsoftu bude Dragon pravděpodobně pokračovat a dále se zlepšovat (propojení s cloud AI apod.).
  • Multiplatformita: Dragon je dostupný primárně pro Windows; Dragon Anywhere (mobilní aplikace) umožňuje diktování na iOS/Android a synchronizaci vlastní slovní zásoby v cloudu. Přes cloudové verze (Medical One) lze používat i na tenkých klientech.
  • Také rozpoznávání mluvčího: je určen pro jednoho uživatele najednou, což ve skutečnosti výrazně zvyšuje přesnost (na rozdíl od univerzálních modelů pro kohokoli – Dragon je vyladěný na váš hlas).

Slabé stránky:

  • Cena a dostupnost: Dragon je drahý a není dostupný zdarma, kromě možná krátké zkušební verze. Na rozdíl od cloudových STT API, kde platíte jen za to, co skutečně použijete (což může být levnější při občasném použití), Dragon vyžaduje předběžnou investici nebo průběžné předplatné.
  • Učící křivka: Uživatelé musí často věnovat čas trénování Dragonu a učení se specifických hlasových příkazů a technik oprav, aby dosáhli nejlepších výsledků. Je velmi výkonný, ale není tak plug-and-play jako hlasové diktování na chytrém telefonu.
  • Citlivost na prostředí: Přestože je Dragon dobrý v zvládání šumu, pracuje nejlépe v tichém prostředí s kvalitním mikrofonem. Hluk v pozadí nebo špatná kvalita mikrofonu může výrazně zhoršit výkon.
  • Zaměření na jednoho mluvčího: Není určen pro přepisování vícemluvčích rozhovorů v reálném čase (můžete použít režim přepisu na nahrávkách, ale pro živé použití je pouze pro jednoho mluvčího). Pro přepisování schůzek mohou být cloudové služby, které rozpoznají více mluvčích, jednodušší.
  • Náročnost na zdroje: Spuštění Dragonu může zatížit CPU/RAM počítače, zejména během počátečního zpracování. Někteří uživatelé zjistili, že to zpomaluje jiné úlohy nebo může program spadnout při nedostatku systémových prostředků. Cloudové verze toto odbourávají, ale pak vyžadují stabilní internet.
  • Podpora pro Mac: Nuance ukončila podporu Dragonu pro Mac před několika lety (existují okliky, např. použití Dragon Medical přes virtualizaci na Macu, aj., ale dnes už neexistuje nativní produkt pro Mac), což je nevýhoda pro uživatele na Macu.
  • Konkurence ze strany obecných ASR: Jak se obecné cloudové STT zlepšuje (například OpenAI Whisper dosahuje vysoké přesnosti zdarma), někteří individuální uživatelé mohou zvolit tyto alternativy, pokud nepotřebují všechny funkce Dragonu. Tyto alternativy ale stále nedosahují stejných kvalit v uživatelském rozhraní pro diktování a osobní adaptaci.

Nedávné novinky (2024–2025): Po akvizici Microsoftem je Nuance na veřejnosti poměrně tichý, ale integrace probíhá:

  • Microsoft integroval technologii Dragon do funkce Dictate v Microsoft 365, čímž zlepšil přesnost pro uživatele Office díky backendu od Nuance (není to explicitně označeno jako Dragon, ale bylo to oznámeno jako součást spojení „Microsoft a Nuance – cloud-native AI řešení“).
  • V roce 2023 Dragon Professional Anywhere (cloudová streamovací verze Dragonu) zaznamenal zlepšení přesnosti a začal být distribuován přes Azure pro korporátní zákazníky, což ukazuje synergii s cloudem Microsoftu.
  • Nuance také uvedl nový produkt Dragon Ambient eXperience (DAX) pro zdravotnictví, který jde nad rámec diktování: automaticky poslouchá rozhovory lékaře s pacientem a generuje návrhy zápisů. Využívá kombinaci ASR Dragonu a AI sumarizace (důkaz, že Nuance využívá generativní AI) – v roce 2024 velká inovace ve zdravotnictví.
  • Dragon Medical One nadále rozšiřuje podporované jazyky: Microsoft na konci 2024 oznámil rozšíření zdravotnického diktování od Nuance na britskou a australskou angličtinu a další jazyky, a také hlubší integraci s Epic EHR.
  • Pro právní oblast Nuance integruje s právními informačními systémy pro snadnější vkládání diktovaných textů.
  • Brzy můžeme vidět části Dragonu nabízené jako Azure “Custom Speech for Enterprise”, což by znamenalo sloučení s Azure Speech. Začátkem 2025 ukazovaly preview, že Azure Custom Speech může použít korpus Dragonu nebo Nuance-like personalizaci, což naznačuje konvergenci technologií.
  • Na straně hlavního produktu vyšel Dragon NaturallySpeaking 16 (první hlavní verze pod Microsoftem) začátkem 2023, s lepší podporou Windows 11 a lehkým zvýšením přesnosti. Do roku 2025 se tedy možná chystá verze 17 nebo jednotná verze Microsoft-Dragon.
  • Shrnutí: Nuance Dragon nadále vylepšuje přesnost (nikoliv dramatický skok, protože už dosahoval vysoké, spíš přírůstkové zlepšování) a větší změny se týkají toho, jak je produkt nabízen (cloud, ambient intelligence, integrace do AI ekosystému Microsoftu).

Oficiální stránka: Stránky Nuance Dragon (Professional, Legal, Medical) krisp.ai krisp.ai na stránkách Nuance nebo prostřednictvím Microsoftu (divize Nuance).

6. OpenAI Whisper (model pro rozpoznávání řeči & API) – OpenAI

Přehled: OpenAI Whisper je open-source model pro automatické rozpoznávání řeči (STT), který vzbudil v AI komunitě velký zájem díky své výborné přesnosti a vícejazyčným schopnostem. OpenAI ho vydalo koncem roku 2022 a Whisper není cloudová služba s frontendem jako ostatní, ale spíše výkonný model (a dnes už i API), který mohou vývojáři použít pro přepis a překlad audia. Do roku 2025 se stal Whisper dominantní technologií STT pro mnoho aplikací, často v pozadí. Je známý tím, že zvládá širokou paletu jazyků (téměř 100) a je robustní vůči přízvukům a hluku v pozadí díky trénování na 680 000 hodinách audia scrapovaného z webu zilliz.com. OpenAI nabízí Whisper přes své API (platba za použití) a modelové váhy jsou také volně dostupné, takže kdokoli s dostatečným výpočetním výkonem si jej může spustit nebo doladit offline. Uvedení Whisperu výrazně zlepšilo dostupnost kvalitního rozpoznávání řeči, zvláště pro vývojáře a výzkumníky hledající alternativu k velkým cloudovým API technologiím nebo potřebující otevřený, přizpůsobitelný model.

Typ: Převod řeči na text (přepis & překlad). (Whisper negeneruje hlas, pouze převádí řečové audio na text a zároveň zvládá překládat řeč do anglického textu.)

Společnost/vývojář: OpenAI (i když díky open-source existuje řada komunitních příspěvků).

Schopnosti & cíloví uživatelé:

  • Vícejazyčné rozpoznávání řeči: Whisper dokáže přepisovat řeč v 99 jazycích s působivou přesností zilliz.com. To zahrnuje i mnoho jazyků, které nejsou dobře podchyceny komerčními API.
  • Překlad řeči: Umožňuje přímý překlad mnoha jazyků do anglického textu (například z francouzského audia generovat anglický překlad) zilliz.com.
  • Robustnost: Líp než mnoho jiných modelů zvládá různé vstupy – rozličné přízvuky, dialekty či šum v pozadí – díky diversity trénovacích dat. Dokáže zachytit i výplňová slova, smích („[smích]“) apod., což dělá přepisy bohatší na detaily.
  • Časování: Poskytuje časové značky na úrovni slova nebo věty, což umožňuje vytváření titulků a synchronizaci textu se zvukem.
  • Přátelské API pro uživatele: Přes Whisper API od OpenAI (využívající model large-v2) může vývojář pouze odeslat audio soubor a získat zpět přepis jednoduchým HTTP dotazem. Zaměřeno především na vývojáře potřebující rychlou integraci.
  • Výzkumníci a nadšenci: Díky open-source povaze mohou AI výzkumníci nebo hobbyisté experimentovat, doladit pro specifické domény, nebo provozovat Whisper lokálně zdarma. To široce demokratizovalo ASR technologie.

Hlavní funkce:

  • Vysoká přesnost: Při porovnání dosahuje největší model Whisper (~1,6 miliardy parametrů) chybovosti slov na úrovni nebo lepší než přední cloudové služby v mnoha jazycích deepgram.com deepgram.com. Například pro angličtinu je extrémně přesný, a především přesnost ve více jazycích je změna hry (zatímco u jiných modelů klesá, Whisper si drží výborné výsledky).
  • Žádný trénink nutný pro použití: Ihned po instalaci je model velmi schopný. Není potřeba uživatelského tréninku jako u Dragonu – je obecný (byť ne oborově specializovaný).
  • Segmentové časování: Výsledek Whisperu je rozdělen do segmentů s časovými značkami začátku a konce, což je užitečné pro titulkování. Inteligentně rozděluje i podle pauz.
  • Různé velikosti modelů: Whisper je k dispozici v několika velikostech (tiny, base, small, medium, large). Menší modely běží rychleji a lze je spustit i na mobilních zařízeních (s určitým kompromisem v přesnosti). Větší modely (large-v2 nejpřesnější) vyžadují GPU a více výpočetního výkonu, ale dávají nejlepší výsledky deepgram.com.
  • Identifikace jazyka: Whisper dokáže automaticky rozpoznat jazyk řeči v nahrávce a použít pro dekódování správný model zilliz.com.
  • Open source & komunita: Díky otevřenosti existuje řada komunitních rozšíření – např. rychlejší varianty Whisperu, uživatelské úpravy dekódování apod.
  • API rozšíření: API OpenAI umožňuje kromě prostého textu vracet detailní JSON (včetně pravděpodobností slov apod.) a podporuje parametry jako nápověda (prompt) pro nasměrování přepisu v konkrétním kontextu.
  • Nasazení na okraji (edge deployment): Protože lze Whisper provozovat lokálně (pokud to hardware dovolí), používá se na zařízeních nebo v on-prem scénářích, kde nelze využít cloud (například novinář přepisující citlivé rozhovory offline s Whisperem, nebo aplikace nabízející přepis hlasových poznámek přímo v zařízení kvůli ochraně soukromí).

Podporované jazyky: Whisper oficiálně podporuje ~99 jazyků pro přepis zilliz.com. To zahrnuje široké spektrum – od hlavních jazyků (angličtina, španělština, mandarínština, hindština, arabština atd.) po méně rozšířené (velština, mongolština, svahilština atd.). Trénovací data byla značně, ale ne výhradně zaměřena na angličtinu (cca 65 % trénovacích dat bylo anglických), takže v angličtině je nejpřesnější, ale i v řadě dalších jazyků (zejména románských a indoevropských obsažených v trénovacím korpusu) je výkon velmi dobrý. Umí také přepisovat audia s promíchanými jazyky (code-switching). Funkce překladu do angličtiny funguje pro cca 57 ne-anglických jazyků, na které byl model explicitně trénován community.openai.com.

Technické základy: Whisper je sekvenčně-sekvenční Transformer model (architektura encoder-decoder), podobný těm používaným ve strojovém překladu zilliz.com zilliz.com. Audio je rozděleno na části a převedeno na log-Mel spektrogramy, které jsou předávány enkodéru; dekodér pak generuje textové tokeny. OpenAI jej unikátně trénovala na velkém a rozmanitém datasetu o 680 tisících hodinách audia z internetu, včetně mnoha vícejazyčných projevů a odpovídajících přepisů (některé zřejmě získané z korpusů titulků apod.) zilliz.com. Trénink byl „slabě supervidovaný“ – občas s nedokonalými přepisy – což překvapivě učinilo Whisper robustním vůči šumu a chybám. Model má speciální tokeny pro různé úlohy: např. token <|translate|> pro aktivaci režimu překladu, nebo <|laugh|> pro označení smíchu atd., což mu umožňuje multitasking (tedy může přepisovat nebo překládat) zilliz.com. Velký model (Whisper large-v2) má přibližně 1,55 miliardy parametrů a byl trénován na výkonných GPU několik týdnů; jde v zásadě o špičku toho, co bylo veřejně dostupné. Také využívá časové značky na úrovni slov pomocí predikce speciálních timing tokenů (segmentuje audio predikováním, kdy dělit). Whisperův design neobsahuje externí jazykový model; je end-to-end, což znamená, že se učil jazykové i akustické modelování společně. Jelikož byl trénován na spoustě šumu a různých podmínek nahrávek, enkodér se naučil robustní vlastnosti a dekodér dokázal generovat soudržný text i z nedokonalého zvuku. Otevřený kód umožňuje spouštět model v prostředí jako PyTorch; řada optimalizací (například OpenVINO, ONNX runtime atd.) zrychluje běh modelu. Je poměrně „těžký“ – pro přepis v reálném čase s velkým modelem je obvykle potřeba velmi dobré GPU, přičemž kvantizovaná střední varianta zvládá skoro reálný čas na moderním CPU.

Použití:

  • Přepisovací služby & aplikace: Mnoho startupů či projektů dnes staví přepis na Whisperu místo vlastního trénování. Například nástroje pro přepis podcastů, aplikace pro přepis schůzek (některé Zoom boti používají Whisper), workflow žurnalistů atd. často využívají Whisper pro jeho vysokou přesnost a bez poplatků za minutu.
  • Titulky pro YouTube/videa: Tvůrci obsahu využívají Whisper pro generování titulků do videí (hlavně ve více jazycích). Existují nástroje, kam nahrajete video a Whisper vytvoří srt titulky.
  • Výuka jazyků a překlad: Režim překladu ve Whisperu se používá k získání anglického textu z cizojazyčné řeči, což pomáhá při tvorbě translačních titulků nebo při učení jazyků a přepisu/překladu cizojazyčného obsahu.
  • Přístupnost: Vývojáři integrují Whisper do aplikací pro přepis v reálném čase pro neslyšící nebo nedoslýchavé uživatele (například mobilní aplikace, která poslouchá konverzaci a lokálně zobrazuje živé titulky pomocí Whisperu).
  • Hlasové rozhraní & analytika: Některé hobby projekty hlasových asistentů používají Whisper k offline převodu řeči na text v rámci celé pipeline (například pro asistenty zaměřené na soukromí). Firmy analyzující nahrávky call center mohou také využít Whisper pro přepis hovorů (i když firmy obvykle dávají přednost komerčním API kvůli podpoře).
  • Vědecký a lingvistický výzkum: Protože je otevřený, vědci Whisper používají k přepisu terénních nahrávek v různých jazycích a jejich zkoumání. Široká jazyková podpora je významná při dokumentaci málo zastoupených jazyků.
  • Osobní produktivita: Technicky zdatní uživatelé mohou Whisper využívat lokálně k diktování poznámek (není to tak propracované jako Dragon při interaktivním diktování, ale někteří to tak dělají), případně k automatickému přepisu hlasových zpráv.

Cenový model: Whisper je zdarma při vlastním provozu (jen náklady na výpočetní výkon). OpenAI Whisper API (pro ty, co jej nechtějí provozovat sami) je mimořádně levné: $0,006 za minutu zpracovaného audia deepgram.com. To je zhruba 1/10 nebo méně ceny běžných cloudových STT API, což je velmi atraktivní finančně. Tato nízká cena je možná, protože OpenAI model nijak neupravuje a zřejmě jej provozuje optimalizovaně ve velkém. Zákazníci si tedy buď model spustí na svém vlastním hardwaru (nulové licenční náklady), nebo volají API OpenAI za $0,006/min, což je levnější než téměř všichni ostatní (Google $0,024/min atd.). Služba OpenAI ovšem nenabízí customizaci ani nic nad rámec surového Whisperu.

Silné stránky:

  • Špičková přesnost na široké škále úloh a jazyků „out-of-the-box“ deepgram.com zilliz.com. Výjimečně dobře rozumí přízvukované angličtině i mnoha neanglickým jazykům, kde dříve bylo třeba použít méně optimalizované služby toho daného jazyka.
  • Vícejazyčný & multitaskový: Jeden model pro všechny jazyky, včetně překladu – velká flexibilita.
  • Open Source & komunita: Podněcuje inovaci; vznikají například forky, které běží rychleji nebo používají alternativní dekódování pro lepší zachování interpunkce atd.
  • Nákladová efektivita: Prakticky zdarma, pokud máte hardware, a API je velmi levné, což umožňuje i projekty s velkým objemem přepisů.
  • Soukromí & offline provoz: Uživatelé mohou Whisper provozovat lokálně v rámci organizace (například nemocnice jej mohou využít interně pro přepis nahrávek bez odesílání do cloudu). V určitých kontextech je to velká výhoda, podobně jako dříve modely IBM nebo on-prem Nuance.
  • Integrace: Hodně stávajících zvukových nástrojů rychle integrovalo Whisper (například ffmpeg má nyní filtr pro Whisper). Díky popularitě je k dispozici množství wrapperů (WebWhisper, Whisper.cpp pro C++ nasazení atd.), takže je snadné jej zapojit.
  • Stálé zlepšování komunitou: Zatímco OpenAI verzi mrznou, ostatní ji dolaďují nebo rozšiřují. OpenAI případně vydá vylepšené verze (jsou zvěsti o Whisper v3 nebo jeho integraci do nových multimodálních modelů).

Slabé stránky:

  • Bez vestavěné customizace terminologie: Na rozdíl od některých cloudových služeb nebo Dragonu nemůžete Whisper naučit vlastní slovník. Pro velmi úzké odborné termíny (například chemické názvy) Whisper často chybuje, pokud je neviděl během tréninku. Jemné doladění modelu je ale možné, pokud máte data a znalosti.
  • Náročný na zdroje: Pro chod velkého modelu v reálném čase je třeba slušné GPU. Na CPU je pomalý (menší modely zvládnou reálný čas s kompromisem v kvalitě). OpenAI API tento problém řeší v cloudu, ale při vlastním masivním provozu je třeba GPU.
  • Odezva: Whisper zpracovává zvuk po částech a má mírné zpoždění při dokončení segmentu. Pro reálný čas (například titulky naživo) může být zpoždění pro zobrazení prvního textu asi ~2 sekundy, protože čeká na kus dat. To je většinou přijatelné, ale není to tak rychlé jako některé streamovací systémy (např. Google začíná produkovat výstup do 300 ms). Komunita se snaží vytvořit „streamovací Whisper“, není to však triviální.
  • Anglický bias v tréninku: Přestože je model vícejazyčný, asi 2/3 trénovacích dat tvoří angličtina. Výkon je stále excelentní ve spoustě jazyků (zejména španělština, francouzština atp.), ale u jazyků s málo trénovacími daty může být přesnost nižší nebo může model při nejistotě upřednostnit angličtinu. Například u vzácných jazyků nebo výrazného „code-mixu“ může identifikovat jazyk chybně nebo omylem vygenerovat anglický text místo originálu (uživatelé hlásí, že Whisper někdy vloží anglický překlad nebo transliteraci, pokud si není jistý).
  • Bez oddělení mluvčích: Whisper přepíše vše, ale neoznačuje jednotlivé mluvčí. Pokud potřebujete „Mluvčí 1 / Mluvčí 2“, musíte použít externí identifikaci mluvčího. Mnoho cloudových STT to již má zabudované.
  • Bez oficiální podpory: Jako otevřený model nemá Whisper záruku podpory (u OpenAI API je podpora samozřejmě k dispozici, u open modelu ne).
  • Výstupní formát: Whisper může vkládat neslovní tokeny typu „[Hudba]“ či generovat interpunkci, která nemusí ve výsledném přepisu vyhovovat (většinou to dělá správně). Může například neuzavřít otázku otazníkem, i když to bylo v řeči jasné, protože se netrénoval k povinnému vkládání všech znaků. Je potřeba následné zpracování či prompty pro doladění.
  • API OpenAI má momentálně limit velikosti souboru cca 25 MB, takže delší audia je třeba rozdělit na části.

Aktuální novinky (2024–2025):

  • Přestože samotný model Whisper (v2 large) nebyl OpenAI veřejně aktualizován od roku 2022, OpenAI Whisper API bylo spuštěno začátkem 2023, což jeho masové a levné použití zásadně zjednodušilo deepgram.com. To dostalo sílu Whisper do rukou mnoha vývojářů.
  • Komunita vyvinula Whisper.cpp, C++ port běžící na CPU (i na mobilech) díky kvantizaci modelu. Do roku 2024 se tento port výrazně vylepšil a umožnil malým modelům běžet na smartphonech v reálném čase – některé mobilní aplikace přepisují plně offline.
  • Proběhly výzkumné snahy zaměřené na doladění Whisperu pro specifické účely (například lékařský přepis) různými skupinami (ačkoli ne vždy veřejně publikované, některé startupy takto Whisper specializovaně upravily).
  • OpenAI pravděpodobně pracuje na nové generaci řečového modelu, který by mohl integrovat techniky z GPT (náznaky v jejich publikacích – potenciálně multimodální model zvládající řeč i text). Pokud bude uveden, nejspíš Whisper časem nahradí, ale k polovině roku 2025 je Whisper stále hlavní ASR nabídka OpenAI.
  • Co se týče adopce, do roku 2025 většina open-source projektů (například Mozilla nástroje, Kaldi komunita atd.) přešla na Whisper jako základ kvůli jeho vysoké přesnosti. Ve výsledku se stal standardem.
  • Zásadní novinka: Meta “MMS (Massive Multilingual Speech)” výzkum (polovina 2023) rozšířil myšlenku tím, že zpřístupnil modely pro 1100+ jazyků v rámci ASR (i když nejsou tak přesné jako Whisper v hlavních jazycích). Tato konkurence zvýraznila zájem o vícejazyčný přepis – Whisper hra ještě dominuje kvalitou, ale pravděpodobně uvidíme i odpověď OpenAI v podobě Whisper v3 s rozšířenou jazykovou podporou nebo napojením na obdobné projekty.
  • Souhrnně lze říct, že “novinka” je především masové rozšíření Whisperu, zlepšení jeho rychlosti a jednodušší nasazení, zatímco samotné jádro modelu zůstává stejné. V roce 2025 je stále jednou z nejlepších voleb pro zabudování hlasového přepisu do produktů díky kvalitě, jazykové podpoře a ceně.

Oficiální zdroje: OpenAI Whisper GitHub zilliz.com zilliz.com; dokumentace OpenAI Whisper API (na stránkách OpenAI) zilliz.com. (Není jedna „produktová stránka“, protože jde o model, ale GitHub/glossář výše uvedený dávají oficiální kontext).

7. Deepgram (Speech-to-Text API & Platform) – Deepgram

Přehled: Deepgram je platforma speech-to-text zaměřená na vývojáře, která nabízí rychlou, vysoce přesnou transkripci prostřednictvím sady AI modelů a robustních API. Deepgram se odlišuje důrazem na customizaci, rychlost a cenovou efektivitu pro podnikové aplikace. Založen byl v roce 2015, postavil si vlastní deep learning modely pro rozpoznávání řeči (místo využití technologií velkých firem) a vybudoval si renomé, zejména mezi call centry, firmami zabývajícími se hlasovou analytikou a technologickými společnostmi, které potřebují transkripci ve velkém či v reálném čase. V letech 2024–2025 je Deepgram často zmiňován jako jedna z nejlepších alternativ ke cloudovým gigantům v oblasti STT, obzvláště poté, co předvedl světovou špičku v přesnosti se svým nejnovějším modelem “Nova-2” deepgram.com. Platforma nabízí nejen hotové modely, ale i nástroje pro tvorbu vlastních modelů na míru přímo na specifických datech společnosti (což většina cloud API samoobslužně nenabízí). Deepgram lze nasadit v cloudu nebo on-premises, což vyhovuje firmám s různými požadavky na flexibilitu.

Typ: Primárně Speech-to-Text (transkripce). (Deepgram začal v roce 2025 v beta provozu nabízet i Text-to-Speech a nástroje pro výstavbu reálného času Voice AI pipeline deepgram.com deepgram.com, ale STT zůstává jejich hlavním zaměřením.)

Společnost/Vývojář: Deepgram, Inc. (nezávislý startup, ale v roce 2025 již kolují zvěsti o možném převzetí díky náskoku v STT technologii).

Schopnosti & cílové skupiny:

  • Transkripce v reálném čase i dávkově: API Deepgram umožňuje jak streamovanou transkripci zvuku s minimální latencí, tak dávkové zpracování zvukových souborů. Zvládá velké objemy (inzerují průchodnost v tisících hodin audia rychle zpracovaných).
  • Vysoká přesnost & volba modelu: Nabízí několik úrovní modelů (např. “Nova” pro nejvyšší přesnost, “Base” pro rychlejší/úspornější použití a někdy i oborové modely). Nejnovější Nova-2 model (vydán 2024) má o 30 % nižší WER než konkurence a vyniká přesností v reálném čase deepgram.com deepgram.com.
  • Přizpůsobení: Hlavní benefit – zákazníci mohou nahrávat označená data a trénovat si vlastní Deepgram modely na specifickou slovní zásobu (např. názvy produktů, specifické fráze). Toto ladění může významně navýšit přesnost v daném doménovém prostředí.
  • Vícejazyčná podpora: Deepgram transkribuje ve více než 30 jazycích (stav k 2025, včetně angličtiny, španělštiny, francouzštiny, němčiny, japonštiny, mandarínštiny atd.). Jejich hlavní síla je v angličtině, ale rozšiřují i další.
  • Odolnost vůči šumu & formáty audia: Deepgram od začátku zpracovával audio přes předzpracovatelský pipeline, který zvládá různou kvalitu nahrávek (telefonní hovory apod.). Přijímá široké spektrum formátů (včetně populárních kodeků jako MP3, WAV, i real-time RTP streamy).
  • Funkce: Poskytuje diarizaci (označení mluvčích) na vyžádání, interpunkci, práci s velikostí písmen, filtrování vulgarismů a dokonce detekci entit (např. rozpoznávání čísel, měn v řeči). Také mají funkci detekce klíčových slov nebo základní NLP nad transkripty pomocí API pipeline.
  • Rychlost: Deepgram je známý velmi rychlým zpracováním — díky vývoji od začátku v CUDA (používají GPU od počátku). Tvrdí, že audio zpracují rychleji než v reálném čase na GPU, i u velkých modelů.
  • Škálovatelnost & nasazení: K dispozici jako cloudové API (s enterprise SLA), ale i pro on-premises nebo privátní cloud nasazení (mají kontejnerizovanou verzi). Důraz na škálování na úrovni enterprise a poskytují dashboardy a analytiku využití.
  • Příklady využití: Cíloví zákazníci jsou call centra (pro přepis hovorů a analytiku), softwarové firmy přidávající hlasové funkce, mediální firmy přepisující archivy audia a AI firmy potřebující základní STT pro voice produkty. Například call centrum využije Deepgram k souběžnému přepisu tisíců hovorů a následně je analyzuje na sentiment zákazníka nebo shodu s předpisy. Vývojáři oceňují jejich jednoduché API a přehlednou dokumentaci.

Klíčové funkce:

  • Snadné použití API: Jediný API endpoint zvládne audio soubor i stream s různými parametry (jazyk, model, interpunkce, diarizace atd.). K dispozici SDK pro populární jazyky (Python, Node, Java aj.).
  • Zvýraznění klíčových slov: Můžete zadat konkrétní klíčová slova pro zvýšení pravděpodobnosti jejich rozpoznání (rychlý způsob zlepšení přesnosti i bez tréninku vlastního modelu).
  • Jednotnost dávkového a streamového zpracování: Prakticky totožné API, rozlišují pouze mezi endpointy pro přednahrané vs. živé vstupy optimalizované podle potřeby.
  • Zabezpečení: Deepgram nabízí funkce jako on-premises nasazení a výchozí smazání audia po zpracování (pokud si nevyberete jinak). To je zásadní např. pro finanční či zdravotnické zákazníky.
  • Funkce pro asistenci agentům v reálném čase: Přes API či chystané “Voice Assistant API” deepgram.com umožňuje scénáře jako reálný přepis + sumarizace hovoru pro agenty (sami vyzdvihují využití v call centrech — pipeline STT -> analýza -> případně okamžité reakce).
  • Tvrzení o přesnosti: Nova-2 je veřejně benchmarkovaná s např. mediánem WER 8,4 % v různých doménách, čímž překonává konkurenty, kde nejbližší má cca 12 % deepgram.com, a konkrétně o 36 % lepší než Whisper-large deepgram.com – pro firmy, kde záleží na každém bodě přesnosti, Deepgram vede.
  • Cenová efektivita: Zdůrazňují, že běh na GPU s jejich modelem je nákladově úspornější a jejich ceny (viz níže) mohou být při objemu nižší než u některé konkurence.
  • Podpora & monitoring: Podnikové funkce jako detailní logy, hledání v transkriptech, monitoring přes jejich konzoli.

Podporované jazyky: Hlavní zaměření Deepgramu je na angličtinu (US a přízvuky), ale ke 2025 podporuje 20–30+ jazyků nativně, včetně hlavních evropských jazyků, japonštiny, korejštiny, mandarínštiny, hindštiny aj. Stále rozšiřují, ale zatím zřejmě méně než 100 jazyků (nižší počet než Whisper). Nabízí custom modely pro podporované jazyky (pokud je jazyk nepodporovan, je potřeba jej poptat nebo použít základní multijazyčný model, pokud je k dispozici). Nova model může být v danou chvíli pouze anglicky (nejvyšší přesnost bývá pro angličtinu, někdy španělštinu). U angličtiny podporují i dialekty (lze nastavit British English vs. American kvůli pravopisným rozdílům).

Technické základy: Deepgram používá end-to-end deep learning model; historicky byl postaven na samostatném výzkumu – pravděpodobně pokročilá varianta konvolučních a rekurentních sítí nebo Transformerů. Nova-2 je výslovně popsán jako “Transformer-based architecture with speech-specific optimizations” deepgram.com. Uvádějí, že Nova-2 byl trénován na 47 miliardách tokenů a 6 milionech zdrojů deepgram.com, což je obrovský objem a indikuje velkou datovou pestrost. Tvrdí, že Nova-2 je “nejhlouběji natrénovaný ASR model na trhu” deepgram.com. Klíčové technické body:

  • Vylepšili rozpoznávání entit, práci s kontextem atd. úpravami architektury deepgram.com.
  • Důraz na streaming – jejich modely vrací parciální výsledky rychle, patrně mají blockwise synchronous decode architekturu.
  • Optimalizováno pro GPU: od počátku psali v CUDA C++ pro inference, dosahují vysoké propustnosti.
  • Custom modely pravděpodobně využívají transfer learning – doladění základního modelu na datech klienta. Nástroje poskytují, nebo trénují za vás podle tarifu.
  • Zahrnuli rovnováhu rychlost/přesnost přes více velikostí modelů: historicky měli “Enhanced model” vs. “Standard model”. Nova-2 možná sjednocuje, nebo je špička a nižší třídy jsou menší a rychlejší modely.
  • Deepgram má vlastní nebo získal řečová data z mnoha domén (v blozích píší o tréninku na všech typech hovorů, meetingů, videí apod.). Zdůrazňují také výsledky doménové adaptace – třeba modely pro call centra (doladěné na hovorech).
  • Uváděli 2-stupňový model ve starší architektuře, Nova-2 je zřejmě jeden velký unifikovaný model.
  • Pravděpodobně také používají knowledge distillation k zmenšení modelů (proto mají méně náročné varianty).
  • Přidávají kontextové biasy (napovězení modelu očekávaných slov, podobně jako „hints“).
  • Po vydání Nova-2 zveřejnili srovnání: Nova-2 má medián WER 8,4 % oproti Whisper large 13,2 % atd., dosaženo tréninkem a vylepšeními architektury deepgram.com deepgram.com.

Příklady využití (některé nad rámec výše zmíněných):

  • Živá transkripce call centra: Společnost používá Deepgram k přepisu zákaznických hovorů v reálném čase a následně využívá text k zobrazení relevantních informací agentům nebo k analýze hovoru pro účely souladu.
  • SaaS pro přepis schůzek: Nástroje jako Fireflies.ai nebo alternativy k Otter.ai mohou využívat Deepgram v backendu pro živé poznámky a souhrny ze schůzek.
  • Hlasové vyhledávání v aplikacích: Pokud aplikace přidá funkci hlasového vyhledávání nebo příkazu, může využít Deepgram STT pro převod dotazu na text (někteří jej volí kvůli rychlosti nebo ochraně soukromí).
  • Média & zábava: Postprodukční studio může předat hromadu surových zvukových záznamů do Deepgramu pro získání přepisů k vytvoření titulků nebo zpřístupnění obsahu k vyhledávání.
  • IoT zařízení: Některá chytrá zařízení mohou používat Deepgram přímo v zařízení (s edge nasazením) nebo přes cloud s nízkou latencí pro přepis příkazů.
  • Nástroje pro vývojáře: Deepgram byl integrován do platforem bez nutnosti programování nebo do datových nástrojů ke snadnému zpracování audio dat; například analytická pipeline, která zpracovává nahrávky hovorů, používá Deepgram k převedení na text pro další analýzu.

Cenový model: Deepgram má ceny založené na používání, s bezplatnými kredity na začátek (např. 200 USD kreditu pro nové účty). Poté:

  • Mají úrovně: např. free tier může umožnit několik minut měsíčně, poté placená úroveň kolem 1,25 USD za hodinu pro standardní model (tj. 0,0208 USD za minutu) a možná 2,50 USD/hod za Nova (čísla jsou ilustrativní; blog Telnyx uvádí, že Deepgram začíná zdarma a až do 10 000 USD/rok pro enterprise, což znamená individuální dohody).
  • Nabízejí také commit plány: např. zaplatíte určitou částku předem pro nižší cenu za minutu. Nebo fixní roční enterprise licenci.
  • V porovnání s velkými poskytovateli jsou obecně konkurenceschopní nebo levnější ve větším měřítku; navíc vyšší přesnost znamená méně ručních oprav, což je důležité pro BPO firmy.
  • Školení vlastního modelu může být zpoplatněno navíc nebo vyžaduje enterprise plán.
  • Uvádí, že neúčtují poplatky za interpunkci, diarizaci apod., tyto funkce jsou v ceně.

Silné stránky:

  • Špičková přesnost s Nova-2 – patří k lídrům v oblasti anglického rozpoznávání řeči deepgram.com deepgram.com.
  • Personalizovatelné AI – není to jen černá skříňka; můžete ji přizpůsobit svému odvětví, což je velké plus pro firmy (změnit „dobrou“ přesnost na „skvělou“ pro váš případ použití).
  • Reálný čas – Real-time streaming Deepgram je nízkolatenční a efektivní, vhodný i pro živé aplikace (některá cloudová API mají problémy s objemem v reálném čase; Deepgram byl ale na to stavěn).
  • Flexibilní nasazení – cloud, on-prem, hybrid; přizpůsobí se požadavkům firem včetně požadavků na ochranu dat.
  • Cena a škálování – často jsou levnější při velkých objemech a zvládají velmi rozsáhlé zátěže (uvádějí případy přepisu desítek tisíc hodin měsíčně).
  • Vývojářský zážitek – jejich API a dokumentace jsou chválené; zaměřují se pouze na řeč, takže poskytují kvalitní podporu a expertní specializaci. Funkce jako zvýraznění klíčových slov, vícejazyčné API apod. jsou pohodlné.
  • Zaměření na potřeby firem – funkce jako rozpoznání sentimentu, sumarizace (přidávají některé hlasové AI funkce nad rámec čistého STT), detailní analytika; jejich platforma cílí na obchodní vhledy z hlasu.
  • Podpora a partnerství – integrace s platformami jako Zoom, technologická partnerství (například někteří telekomunikační poskytovatelé umožňují přímé napojení Deepgram na streamování zvuku hovorů).
  • Zabezpečení – Deepgram má certifikaci SOC2 apod., a pro ty, kdo chtějí ještě více kontroly, lze nasadit i on-premises.

Slabé stránky:

  • Menší povědomí o značce ve srovnání s Google/AWS; některé konzervativní společnosti mohou váhat svěřit se menší firmě (i když Microsoftova akvizice Nuance je podobný scénář, Deepgram je jen nezávislý).
  • Pokrývání jazyků je užší než u globálních gigantů – pokud potřebujete přepis v jazyce, který Deepgram zatím nepodporuje, musíte je oslovit nebo použít jinou službu.
  • Rozsah funkcí – soustředí se čistě na STT (s několika ML doplňky). Nenabízí TTS ani plně konverzační řešení (i když teď mají voice bot API, nemají celý ekosystém jako Google Contact Center AI nebo Watson Assistant). Pokud tedy klient chce kompletní hlasové řešení, Deepgram pokryje pouze přepis.
  • DIY přizpůsobení – i když je personalizace silnou stránkou, vyžaduje vlastní data a případně znalosti ML (Deepgram se snaží to zjednodušit). Není to tak plug-and-play jako použití generického modelu – je to ale daň za lepší výsledek.
  • Aktualizace – menší firma může aktualizovat modely méně často než např. Google (ale v poslední době Nova-2 aktualizovali). Také případné výpadky či limity mohou mít menší globální redundanci než velcí cloudoví hráči (ale Deepgram byl doposud spolehlivý).
  • Při nasazení on-prem si musí klient spravovat nasazení na GPU, což je složitější (ale mnozí chtějí tu kontrolu).
  • Srovnání s open-source – někteří mohou sáhnout po Whisper (zdarma), pokud je hlavním kritériem cena a nižší přesnost je akceptovatelná; Deepgram musí stále obhajovat hodnotu oproti open modelům – tedy být přesnější a nabídnout enterprise podporu.

Nedávné novinky (2024–2025):

  • Hlavní novinka: uvedení modelu Nova-2 na konci 2024, významné zlepšení přesnosti (o 18 % lepší oproti předchozí Nově, a proklamovali velké zlepšení proti konkurenci) deepgram.com deepgram.com. Deepgram tak zůstává na špičce. Sdíleli i detailní benchmarky a whitepapy na podporu svých tvrzení.
  • Deepgram spustil Voice Agent API (beta) v roce 2025 deepgram.com pro tvorbu real-time AI agentů – tedy přidání možnosti nejen přepisovat, ale analyzovat a reagovat (pravděpodobně integrace LLM pro porozumění a TTS pro odpověď). To ukazuje expanzi od čistého STT k AI konverzačnímu řešení (přímá konkurence v contact center AI).
  • Rozšířili podporu jazyků (v roce 2024 přibyly další evropské a asijské jazyky).
  • Přidali funkce jako sumarizaci: V roce 2024 zavedli volitelný modul, kdy po přepisu hovoru Deepgram poskytne AI-generovaný souhrn hovoru. Využívají tím LLM nad přepisy podobně jako Azure Call Summarization.
  • Zlepšené bezpečnostní funkce: v roce 2024 Deepgram dosáhl vyšších standardů shody (oznámena HIPAA, což zpřístupnilo službu více zdravotnickým klientům).
  • Zlepšili vývojářský zážitek – např. vydali nový Node SDK v2, CLI nástroj pro transkripci a vylepšenou dokumentaci.
  • Výkonově vylepšili real-time latenci díky optimalizaci streamovacích protokolů, uvádějí sub-300ms latenci pro dílčí přepisy.
  • Snadná integrace s telekom službami (např. možná integrace s Twilio) pro jednoduché přepisy PSTN hovorů přes Deepgram API.
  • Účastní se otevřených hodnocení (ASR challenge apod.), což prokazuje transparentnost výsledků.
  • Obchodně Deepgram získal další investice (Series C v roce 2023), což ukazuje stabilitu a kapacitu investovat do vývoje.

Oficiální web: Deepgram Speech-to-Text API telnyx.com deepgram.com (oficiální produktová a dokumentační stránka Deepgram).

8. Speechmatics (STT engine pro jakýkoliv kontext) – Speechmatics Ltd.

Přehled: Speechmatics je přední engine pro převod řeči na text, který se zaměřuje na pochopení „každého hlasu“ – tedy klade důraz na přesnost napříč širokou škálou akcentů, dialektů a demografických skupin mluvčích. Společnost sídlí ve Velké Británii a v 10. letech 21. století si vybudovala renomé právě díky samoobslužnému STT API a on-prem řešením, často překonávajícím velké hráče při náročných akcentovaných nebo rušných audionahrávkách. Jejich technologie stojí na pokročilém strojovém učení a průlomu v self-supervised learningu, který umožnil trénovat na obrovských objemech neoznačených nahrávek pro zlepšení férovosti rozpoznání speechmatics.com speechmatics.com. Do roku 2025 Speechmatics nabízí STT několika formami: cloud API, deployovatelné kontejnery a OEM integrace (jejich engine uvnitř jiných produktů). Řeší use-casy od titulků pro média (živé titulkování vysílání) přes analýzu hovorů až po inovativní „Flow“ API spojující STT s TTS a LLM pro hlasové interakce audioxpress.com audioxpress.com. Jsou známí přesnými přepisy bez ohledu na akcent či věk mluvčího, přičemž tvrdí, že překonávají konkurenci zejména v odstraňování biasu (například jejich systém dosáhl výrazně vyšší přesnosti na afroamerickém přízvuku či dětských hlasech než jiní) speechmatics.com speechmatics.com.

Typ: Převod řeči na text (ASR) s nově vznikajícími multimodálními řečovými interakčními řešeními (Speechmatics Flow).

Společnost/Vývojář: Speechmatics Ltd. (Cambridge, Velká Británie). Nezávislá společnost, ale s partnerstvími napříč vysílacími a AI odvětvími.

Schopnosti & cíloví uživatelé:

  • Univerzální STT engine: Jedním z hlavních argumentů Speechmatics je jeden engine, který dobře funguje pro „jakéhokoliv mluvčího, jakýkoliv přízvuk, jakýkoliv dialekt“ v podporovaných jazycích. To oslovuje globální firmy a vysílatele, kteří pracují s mluvčími z celého světa (například BBC využívala Speechmatics pro titulkování).
  • Transkripce v reálném čase: Jejich systém umožňuje přepisování živých přenosů s nízkou latencí, což je vhodné pro živé titulkování událostí, vysílání a hovorů.
  • Dávková transkripce: Vysoce výkonné zpracování předem nahraného audia/videa s špičkovou přesností v oboru. Často používáno pro video archivy, generování titulků či přepisů.
  • Vícejazyčná podpora: Rozpoznává více než 30 jazyků (včetně variant angličtiny, španělštiny, francouzštiny, japonštiny, mandarínské čínštiny, arabštiny atd.) a zvládá také code-switching (systém rozpozná, když mluvčí přepne jazyk uprostřed konverzace) docs.speechmatics.com. Podporují také automatickou detekci jazyka.
  • Vlastní slovník (Custom Words): Uživatelé mohou zadat specifická jména nebo žargon, který má engine upřednostnit (například u neobvyklých vlastních jmen).
  • Flexibilní nasazení: Speechmatics může běžet v cloudu (nabízejí SaaS platformu), nebo zcela lokálně přes Docker kontejner, což je vhodné pro citlivá prostředí. Mnoho vysílatelů provozuje Speechmatics ve vlastních datových centrech pro živé titulkování, aby se vyhnuli závislosti na internetu.
  • Přesnost v hlučném prostředí: Vysoká robustnost proti hluku, volitelný výstup entity (formátování datumů, čísel), plus funkce jako diarizace mluvčích pro rozlišení více řečníků.
  • Cíloví uživatelé: Mediální společnosti (TV stanice, video platformy), call centra (přepis hovorů), podniková transkripční řešení, softwaroví dodavatelé potřebující STT (Speechmatics svůj systém často licencuje dalším poskytovatelům – OEM vztahy), státní správa (přepisy parlamentů/zasedání), a AI firmy zaměřující se na nestranný ASR.
  • Speechmatics Flow (2024): Spojuje jejich STT s TTS a integrací LLM pro vytváření hlasových asistentů, kteří umí naslouchat, rozumět (díky LLM) a odpovídat syntetizovanou řečí audioxpress.com audioxpress.com. To naznačuje zaměření na interaktivní hlasová AI řešení (například voiceboty, kteří skutečně rozumí různým přízvukům).

Klíčové vlastnosti:

  • Přesné přízvuky: Podle jejich testování biasu výrazně snížili rozdíly v chybovosti mezi skupinami s různými přízvuky díky tréninku na velkých nespecifikovaných datech speechmatics.com speechmatics.com. Například u afroamerických hlasů se podařilo snížit chybovost o cca 45 % oproti konkurenci speechmatics.com.
  • Rozpoznání dětské řeči: Výrazně lepší výsledky na dětských hlasech (které jsou pro ASR obvykle náročné) – 91,8% přesnost oproti cca 83% u Googlu v testu speechmatics.com.
  • Self-supervised model (AutoML): Jejich „Autonomous Speech Recognition“ zavedený kolem roku 2021 využíval 1,1 milionu hodin audia s učením bez dozoru speechmatics.com. Tento rozsáhlý trénink zlepšil pochopení rozmanitých hlasů i tam, kde bylo málo anotovaných dat.
  • Neuronové modely: Kompletně postavené na neuronových sítích (přešli z hybridních modelů na end-to-end neuronové ke konci 2010s).
  • API & SDK: Poskytují REST a websocket API pro živý i dávkový režim. Dále SDK pro snadnější integraci. Výstupem je podrobný JSON včetně slov, časování, důvěry, atd.
  • Funkce jako entity: Umí chytré formátování (např. vygenerování „£50“ když někdo řekne „padesát liber“) a označovat entity.
  • Pokrývané jazyky: ~34 jazyků na vysoké úrovni v roce 2025, včetně některých, které jiné systémy nepokrývají dobře (například velština – BBC Wales službu využila).
  • Průběžné aktualizace: Pravidelně vydávají release notes s vylepšeními (viz dokumentace: např. vylepšení přesnosti v mandarínštině o 5% v jedné aktualizaci docs.speechmatics.com nebo přidání nových jazyků jako maltština atd.).
  • Specifika Flow: Flow API umožňuje vývojářům kombinovat STT výstup s LLM reasoningem a TTS výstupem bezproblémově, což směřuje k nové generaci hlasových asistentů audioxpress.com audioxpress.com. Lze poslat audio a dostat hlasovou odpověď (odpověď LLM přečtená TTS) – Speechmatics propojuje vše v reálném čase.

Podporované jazyky: Aktivně 30–35 podporovaných jazyků (angličtina, španělština, francouzština, němčina, portugalština, italština, nizozemština, ruština, čínština, japonština, korejština, hindština, arabština, turečtina, polština, švédština, atd.). Zdůrazňují pokrytí „global“ jazyků a uvádějí možnost přidat další na požádání docs.speechmatics.com. Mají i bilingvní režim pro španělštinu/angličtinu, který umí plynule přepisovat smíšenou anglicko-španělskou řeč docs.speechmatics.com. V poznámkách: nové jazyky jako irština a maltština přibyly v roce 2024 docs.speechmatics.com, což ukazuje vstřícnost i ke „menším“ jazykům podle poptávky. Pyšní se pokrytím přízvuků uvnitř jazyků, např. model angličtiny je globální a obsáhne US, UK, indický, australský i africký přízvuk bez nutnosti oddělených modelů.

Technické základy:

  • Self-supervised learning: Používali postupy podobné Facebook wav2vec 2.0 (pravděpodobně však své vlastní varianty) k využití obrovského množství neoznačených audio dat (YouTube, podcasty) pro předtrénování akustických reprezentací, poté dotrénováno na transkribovaných datech. To přineslo velký posun v pokrytí přízvuků/dialektů jak uvádějí v roce 2021 speechmatics.com.
  • Neuronová architektura: Patrně kombinace CNN pro extrakci rysů a Transformerů pro modelování sekvencí (většina současných ASR využívá Conformer nebo podobné architektury). Významný model zmiňují v release notes jako „Ursa“ docs.speechmatics.com, který přinesl vyšší přesnost napříč jazyky – pravděpodobně nová velká architektura (Conformer/Transducer).
  • Velikost modelu: Není veřejně detailně popsána, ale pro on-prem nabízena možnost volby („standardní“ vs „vylepšené“ modely). Vždy zdůrazňují „nízkou latenci“, takže pravděpodobně používají architekturu vhodnou ke streamování (např. Transducer nebo CTC-based model pro průběžný výstup).
  • Bias & spravedlnost: Tréninkem na různorodých datech model přirozeně nabral varianty řeči. Dle publikovaných výsledků snižování biasu lze předpokládat, že věnovali pozornost vyváženosti přesností pro různé řečnické skupiny.
  • Průběžné učení: Možná začleňují opravy od zákazníků jako zpětnou vazbu (není jisté, zda veřejně, ale pravděpodobně interně).
  • Hardware & efektivita: Běží na běžných CPU (zákazníci „on-prem“ typicky používají CPU clustery), ale pravděpodobně mají také optimalizace pro GPU. V některých popisech zmiňují „low footprint“.
  • Flow API technologie: Propojuje jejich ASR s jakýmkoli LLM (např. OpenAI nebo jiné) a TTS partnerem – architektura tedy použije STT pro text, následně LLM dle volby, pak TTS engine (možná Amazon Polly nebo Azure, pokud nemají vlastní, stránky uvádějí „preferred LLM“ a „preferred TTS“) audioxpress.com.

Oblasti použití:

  • Vysílání & média: Mnoho živých televizních přenosů ve Spojeném království využívá Speechmatics pro živé titulky, když nejsou k dispozici lidské stenografky nebo k jejich doplnění. Také produkční společnosti jej používají k vytváření přepisů pro střih či splnění předpisů.
  • Průzkum trhu & analytika: Společnosti, které analyzují zákaznické rozhovory nebo skupinové diskuze po celém světě, využívají Speechmatics pro přesný přepis obsahu s různými přízvuky (například při analýze nálady v mezinárodních focus skupinách).
  • Veřejný sektor/státní správa: Přepisy městských zastupitelstev nebo parlamentních jednání (zejména v zemích s více jazyky nebo výraznými místními přízvuky – tam Speechmatics exceluje).
  • Analytika call center: Podobně jako ostatní, ale Speechmatics je oblíbený tam, kde mají operátoři call center nebo zákazníci silné akcenty, které jiné systémy často špatně přepisují. Navíc jej lze nasadit on-prem (na místě), což preferují některé telekomy nebo banky v Evropě.
  • Vzdělávání: Přepisování záznamů přednášek nebo tvorba titulků pro univerzitní obsah (zejména tam, kde jsou rozmanité akcenty mezi přednášejícími nebo studenty).
  • Poskytovatelé hlasových technologií: Některé firmy integrovaly engine Speechmatics do svého řešení (v bílém labelu), a to kvůli jeho robustnosti vůči přízvukům, což jim dává výhodu u globální klientely.
  • Titulkování obsahu vytvářeného uživateli: Některé platformy umožňující uživatelům titulkovat svá videa mohou v zákulisí využívat Speechmatics, aby zvládly různorodé hlasy.

Cenový model:

  • Pro podniky obvykle připravují individuální nabídku (zejména pro on-prem licenci – pravděpodobně roční licence podle využití nebo počtu kanálů).
  • Pro cloudové API dříve měli zveřejněné ceny kolem 1,25 USD za hodinu, což je konkurenceschopné. Pravděpodobně cca 0,02 USD/min. Pro přímé firemní zákazníky může být požadován minimální měsíční objem.
  • Nabízeli také bezplatnou zkušební verzi nebo 600 minut zdarma v rámci SaaS.
  • Zdůrazňují neomezené využití on-prem za paušální poplatek, což je pro velké uživatele atraktivní oproti poplatkům za minutu.
  • Protože cílí na podniky, nejsou nejlevnější, pokud máte jen malé využití (někdo si na hobby možná vybere OpenAI Whisper). Pro profesionální použití se cena drží na úrovni nebo o něco níž než Google/Microsoft při větších objemech, zejména zdůrazňují poměr cena–kvalita.
  • Jejich Flow API může mít odlišné ceny (možná podle interakcí nebo jinak, není zatím jasné, protože je nové).
  • Nyní již nemají veřejně viditelné ceny (pravděpodobně přechod k prodeji přes obchodní zástupce), ale jsou známí rozumnými cenami a přehlednou licencí (což je zásadní pro vysílání, kde je potřeba předvídatelné náklady při nonstop provozu).

Silné stránky:

  • Přesnost na přízvuky a dialekty: Špičková přesnost pro globální angličtinu i vícejazyčné prostředí s minimální zaujatostí speechmatics.com speechmatics.com. Toto „Porozumět každému hlasu“ je podloženo daty a uznáváno v oboru – velký diferenciátor, zejména s ohledem na diverzitu a inkluzi.
  • Připravenost na on-prem & privátní cloud: Většina konkurence tlačí pouze na cloud; Speechmatics dává zákazníkům plnou kontrolu, pokud je potřeba, což vyhrává zakázky v citlivých či limitovaných scénářích.
  • Zaměření na podniky: Vysoká shoda s předpisy (pravděpodobně mají ISO certifikace speechmatics.com), robustní podpora, ochota řešit individuální požadavky (například přidání nového jazyka nebo doladění na přání).
  • Reálné titulkování v čase: Ověřeno při živých akcích a TV, kde je nutná nízká latence i vysoká přesnost současně.
  • Inovace a etos: Silně komunikují redukci zaujatosti AI – což může oslovit firmy dbající na férovost. Jejich technologie přímo řeší běžnou kritiku ASR (že méně dobře funguje pro některé demografické skupiny).
  • Vícejazyčnost v jediném modelu: Podpora code-switchingu a to, že někdy není třeba ručně volit přízvuk ani jazyk – model to pozná za vás – je uživatelsky přátelské.
  • Stabilita a reference: Na trhu od poloviny 2010s, používán předními značkami (TED Talks atd.), ověřeno praxí.
  • Nad rámec běžného STT: Platforma Flow pro hlasové interakce naznačuje, že se vyvíjejí s ohledem na budoucí potřeby (tedy nejen přepis, ale směřování ke komplexní hlasové AI).

Slabé stránky:

  • Není tak známý ve vývojářské komunitě jako někteří američtí konkurenti nebo open source modely, což znamená menší komunitní podporu.
  • Méně jazyků než Whisper či Google – pokud je potřeba jazyk s nízkým pokrytím (například svahilština nebo tamilština), Speechmatics jej nemusí mít, pokud nebyl speciálně vyvinut.
  • Transparentnost cen: Jako firma zaměřená na podniky nemusí být pro malé vývojáře tak samoobslužná či levná na hraní ve srovnání s například OpenAI za 0,006 USD/min. Zaměřují se spíš na kvalitu a firemní segment, nikoli na nejnižší cenu.
  • Bez vestavěného porozumění jazyku (až do Flow) – syrové přepisy mohou vyžadovat další NLP pro získání insightů; historicky nedělali sentiment nebo sumarizace (to nechávali na zákaznících nebo partnerech).
  • Konkurence velkých technologických hráčů: Jak Google, Azure zlepšují zpracování akcentů (a Whisper je zdarma), musí být Speechmatics neustále o krok napřed, aby měl smysl volit právě je místo rozšířenějších možností.
  • Bez TTS nebo jiných modalit (zatím): Firmy hledající vše v jednom mohou spíš sáhnout po Azure, kde je STT, TTS, překladač atd., pokud Speechmatics neuzavře partnerství (Flow naznačuje partnerství pro TTS/LLM místo vlastní výstavby).
  • Škálování firmy: Jako menší firma může být otázka, zda zvládnou objemy jako Google po celém světě? Pravděpodobně zvládnou velké objemy díky mediálním klientům, ale někteří mohou mít obavu o dlouhodobou podporu nebo krytí nákladů na vývoj modelů apod. jako samostatná firma.

Novinky a aktualizace (2024–2025):

  • Speechmatics spustili Flow API v polovině roku 2024 audioxpress.com audioxpress.com jako strategickou expanzi do hlasově-interaktivní AI spojením STT + LLM + TTS do jednoho řešení. Otevřeli waitlist a zaměřili se na tvorbu firemních hlasových asistentů, což ukazuje jejich krok k integraci do konverzační AI.
  • Přidali nové jazyky (irská gaelština a maltština v srpnu 2024) docs.speechmatics.com a dále zlepšovali modely (modely Ursa2 přinesly nárůst přesnosti u mnoha jazyků v srpnu 2024 docs.speechmatics.com).
  • Vylepšili diarizaci mluvčích a schopnosti rozpoznání více jazyků v jedné nahrávce (např. lepší španělsko-anglický bilingvní přepis začátkem 2024).
  • Kladli důraz na aktualizace batch kontejnerů se zvýšením přesnosti u řady jazyků (release notes uvádějí nárůst cca 5 % v mandarínštině, vylepšení u arabštiny, švédštiny apod. v roce 2024) docs.speechmatics.com.
  • K zaujatosti a inkluzi: po svém průlomu v roce 2021 pravděpodobně znovu vylepšili modely díky dalším datům (možná v návaznosti na výzkum z roku 2023). Možná spustili inovovaný “Autonomous Speech Recognition 2.0” s dalším posunem.
  • Účastnili se nebo byli citováni ve studiích jako ty od Stanfordu nebo MIT o férovosti ASR, zdůrazňujíce svoji výkonnost.
  • Projevili zájem o začlenění do větších platforem – pravděpodobně přibývají partnerství (například integrace do Nvidia Riva nebo přepisování v Zoomu – hypoteticky, ale takové obchody mohou mít v tichosti).
  • Obchodně zřejmě rostli na americkém trhu s novou kanceláří nebo partnerstvími, historicky totiž měli silnou pozici v Evropě.
  • V roce 2025 zůstávají nezávislí a inovují, často vnímaní jako top úroveň ASR tam, kde je klíčová nezaujatá přesnost.

Oficiální web: Speechmatics Speech-to-Text API audioxpress.com speechmatics.com (oficiální produktová stránka a zdroje Speechmatics).

9. ElevenLabs (platforma pro generování a klonování hlasu) – ElevenLabs

Přehled: ElevenLabs je špičková AI platforma na generování a klonování hlasu, která se proslavila v roce 2023 díky svým neuvěřitelně realistickým a všestranným syntetickým hlasům. Specializuje se na Text-to-Speech (TTS), který dokáže produkovat řeč s jemnými emocemi, a na Voice Cloning, umožňující uživatelům vytvářet vlastní hlasy (včetně klonování konkrétního hlasu s jeho souhlasem) z malého zvukového vzorku. ElevenLabs nabízí jednoduché webové rozhraní i API, což umožňuje tvůrcům obsahu, vydavatelům a vývojářům generovat vysoce kvalitní řeč v mnoha hlasech a jazycích. Do roku 2025 je ElevenLabs považován za jednu z nejlepších platforem pro ultra-realistický TTS, často nerozeznatelný od lidské řeči ve většině situací zapier.com zapier.com. Využívá se například pro audioknihy, komentáře do videí na YouTube, hlasy herních postav či asistenční nástroje pro přístupnost. Klíčovým rozlišovacím znakem je míra expresivity a přizpůsobení: uživatelé mohou upravit parametry stability a podobnosti pro dosažení požadované emocí ve výstupu zapier.com. Platforma nabízí rozsáhlou knihovnu předvolených hlasů i uživatelských klonů.

Typ: Text-to-Speech & Voice Cloning (s některými doplňkovými nástroji speech-to-text pouze pro zjednodušení procesu klonování, ale primárně platforma pro výstup hlasu).

Společnost/vývojář: ElevenLabs (startup založený 2022, sídlo USA/Polsko, hodnota cca 1 miliarda dolarů v roce 2023 zapier.com).

Možnosti & cíloví uživatelé:

  • Ultra-realistický TTS: ElevenLabs umí generovat řeč s přirozenou intonací, tempem a emocemi. Nepůsobí roboticky; dokáže věrně zachytit nuance jako zasmání, šepot, zaváhání apod. Cílovými uživateli jsou tvůrci obsahu (narrace videa, podcasty, audioknihy), herní vývojáři (hlasy NPC), filmaři (prototypový dabing) i jednotlivci pro zábavu nebo přístupnost (čtení článků vybraným hlasem).
  • Knihovna hlasů: Do roku 2024 nabízí veřejná knihovna přes 300 předpřipravených hlasů, včetně některých modelovaných podle známých herců nebo stylů (licencovaných či přispívaných uživateli) zapier.com. Uživatelé mohou vyhledávat podle stylu (narativní, veselý, děsivý atd.) i jazyka.
  • Klonování hlasu (vlastní hlasy): Uživatelé (s příslušnými právy) mohou vytvořit digitální repliku hlasu poskytnutím několika minut zvuku. Platforma vytvoří vlastní hlas TTS, který mluví v dané barvě a stylu elevenlabs.io elevenlabs.io. Oblíbené u tvůrců, kteří chtějí unikátní hlas pro narátora, i pro firmy lokalizující hlasovou značku.
  • Vícejazyčnost & cross-lingual: ElevenLabs podporuje generování řeči ve 30+ jazycích jakýmkoli hlasem, takže můžete například naklonovat hlas anglického mluvčího a nechat ho mluvit španělsky nebo japonsky při zachování vokálních charakteristik elevenlabs.io elevenlabs.io. Ideální nástroj na dabing obsahu ve více jazycích se stejnou hlasovou identitou.
  • Ovládání emocí: Rozhraní/API umožňuje nastavovat parametry jako stabilita (konzistentnost vs. variabilita projevu), podobnost (jak přísně se drží původního hlasu) zapier.com, a také styl či akcent podle výběru hlasu. To umožňuje jemné doladění výsledku (např. více expresivní vs. monotónní přednes).
  • Reálný čas & nízká latence: Do roku 2025 ElevenLabs zrychlil generování – nyní umí produkovat audio dostatečně rychle pro některé reálné aplikace (primárně je však asynchronní). Nabízí také model s nízkou latencí pro interaktivní scénáře (beta verze).
  • Platforma & API: Mají webové studio, kde mohou i netechnici psát text, vybírat/vyladit hlas a generovat audio. Pro vývojáře jsou k dispozici API a SDK. Disponují také funkcemi jako Eleven Multilingual v2 model pro lepší neanglickou syntézu.
  • Nástroje pro publikování: Cílené např. na tvůrce audioknih – umožňují zadat dlouhé texty, zachovat stejný hlas napříč kapitolami apod. Cíloví uživatelé: autoři samonakladatelé, vydavatelé při lokalizaci audioknih, tvůrci videí a sociálních sítí hledající naraci.

Hlavní funkce:

  • Voice Lab & knihovna: Uživatelsky přívětivá „Voice Lab“, kde lze spravovat vlastní hlasy, a Knihovna hlasů pro objevování hlasů podle kategorie (např. „narrátor“, „hrdinský“, „zpravodajský hlas“ apod.) zapier.com. Mnoho hlasů sdílených komunitou (s patřičnými právy).
  • Vysoce expresivní modely: ElevenLabs vydal nový model (verze 3 na konci 2023 v alfa verzi), který věrněji zachytí smích, změny tónu v průběhu věty, šepot apod. elevenlabs.io elevenlabs.io. V ukázkách předvedli i dynamické emoce a částečně zpěv.
  • Nastavení konzistence vs. variability: Posuvník „Stability“ – vyšší stabilita znamená konzistentní tón (vhodné pro dlouhé narace), nižší více dynamiky/emocí (vhodné pro postavy v dialogu) zapier.com.
  • Klonování s výslovným souhlasem a ochranou: Pro klonování cizího hlasu vyžadují výslovný souhlas či ověření (pro prevenci zneužití). Například pro klonování vlastního hlasu je nutné přečíst dané fráze včetně souhlasného prohlášení (ověřují si to).
  • Vícehlas a dialogy: Rozhraní umožňuje snadno vytvářet vícehlasé nahrávky (např. jiný hlas pro odstavec/dialogovou repliku). Vhodné pro audiopovídky či simulace konverzace.
  • Jazyky: K roku 2025 pokrývají hlavní evropské jazyky a některé asijské; uvádí 30+ (typicky angličtina, španělština, francouzština, němčina, italština, portugalština, polština, hindština, japonština, korejština, čínština, atd.). Neustále je vylepšují – v3 výrazně vylepšila přirozenost v jiných jazycích.
  • Kvalita zvuku: Výstup je ve vysoké kvalitě (44,1 kHz), vhodné i pro profesionální média. Nabízejí více formátů (MP3, WAV).
  • Funkce API: Můžete určit hlas ID, nastavovat parametry pro každý požadavek a používat i volitelné morfování hlasu (proměna stylu mezi dvěma hlasy).
  • *ElevenLabs má i drobný STT (zavedli transkripční nástroj založený na Whisper pro sladění dabingu), ale není to hlavní zaměření.

Podporované jazyky: 32+ jazyků pro generování TTS elevenlabs.io. Důležitá je schopnost cross-lingual – není potřeba samostatný hlas pro každý jazyk, jeden hlas zvládne všechny, i když se zachováním akcentu. Vypichují možnost in-language (např. klon polského mluvčího mluví japonsky). Ne všechny hlasy fungují ve všech jazycích stejně dobře (některé jsou hlavně pro angličtinu, ale model v3 to řeší multijazyčností). Jazyky zahrnují všechny hlavní a některé menší (pravděpodobně holandština, švédština, možná arabština atd.). Komunita často hlásí kvalitu v různých jazycích – do roku 2025 ElevenLabs znatelně vylepšil neanglické jazyky.

Technické základy:

  • ElevenLabs používá proprietární model hlubokého učení, pravděpodobně kombinaci transformerového textového enkodéru a generativního audio dekodéru (vokodéru), zřejmě podobný modelům jako VITS nebo Grad-TTS, ale silně optimalizovaný. Investovali do výzkumu expresivity – možná používají pre-trénované řečové enkodéry (jako Wav2Vec2) pro zachycení hlasové identity ze vzorků a přístup typu mixture-of-speaker nebo na bázi promptů pro styl.
  • Model v3 („Eleven v3“) naznačuje novou architekturu, pravděpodobně kombinující multijazykový výcvik a tokens pro styl/emoci elevenlabs.io.
  • Uvádějí „průlomové AI algoritmy” elevenlabs.io – pravděpodobně využívají obrovská tréninková data (zmínili tisíce hodin i z veřejně dostupných audioknih apod.) a zaměřují se na vícehlasý výcvik, aby jeden model zvládl různé hlasy.
  • Je to do jisté míry analogie k fungování TTS od OpenAI (hlasová funkce ChatGPT): jediný multihlasový model. ElevenLabs zde patří ke špičce.
  • Začleňují zero-shot klonování: z krátkého vzorku se model adaptuje na daný hlas. Pravděpodobně pomocí extrakce vektorového otisku hlasu (d-vector či podobné) a následného podmínění TTS modelu tímto embeddingem. Takto vznikají klony okamžitě.
  • Vyvinuli techniky na emocionální ovlivňování – patrně s využitím style tokens nebo více referenčních vzorků (např. při výcviku emočně označené hlasy).
  • Zaměřují se i na rychlou syntézu: pravděpodobně využívají GPU akceleraci a efektivní vokodéry pro výstup téměř v reálném čase (možná paralelní vokodér pro rychlost).
  • Jednou z výzev je sladění napříč jazyky – pravděpodobně používají IPA nebo jednotný fonémový prostor, aby model zvládal správnou výslovnost v různých jazycích (uživatelské zkušenosti naznačují, že v tom umí dobře).
  • Důležitý je také kvalitní front-end pro zpracování textu: správná výslovnost jmen, homografů, kontextová citlivost (vysoká kvalita napovídá, že používají pokročilou normalizaci i interní jazykový model pro správné určování výslovnosti v kontextu).
  • ElevenLabs pravděpodobně využívá zpětnou vazbu: díky velké uživatelské základně možná sbírají data o nesprávné výslovnosti a průběžně model doladí (zejména na základě častých oprav uživatelů apod.).

Oblasti využití:

  • Nahrávání audioknih: Nezávislí autoři používají ElevenLabs k vytváření audioknižních verzí bez najímání hlasových herců, vybírají vhodný hlas vypravěče z knihovny nebo klonují svůj vlastní hlas. Nakladatelství lokalizují knihy klonováním hlasu vypravěče do jiného jazyka.
  • Hlasové komentáře k videím (YouTube, e-learning): Tvůrci rychle generují komentáře pro vysvětlující videa nebo kurzy. Někteří jej využívají k A/B testování různých stylů hlasu pro svůj obsah.
  • Vývoj her: Nezávislí vývojáři her jej používají k namluvení replik postav NPC, vybírají různé hlasy pro každou postavu a generují dialogy, což výrazně šetří náklady na nahrávání.
  • Dabing a lokalizace: Studio může nadabovat film nebo pořad do několika jazyků pomocí klonu původního hercova hlasu mluvícího danými jazyky – zachovává původní hlasovou osobnost. ElevenLabs již byl použit v některých fanouškovských projektech, kde původní herci „mluvili“ nové repliky.
  • Přístupnost a předčítání: Lidé jej používají ke čtení článků, e-mailů nebo PDF příjemným hlasem dle svého výběru. Zrakově postižení uživatelé těží z přirozenějšího TTS, což zpříjemňuje dlouhý poslech.
  • Prototypování hlasu: Reklamní agentury nebo filmaři prototypují hlasové komentáře a reklamy pomocí AI hlasů pro schválení klientem před finálním lidským nahráváním. Někdy je AI hlas tak dobrý, že se použije i ve finální podobě pro menší projekty.
  • Osobní klonování hlasu: Někteří lidé klonují hlasy starších příbuzných (s jejich svolením) pro uchování jejich hlasu, nebo klonují svůj hlas, aby delegovali některé úkoly (například, aby jejich hlas předčítal jejich vlastní tvorbu).
  • Interaktivní vyprávění příběhů: Aplikace nebo hry, které generují obsah za běhu, používají ElevenLabs k vyslovování dynamických replik (s určitou latencí).
  • Hlas pro call centra či virtuální asistenty: Firmy si mohou vytvořit výrazný značkový hlas klonováním nebo vlastním návrhem s ElevenLabs a použít jej ve svých IVR/virtuálních asistentech, aby byl unikátní a v souladu se značkou.
  • Efektivita tvorby obsahu: Spisovatelé generují zvukové verze dialogů postav, aby slyšeli jejich interpretaci, což usnadňuje psaní scénářů.

Cenový model: ElevenLabs nabízí freemium a předplatitelský model:

  • Bezplatná úroveň: ~10 minut generovaného zvuku měsíčně k vyzkoušení zapier.com.
  • Starter tarif: 5 $/měsíc (nebo 50 $/rok) nabízí ~30 minut měsíčně plus přístup ke klonování hlasu a práva na komerční použití na základní úrovni zapier.com.
  • Vyšší tarify (např. Creator, Independent Publisher atd.) jsou dražší a poskytují více využití (hodiny generace) a další funkce jako vyšší kvalitu, více vlastních hlasů, prioritu, případně API přístup podle úrovně zapier.com zapier.com.
  • Enterprise: individuální cenové nabídky pro velký objem využití (neomezené tarify dle dohody, aj.).
  • Ve srovnání s cloudovými TTS, které často účtují dle počtu znaků, ElevenLabs účtuje za čas výstupu. Např. 5 $ za 30 minut, což je zhruba 0,17 $ za minutu, což je vzhledem ke kvalitě a zahrnutým právům konkurenceschopné.
  • Další využití lze často dokoupit (přečerpání nebo jednorázové balíčky).
  • Cena zahrnuje použití hotových hlasů i klonování hlasu. Pokud klonujete cizí hlas z knihovny, můžete být vyzváni k doložení práv apod., ale služba by měla zajistit legálnost.
  • Mají API pro předplatitele (pravděpodobně od tarifu 5 $, ale s omezenou kvótou).
  • Celkově je služba dobře dostupná jednotlivým tvůrcům (což přispělo k její popularitě) a umožňuje růst pro větší potřeby.

Silné stránky:

  • Nepřekonatelná kvalita a realističnost hlasu: Častá zpětná vazba uživatelů je, že hlasy z ElevenLabs patří mezi nejlidštěji znějící, které jsou veřejnosti k dispozici zapier.com zapier.com. Umí vyjadřovat emoce a přirozený rytmus a v expresivitě předčí mnoho velkých TTS řešení od velkých technologických firem.
  • Uživatelská přívětivost a kreativní svoboda: Platforma je navržena tak, aby i neodborníci snadno klonovali hlas nebo upravovali styl, což snižuje vstupní bariéry pro kreativní využití AI hlasu.
  • Obrovský výběr hlasů: Stovky hlasů a možnost vytvořit si svůj znamená, že lze dosáhnout téměř jakéhokoli stylu nebo osobnosti – mnohem více, než u běžných TTS služeb (které mají např. 20–50 hlasů).
  • Vícejazyčnost a přenos hlasu mezi jazyky: Možnost přenést hlas mezi jazyky se zachováním přízvuku/emocí je unikátní funkce, která usnadňuje tvorbu vícejazyčného obsahu.
  • Rychlý vývoj: Jako startup zaměřený na AI ElevenLabs rychle zavádí nové funkce (např. rychlý přechod z v1 na v3 během jednoho roku, přidávání jazyků, schopnost smíchu/šeptání). Rychle také reagují na zpětnou vazbu komunity.
  • Zapojená komunita: Mnoho tvůrců sdílí tipy a hlasy, což zvyšuje dosah služby a zajišťuje, že je prozkoumáváno široké spektrum použití, což posiluje produkt.
  • Flexibilní API integrace: Vývojáři jej mohou zakomponovat do aplikací (některé nástroje pro předčítání nebo Discord boti začali využívat ElevenLabs pro generování hlasových výstupů).
  • Nákladová efektivita: Pro malé a střední použití je mnohonásobně levnější než najímání dabérů a studiového času, přesto poskytuje téměř profesionální výsledky. To je obří hodnota pro nezávislé tvůrce.
  • Etické kontroly: Zavedli některé pojistky (klonování hlasu vyžaduje ověření nebo je možné od vyššího tarifu, pro zabránění zneužití; detekce zneužití pomocí hlasového rozpoznání). To je silná stránka při budování důvěry s držiteli IP práv.
  • Financování a růst: Je dobře financováno a rozšířeno, takže je pravděpodobné, že služba vydrží a bude se dále vylepšovat.

Slabé stránky:

  • Možnost zneužití: Velká síla (realistické klonování) má také temné stránky – už v začátcích byl zaznamenán výskyt zneužití ke tvorbě deepfake hlasů. To je přimělo zpřísnit pravidla a zavést detekci zneužití. Samotná existence technologie však znamená riziko zneužití k napodobování identity, pokud není dobře chráněná.
  • Konzistentnost u dlouhých textů: U opravdu dlouhých nahrávek může být někdy obtížné udržet přesně stejnou emocionální linku. Model může nepatrně měnit tón nebo tempo mezi kapitolami (ačkoli stabilizační nastavení a chystaná v3 to mají řešit lépe).
  • Výslovnost neobvyklých slov: I když je ElevenLabs velmi dobrý, čas od času chybně vysloví jména nebo vzácné termíny. Nabízejí možnost manuálních oprav (fonetické přepisování), ale není to vždy perfektní u všech vlastních jmen. Podobné problémy mají i konkurenční TTS služby v cloudu, je třeba na to pamatovat.
  • API limity/dimenzování: Pro masivní objemy (např. tisíce hodin automaticky generované řeči) můžete narazit na limit průchodnosti, ač pravděpodobně pro velké klienty škálují své řešení na míru. Velcí poskytovatelé cloudových TTS zvládají masivní paralelní provoz zatím lépe.
  • Chybí vestavěné rozpoznávání řeči a dialog management: Není to kompletní konverzační AI platforma – musíte jej spojit s STT a logikou (někteří mohou vidět jako nevýhodu oproti komplexním řešením např. Amazon Polly + Lex, aj.; ElevenLabs lze však snadno integrovat k dalším službám).
  • Rostoucí konkurence: Velcí hráči i nové startupy sledují úspěch ElevenLabs; samotné OpenAI může přijít s pokročilým TTS, nebo jiné firmy (např. nové výzkumy Microsoftu VALL-E) mohou časem nabídnout srovnatelné řešení. ElevenLabs musí dál inovovat, aby si udržel náskok v kvalitě a funkcích.
  • Licencování a práva: Uživatelé si musí dát pozor na použití hlasů, které zní jako skutečné osoby nebo jejich klony. I se souhlasem mohou v některých zemích hrozit právní „šedé zóny“ (právo na podobu). Ta nejistota může některé komerční uživatele odrazovat, dokud nebudou jasnější právní i etické rámce.
  • Přízvukové a jazykové limity: I když ElevenLabs podporuje mnoho jazyků, hlas si může zachovat přízvuk z původního jazyka. Pro některé užití může být třeba nativně znějící hlas (ElevenLabs to nejspíš časem řeší adaptací hlasu nebo rozšíří knihovnu o nativní hlasy).
  • Závislost na cloudu: Je to uzavřená cloudová služba; neexistuje offline verze. Někteří uživatelé dávají přednost lokálnímu řešení pro citlivý obsah (některé firmy nechtějí posílat texty do cloudu). Self-hostovaná varianta není dostupná (na rozdíl od některých open-source TTS nástrojů).

Aktuální novinky (2024–2025):

  • ElevenLabs představila Eleven Multilingual v2 koncem roku 2023, což výrazně zlepšilo výstup v jiných jazycích než angličtině (méně přízvuku, lepší výslovnost).
  • Vydali alfu Voice Generation v3, která zvládá věci jako smích, změnu stylu uprostřed věty a celkově více dynamický projev elevenlabs.io elevenlabs.io. Pravděpodobně byla plně nasazena v roce 2024, což činí hlasy ještě realističtější (např. dema obsahovala plně zahrané scénky).
  • Rozšířili hlasovou klonaci tak, že umožňují okamžité klonování hlasu z cca 3 sekund záznamu v omezené beta verzi (pokud je to pravda, možná s technologií podobnou Microsoft VALL-E, kterou jistě znali). To by výrazně zjednodušilo klonování hlasu uživatele.
  • Hlasová knihovna explodovala poté, co spustili možnost sdílet hlasy: v roce 2025 jsou k dispozici tisíce uživatelských hlasů (některé ve veřejné doméně nebo originální) – jakési “tržiště” hlasů.
  • Získali další partnerství; např. někteří vydavatelé otevřeně používají ElevenLabs pro audioknihy, nebo je zde integrace s populárním softwarem na video (možná plugin pro Adobe Premiere či After Effects pro generování narace přímo v aplikaci).
  • Získali další financování při vysokém ocenění zapier.com, což naznačuje expanzi (možná do souvisejících oblastí jako je dialogové rozhraní či výzkum prozodie).
  • Na poli bezpečnosti implementovali systém otisku hlasu – každý audio výstup z ElevenLabs lze identifikovat díky skryté vodoznaku nebo detekční AI, kterou vyvíjejí kvůli odrazování od zneužití.
  • Přidali nástroj Voice Design (v beta), který umožňuje „míchat“ hlasy či upravovat vlastnosti pro vytvoření nového AI hlasu bez nutnosti lidské předlohy. To otevírá kreativní možnosti pro generování unikátních hlasů, které nejsou vázány na skutečné lidi.
  • Dále vylepšili API pro vývojáře – přidali funkce typu asynchronní generace, detailnější ovládání přes API a možná on-premise variantu pro podniky (není potvrzeno, ale pro velké zákazníky možná).
  • Stručně řečeno, ElevenLabs v roce 2025 nadále udává tempo v generování AI hlasu a nutí ostatní dohánět.

Oficiální web: ElevenLabs Voice AI Platform zapier.com zapier.com (oficiální stránka pro text-to-speech a klonování hlasu od ElevenLabs).

10. Resemble AI (Voice Cloning & Custom TTS Platform) – Resemble AI

Přehled: Resemble AI je významná AI platforma pro klonování hlasu a custom text-to-speech, která umožňuje vytvářet vysoce realistické hlasové modely a generovat řeč v těchto hlasech. Firma založená v roce 2019 se zaměřuje na rychlé a škálovatelné klonování hlasu pro kreativní i komerční využití. Vyniká tím, že nabízí několik způsobů klonování hlasu: z textu (existující TTS hlasy, které lze upravit), z audio dat a dokonce i v reálném čase. V roce 2025 se Resemble AI používá pro tvorbu věrných AI hlasů pro filmy, hry, reklamy a virtuální asistenty – často tam, kde je nutné napodobit konkrétní hlas skutečné osoby nebo vytvořit unikátní značkový hlas. Nabízí také funkci „Localize“, umožňující jednomu hlasu mluvit mnoha jazyky (podobně jako ElevenLabs) resemble.ai resemble.ai. Resemble nabízí API i webovou studio a je oblíbené zejména mezi firmami s požadavkem na integraci vlastního hlasu do svých produktů (s možností on-premise, pokud je nutné).

Typ: Text-to-Speech & Klonování hlasu, plus reálný časový převod řeči.

Společnost/vývojář: Resemble AI (startup se sídlem v Kanadě).

Možnosti & cíloví uživatelé:

  • Klonování hlasu: Uživatelé mohou vytvořit klon hlasu již z několika minut záznamu. Klonování v Resemble je vysoce kvalitní a zachycuje barvu a přízvuk zdrojového hlasu. Cíloví uživatelé jsou např. studia chtějící syntetické hlasy herců, značky vytvářející vlastní hlasovou personu nebo vývojáři hledající unikátní hlasy pro aplikace.
  • Vlastní TTS generování: Jakmile je hlas naklonován či navržen, lze vložit text a generovat řeč v tomto hlasu přes webovou aplikaci nebo API. Výstup dokáže vyjádřit širokou škálu emocí (Resemble umí převzít emoce z datové sady nebo přímým ovládáním).
  • Převod hlasu v reálném čase: Výrazná funkce – Resemble umí speech-to-speech převod, tedy řeknete něco a v cílovém klonovaném hlasu to téměř okamžitě zazní resemble.ai resemble.ai. Hodí se na dabing nebo živé aplikace (např. osoba mluví a její hlas vystupuje jako jiný charakter).
  • Localize (mezijazykový převod): Nástroj Localize umí přeložit a převést hlas do 60+ jazyků resemble.ai. Prakticky vezmou anglický hlasový model a ten pak mluví jinými jazyky se zachováním hlasové identity. Používá se k globalizaci obsahu nebo dialogu.
  • Emoce a styl: Resemble cíleně kopíruje nejen hlas, ale i emoci a styl. Systém umí převzít emocionální tón z referenčních nahrávek do generovaného výstupu resemble.ai resemble.ai.
  • Flexibilní vstup & výstup: Podporují nejen běžný text, ale i API, které přijímá parametry pro emoce, a systém „Dialogue“ pro správu rozhovorů. Výstupy jsou v běžných audio formátech s možností jemného nastavení rychlosti apod.
  • Integrace & nasazení: Resemble má cloudové API, ale lze jej také provozovat on-prem nebo v soukromém cloudu (data tak nikdy neopouští firmu). Mají například Unity plugin pro vývojáře her, takže integrace hlasů do her je snadná. Je pravděpodobná i podpora pro telekomunikační integraci.
  • Použití & cíloví uživatelé: Herní vývojáři (Resemble se použil v hrách pro postavy), postprodukce filmů (např. pro opravu dialogu nebo hlas CGI postav), reklama (klonované hlasy celebrit pro endorsementy, s povolením), call centra (virtuální agent s vlastním hlasem), i zpřístupnění (např. lidé se ztrátou hlasu získají digitální hlas odpovídající původnímu).

Hlavní funkce:

  • 4 způsoby klonování: Resemble nabízí klonování přes nahrání hlasu na webu (čtení 50 vět apod.), nahrání existujících dat, vygenerování nového hlasu kombinací více hlasů nebo jedním kliknutím spojení několika hlasů do nového stylu.
  • Speech-to-speech pipeline: Nahrajete audio (např. vlastním hlasem mluvíte nové repliky) a Resemble jej převede do cílového hlasu se zachováním nuancí jako intonace. Je to téměř v reálném čase (krátké zpoždění).
  • API a uživatelské rozhraní: Netekničtí uživatelé mohou využít přehledné webové rozhraní pro generování klipů, úpravu intonace výběrem slov a jejich úpravou (mají funkci manuální úpravy tempa či důrazu na slova, podobně jako audio editor Descript Overdub).
  • Emoce: Propagují “zachycení emocí v plném spektru” – pokud byl zdrojový hlas nahrán v různých emocích, model je dokáže reprodukovat. Také umožňují označení trénovacích dat emocí kvůli výstupnímu módu „naštvaný”, „radostný” atd.
  • Hromadné generování a personalizace: API Resemble dokáže dynamicky generovat ve velkém (např. automatizovaná produkce tisíců personalizovaných zpráv – mají případ personalizovaných audio reklam se jmény, apod.).
  • Kvalita a vylepšení: Používají neuronový vocoder vysoké kvality, což zajišťuje čistý a přirozený výstup. Zmiňují analýzu a opravu slabých signálů ještě před transkripcí telnyx.com – to se však může týkat kontextu STT (Watson). Pro Resemble zřejmě používají potřebné předzpracování zvuku.
  • Projektové a týmové funkce: Ve webovém studiu mají nástroje pro správu projektů; týmy mohou spolupracovat na hlasových projektech, poslouchat varianty apod.
  • Etika/verifikace: Také zde jsou opatření pro potvrzení vlastnictví hlasu – např. vyžadují speciální schvalovací věty. Výstupy mohou být označeny vodoznakem pro detekci, pokud je to potřeba.
  • Resemble Fill – unikátní funkce: můžete nahrát skutečnou nahrávku hlasu a pokud v ní chybí nebo jsou zde špatná slova, napíšete nový text a Resemble jej plynule spojí s původním pomocí naklonovaného hlasu – efektivně AI „dobařuje“ chybějící slova. Skvělé do filmové postprodukce k opravě replik bez dalšího nahrávání.
  • Analytika & tuning: Pro podniky poskytují analytiku užívání, možnost upravit výslovnost (lexikon) apod.

Podporované jazyky: Více než 50 jazyků pro hlasový výstup aibase.com, konkrétně pak 62 jazyků v dubbing nástroji Localize resemble.ai. Takže velmi komplexní (podobně jako ElevenLabs). Zahrnují jazyky jako angličtina, španělština, francouzština, němčina, italština, polština, portugalština, ruština, čínština, japonština, korejština, různé indické jazyky, arabština atd. Často zmiňují, že hlas může mluvit jazyky, které nebyly v originálních datech, což ukazuje na vícejazyčný TTS engine.
Zmíněna je i schopnost pracovat s code-switchingem (spíše oblast STT), ale pro TTS jsou vícejazyčné hlasy klíčová funkce.

Technické základy:

  • Engine Resemble pravděpodobně zahrnuje vícemluvčí neuronový TTS model (např. Glow-TTS nebo varianta FastSpeech) plus vysokofideliťní vokodér (pravděpodobně něco jako HiFi-GAN). Zakomponovávají hlasový enkodér (podobně jako embedding techniky mluvčího) pro rychlé klonování z příkladů.
  • Zmiňují použití strojového učení ve velkém měřítku – pravděpodobně trénink na obrovském množství hlasových dat (možná licencováno od studií, z veřejných datasetů atd.).
  • Konverze řeči v reálném čase naznačuje model, který dokáže vzít zvukové rysy zdrojového hlasu a mapovat je na rysy cílového hlasu téměř v reálném čase. Pravděpodobně používají kombinaci automatického rozpoznávání řeči (pro získání fonémů/časového zarovnání) a následné resyntézy s barvou cílového hlasu, případně end-to-end model konverze hlasu, který pro rychlost nepotřebuje explicitní přepis.
  • Ovládání emocí: Pravděpodobně využívají přístup stylových tokenů nebo mají zvlášť modely pro každou emoci, případně jemně dolaďují modely s emocionálními štítky při tréninku.
  • Lokalizace: Možná dělají pipeline „řeč na text (s překladem), poté text na řeč“. Nebo mají přímo cross-language hlasový model (méně pravděpodobné). Pravděpodobně integrují překladový krok. Zdůrazňují však zachycení osobnosti hlasu v nových jazycích, což znamená použití téhož hlasového modelu s ne-anglickými vstupy.
  • Škálovatelnost a rychlost: Tvrdí, že zvládají konverzi v reálném čase s minimální latencí. Generování TTS z běžného textu může být o něco pomalejší než u ElevenLabs, pokud je více backendu, ale pravděpodobně optimalizují. Uvádějí, že generují 15 minut zvuku jen z 50 nahraných vět (rychlé klonování).
  • Pravděpodobně kladou důraz na dokonalou reprodukci akustických detailů, aby byl klon nerozeznatelný. Možná používají pokročilé ztrátové funkce nebo GAN pro zachycení identity hlasu.
  • Zmiňují analýzu a korekci zvukových vstupů pro S2S – pravděpodobně redukci šumu či sladění s akustikou místnosti.
  • Jejich technologie zahrnuje funkce Voice Enhancer (např. zlepšení kvality zvuku) podle potřeby vstupních signálů.

Využití:

  • Film & TV: Resemble byl použit k namlouvání hlasů herců pro postprodukci (např. k opravě repliky nebo vytvoření replik, pokud herec není dostupný). Také pro generování AI hlasů pro CG postavy či omlazení hlasu (starší herec zní jako mladý).
  • Hry: Herní studia používají Resemble k generování hodin dialogů NPC po naklonování několika hlasů herců (úspora nákladů, rychlé iterace scénářů).
  • Reklama & marketing: Značky klonují hlas celebrit (se souhlasem) pro variace reklam nebo personalizované promo ve velkém. Nebo si vytvářejí fiktivní hlas značky pro globální konzistenci, přizpůsobují jazyk, ale ponechávají identitu hlasu.
  • Konverzační AI asistenti: Firmy využívají hlas na míru od Resemble pro IVR nebo virtuální asistenty, kteří odpovídají firemní osobnosti značky, místo generického TTS hlasu (např. hlas bankovního asistenta v unikátním podání).
  • Osobní využití při ztrátě hlasu: Lidé trpící ztrátou hlasu kvůli nemoci si nechávají hlas naklonovat a pak jej používají jako svůj „text-to-speech“ hlas ke komunikaci (podobné, co nabízela Lyrebird, kterou koupil Descript; Resemble to také umožňuje).
  • Lokalizace médií: Dubbingová studia používají Resemble Localize pro rychlý dubbing – vloží originální repliky, výstup získají v cílovém jazyce ve velmi podobném hlase. Drasticky zkracuje čas, ale často je potřeba i lidská editace.
  • Interaktivní příběhy: Resemble lze integrovat do interaktivních aplikací či AI vypravěčů, kde je třeba hlas generovat „za běhu“ (méně časté kvůli latenci, ale možné).
  • Firemní školení/e-learning: Generování namluvení tréninkových videí nebo kurzů pomocí klonů profesionálních vypravěčů, ve více jazycích bez nutnosti nahrávat znovu, zajistí konzistentní tón.

Cenový model: Resemble je více orientovaný na enterprise zákazníky, ale uvádí některé možnosti:

  • Nabízí bezplatnou zkušební verzi (pravděpodobně omezené klonování a několik minut generování s vodoznakem).
  • Ceny jsou typicky podle využití nebo předplatného. Pro jednotlivce bylo něco kolem 30 $/měsíc za určitý objem a počet hlasů, poté poplatky za další použití.
  • Pro firmy pravděpodobně individuální nabídka. Nabízejí také model „pay-as-you-go“ pro API.
  • Například u standardního generování vychází podle jednoho zdroje cena na 0,006 $ za sekundu vytvořeného zvuku (~0,36 $/min), s množstevními slevami.
  • Mohou účtovat zvlášť za tvorbu jednoho hlasu (poplatek za vysoce kvalitní klonování s jejich asistencí).
  • Vzhledem k tomu, že ElevenLabs je levnější, Resemble pravděpodobně nekonkuruje nejlevnějšími cenami, ale spíše funkcemi a připraveností pro podniky (např. zdůrazňují neomezené využití u vlastní platby nebo možnost licenční smlouvy pro celý subjekt).
  • Měli možnost licencovat celý model pro provoz on-premises, což je pravděpodobně drahé, ale dává plnou kontrolu.
  • Celkově je pravděpodobně dražší než ElevenLabs při srovnatelném použití, ale nabízí funkce, které konkurence nemá (reálný čas, přímé integrační pipeline apod.), což je pro některé klienty podstatné.

Silné stránky:

  • Komplexní AI nástroje pro práci s hlasem: Resemble pokrývá vše – TTS, klonování, konverzi hlasu v reálném čase, vícejazyčný dubbing, úpravy zvuku (doplňování mezer). Je to vše v jednom pro potřeby syntézy hlasu.
  • Zaměření na enterprise & přizpůsobení: Nabízí širokou flexibilitu (různé možnosti nasazení, detailní podporu, vlastní integrace), což je výhodné pro firmy.
  • Kvalitní klony & emocionální věrnost: Klony jsou ve vysokém rozlišení, případové studie ukazují, jak dobře dokážou zachytit styl a emoci resemble.ai resemble.ai. Například případ s kampaní ke dni matek doručil 354 000 personalizovaných vzkazů s 90% přesností hlasu resemble.ai – silný důkaz škálovatelnosti i kvality.
  • Schopnosti v reálném čase: Možnost dělat konverzi hlasu naživo je unikátní – málokdo to nabízí. Otevírá to využití při živých přenosech či představeních (například živé dabování mluvčího jiným hlasem téměř v reálném čase).
  • Lokalizace/jazyky: Více než 60 jazyků a udržení stejného hlasu napříč nimi resemble.ai je obrovským plusem pro globální obsah.
  • Etika & kontrola: Vymezují se jako etická služba (vyžadují souhlas atd.). Toto silně propagují a je to důležité pro klienty řešící IP. Mají také nástroje pro prevenci zneužití (např. ověření věty ke čtení, podobně jako ostatní).
  • Případové studie & zkušenosti: Resemble bylo použito ve významných projektech (i hollywoodských), což jim dodává důvěryhodnost. Například zmínka o hře oceněné Apple Design Award využívající Resemble resemble.ai ukazuje tvůrčí možnosti (Crayola Adventures s dynamickým voiceoverem).
  • Škálovatelnost & ROI: Někteří klienti uvádějí obrovské navýšení tvorby obsahu (Truefan: 70× více obsahu, 7× dopad na příjmy resemble.ai). Dokazují tím, že zvládají rozsáhlý výstup.
  • Více hlasů a emocí v jednom výstupu: Ukazují, jak lze snadno generovat dialogy nebo interaktivní hlasy (např. aplikace ABC Mouse pro Q&A s dětmi resemble.ai).
  • Kontrola kvality zvuku: Mají funkce zajišťující kvalitu výstupu (například mixování s podkladem či mastering na studiovou úroveň), což běžné TTS API často nenabízí.
  • Stálý vývoj: Pravidelně vydávají vylepšení (např. nedávno nové „Contextual AI voices“ nebo aktualizace algoritmů).

Slabiny:

  • Není tak snadné/levné pro hobby uživatele: Ve srovnání s ElevenLabs je Resemble více orientovaný na firmy. Rozhraní je silné, ale možná méně přímé než velmi jednoduché ElevenLabs pro nováčky. Také cena může být překážkou pro drobné uživatele (ti spíš sáhnou po ElevenLabs).
  • O něco menší veřejné povědomí: Ačkoli v odborných kruzích uznávaný, nemá virální rozšíření, jaké mělo ElevenLabs mezi běžnými tvůrci v roce 2023. Je pohledem spíše na profesionální službu na pozadí.
  • Kvalita vs. ElevenLabs: Rozdíl není velký, ale někteří nadšenci mluveného slova říkají, že ElevenLabs má možná výhodu v ultra-realistickém projevu emocí v angličtině; Resemble se tomu velmi blíží a v jiných ohledech jej někdy překonává (např. v reálném čase). Je to těsný souboj, ale vnímání hraje roli.
  • Kompromisy zaměření: Nabízí TTS i reál-čas konverzi, takže optimalizují oboje, kdežto ElevenLabs vše investuje jen do off-line TTS kvality. Pokud to není dobře řízeno, může jedno trochu zaostat (zatím však zvládají obojí).
  • Závislost na kvalitě trénovacích dat: Pro nejlepší výsledky je třeba poskytnout čisté, kvalitní nahrávky. Pokud je vstup špatný či omezený, i výstup tím trpí. Mají sice vylepšení, ale fyzika platí.
  • Právní otázky užití: Stejná problematika jako všude – etika klonování. Jsou dobří v prevenci zneužití, ale klienti mohou váhat kvůli možné budoucí regulaci či obavám z nálepky „deepfake“. Je-li cíleno na firmy, řeší to pravděpodobně NDA a právním rámcem, ale je to obecná výzva trhu.
  • Konkurence a překrývání: Objevila se řada nových služeb (některé na open-source modelech) nabízejících levnější klonování. Resemble se musí odlišit kvalitou a funkcemi. Také velcí hráči (např. Microsoft’s Custom Neural Voice) soupeří přímo o enterprise kontrakty (navíc Microsoft vlastní Nuance).
  • Uživatelská kontrola: Mají sice editační nástroje, ale doladit jemné prvky řeči nemusí být tak detailní jako lidsky – tvůrci často generují víc verzí nebo dělají audio postprodukci, aby dosáhli zamýšleného výsledku (to platí pro všechny AI hlasy).

Poslední aktualizace (2024–2025):

  • Resemble spustil „Resemble AI 3.0“ kolem roku 2024 s významnými vylepšeními modelu, zaměřenými na větší emoční rozsah a zlepšený vícejazyčný výstup. Pravděpodobně začlenil technologii jako VALL-E nebo vylepšené schopnosti zero-shot, které snižují množství dat potřebných pro klonování.
  • Rozšířili počet lokalizovaných jazyků z přibližně 40 na 62 a zlepšili přesnost překladu tak, aby byla zachována intonace originálu (možná sladěním překladů textu s hlasovými styly).
  • Odezva u převodu hlasu v reálném čase byla ještě více zkrácena – možná je nyní odpověď do 1 sekundy.
  • Zavedli funkci ovládání stylu dle příkladu – např. zadáte vzorek požadované emoce či kontextu a TTS tento styl napodobí. To pomáhá, když chcete, aby hlas v konkrétní větě zněl například nadšeně vs. smutně; k syntéze přiložíte referenční úryvek s tímto tónem (může pocházet z dat původního řečníka nebo i jiného hlasu).
  • Možná integrovali malý LLM na pomoc např. s predikcí intonace (automaticky určí, kde zdůraznit či jak emocionálně interpretovat větu podle obsahu).
  • Zlepšili vývojářskou platformu: např. zjednodušené API pro generování mnoha hlasových klipů paralelně, websockety pro TTS streamování v reálném čase atd.
  • Bezpečnost: zavedli API pro hlasovou autentizaci, která dokáže ověřit, zda bylo dané audio vygenerováno službou Resemble, nebo zda se někdo nepokouší klonovat hlas, který mu nepatří (např. vnitřní watermark nebo detekce hlasového podpisu).
  • Získali několik velkých partnerství – např. s přední dabingovou studií nebo mediálními společnostmi pro lokalizaci obsahu. Případ Age of Learning (ABC Mouse) je jedním příkladem, ale může jich přibývat.
  • Pravděpodobně rozšířili svůj marketplace hlasových talentů: navázali spolupráci s dabéry za účelem vytváření licencovaných hlasových skinů, které si ostatní mohou za poplatek pronajmout (etická monetizace hlasů).
  • Trvalý výzkum a vývoj u Resemble je udržuje mezi předními službami pro klonování hlasu v roce 2025, s robustní podnikatelskou klientelou.

Oficiální web: Resemble AI Voice Cloning Platform aibase.com resemble.ai (oficiální stránky popisující jejich řešení na míru a schopnosti konverze řeči v reálném čase).

Zdroje:

  1. Google Cloud Text-to-Speech – „Přes 380 hlasů ve více než 50 jazycích a variantách.“ (dokumentace Google Cloud cloud.google.com
  2. Google Cloud Speech-to-Text – Vysoká přesnost, podpora 120+ jazyků, přepis v reálném čase. (Krisp Blog krisp.ai
  3. Microsoft Azure Neural TTS – „Podpora 140 jazyků/variant a 400 hlasů.“ (Microsoft TechCommunity techcommunity.microsoft.com
  4. Microsoft Azure STT – Přepis přátelský podnikům s přizpůsobením a zabezpečením pro 75+ jazyků. (Telnyx Blog telnyx.com telnyx.com
  5. Amazon Polly – „Amazon Polly nabízí přes 100 hlasů ve 40+ jazycích… emocionálně poutavé generativní hlasy.“ (AWS What’s New aws.amazon.com aws.amazon.com
  6. Amazon Transcribe – Nová generace ASR modelu se 100+ jazyky, diarizací mluvčích, v reálném čase i dávkově. (AWS Overview aws.amazon.com aws.amazon.com
  7. IBM Watson STT – „Přizpůsobitelné modely pro specifickou terminologii v odvětví, silné zabezpečení dat; využíváno ve zdravotnictví/právu.“ (Krisp Blog krisp.ai krisp.ai
  8. Nuance Dragon – „Dragon Medical nabízí vysoce přesný přepis složité lékařské terminologie; flexibilní nasazení v cloudu nebo lokálně.“ (Krisp Blog krisp.ai krisp.ai
  9. OpenAI Whisper – Open-source model vytrénovaný na 680 000 hodinách, „podporuje 99 jazyků“, téměř špičková přesnost napříč jazyky. (Zilliz Glossary zilliz.com zilliz.com
  10. OpenAI Whisper API – „0,006 USD za minutu“ pro Whisper-large prostřednictvím OpenAI, umožňuje levný a kvalitní přepis pro vývojáře deepgram.com】.
  11. Deepgram Nova-2 – „O 30 % nižší WER než konkurence; nejpřesnější anglický STT (medián WER 8,4 % vs. Whisper 13,2 %).“ (Deepgram Benchmarks deepgram.com deepgram.com
  12. Deepgram Přizpůsobení – Možnost trénování modelu na specifickou terminologii a zvýšení přesnosti o 18 % a více oproti předchozímu modelu. (Gladia blog přes Deepgram gladia.io deepgram.com
  13. Speechmatics Přesnost & Bias – „Naměřena přesnost 91,8 % u dětských hlasů vs. 83,4 % u Google; 45% snížení chybovosti u afroamerických hlasů.“ (Speechmatics Press speechmatics.com speechmatics.com
  14. Speechmatics Flow (2024) – ASR v reálném čase + LLM + TTS pro hlasové asistenty; podpora 50 jazyků s různorodými akcenty. (audioXpress audioxpress.com audioxpress.com
  15. ElevenLabs Voice AI – „Více než 300 hlasů, ultra-realistické s emoční proměnlivostí; klonování hlasu dostupné (5 min audia → nový hlas).“ (Zapier Review zapier.com zapier.com
  16. ElevenLabs Ceník – Zdarma 10 min/měsíc, placené tarify od 5 USD/měsíc za 30 min s klonováním & komerčním využitím. (Zapier zapier.com zapier.com
  17. ElevenLabs Multilingual – Jeden hlas mluví 30+ jazyky; expresivní v3 model umí šeptat, křičet, dokonce zpívat. (ElevenLabs Blog elevenlabs.io elevenlabs.io
  18. Resemble AI Voice Cloning – „Generování řeči ve vašem klonovaném hlasu ve 62 jazycích; převod hlasu v reálném čase speech-to-speech.“ (Resemble AI resemble.ai resemble.ai
  19. Resemble Case Study – *Truefan kampaň: 354 000 personalizovaných videozpráv s hlasem AI celebrit na 90 % podobnosti, 7× ROI resemble.ai】, *ABC Mouse využilo Resemble v interaktivní dětské aplikaci s hlasovým Q&A v reálném čase resemble.ai】.
  20. Resemble AI Funkce – Zachycení emocí a přenos stylu v klonovaných hlasech; možnost upravovat existující audio („Resemble Fill“). (Resemble AI dokumentace resemble.ai resemble.ai

Top 10 AI technologií pro hlas a řeč dominující v roce 2025 (TTS, STT, klonování hlasu)

Úvod

Technologie Voice AI v roce 2025 se vyznačují pozoruhodným pokrokem v oblasti textu na řeč (TTS), řeči na text (STT) a klonování hlasu. Přední platformy v oboru nabízejí stále přirozenější syntézu řeči a vysoce přesné rozpoznávání hlasu, což umožňuje využití od virtuálních asistentů a přepisu v reálném čase po věrné hlasové komentáře a vícejazyčný dabing. Tato zpráva mapuje 10 nejvýznamnějších platforem hlasové AI, které v roce 2025 dominují a vynikají v jedné či více z těchto oblastí. Každý záznam obsahuje přehled schopností, klíčových funkcí, podporovaných jazyků, použité technologie, možností využití, cen, silných/slabých stránek, posledních inovací (2024–2025) a odkaz na oficiální stránku produktu. Pro rychlé srovnání je zařazena souhrnná srovnávací tabulka hlavních předností.

Srovnávací tabulka souhrnu

PlatformaSchopnosti (TTS/STT/Klonování)Cenový modelCíloví uživatelé a případy použití
Google Cloud Speech AITTS (hlasy WaveNet/Neural2); STT (120+ jazyků); možnost Custom Voice cloud.google.com id.cloud-ace.comZpoplatněno podle použití (za znak u TTS; za minutu u STT); dostupný bezplatný kreditový tarif cloud.google.comPodniky a vývojáři budující hlasové aplikace v globálním měřítku (kontaktní centra, přepis médií, IVR atd.) krisp.ai cloud.google.com
Microsoft Azure Speech ServiceTTS (neuralní hlasy – 400+ hlasů, 140+ jazyků techcommunity.microsoft.com); STT (75+ jazyků, překlady) telnyx.com krisp.ai; Custom Neural Voice (klonování)Zpoplatněno podle použití (za znak/hodinu); bezplatný tarif & Azure kredity pro vyzkoušení telnyx.comPodniky požadující bezpečnou a přizpůsobitelnou AI pro hlas (vícejazyčné aplikace, hlasoví asistenti, přepisování pro zdravotnictví/právo) krisp.ai krisp.ai
Amazon AWS Voice AI (Polly & Transcribe)TTS (100+ hlasů, 40+ jazyků aws.amazon.com, neuronové a generativní hlasy); STT (reál­ný čas & dávkově, 100+ jazyků aws.amazon.com)Zpoplatněno podle použití (za milion znaků u TTS; za sekundu u STT); zdarma tarif na 12 měsíců aws.amazon.com aws.amazon.comFirmy používající AWS, potřebující škálovatelné hlasové funkce (nahrávání médií, přepis hovorů zákaznické podpory, hlasově interaktivní aplikace) telnyx.com aws.amazon.com
IBM Watson Speech ServicesTTS (neuronové hlasy v několika jazycích); STT (reálný čas & dávkově, doménově přizpůsobené modely)Zpoplatněno podle použití (bezplatný lite tarif; odstupňované ceny dle spotřeby)Podniky ze specializovaných oblastí (finance, zdravotnictví, právo) s požadavkem na silnou přizpůsobitelnost a bezpečnost řečových služeb krisp.ai telnyx.com
Nuance Dragon (Microsoft)STT (mimořádně přesná diktace; doménové verze např. pro medicínu, právo); hlasové povelyLincencování na uživatele nebo předplatné (software Dragon); podnikové licence pro cloudové službyProfesionálové (lékaři, právníci) a firmy vyžadující vysoce přesný přepis a hlasem řízenou dokumentaci krisp.ai krisp.ai
OpenAI Whisper (open source)STT (špičkové vícejazyčné ASR – ~99 jazyků zilliz.com; také překlady)Open source (MIT Licence); využití OpenAI API za cca ~$0,006/minutuVývojáři a výzkumníci hledající špičkovou přesnost rozpoznávání řeči (např. přepis, jazykový překlad, analýza hlasových dat) zilliz.com zilliz.com
DeepgramSTT (podniková úroveň, transformátorové modely s o 30 % nižší chybovostí vůči konkurenci deepgram.com); vznikající TTS schopnostiPředplatné nebo API na bázi využití (kredity zdarma, pak odstupňované ceny; cca ~$0,004–0,005/min za nejnovější model) deepgram.comTechnologické firmy a kontaktní centra s požadavkem na reálný čas a velký objem přepisu s možností úpravy modelu telnyx.com deepgram.com
SpeechmaticsSTT (self-supervised ASR, 50+ jazyků s jakýmkoliv přízvukem audioxpress.com); některá hlasová řešení s LLM integrací (Flow API pro ASR+TTS) audioxpress.com audioxpress.comPředplatné nebo podnikové licence (cloud API nebo on-prem); individuální nabídky podle objemuMediální a globální firmy požadující inkluzivní přepis bez ohledu na přízvuk (živé titulkování, analýza hlasu) s možností on-premise řešení pro ochranu soukromí speechmatics.com speechmatics.com
ElevenLabsTTS (ultrarealistické, expresivní hlasy); Klonování hlasu (vlastní hlasy ze vzorků); Vícejazyčné hlasové syntézy (30+ jazyků v původním hlasu) elevenlabs.io resemble.aiFree tarif (~10 min/měsíc); placené plány od $5/měsíc (30 min+) zapier.com zapier.comTvůrci obsahu, vydavatelé a vývojáři potřebující vysoce kvalitní voiceovery, audioknihy, charakterové hlasy nebo klonování hlasů pro média zapier.com zapier.com
Resemble AITTS & klonování hlasu (okamžité klonování s emocemi; převod řeči na řeč); Dabing do 50+ jazyků se stejným hlasem aibase.com resemble.aiPodnikové a podle využití (individuální plány; bezplatná zkušební verze)Média, herní a marketingové týmy tvořící vlastní hlasové značky, lokalizovaná hlasová sdělení nebo live převod hlasů v interaktivních aplikacích resemble.ai resemble.ai

1. Google Cloud Speech AI (TTS & STT) – Google

Přehled: Google Cloud’s Speech AI nabízí Cloud Text-to-Speech a Speech-to-Text API, které jsou známé vysokou věrností a škálovatelností. Google TTS generuje přirozenou, lidsky znějící řeč pomocí pokročilých modelů pro hluboké učení (např. WaveNet, Neural2) videosdk.live, zatímco STT umožňuje přesný přepis v reálném čase ve více než 120 jazycích nebo dialektech krisp.ai. Cíloví uživatelé zahrnují podniky vyžadující globální vícejazyčné hlasové aplikace i vývojáře, kteří chtějí zabudovat hlas do aplikací nebo zařízení. Google rovněž nabízí možnost Custom Voice, která klientům umožňuje vytvořit si vlastní AI hlas z vlastních nahrávek id.cloud-ace.com (při dodržení etických zásad).

Klíčové vlastnosti:

  • Text-to-Speech: Více než 380 hlasů ve více než 50 jazycích/variantách cloud.google.com, včetně technologií WaveNet a nejnovějších hlasů Neural2 pro podání přirozené intonace. Nabízí hlasové styly (např. „Studio“ hlasy napodobující profesionální narátory) a detailní řízení prostřednictvím SSML pro úpravu tónu, výšky, rychlosti a pauz videosdk.live videosdk.live.
  • Speech-to-Text: Streamování v reálném čase a dávkový přepis s podporou více než 125 jazyků, automatická interpunkce, časové značky na úrovni slov a rozpoznání mluvčích krisp.ai krisp.ai. Umožňuje přizpůsobení řeči (vlastní slovníky) pro lepší rozpoznávání oborově specifických výrazů krisp.ai krisp.ai.
  • Vlastní modely: Cloud STT umožňuje uživatelům doladit modely s konkrétní terminologií, Cloud TTS nabízí funkci Custom Voice (neurální klonování hlasu) pro vytvoření unikátní identity značky id.cloud-ace.com id.cloud-ace.com.
  • Integrace & nástroje: Bezproblémová integrace s ekosystémem Google Cloud (např. Dialogflow CX pro voiceboty). K dispozici jsou SDK/REST API a podpora nasazení na různých platformách.

Podporované jazyky: Více než 50 jazyků pro TTS (zahrnující všechny hlavní světové jazyky i mnoho regionálních variant) cloud.google.com a 120+ jazyků pro STT krisp.ai. Toto rozsáhlé jazykové pokrytí jej činí vhodným pro globální aplikace a lokalizační potřeby. Obě API zvládají více anglických přízvuků a dialektů; STT může automaticky rozpoznat jazyk v mnohojazyčných audionahrávkách a dokonce přepisovat tzv. code-switching (až 4 jazyky v jednom projevu) googlecloudcommunity.com googlecloudcommunity.com.

Technické základy: TTS od Google je postaveno na výzkumu DeepMind – např. na neuronových vokodérech WaveNet a následných pokrocích AudioLM/Chirp pro expresivní, nízkolatenční řeč cloud.google.com cloud.google.com. Hlasy jsou syntetizovány hlubokými neuronovými sítěmi, které dosahují téměř lidské kvality v oblasti prozódie. STT využívá end-to-end modely hlubokého učení (vylepšené rozsáhlými zvukovými daty Google); novější verze využívají architektury založené na Transformeru a rozsáhlý trénink pro stále lepší přesnost. Google navíc optimalizuje své modely pro nasazení ve velkém měřítku ve své cloudové infrastruktuře a nabízí funkce jako streamované rozpoznávání s nízkou latencí a schopnost zvládat hlučný zvuk díky robustnímu trénování.

Použití: Univerzálnost hlasových API Google umožňuje případy využití jako:

  • Automatizace kontaktních center: IVR systémy a voiceboti, kteří přirozeně konverzují se zákazníky (například hlasový agent Dialogflow poskytující informace o účtu) cloud.google.com.
  • Přepis & titulkování médií: Přepisování podcastů, videí nebo živých vysílání (titulky v reálném čase) v několika jazycích pro zpřístupnění nebo indexaci.
  • Hlasoví asistenti & IoT: Pohánění virtuálních asistentů v chytrých telefonech a domácích zařízeních (tuto technologii využívá i Google Assistant) a umožnění hlasového ovládání v IoT aplikacích.
  • E-learning a tvorba obsahu: Generování audioknižních narací nebo voice-overů s přirozenými hlasy, přepis přednášek či schůzek pro pozdější revizi.
  • Přístupnost: Umožnění převodu textu na řeč pro čtečky obrazovky a asistivní zařízení, případně využití převodu řeči na text pro diktování místo psaní.

Cenotvorba: Google Cloud používá model platba dle spotřeby. U TTS se cena účtuje za milion znaků (například cca 16 $ za 1M znaků pro WaveNet/Neural2 hlasy, méně pro standardní hlasy). STT je účtováno po 15 sekundách nebo po minutě zvuku (~0,006 $ za 15 s pro standardní modely) podle úrovně modelu a typu (režim v reálném čase vs dávkový). Google nabízí velkorysou bezplatnou úroveň – noví zákazníci získají 300 $ kredit a měsíční bezplatné kvóty (např. 1 hodina STT a několik milionů znaků TTS) cloud.google.com. Díky tomu jsou první experimenty velmi nízkonákladové. Pro vysoké objemy jsou k dispozici množstevní slevy a kontrakty na závazné užití.

Silné stránky: Platforma Google vyniká vysokou kvalitou zvuku a přesností (díky výzkumu Google AI). Disponuje širokou jazykovou podporou (skutečně globální dosah) a škálovatelností na infrastruktuře Google (zvládne rozsáhlé operace v reálném čase). Služby jsou přívětivé pro vývojáře s jednoduchým REST/gRPC API a knihovnami. Nepřetržitá inovace Google (nové hlasy, vylepšování modelů) zajišťuje špičkový výkon cloud.google.com. Jakožto plnohodnotná cloudová platforma se zároveň snadno integruje s dalšími službami Google (Storage, Překladač, Dialogflow) pro tvorbu komplexních hlasových aplikací.

Slabé stránky: Náklady mohou být vysoké při velkém měřítku, zejména pro generování dlouhých TTS výstupů nebo 24/7 přepis. Uživatelé upozorňují, že ceny od Google mohou být nákladné pro velké objemy bez množstevních slev telnyx.com. Někteří uvádějí, že přesnost STT může stále kolísat u silných přízvuků nebo šumu, proto je potřeba modely přizpůsobovat. Režim STT v reálném čase může mít mírnou latenci při vysoké zátěži telnyx.com. Dalším aspektem je správa dat v Google – služba sice nabízí možnosti ochrany dat, avšak některé organizace se zvlášť citlivými údaji mohou dávat přednost on-prem řešením (což cloudově orientovaný Google přímo nenabízí, na rozdíl od některých konkurentů).

Novinky (2024–2025): Google dále vylepšuje své hlasové služby. Koncem roku 2024 začal aktualizovat mnoho TTS hlasů v evropských jazycích na novější, přirozenější verze googlecloudcommunity.com googlecloudcommunity.com. Cloud TTS nyní podporuje Chirp v3 hlasy (využívající výzkum AudioLM pro spontánní konverzaci) a syntézu dialogu více mluvčích cloud.google.com cloud.google.com. V oblasti STT Google spustil vylepšené modely s vyšší přesností a rozšířenou jazykovou podporou nad 125 jazyků gcpweekly.com telnyx.com. Důležitou novinkou je i zpřístupnění funkce Custom Voice, která umožňuje zákazníkům vytvářet a provozovat vlastní TTS hlas na základě svých zvukových dat (za podmínek etického auditu Google) id.cloud-ace.com id.cloud-ace.com. Tyto inovace i postupné rozšiřování jazyků a dialektů udržují Google na špičce hlasové AI i v roce 2025.

Oficiální web: Google Cloud Text-to-Speech cloud.google.com (pro TTS) a Speech-to-Text krisp.ai produktové stránky.

2. Microsoft Azure Speech Service (TTS, STT, klonování hlasu) – Microsoft

Přehled: Microsoft Azure AI Speech je firemní platforma nabízející Neural Text-to-Speech, Speech-to-Text a také funkce jako překlad řeči a Custom Neural Voice. Azure TTS nabízí obrovský výběr hlasů (více než 400 hlasů ve 140 jazycích/localech) s lidsky znějící kvalitou techcommunity.microsoft.com, včetně stylů a emocí. Jeho STT (rozpoznávání řeči) je vysoce přesné, podporuje více než 70 jazyků pro reálný čas i dávkové přepisy telnyx.com, a umí dokonce překládat mluvený zvuk naživo do dalších jazyků krisp.ai. Klíčový je enterprise přizpůsobení: zákazníci si mohou trénovat vlastní akustické/jazykové modely nebo si vytvořit klonovaný hlas pro svůj brand. Azure Speech je úzce provázán s cloudovým ekosystémem Microsoft Azure (SDK a REST API) a je poháněn desetiletími výzkumu řeči od Microsoftu (včetně technologií společnosti Nuance, kterou Microsoft akvíroval).

Klíčové vlastnosti:

  • Neural Text-to-Speech: Obrovská knihovna předpřipravených neuronových hlasů ve 144 jazycích/variantách (446 hlasů k polovině roku 2024) techcommunity.microsoft.com, od neformálních konverzačních tónů až po formální narace. Hlasy jsou tvořeny pomocí hlubokého učení Microsoftu pro prozódií (např. varianty Transformer a Tacotron). Azure nabízí jedinečné hlasové styly (veselý, empatický, zákaznický servis, zpravodajství atd.) a detailní kontrolu (pomocí SSML) pro výšku, rychlost a výslovnost. Výraznou funkcí je podpora více jazyků i více mluvčích: některé hlasy zvládnou code-switching a služba podporuje více rolí mluvčích pro produkci dialogů.
  • Speech-to-Text: Vysoce přesná ASR s možností reálného přepisu i dávkové transkripce. Podporuje 75+ jazyků/dialektů telnyx.com a nabízí automatickou interpunkci, filtrování vulgarit, diarizaci mluvčích, vlastní slovníky a překlad řeči (přepis a překlad v jednom kroku) krisp.ai. STT Azure lze použít jak na krátké příkazy, tak na dlouhé přepisy, s možností vylepšených modelů pro specifické obory (např. call centrum).
  • Custom Neural Voice: Služba klonování hlasu umožňující firmám vytvořit unikátní AI hlas podle vybraného mluvčího (vyžaduje cca 30 minut trénovacích nahrávek a přísné ověření souhlasu). Výsledek je syntetický hlas, který reprezentuje značku či postavu, využívaný například ve hrách nebo konverzačních agentech. Custom Neural Voice od Microsoftu je proslulý kvalitou – například hlas Flo v Progressive nebo chatboty AT&T.
  • Zabezpečení & nasazení: Azure Speech klade důraz na bezpečnost – šifrování dat, compliance s normami pro soukromí, možnost kontejnerizovaných endpointů (podniky mohou nasadit modely lokálně nebo na edge pro citlivá data) krisp.ai. Tato flexibilita (cloud nebo on-premise via kontejnery) je ceněná například ve zdravotnictví.
  • Integrace: Služba je určená pro integraci s Azure ekosystémem – např. spolupráce s Cognitive Services (Překlad, Cognitive Search), Bot Framework (hlasové boty), nebo Power Platform. Podporuje také rozpoznání mluvčího (hlasové ověřování) v rámci nabídky řečových služeb.

Podporované jazyky: Azure voice AI je pozoruhodně vícejazyčná. TTS pokrývá 140+ jazyků a variant (hlasy téměř ve všech hlavních jazycích a mnoha lokálních variantách – např. různé anglické akcenty, čínské dialekty, indické, africké jazyky) techcommunity.microsoft.com. STT podporuje 100+ jazyků pro přepis (a umí automaticky detekovat jazyk řeči nebo zpracovat vícejazyčný zvuk) techcommunity.microsoft.com. Funkce Překlad řeči zvládá desítky jazykových párů. Microsoft navíc průběžně přidává i méně zastoupené jazyky, aby dosáhl maximální inkluzivity. Tato šíře dělá z Azure špičkovou volbu pro globální nasazení či podporu lokálních jazyků.

Technické pozadí: Technologie řeči Microsoftu stojí na hlubokých neuronových sítích a bohatém výzkumu (některé části z Microsoft Research a akvizované algoritmy Nuance). Neural TTS využívá modely Transformer, varianty FastSpeech pro generování zvukové vlny a vokodéry podobné WaveNetu. Poslední průlom Microsoftu bylo dosažení „lidské parity“ v některých TTS úlohách – díky rozsáhlému tréninku a doladění pro napodobení lidských nuancí techcommunity.microsoft.com. Pro STT kombinuje Azure akustické a jazykové modely; od roku 2023 zavádí akustické modely založené na Transformeru (zvyšují přesnost a odolnost vůči šumu) a sjednocené „Conformer“ modely. Azure používá také modelový ensembling a reinforcement learning pro průběžné zlepšování. K dispozici je adaptivní učení – možnost vylepšit rozpoznávání konkrétního žargonu přidáním textových dat (vlastní jazykové modely). V infrastruktuře může Azure Speech v cloudu využívat akceleraci GPU pro streamování s nízkou latencí a automaticky škáluje výkon pro náročné aplikace (například živé titulkování velkých akcí).

Využití: Azure Speech se používá napříč obory:

  • Zákaznický servis & IVR: Mnoho firem používá STT a TTS Azure pro callcentra a hlasové boty. Například letecká společnost využívá STT pro přepis požadavků klientů a odpovídá neuronovým hlasem, případně v reálném čase překládá krisp.ai.
  • Virtuální asistenti: Azure je základem hlasů virtuálních agentů jako Cortana a třetích stran v automobilech či domácích spotřebičích. Funkce vlastního hlasu umožňuje unikátní osobnost asistenta.
  • Tvorba obsahu & média: Herní a animační studia využívají Custom Neural Voice pro unikátní charaktery bez dlouhých nahrávek dabérů (např. čtení textu klonovaným hlasem herce). Média využívají Azure TTS pro zpravodajství, audioknihy či mnohojazyčný dabing obsahu.
  • Přístupnost & vzdělávání: Přesné STT Azure v reálném čase generuje titulky pro schůzky (např. v Microsoft Teams) a školení, což pomáhá lidem se sluchovým handicapem nebo jazykovou bariérou. TTS se využívá ve funkcích „čtení nahlas“, e-knihách a vzdělávacích aplikacích.
  • Podniková produktivita: Přepis schůzek, hlasové zprávy nebo diktování dokumentů je běžné využití. Technologie Nuance Dragon (nyní pod Microsoftem) slouží profesím jako lékaři (rozpoznání řeči pro zdravotní záznamy) i právníkům pro diktování spisů s vysokou přesností na odbornou terminologii krisp.ai krisp.ai.

Ceny: Azure Speech je účtováno dle spotřeby. STT platíte za hodinu zpracovaného zvuku (jiné ceny pro standardní, vlastní či vylepšené modely). Například standardní přepis v reálném čase se pohybuje kolem $1 za hodinu audia. TTS je účtováno za znak nebo za 1 milion znaků (cca $16 za milion znaků u neuronových hlasů, podobně jako konkurence). Custom Neural Voice vyžaduje navíc poplatek za nastavení/trénink a poplatky za použití. Azure nabízí free tier: např. určitý počet hodin STT zdarma v prvních 12 měsících a určitý počet TTS znaků zdarma. Součástí jsou také služby v balíčku Cognitive Services, který si firmy mohou pořídit s množstevní slevou. Celkově jsou ceny konkurenceschopné, pokročilé funkce (vlastní modely, styly s vysokou věrností apod.) však mohou být dražší.

Silné stránky: Microsoftův hlasový servis je připravený pro podnikové použití – je známý robustní bezpečností, ochranou soukromí a splněním regulatorních požadavků (důležité pro regulované obory) krisp.ai. Nabízí bezkonkurenční možnosti přizpůsobení: vlastní hlasy a modely STT umožňují organizacím přesnou kontrolu. Šíře jazykové a hlasové podpory je na špičkové úrovni v oboru techcommunity.microsoft.com, což z něj činí univerzální řešení pro globální potřeby. Integrace s širším ekosystémem Azure a vývojářskými nástroji (vynikající SDK pro .NET, Python, Java aj.) je velkou výhodou, která zjednodušuje vývoj komplexních řešení. Microsoftovy hlasy jsou velmi přirozené, často chválené pro svou expresivitu a škálu stylů. Další silnou stránkou je flexibilní nasazení – možnost provozu v kontejnerech umožňuje offline nebo edge použití, což většina cloudových poskytovatelů nenabízí. V neposlední řadě Microsoft pravidelně svůj servis vylepšuje (často na základě vlastních produktů jako Windows, Office a Xbox využívajících tuto technologii), takže Azure Speech těží z nejnovějšího výzkumu a rozsáhlého testování v reálném provozu.

Slabé stránky: I když je kvalita Azure vysoká, náklady se mohou rychle navyšovat při intenzivním používání, obzvlášť u Custom Neural Voice (která vyžaduje značnou investici a schvalovací proces Microsoftu) a při dlouhodobém přepisu, pokud nemáte enterprise smlouvu telnyx.com. Množství funkcí a možností znamená vyšší křivku učení – noví uživatelé se v nastaveních mohou ztrácet (např. výběr z mnoha hlasů nebo nastavení vlastních modelů vyžaduje určitou odbornost). Pokud jde o přesnost, Azure STT patří k lídrům, ale některé nezávislé testy ukazují, že Google či Speechmatics jsou v určitých úlohách o malý kousek vpředu (výsledek závisí na jazyku či přízvuku). Také plné využití potenciálu téhle služby často předpokládá, že už jste v ekosystému Azure – funguje nejlépe při integraci se storage Azure atd., což nemusí být atraktivní pro uživatele multi-cloudů nebo pro ty, kteří hledají jednoduchou samostatnou službu. Nakonec, stejně jako u jakékoliv cloudové služby, použití Azure Speech znamená odesílání dat do cloudu – organizace s extrémně citlivými daty tak mohou preferovat řešení pouze on-prem (Azure kontejnery pomáhají, ale nejsou zdarma).

Novinky (2024–2025): Microsoft výrazně rozšířil nabídku jazyků a hlasů. V roce 2024 přidal Azure Neural TTS 46 nových hlasů a 2 nové jazyky, čímž celkově dosáhl 446 hlasů ve 144 jazycích techcommunity.microsoft.com. Starší „standardní“ hlasy byly (od září 2024) ukončeny, nyní jsou dostupné pouze neuronové hlasy pro vyšší kvalitu learn.microsoft.com. Microsoft představil inovaci Voice Flex Neural (preview), která umožňuje ještě dynamičtější úpravu stylů řeči. V oblasti STT integroval některé funkce Nuance Dragon – například Dragon Legal a Medical model je k dispozici na Azure pro doménově specializovaný přepis s vysokou přesností technických výrazů. Rozšířily se i možnosti Speech Studio, což je GUI nástroj umožňující snadno tvořit vlastní hlasové modely. Další zásadní novinkou je nový foundation model pro Speech to Text (má několik miliard parametrů), který zlepšil přesnost o cca 15 % a umožňuje přepisovat smíšené jazyky najednou aws.amazon.com aws.amazon.com. Dále Microsoft oznámil integraci řeči s Azure OpenAI Services – umožňuje například převod mluvení z meetingu do textu a následné použití GPT-4 pro sumarizaci (vše v rámci Azure). Pokračující integrace generativní AI (např. GPT) s řečí a vylepšení v oblasti akcentů a biasů (například díky spolupráci s organizacemi na snižování chybovosti u různorodých mluvčích) udrží Azure Speech na špičce i v roce 2025.

Oficiální web: Azure AI Speech Service techcommunity.microsoft.com (oficiální stránka Microsoft Azure pro produkt Speech).

3. Amazon AWS Voice AI – Amazon Polly (TTS) & Amazon Transcribe (STT)

Přehled: Amazon Web Services (AWS) nabízí výkonné cloudové hlasové AI služby prostřednictvím Amazon Polly pro převod textu na řeč a Amazon Transcribe pro převod řeči na text. Polly převádí text na realistickou řeč ve škále hlasů a jazyků, zatímco Transcribe využívá automatické rozpoznávání řeči (ASR) k produkci vysoce přesných přepisů z audia. Tyto služby jsou součástí širšího AI portfolia AWS a těží z jeho škálovatelnosti a snadné integrace. Amazoní hlasové technologie vynikají spolehlivostí a jsou využívány napříč odvětvími pro úlohy, jako jsou IVR systémy, titulkování médií, hlasoví asistenti a další. Přestože Polly a Transcribe jsou samostatné služby, dohromady pokrývají celé spektrum vstupu a výstupu hlasu. Amazon dále nabízí související služby: Amazon Lex (pro konverzační boty), Transcribe Call Analytics (pro analytiku kontaktních center) a program Brand Voice na zakázku (Amazon vytvoří speciální hlas pro konkrétní značku). AWS Voice AI je cíleno na vývojáře a firmy již v AWS ekosystému a nabízí snadnou integraci s dalšími AWS zdroji.

Hlavní funkce:

  • Amazon Polly (TTS): Polly nabízí 100+ hlasů ve 40+ jazycích a variantách aws.amazon.com, včetně mužských i ženských hlasů a směsi neuronových a standardních variant. Hlasy jsou „živé“, postavené na deep learningu s přirozenou intonací a rytmem. Polly podporuje neuronové TTS pro vysoce kvalitní projev a nedávno představila Neural Generative TTS engine – špičkový model (ke konci roku 2024 je k dispozici 13 ultra-expresivních hlasů), který produkuje emotivnější a konverzačnější řeč aws.amazon.com aws.amazon.com. Polly poskytuje podporu Speech Synthesis Markup Language (SSML) pro detailní úpravu výstupu (výslovnosti, důrazy, pauzy) aws.amazon.com. Zahrnuje též speciální styly, např. Newscaster styl čtení, nebo Conversational styl pro uvolněnější projev. Jedinečná je i schopnost Polly automaticky upravovat tempo řeči u dlouhých textů (dýchání, interpunkce) díky long-form engine, což zajistí přirozenější čtení audioknih nebo zpráv (mají i speciální hlasy přímo pro dlouhé texty).
  • Amazon Transcribe (STT): Transcribe zvládá jak dávkové přepisy předem nahraných audio souborů, tak přepis v reálném čase. Podporuje 100+ jazyků a dialektů aws.amazon.com a umí automaticky rozpoznat použitý jazyk. Klíčové funkce jsou diarizace mluvčích (rozlišování osob v nahrávce) krisp.ai, vlastní slovník (naučíte systém oborová slova, jména) telnyx.com, interpunkce a velká/malá písmena (automaticky doplní interpunkci a kapitalizaci pro čitelnost) krisp.ai a generování časových značek ke každému slovu. Transcribe umožňuje filtrování obsahu (maskování/cílení vulgarit a osobních údajů) a redakci – užitečné např. pro nahrávky z call center s citlivými informacemi. Pro telefony a meetingy existují specializovaná vylepšení: Transcribe Medical pro zdravotnictví (je HIPAA-kompatibilní) a Call Analytics s transkripcí i analýzou emocí, kategorizací i shrnutím hovorů přes ML aws.amazon.com aws.amazon.com.
  • Integrace a nástroje: Polly i Transcribe lze snadno propojit s dalšími službami AWS. Výstup z Transcribe lze rovnou předat do Amazon Comprehend (služba pro NLP analýzu textu) nebo Translate pro překlad přepisů. Polly může navázat na AWS Translate a generovat hlas v cizím jazyce. AWS poskytuje SDK pro řadu jazyků (Python boto3, Java, JavaScript atd.), takže služby můžete volat jednoduše z aplikací. Amazon MediaConvert dokáže pomocí Transcribe automaticky vytvářet titulky k videím. K dispozici jsou i Presign API pro bezpečné nahrávání nebo streamování z klientských zařízení přímo do služby.
  • Přizpůsobení: Hlasy Polly jsou předpřipravené, ale AWS nabízí Brand Voice, program, v jehož rámci vám Amazon přímo ve spolupráci připraví vlastní hlas na míru (nejde o self-service; vše se tvoří ve spolupráci – například KFC Canada vytvořilo hlas plukovníka Sanderse skrze Polly’s Brand Voice venturebeat.com). U Transcribe lze přizpůsobovat buď slovníkem, nebo Custom Language Models (v některých jazycích můžete trénovat vlastní model na základě svých přepisů, zatím v omezeném preview režimu).
  • Výkon a škálovatelnost: Amazoní služby jsou proslulé robustností ve velkém provozu (Polly i Transcribe Amazon s největší pravděpodobností interně používá i pro Alexa a další vlastní systémy). Obě zvládají vysoké objemy dat: Transcribe streaming zvládne naráz mnoho přímých přenosů (škáluje horizontálně), dávkové úlohy přepisují hodiny audio uloženého na S3. Polly generuje řeč rychle a dokáže výsledky cachovat, včetně tzv. neuronové cache pro často používané věty. Odezva je krátká, zejména pokud využíváte AWS regiony poblíž vašich uživatelů. Pro IoT nebo edge AWS nenabízí offline kontejnery (na rozdíl od Azure), ale poskytuje edge-connnectory přes AWS IoT pro streamování do cloudu.

Podporované jazyky:

  • Amazon Polly: Podporuje desítky jazyků (aktuálně kolem 40+). Zahrnuje většinu hlavních světových jazyků: angličtinu (USA, UK, Austrálie, Indie atd.), španělštinu (EU, USA, Latinská Amerika), francouzštinu, němčinu, italštinu, portugalštinu (Brazílie i EU), hindštinu, arabštinu, čínštinu, japonštinu, korejštinu, ruštinu, turečtinu a další aws.amazon.com. Mnohé jazyky mají více hlasů (např. US angličtina má 15+ hlasů). AWS přidává průběžně další jazyky – například koncem roku 2024 přibyly hlasy češtiny a švýcarské němčiny docs.aws.amazon.com. Není pokryto každé jazykové prostředí na světě, ale výběr je široký a stále narůstá.
  • Amazon Transcribe: K roku 2025 podporuje 100+ jazyků a variant pro transkripci aws.amazon.com. Původně pokrýval asi 31 jazyků (hlavně západní), ale Amazon službu zásadně rozšířil díky nové generaci modelů (včetně jazyků jako vietnamština, fársí, svahilština atd.). Podporuje také vícejazyčné přepisy – dokáže zaznamenat a přepsat bilingvní konverzace (např. kombinace angličtiny a španělštiny v jednom hovoru). Doménově specifické: Transcribe Medical aktuálně podporuje zdravotnickou diktaci v několika dialektech angličtiny a španělštiny.

Technické základy: Amazonův generativní hlas (Polly) využívá pokročilé neuronové sítě, včetně transformer modelu s miliardou parametrů pro nejnovější hlasy aws.amazon.com. Tato architektura umožňuje generovat řeč streamovacím způsobem při zachování vysoké kvality – výsledná řeč je „emocionálně angažovaná a velmi hovorová“ aws.amazon.com. Starší hlasy využívají konkatenační metody nebo starší neuronové sítě pro standardní hlasy, ale nyní je pozornost plně na neuronové syntéze (neural TTS). Na straně STT (speech-to-text) využívá Amazon Transcribe nadstavbový ASR model nové generace (s více miliardami parametrů), trénovaný na obrovském množství zvukových dat (údajně miliony hodin) aws.amazon.com. Model pravděpodobně používá architekturu Transformer či Conformer, aby dosáhl vysoké přesnosti. Je optimalizován pro různé akustické podmínky a akcenty (Amazon přímo uvádí, že zohledňuje odlišné přízvuky a šum) aws.amazon.com. Vývoj Transcribe byl ovlivněn pokrokem v rozpoznávání řeči u Amazon Alexa – vylepšení z Alexy se často implementují i do Transcribe. AWS využívá self-supervised learning techniky pro jazyky s málem dat (podobně jako SpeechMix nebo wav2vec), aby rozšířil jazykovou podporu. Z hlediska nasazení běží tyto modely na spravované infrastruktuře AWS; AWS má specializované inferenční čipy (například AWS Inferentia), které mohou být použity pro cenově efektivní provoz těchto modelů.

Použití:

  • Interaktivní hlasové systémy (IVR): Řada firem využívá Polly pro předčítání výzev a Transcribe pro zachycení uživatelských odpovědí v telefonních menu. Například IVR banky přečte informace o účtu přes Polly a použije Transcribe k pochopení požadavků volajícího.
  • Analýzy kontaktních center: Pomocí Transcribe lze přepisovat hovory se zákaznickou podporou (přes Amazon Connect nebo jiné platformy) a následně je analyzovat na zákaznickou spokojenost nebo výkonnost operátora. Funkce Call Analytics (včetně detekce sentimentu a sumarizace) pomáhají automatizovat kontrolu kvality hovorů aws.amazon.com aws.amazon.com.
  • Mediální a zábavní průmysl: Polly se používá k vytváření namluvených verzí zpráv či blogových příspěvků (některé zpravodajské weby nabízejí „poslechněte si článek“ s hlasy Polly). Transcribe používají televize pro titulkování živých přenosů nebo video platformy pro automatickou tvorbu titulků u nahraných videí. Produkční studia využívají Transcribe pro přepisy záznamů – lze snadno vyhledávat v záznamech podle textu.
  • E-learning a zpřístupnění: E-learningové platformy využívají Polly k proměně psaného obsahu do zvuku ve více jazycích, což zvyšuje dostupnost studijních materiálů. Transcribe umožňuje vytvářet přepisy lekcí nebo studentům vyhledávat v nahrávkách přednášek.
  • Hlasové funkce zařízení a aplikací: Mnoho mobilních aplikací nebo IoT zařízení využívá AWS pro hlas. Například mobilní aplikace může použít Transcribe pro hlasové vyhledávání (nahrajte dotaz, pošlete do Transcribe, vrátí text). Hlasy Polly lze integrovat do zařízení jako chytrá zrcadla nebo hlásiče pro sdělení upozornění nebo notifikací.
  • Vícejazyčné dabingy: Kombinací služeb AWS (Transcribe + Translate + Polly) mohou vývojáři vytvářet automatická dabingová řešení. Např. vezměte anglické video, přepište ho, přeložte přepis do španělštiny a pomocí španělského hlasu Polly vytvořte zvukovou stopu pro dabing.
  • Hry a interaktivní média: Herní vývojáři mohou Polly využít pro dynamické dialogy NPC postav (dialogy mohou být namlouvány bez nutnosti nahrávat každou větu s dabérem). Polly má dokonce NTTS hlas (Justin), který byl navržen pro zpěv a byl použit i v kreativních projektech.

Ceník: Ceny AWS jsou založeny na spotřebě:

  • Amazon Polly: Účtováno za milion znaků vstupního textu. Prvních 5 milionů znaků měsíčně je zdarma po dobu 12 měsíců (pro nové účty) aws.amazon.com. Poté standardní hlasy stojí zhruba 4 USD za 1 milion znaků, neuronové hlasy asi 16 USD za 1 milion znaků (ceny se mohou mírně lišit podle regionu). Nové „generativní“ hlasy mohou mít prémiovou cenu (např. mírně vyšší za znak díky větší výpočetní náročnosti). Cena Polly je zhruba srovnatelná s Google/Microsoft v kategorii neural. Neúčtuje se nic navíc za ukládání nebo streamování zvuku (kromě minimálních nákladů na S3 nebo přenos dat, pokud uložíte/doručujete soubory).
  • Amazon Transcribe: Účtuje se podle sekundy zvuku. Standardní přepis stojí 0,0004 USD za sekundu (tj. 0,024 USD za minutu). Hodina tedy vyjde na cca 1,44 USD. Různé funkce mohou mít jinou cenu: například Call Analytics nebo Medical stojí asi dvojnásobek (~0,0008 USD/s). Přepis v reálném čase je ceněn podobně za sekundu. AWS nabízí pro nové uživatele zdarma 60 minut přepisu měsíčně po dobu 12 měsíců aws.amazon.com. Pro velké objemy nebo enterprise zákazníky bývají k dispozici stupňovité slevy v rámci podpory AWS Enterprise Support.
  • Přístup AWS je modulární: pokud využijete Translate nebo jiné služby, ty jsou účtovány samostatně. Výhodou je, že platíte jen za skutečnou spotřebu a v případě nečinnosti škálujete na nulu. Je to nákladově efektivní pro nepravidelné použití, ale u velmi velkých stálých úloh je vhodné vyjednat slevy nebo využít saving plány AWS.

Silné stránky: Největší předností hlasových služeb AWS je jejich osvědčená škálovatelnost a spolehlivost – jsou navržené pro provoz ve velkém (AWS má SLA 99,9 %, vícezónovou redundanci atd.). Hluboká integrace s AWS ekosystémem je výhodou pro uživatele AWS (IAM pro správu přístupu, S3 pro vstupy/výstupy, vše vzájemně propojené). Hlasy Polly jsou velmi přirozené a nové generativní hlasy ještě více zužují rozdíl vůči lidskému projevu, navíc mají specialisty na emocionální expresivitu aws.amazon.com. Transcribe je známý robustností v náročných zvukových podmínkách (byl mezi prvními, kdo zvládl různé přízvuky a rušné prostředí aws.amazon.com). Služby jsou poměrně snadno použitelné přes API, AWS má kvalitní dokumentaci i ukázkový kód. Rovněž nabízí konkurenční ceny a free tier pro nové uživatele. Další silnou stránkou je rychlé tempo vylepšení – Amazon často přidává funkce (například detekci toxicity v Transcribe pro moderaci) a nové jazyky, často podmíněné potřebami reálných zákazníků AWS. Bezpečnostně je AWS silný: obsah se šifruje a můžete nastavit nezaznamenávání nebo automatické mazání dat po zpracování. Firemním zákazníkům dává AWS také lidskou podporu a specialisty na nasazení těchto služeb.

Slabé stránky: Pro některé vývojáře může být nevýhodou, že AWS vyžaduje založení účtu a pochopení IAM a konzole AWS, což může být zbytečně složité pro rychlý test hlasu (konkurence někdy nabízí jednodušší veřejné endpointy nebo GUI nástroje). Na rozdíl od Google a Microsoft nemá AWS samoobslužný custom voice cloning pro kohokoli; Brand Voice je dostupný jen při větších zakázkách. To znamená, že menší uživatelé si nemohou na AWS vytvořit vlastní hlas (kromě práce se slovníky). AWS zatím také nenabízí možnost provozu Polly ani Transcribe offline/on-premise – funguje výhradně v cloudu (byť lze použít edge Outposts nebo local zones, není to totéž co offline kontejner). Co se týká přesnosti, Transcribe je silný, avšak v některých nezávislých testech měly lepší skóre například Microsoft nebo Google pro určité jazyky nebo scénáře (záleží na použití; nový model AWS už většinu rozdílů dohnal). Dále: jazykové pokrytí v TTS – 40+ jazyků je dobré, ale Google a Microsoft jich mají ještě více; AWS může mírně zaostávat v některých lokalizovaných hlasových možnostech (Google má např. více indických jazyků v TTS než Polly aktuálně). Nakonec, velké množství příbuzných služeb AWS může uživatele zmást (například při rozhodování mezi Transcribe a Lex), což vyžaduje určitý cloudový přehled.

Nejnovější aktualizace (2024–2025): AWS provedla významné aktualizace u služeb Polly a Transcribe:

  • Polly: V listopadu 2024 AWS uvedla šest nových „generativních“ hlasů v několika jazycích (francouzština, španělština, němčina, různé varianty angličtiny), čímž se počet těchto hlasů rozšířil ze 7 na 13 aws.amazon.com. Tyto hlasy využívají nový generativní TTS engine a jsou vysoce expresivní, určené pro konverzační AI. Dále byly přidány Long-Form NTTS hlasy pro španělštinu a angličtinu, které si zachovávají srozumitelnost i při velmi dlouhých textech aws.amazon.com aws.amazon.com. Již začátkem roku 2024 AWS představilo hlas ve stylu moderátora zpráv v brazilské portugalštině a dalších jazycích. V březnu 2025 dokumentace Amazon Polly ukazuje podporu češtiny a švýcarské němčiny, což reflektuje průběžné rozšiřování jazyků docs.aws.amazon.com. Další aktualizace: AWS zlepšila kvalitu neuronových hlasů Polly (pravděpodobně upgrade modelu) – někteří uživatelé zaznamenali plynulejší prozódii u aktualizovaných hlasů.
  • Transcribe: V polovině roku 2024 Amazon oznámil novou generaci ASR modelu (Nova) pro službu Transcribe, která výrazně zlepšila přesnost a navýšila počet jazyků na 100+ aws.amazon.com. Také byla zavedena Transcribe Call Analytics globálně, s možností získat shrnutí konverzace pomocí generativní AI (integrace s AWS Bedrock nebo OpenAI modely) – v podstatě se automaticky po přepisu sestaví klíčové body hovoru. Další novinkou je Detekce toxicity v reálném čase (zavedená koncem 2024), která umožňuje vývojářům detekovat nenávistné projevy či obtěžování v živém audiu přes Transcribe, což je důležité pro moderování živých hlasových chatů aws.amazon.com. V roce 2025 je v preview vlastní jazykový model (CLM) pro Transcribe, který umožňuje firmám jemně doladit ASR na vlastní datech (to konkuruje Azure custom STT). Po stránce cen AWS zavedla pro Transcribe výhodnější ceny pro velkoobjemové zákazníky – automaticky se uplatní nižší ceny při překročení určitého počtu hodin měsíčně. Všechny tyto aktualizace ukazují odhodlání AWS zůstat na špici ve voice AI a neustále vylepšovat kvalitu i funkce.

Oficiální weby: Amazon Polly – služba převodu textu na řeč aws.amazon.com aws.amazon.com; Amazon Transcribe – služba převodu řeči na text aws.amazon.com aws.amazon.com.

4. IBM Watson Speech Services (TTS & STT) – IBM

Přehled: IBM Watson nabízí jak převod textu na řeč (Text-to-Speech), tak převod řeči na text (Speech-to-Text) jako součást Watson AI služeb. IBM má dlouhou historii v oblasti řečových technologií a její cloudové služby se zaměřují na přizpůsobení, oborovou odbornost a ochranu dat. Watson Text-to-Speech umí syntetizovat přirozeně znějící řeč ve více jazycích a Watson Speech-to-Text nabízí velmi přesný přepis s možností přizpůsobení na speciální slovní zásobu. IBM hlasové služby jsou oblíbené zejména v odvětvích jako je zdravotnictví, finance nebo právo, kde je slovník složitý a zabezpečení dat zásadní. IBM umožňuje i on-premise nasazení modelů (přes IBM Cloud Pak), což je vhodné pro organizace, které nemohou využívat veřejný cloud pro hlasová data. Přestože podíl IBM na trhu cloudových řečových služeb je menší ve srovnání s „velkou trojkou“ (Google, MS, AWS), zůstává důvěryhodným, podnikům určeným poskytovatelem pro řečová řešení vyžadující ladění na specifickou hantýrku či integraci do většího Watson ekosystému (který zahrnuje překladače, asistenční framework atd.).

Klíčové vlastnosti:

  • Watson Text-to-Speech (TTS): Podporuje několik hlasů ve 13+ jazycích (včetně angličtiny US/UK, španělštiny, francouzštiny, němčiny, italštiny, japonštiny, arabštiny, brazilské portugalštiny, korejštiny, čínštiny atd.). Hlasy jsou „neurální“ a IBM je průběžně vylepšuje – například nově byly přidány expresivní neurální hlasy pro určité jazyky (např. expresivní australský anglický hlas) cloud.ibm.com. IBM TTS umožňuje upravovat parametry jako výška, tempo, důraz pomocí rozšířeného SSML. Některé hlasy mají expresivní čtení (například hlas, který může znít empaticky či nadšeně). IBM také zavedlo možnost vlastního hlasu, při které může klient ve spolupráci s IBM vytvořit unikátní syntetický hlas (obvykle v rámci podnikové zakázky, podobně jako firemní hlas). Výraznou vlastností je velmi nízká latence streamování – IBM TTS vrací audio v reálném čase po částech, což je užitečné pro interaktivní hlasové asistenty.
  • Watson Speech-to-Text (STT): Nabízí přepis v reálném čase i dávkově s funkcemi jako diarizace mluvčích (rozeznání jednotlivých mluvčích) krisp.ai, vyhledávání klíčových slov (možnost označit čas výskytu konkrétní fráze) a alternativy slov (návrhy možných slov podle míry jistoty v přepisu). IBM STT vyniká podporou vlastního jazykového modelu: uživatelé mohou nahrát tisíce oborových termínů či vlastní audio+transkripty k adaptaci modelu na lékařskou nebo právnickou hantýrku krisp.ai krisp.ai. To výrazně zlepšuje přesnost v těchto oblastech. IBM také podporuje více modelů pro širokopásmové i úzkopásmové audio optimalizované pro telefonní zvuk nebo vysoce kvalitní záznam. Pro přepis pokrývá cca 10 jazyků (angličtina, španělština, němčina, japonština, mandarínská čínština atd.) s vysokou přesností a má i telekomunikační modely (pro zpracování šumů a kodeků v telefonní kvalitě). Zajímavostí je automatické inteligentní formátování – např. v přepisu se automaticky správně formátují data, měny a čísla pro lepší čitelnost.
  • Optimalizace pro obor: IBM nabízí předtrénované oborové modely, např. Watson Speech Services for Healthcare upravené pro lékařské diktáty a Media & Entertainment transcription s knihovnami vlastních jmen pro mediální oblast. Tyto možnosti reflektují konzultační přístup IBM, kde řešení může být výrazně přizpůsobeno konkrétní oblasti klienta.
  • Zabezpečení & nasazení: Hlavním lákadlem je možnost provozu Watson Speech služeb v zákazníkově vlastní infrastruktuře (mimo IBM Cloud) prostřednictvím IBM Cloud Pak for Data. Toto kontejnerové řešení znamená, že citlivá audio data nemusí nikdy opustit servery firmy, což řeší požadavky na lokalitu a ochranu dat. I v IBM Cloudu nabízí možnost nestandardního ukládání dat a přenosy jsou vždy šifrovány. IBM splňuje přísná nařízení (HIPAA, GDPR-ready).
  • Integrace: Watson Speech se integruje do IBM Watson Assistant (snadné přidání STT/TTS do chatbotů). Propojuje se také s širším AI portfoliem IBM – např. lze výsledky STT využít pro zjišťování sentimentu ve Watson Natural Language Understanding nebo pro vícejazyčné zpracování ve Watson Translate. IBM nabízí web sockety (stream) i REST rozhraní (batch).

Podporované jazyky:

  • TTS: IBM TTS pokrývá asi 13 jazyků (včetně několika dialektů). Zahrnuje hlavní obchodní jazyky. I když je to méně než u Google nebo Amazonu, IBM se zaměřuje na kvalitu hlasů v těch podporovaných. Výběrové jazyky: angličtina (US, UK, AU), francouzština, němčina, italština, španělština (EU i LatAm), portugalština (BR), japonština, korejština, mandarínština (zjednodušená čínština), arabština a možná ruština. Nedávné aktualizace rozšiřují spíše počet hlasů v existujících jazycích než samotné jazyky. Například IBM přidala 27 nových hlasů v 11 jazycích v jedné aktualizaci voximplant.com (např. dětské hlasy, nové dialekty).
  • STT: IBM STT podporuje přibližně 8–10 jazyků (angličtina, španělština, francouzština, němčina, japonština, korejština, brazilská portugalština, moderní standardní arabština, mandarínská čínština a italština). Angličtina (US i UK) má nejvíc funkcí (customizace, úzkopásmové modely). U vybraných jazyků je možnost překladu do angličtiny (využívá však samostatnou Watson službu). V porovnání s konkurencí je jazyková nabídka menší, ale pokrývá ty jazyky, kde je poptávka z podnikové sféry nejvyšší, a pro ty nabízí možnost přizpůsobení.

Technický základ: Řečová technologie IBM se vyvinula z výzkumu (IBM byla průkopníkem s technologiemi jako HMM založený ViaVoice v 90. letech a později deep learning). Moderní Watson STT využívá hluboké neuronové sítě (pravděpodobně obousměrné LSTM nebo akustické modely typu Transformer) plus n-gramový nebo neuronový jazykový model. IBM klade důraz na oborovou adaptaci: pravděpodobně používá transfer learning pro doladění základních modelů na data z konkrétní oblasti při tvorbě vlastního modelu. IBM také ve výzkumu zavedlo tzv. “Speaker Adaptive Training” – možná umožňuje přizpůsobení modelu rozpoznanému řečníkovi (užitečné pro diktování). Watson TTS využívá sekvenci neuronových modelů pro převod textu na řeč; IBM má techniku pro expresivní ladění – trénuje hlasy na emocionálních nahrávkách, aby uměly generovat emotivnější řeč. Výzkum IBM o emočním TTS (např. paper „Expressive Speech Synthesis“) je základem Watson TTS hlasů, které jsou schopny jemných změn intonace. Další prvek: IBM zavedlo attention mechanismus v TTS k lepšímu zvládnutí zkratek a neznámých slov. Infrastruktura IBM je založena na kontejnerových mikroservisech; výkon je dobrý, i když historicky někteří uživatelé uváděli, že Watson STT mohl být mírně pomalejší než Google (dává prioritu přesnosti před rychlostí, to se však mohlo zlepšit). IBM pravděpodobně pro generování TTS využívá akceleraci pomocí GPU.

Použití:

  • Zdravotnictví: Nemocnice používají Watson STT (často přes partnery) pro přepis diktovaných poznámek lékařů (běžný je Dragon Medical, ale IBM nabízí pro některé alternativu). Také hlasová interaktivita v zdravotnických aplikacích (např. sestra se nahlas ptá informačního systému v nemocnici a dostává odpověď přes Watson Assistant s STT/TTS).
  • Zákaznický servis: IBM Watson Assistant (virtuální agent) v kombinaci s Watson TTS/STT pohání hlasové roboty na zákaznických linkách. Například telekomunikační společnost může mít Watsonem poháněného hlasového agenta, který vyřizuje rutinní hovory (pomocí Watson STT rozumí požadavku volajícího a pomocí Watson TTS odpovídá).
  • Compliance a média: Finanční obchodní firmy mohou používat Watson STT pro přepis telefonních hovorů obchodníků pro účely dohledu na shodu s předpisy, přičemž využívají bezpečnost a možnost on-prem nasazení Watsonu. Mediální organizace mohou Watson využívat k přepisu videí nebo archivování vysílání (zejména pokud je potřebné on-prem řešení pro rozsáhlé archivy).
  • Vzdělávání & dostupnost: Univerzity používaly Watson pro přepis přednášek nebo tvorbu titulků, zejména když je důležitá ochrana obsahu a chtějí ho provozovat interně. Watson TTS byl použit pro generování zvuku pro digitální obsah a čtečky obrazovky (například e-shop využívající Watson TTS pro předčítání popisů produktů uživatelům se zrakovým postižením).
  • Veřejná správa: Bezpečné nasazení Watsonu ho činí vhodným pro úřady, které potřebují hlasové technologie, například pro přepis veřejných schůzí (s vlastním slovníkem pro místní jména/pojmy) nebo poskytování vícejazyčných hlasových odezev pro služby občanům.
  • Automotive: IBM měla partnerství pro Watson v automobilových infotainment systémech – použití STT pro hlasové povely v autě a TTS pro mluvené odpovědi (navigace, informace o vozidle). Funkce vlastního slovníku je užitečná pro automobilové termíny (značky aut atd.).

Cenotvorba: IBM nabízí Lite plán s určitou bezplatnou kvótou (např. 500 minut STT za měsíc a určitý počet tisíc znaků TTS) – vhodné pro vývoj. Nad tento rámec je cena podle spotřeby:

  • STT: Přibližně 0,02 USD za minutu pro standardní modely (tedy 1,20 USD za hodinu) na IBM Cloudu. Vlastní modely jsou za příplatek (asi ~0,03 USD/min). Tyto částky se ale mohou lišit; IBM často vyjednává podniková řešení. IBM je obecně konkurenceschopná, někdy levnější za minutu než velcí cloudoví konkurenti u STT, aby nalákala klienty. Omezením je menší počet jazyků.
  • TTS: Cena za milion znaků, přibližně 20 USD za milion znaků pro Neural hlasy (standardní jsou levnější). IBM měla dříve tarif 0,02 USD za ~1000 znaků, což odpovídá 20 USD za milion. Vyjadřovací (expressive) hlasy mohou stát stejně. Lite tarif dával například 10 000 znaků zdarma.
  • Jedinečnost IBM je on-prem licencování – pokud nasazujete přes Cloud Pak, můžete platit za roční licenci nebo používat kredity, což může být významný náklad, ale zahrnuje neomezené využití do kapacity. Je to atraktivní pro velké uživatele, kteří preferují fixní nákladový model nebo potřebují uchovávat data interně.

Silné stránky: Hlavní silou IBM je customizace a doménová odbornost. Watson STT lze jemně vyladit na složitý žargon s vysokou přesností krisp.ai krisp.ai, a překonává generické modely v lékařském diktátu nebo právních přepisech. Klienti často oceňují ochotu IBM osobně pomáhat při vytvoření vlastního modelu nebo hlasu (za poplatek). Ochrana dat a možnost on-prem nasazení je velké plus; málo kdo jiný nabízí takovou úroveň kontroly. Díky tomu je IBM oblíbené u veřejných institucí a podnikových klientů. Přesnost STT od IBM na čistém zvuku a vhodném přizpůsobení je výborná – v některých srovnáních byl Watson STT špičkou v telekomunikačních přepisech. Watson TTS hlasy, ač méně početné, jsou velmi kvalitní (zejména neural hlasy v posledních letech). Výhodou je i provázanost s celou AI platformou IBM – pro firmy používající Watson NLP, Knowledge Studio či datové platformy IBM je přidání řeči jednoduché. IBM má rovněž silnou podporu; zákazníci na enterprise tarifech často dostanou přímo support engineer pro Watson služby. V neposlední řadě značka IBM v AI (obzvlášť po slávě DeepQA/Watson v Jeopardy) je zárukou – někteří decision-makeři důvěřují IBM v kritických systémech právě díky tomuto dědictví.

Slabé stránky: IBM má menší šíři v jazycích i hlasech oproti konkurenci – například pokud potřebujete švédskou TTS nebo vietnamské STT, IBM je často nenabízí, zatímco jiní ano. To omezuje použití pro globální klientské aplikace. Prostředí IBM Cloudu a dokumentace je sice solidní, ale někdy je méně uživatelsky přívětivá než velmi „dev-friendly“ dokumentace AWS nebo integrované nástroje Azure. Momentální dynamika IBM v AI zaostává za novými hráči; proto je komunita nebo open-source příklady pro Watson řeč řidší. Další slabinou je škálovatelnost pro extrémně velká realtime zadání – ačkoliv IBM škáluje, nemá tolik globálních datacenter pro Watson jako například Google, tudíž latence může být vyšší, pokud jste vzdáleni od IBM oblaku. Cenově, pokud potřebujete širší škálu jazyků nebo hlasů, IBM může být nakonec dražší, protože musíte kombinovat více dodavatelů. Důraz IBM na enterprise znamená, že některé „self-serve“ aspekty nejsou tak lesklé – např. customizace modelu může vyžadovat ruční kroky nebo kontaktování IBM, kdežto Google/AWS umožní datový upload a tuning víceméně automaticky. IBM také méně často veřejně oznamuje přesnost a vylepšení modelů – takže je dojem, že se modely neaktualizují tak často (i když aktualizace probíhají, jen tišeji). Ekosystém IBM není tak masově rozšířený mezi vývojáři, což může být nevýhodou, pokud hledáte širokou komunitní či nástrojovou podporu.

Aktuální novinky (2024–2025): IBM dále modernizuje své řečové služby. V roce 2024 představila Large Speech Models (zatím v early access) pro angličtinu, japonštinu a francouzštinu, které významně zvyšují přesnost díky větším neuronovým sítím (viz poznámky k verzím Watson STT) cloud.ibm.com. Watson TTS přineslo nové hlasy: IBM přidala vylepšené neural hlasy pro australskou angličtinu, korejštinu a nizozemštinu v polovině 2024 cloud.ibm.com. Taktéž se zlepšily styly výrazového projevu (například americký hlas „Allison“ dostal update, aby zněl více konverzačně při použití s Watson Assistantem). V nástrojích přibylo Watson Orchestrate – tedy že low-code AI orchestrace může snadno napojit STT/TTS pro přepis schůzky a následné shrnutí pomocí Watson NLP. IBM také zlepšila redukci biasu v rozpoznávání řeči – uznala, že staré modely měly vyšší chybovost u některých dialektů; nový rozsáhlý anglický model prý zlepšil rozpoznávání díky více diverzním datům. Zajímavý posun 2025: IBM začala používat foundation models z huggingface u některých úloh a spekuluje se, že by IBM mohla zahrnout/open-source modely (jako Whisper) do nabídky pro jazyky, které aktuálně nepokrývá – nicméně oficiální oznámení zatím není. Shrnutí: IBM inovuje hlavně v oblasti kvality a relevance (byť méně efektně než konkurence). Důraz IBM na hybrid-cloud AI znamená, že můžeme čekat další zjednodušení nasazení Watson Speech na Kubernetes a integraci s multi-cloud strategií.

Oficiální web: IBM Watson Speech-to-Text telnyx.com telnyx.com a stránky produktu Text-to-Speech na IBM Cloudu.

5. Nuance Dragon (rozpoznávání řeči & hlasová diktace) – Nuance (Microsoft)

Přehled: Nuance Dragon je špičková technologie rozpoznávání řeči, která dlouhodobě představuje zlatý standard pro hlasovou diktaci a přepis zejména v profesionálních oblastech. Nuance Communications (nyní od roku 2022 vlastněná Microsoftem) vytvořila Dragon jako sadu produktů pro různá odvětví: Dragon Professional pro obecnou diktaci, Dragon Legal, Dragon Medical atd., každý s vlastním slovníkem oboru. Dragon je známý velmi vysokou přesností převodu řeči na text po krátkém zaučení uživatele. Podporuje i hlasové ovládání software (řízení aplikací hlasem). Oproti cloudovým API běžel Dragon historicky hlavně jako aplikace na PC nebo podnikových serverech, což z něj činilo volbu číslo jedna pro uživatele, kteří potřebovali realtime diktát bez internetu nebo s jistotou soukromí. Po akvizici je technologie Nuance rozšířena i do Microsoft cloudu (Azure Speech, funkcionalita v Office 365), ale samotný Dragon zůstává produktovou řadou. V roce 2025 Dragon v tomto žebříčku vyčnívá jako specialista: ostatní platformy jsou univerzálnější, Dragon se ale zaměřuje na individuální produktivitu a oborovou přesnost.

Typ: Primárně Speech-to-Text (STT). (Nuance má i TTS a biometrii hlasu, ale pod značkou „Dragon“ je hlavně STT. Zde se zaměřujeme na Dragon NaturallySpeaking a příbuzné produkty).

Společnost/vývojář: Nuance (nyní součást Microsoftu). Nuance má desítky let zkušeností s rozpoznáváním řeči; jsou průkopníky mnoha hlasových inovací (dokonce stáli za staršími telefonickými IVR i původním backendem Siri). Pod Microsoftem jejich výzkum pohání vylepšování cloudu Azure.

Schopnosti & cíloví uživatelé: Dragon se zaměřuje na průběžné rozpoznávání řeči s minimem chyb a hlasové ovládání počítače. Cíloví uživatelé jsou:

  • Zdravotničtí profesionálové: Dragon Medical One je široce používán lékaři pro diktování klinických poznámek přímo do EHR a zvládá složitou lékařskou terminologii a názvy léků s přesností kolem 99 % krisp.ai.
  • Právní profesionálové: Dragon Legal je natrénován na právní terminologii a formátování (zná citace, právní obraty). Právníci jej používají pro diktování dokumentů hlasem.
  • Obecné podnikání & jednotlivci: Dragon Professional umožňuje komukoli diktovat e-maily, zprávy nebo ovládat počítač hlasem (otevřít programy, zadávat příkazy), což zvyšuje produktivitu.
  • Zpřístupnění: Lidé s postižením (např. omezená pohyblivost) často spoléhají na Dragon pro bezdotykové používání počítače.
  • Policie/veřejná bezpečnost: Některá policejní oddělení používají Dragon pro diktování hlášení přímo ve služebních autech.

Klíčové vlastnosti:

  • Vysoce přesná diktace: Dragon se učí hlas uživatele a vysoké přesnosti dosáhne po krátkém tréninku (čtení odstavce) a kontinuálním učení. Používá kontext pro rozlišení homofonů a přizpůsobuje se opravám uživatele.
  • Vlastní slovník & makra: Uživatelé mohou přidávat vlastní slova (vlastní jména, oborový žargon) a vlastní hlasové příkazy (makra). Například lékař si může přidat šablonu, která se vloží, když řekne „vložte odstavec normálního fyzického vyšetření“.
  • Průběžné učení: Jak uživatel opravuje chyby, Dragon aktualizuje jeho profil. Může analyzovat e-maily a dokumenty uživatele, aby se naučil styl psaní a slovní zásobu.
  • Offline provoz: Dragon běží lokálně (PC verze), nevyžaduje cloudové připojení, což je klíčové pro soukromí a nízkou odezvu.
  • Integrace hlasových příkazů: Kromě diktování umožňuje Dragon plně ovládat počítač hlasem. Můžete říct „Otevři Microsoft Word“ nebo „Klikni na Soubor“ či navigovat hlasem. To zahrnuje formátování textu („tučně tu poslední větu“) a další operace.
  • Podpora více mluvčích pomocí specializací: Jeden profil Dragon je pro jednoho uživatele, ale pro přepis nahrávek nabízí Nuance řešení jako Dragon Legal Transcription, který zvládne identifikaci mluvčích v nahraných vícemluvčích dikcích (není to však hlavní funkce, spíš specifické řešení).
  • Cloud/správa pro firmy: Pro firemní nasazení Dragon nabízí centrální správu uživatelů a instalací (například Dragon Medical One je cloudová služba, takže lékaři ji mohou používat na více zařízeních). Obsahuje šifrování provozu mezi klientem a serverem u cloudové verze.

Podporované jazyky: Převážně angličtina (různé akcenty). Nuance má verze i pro další hlavní světové jazyky, ale vlajkovou lodí je americká angličtina. Existují produkty Dragon pro UK angličtinu, francouzštinu, italštinu, němčinu, španělštinu, holandštinu atd. Každý produkt se obvykle prodává zvlášť, protože je optimalizován pro konkrétní jazyk. Odborové verze (Medical, Legal) jsou primárně zaměřeny na angličtinu (Nuance měla i lékařské verze ve vybraných dalších jazycích). K roku 2025 má Dragon nejsilnější postavení na trzích s angličtinou. Jeho přesnost v anglické diktaci je nepřekonaná, ale například čínštinu či arabštinu na úrovni Dragon pravděpodobně nenajdete (pro kontaktní centra má Nuance jiné enginy pro další jazyky, ale ne jako spotřebitelský Dragon).

Technické základy: Dragon začínal na skrytých Markovových modelech a pokročilých n-gramových jazykových modelech. S postupem let Nuance integrovala hluboké učení (neurální sítě) do akustických modelů. Nejnovější verze Dragon používají akustický model na bázi hlubokých neuronových sítí (DNN), který se přizpůsobuje hlasu a prostředí uživatele, a tím zvyšuje přesnost, zejména pro přízvuky nebo mírný hluk v pozadí. Používá také model s velmi velkou slovní zásobou a rozpoznávání plynulé řeči s kontextovým dekódováním (analyzuje celé fráze, ne pouze jednotlivá slova). Klíčovou technologií je adaptace na mluvčího: model postupně upravuje váhy konkrétnímu hlasu uživatele. Oborové jazykové modely (právo/lékařství) zajistí upřednostnění odborných termínů (například ve zdravotnické verzi slovo „organ“ bude rozpoznáno spíše jako tělesný orgán než hudební nástroj, dle kontextu). Nuance má také patentované postupy pro řešení neplynulostí řeči a automatické formátování (například rozpoznání, kdy vložit čárku nebo tečku při pauze). Po akvizici Microsoftem je pravděpodobné, že do backendu pronikají i výzkumy na bázi transformerů, ale komerční Dragon 16 (poslední PC verze) stále využívá hybrid neuronových a tradičních modelů optimalizovaných pro výkon na lokálním PC. Dragon navíc využívá vícekrokové rozpoznávání – může nejprve provést hrubý průchod a následně druhý s lepším kontextem pro zpřesnění. Má i algoritmy na odfiltrování šumu z mikrofonu (Nuance prodává certifikované mikrofony pro nejlepší výsledky).

Příklady použití (rozšířeno):

  • Klinická dokumentace: Lékaři diktující průběhy vyšetření – např. „Pacient přichází s pětidenní anamnézou horečky a kašle…“ Dragon to rychle přepíše do EHR, což umožňuje lékaři udržet oční kontakt s pacientem místo psaní. Někteří používají Dragon i v reálném čase během návštěvy pacienta.
  • Psaní dokumentů: Právníci využívající Dragon k vytváření smluv nebo podání pouhým diktováním – často je to rychlejší než psaní dlouhých dokumentů.
  • E-maily a poznámky: Zaneprázdnění profesionálové, kteří chtějí rychle odbavit e-maily hlasem nebo pořizovat zápisky z porad diktováním místo psaní rukou.
  • Bezdotyková práce s počítačem: Uživatelé s úrazy z opakovaného namáhání nebo s hendikepem, kteří ovládají počítač pouze hlasem (spouštění aplikací, prohlížení webu, diktování textu).
  • Přepis služeb: Nuance nabízí produkt Dragon Legal Transcription, který dokáže přepisovat audio soubory (např. nahrané rozhovory nebo soudní stání). To využívají advokátní kanceláře nebo policie pro přepis záznamů z kamer či výslechů a pod.

Cenový model: Nuance Dragon je obvykle prodáván jako licencovaný software:

  • Dragon Professional Individual (PC) – jednorázová licence (např. 500 USD) nebo předplatné. V poslední době přechod na předplatné (např. Dragon Professional Anywhere je už na bázi předplatného).
  • Dragon Medical One – SaaS předplatné, často okolo 99 USD/uživatele/měsíc (je prémiový díky odbornému slovníku a podpoře).
  • Dragon Legal – jednorázová licence nebo předplatné, často dražší než Professional.
  • Velké organizace mohou získat objemové licence. Díky integraci s Microsoftem se některé funkce mohou objevit i v Microsoft 365 (například nové diktování v Office využívá vylepšení Nuance).
  • V cloudu Azure nyní Microsoft nabízí „Azure Cognitive Services – Custom Speech“, která částečně využívá technologie Nuance. Samotný Dragon je zatím samostatný produkt.

Silné stránky:

  • Nepřekonatelná přesnost v oborové diktaci, zejména po adaptaci krisp.ai krisp.ai. Dragon se bezchybně vypořádává se složitými termíny – například přepisuje obsáhlou lékařskou zprávu s názvy léků a dávkami téměř bez chyb.
  • Personalizace: Vytváří uživatelský profil, který se učí – čím déle jej používáte, tím vyšší přesnosti dosáhnete, což většina cloudových API na individuální bázi nenabízí.
  • V reálném čase a offline: Není znatelná prodleva; slova se objevují téměř okamžitě po vyslovení (na slušném PC). Navíc není potřeba internet – žádná data neopouští váš počítač (velké plus pro důvěrnost informací).
  • Hlasové příkazy & workflow: Můžete diktovat a formátovat v jedné větě („Otevři Outlook a odpověz na tento e-mail: Vážený pane Nováku, nový řádek děkuji za vaši zprávu…“) – Dragon umí plynule kombinovat diktování s příkazy.
  • Specializované produkty: Dostupnost oborových verzí (Medical, Legal) znamená připravenost k použití v daném oboru hned, bez nutnosti ručního nastavování.
  • Konzistence a důvěryhodnost: Mnoho profesionálů používá Dragon roky a spoléhá na jeho výsledky – jde o osvědčené, zralé řešení. Díky Microsoftu se dá čekat další rozvoj (integrace s cloudovou AI apod.).
  • Multiplatformní: Dragon je dostupný primárně pro Windows; Dragon Anywhere (mobilní aplikace) umožňuje diktování na iOS/Android s cloudovou synchronizací slovníku. Přes cloud (Medical One) je dostupný i na tenkých klientech.
  • Také rozpoznání mluvčího: je určen pro jednoho uživatele, což zvyšuje přesnost (na rozdíl od generických modelů pro každého – Dragon se ladí na váš hlas).

Slabé stránky:

  • Cena a dostupnost: Dragon je drahý a není zdarma k vyzkoušení, kromě možná krátké zkušební verze. Na rozdíl od cloudových STT API, za které platíte jen podle používání (což může být levnější při občasném použití), Dragon vyžaduje počáteční investici nebo průběžné předplatné.
  • Křivka učení: Uživatelé často musí věnovat čas tréninku Dragonu a naučit se specifické hlasové příkazy a techniky oprav, aby dosáhli co nejlepších výsledků. Je velmi výkonný, ale není tak „plug-and-play“ jako diktování hlasu na chytrém telefonu.
  • Citlivost na prostředí: Přestože si dobře poradí s hlukem, Dragon funguje nejlépe v tichém prostředí a s kvalitním mikrofonem. Hluk v pozadí nebo nekvalitní mikrofony mohou výrazně snížit výkon.
  • Zaměření na jednoho mluvčího: Není určen pro přepisování vícemluvčích rozhovorů v reálném čase (lze použít transkripční režim na nahrávkách, ale naživo je pro jednoho mluvčího). Pro přepisování schůzek jsou cloudové služby, které zvládají více mluvčích, často jednodušší.
  • Náročnost na zdroje: Spuštění Dragonu může být náročné na CPU/RAM počítače, zvlášť při počátečním zpracování. Někteří uživatelé zjišťují, že zpomaluje jiné úkony nebo může padat při nízkých systémových prostředcích. Cloudové verze toto řeší, ale vyžadují stabilní internet.
  • Podpora pro Mac: Nuance ukončila před několika lety podporu Dragonu pro Mac (existují sice možnosti přes virtualizaci nebo Dragon Medical na Macu atp., ale nativní produkt pro Mac nyní není), což je mínus pro uživatele Macu.
  • Konkurence obecných ASR modelů: Jak se obecné cloudové STT zlepšují (například OpenAI Whisper dosahuje vysoké přesnosti zdarma), někteří individuální uživatelé mohou volit tyto alternativy, pokud nepotřebují všechny funkce Dragona. Tyto alternativy však stále zaostávají v rozhraní pro diktování a osobním přizpůsobení.

Aktuální novinky (2024–2025): Od akvizice Microsoftem byla firma Nuance na veřejnosti spíš potichu, ale integrace probíhá:

  • Microsoft integroval technologii Dragon do funkce Dictate v Microsoft 365, což zvýšilo přesnost pro uživatele Office díky backendu od Nuance (není to explicitně značeno, ale bylo to oznámeno jako součást „Microsoft a Nuance přináší cloudová AI řešení“).
  • V roce 2023 došlo ke zlepšení přesnosti Dragon Professional Anywhere (cloudové streamovací verze Dragonu), která byla nabídnuta přes Azure pro firemní zákazníky, což ukazuje na synergii s cloudem Microsoftu.
  • Nuance také uvedla nový produkt Dragon Ambient eXperience (DAX) pro zdravotnictví, který jde za rámec samotného diktování: naslouchá rozhovorům lékaře s pacientem a automaticky generuje návrhy záznamů. Využívá kombinaci ASR Dragonu a AI sumarizace (ukazuje, jak Nuance využívá generativní AI) – velká inovace pro rok 2024 ve zdravotnictví.
  • Dragon Medical One rozšiřuje jazyky: Microsoft oznámil na konci roku 2024 rozšíření lékařského diktování Nuance na britskou angličtinu, australskou angličtinu a další jazyky, stejně jako hlubší integraci s Epic EHR.
  • Pro právní oblast Nuance integruje s programy pro správu případů pro jednodušší vkládání diktátů.
  • Brzy můžeme vidět části Dragonu nabízené v Azure jako “Custom Speech for Enterprise”, propojené se službami Azure Speech. Počátkem roku 2025 náhledy naznačují, že Custom Speech Azure dokáže vzít korpus Dragonu nebo se přizpůsobit s personalizací v duchu Nuance, což naznačuje konvergenci technologií.
  • Co se týče hlavního produktu, Dragon NaturallySpeaking 16 byl vydán (první hlavní verze pod Microsoftem) začátkem roku 2023, s lepší podporou Windows 11 a mírným vylepšením přesnosti. Takže do roku 2025 může být na obzoru verze 17 nebo sjednocená verze od Microsoftu.
  • Obecně Nuance Dragon stále zdokonaluje přesnost (nejde o dramatický skok, protože byla už dříve vysoká, spíš inkrementálně), a větší změny jsou v tom, jak je balen (cloud, řešení ambient intelligence, integrace do ekosystému AI Microsoftu).

Oficiální stránky: Stránky Nuance Dragon (Professional, Legal, Medical) krisp.ai krisp.ai na stránkách Nuance nebo na stránkách Nuance v rámci Microsoftu.

6. OpenAI Whisper (model pro rozpoznávání řeči & API) – OpenAI

Přehled: OpenAI Whisper je open source model pro automatické rozpoznávání řeči (STT), který zaujal AI komunitu svojí výbornou přesností a vícejazyčnými schopnostmi. OpenAI jej vydala na konci roku 2022. Whisper není cloudová služba s uživatelským rozhraním jako jiné, ale spíše výkonný model (a teď také API), které mohou vývojáři využít pro přepis a překlad audia. Ke roku 2025 se Whisper stal dominantní technologií STT v mnoha aplikacích, často jako „motor na pozadí“. Je známý tím, že zvládá širokou škálu jazyků (téměř 100) a je odolný vůči přízvukům a hluku v pozadí díky tréninku na 680 000 hodinách webových audio dat zilliz.com. OpenAI nabízí Whisper přes své API (platba za použití) a modelové váhy jsou volně dostupné, takže si jej může kdokoliv spustit či doučit offline – pokud má dostatečné výpočetní zdroje. Zavedení Whisperu dramaticky zlepšilo dostupnost kvalitního rozpoznávání řeči hlavně pro vývojáře a výzkumníky, kteří chtěli alternativu k velkým cloudovým API nebo potřebovali otevřený, přizpůsobitelný model.

Typ: Převod řeči na text (přepis & překlad). (Whisper negeneruje hlas, pouze převádí řečové audio na text a může také překládat mluvený jazyk do angličtiny.)

Společnost/vývojář: OpenAI (ale díky open source modelu přispívá i komunita).

Schopnosti & cíloví uživatelé:

  • Vícejazyčné rozpoznávání řeči: Whisper dokáže přepsat řeč ve 99 jazycích s působivou přesností zilliz.com. Zahrnuje i mnoho jazyků, které nejsou komerčními API pokryty dobře.
  • Překlad řeči: Umí přímo překládat mnoho jazyků do angličtiny (např. z francouzského audia vytvoří anglický textový překlad) zilliz.com.
  • Odolnost: Zvládá různé vstupy – akcenty, dialekty i hluk v pozadí – lépe než mnoho jiných modelů díky různorodým trénovacím datům. Zachytí také výplňová slova, smích („[smích]“) atd., takže přepisy jsou bohatší.
  • Časové značky: Poskytuje časování na úrovni slova či věty, což umožňuje tvorbu titulků (subtitle) a zarovnání textu na audio.
  • Přátelské API: Přes OpenAI Whisper API (využívající model large-v2) mohou vývojáři poslat audi soubor a snadno získat přepis přes jednoduchý HTTP požadavek. Zaměřeno na vývojáře pro snadnou integraci.
  • Vědci a nadšenci: Díky open source modelu mohou AI vědci nebo nadšenci experimentovat, doladit pro specifické domény nebo jej zdarma spouštět lokálně. Tím byla technologie ASR široce demokratizována.

Hlavní vlastnosti:

  • Vysoká přesnost: V hodnoceních dosahuje největší model Whisperu (~1,6 miliardy parametrů) chybovosti slov na úrovni nebo lepší než přední cloudové služby pro mnoho jazyků deepgram.com deepgram.com. Například u angličtiny je transkripce extrémně přesná a důležité je, že Whisper dramaticky zlepšuje přesnost v neanglických jazycích (zatímco jiným klesá, Whisper drží vysokou úroveň).
  • Bez potřebného trénování na uživatele: Již při prvním spuštění je velmi schopný. Není potřeba trénování na uživatele jako u Dragonu – model je obecný (není však doménově specializovaný).
  • Časové značky na úrovni segmentu: Výstup Whisperu je rozdělen na segmenty se začátkem a koncem, což je užitečné pro titulkování. Snaží se inteligentně dělit podle pauz v řeči.
  • Různé velikosti modelů: Whisper je dostupný v různých velikostech (tiny, base, small, medium, large). Menší modely jsou rychlejší a lze je provozovat i na mobilech (za cenu menší přesnosti). Největší modely (large-v2, nejpřesnější) vyžadují GPU, ale dávají nejlepší výsledky deepgram.com.
  • Rozpoznání jazyka: Whisper dokáže automaticky detekovat jazyk v nahrávce a použít příslušné dekódování zilliz.com.
  • Open source & komunita: Díky otevřenému charakteru existuje mnoho komunitních rozšíření: např. rychlejší varianty Whisperu, Whisper s vlastním dekódováním apod.
  • API rozšíření: API od OpenAI může vracet čistý text nebo JSON s detailními informacemi (včetně pravděpodobnosti slov atd.) a podporuje parametry jako prompt (pro navádění přepisu kontextem).
  • Nasazení na zařízení/na okraji (edge): Díky tomu, že může běžet lokálně (pokud hardware stačí), je používán v případech s on-device či on-prem řešeními, kde cloud nejde využít (například novinář přepisující citlivé rozhovory offline s Whisperem, nebo aplikace nabízející přepis hlasových poznámek přímo v zařízení – kvůli ochraně soukromí).

Podporované jazyky: Whisper oficiálně podporuje ~99 jazyků pro přepis zilliz.com. Pokrývá široké spektrum – od celosvětově rozšířených jazyků (angličtina, španělština, mandarínská čínština, hindština, arabština atd.) až po jazyky s menším zastoupením (velština, mongolština, svahilština atd.). Tréninková data byla silně, ale ne výhradně, zaměřena na angličtinu (asi 65 % tréninku byla angličtina), takže zde je přesnost nejvyšší, ale i v mnoha jiných jazycích (hlavně románských a indoevropských) je výkon velmi dobrý. Díky tomu zvládne i „code-switched audio“ (smíšené jazyky). Překlad do angličtiny funguje pro cca 57 neanglických jazyků, pro které byl model explicitně trénován k překladu community.openai.com.

Technické základy: Whisper je sekvenčně-sekvenční Transformer model (architektura encoder-decoder), podobný těm, které se používají v neuronovém strojovém překladu zilliz.com zilliz.com. Audio je rozděleno na části a převedeno na log-Mel spektrogramy, které jsou vkládány do enkodéru; dekodér pak generuje textové tokeny. Unikátní je, že OpenAI model trénovalo na velkém a různorodém datasetu 680 000 hodin audia z webu, včetně množství vícejazyčných nahrávek a odpovídajících přepisů (některé z nich byly patrně získány z titulků apod.) zilliz.com. Trénink probíhal „slabě řízeně“ – občas s nedokonalými přepisy – což překvapivě zvýšilo odolnost Whisper vůči šumu a chybám. Model má speciální tokeny pro různé úkoly: např. token <|translate|> aktivuje překladový režim, <|laugh|> označí smích atd., což mu umožňuje multitasking (díky tomu umí jak přepis, tak překlad) zilliz.com. Velký model (Whisper large-v2) má cca 1,55 miliardy parametrů a byl trénován několik týdnů na výkonných GPU; jde v podstatě o špičku toho, co bylo veřejně k dispozici. Používá také časování na úrovni slov díky predikci časových tokenů (segmentuje zvuk podle odhadnutého bodu zlomu). Návrh Whisperu neobsahuje externí jazykový model; jde o end-to-end systém, což znamená, že jazykové i akustické modelování se učilo společně. Díky tomu, že v tréninku bylo mnoho zvuků s různým šumem i podmínkami, enkodér naučil robustní reprezentace a dekodér dokáže z nedokonalého zvuku vygenerovat srozumitelný text. Otevřený kód umožňuje běh modelu např. na frameworku PyTorch, vznikla řada optimalizací (OpenVINO, ONNX runtime apod.), které zrychlují zpracování. Model je však náročnější – velká verze vyžaduje pro reálný čas dobrou GPU, i když kvantizovaný střední model zvládne téměř real-time na moderním CPU.

Typické využití:

  • Přepisovací služby a aplikace: Mnoho startupů a projektů dnes staví na Whisperu místo vlastního modelu. Používá se např. pro přepis podcastů, zápisy ze schůzek (některé Zoom boty běží na Whisperu), žurnalistické workflow apod., protože nabízí vysokou přesnost bez plateb za minutu.
  • Titulky pro YouTube/videa: Tvořitelé obsahu používají Whisper k automatickému generování titulků (i vícejazyčných). Jsou nástroje, do kterých vložíte video a Whisper vygeneruje srt titulky.
  • Výuka jazyků a překlad: Překladový mód Whisperu se používá k získání anglického textu z cizojazyčné řeči, což pomáhá s překladovými titulky i výuce cizích jazyků na základě cizojazyčných nahrávek.
  • Přístupnost: Vývojáři implementují Whisper do aplikací pro reálný přepis pro osoby se sluchovým postižením (např. mobilní appka, která poslouchá konverzaci a zobrazuje titulky v reálném čase díky Whisperu přímo na zařízení).
  • Hlasové rozhraní a analýzy: Některé hobby projekty hlasových asistentů používají Whisper offline pro převod řeči na text kvůli ochraně soukromí. Firmy také mohou využívat Whisper pro přepis nahrávek z call center (i když zde často sáhnou po komerčních API kvůli podpoře).
  • Akademický a lingvistický výzkum: Protože je open-source, výzkumníci využívají Whisper pro přepis terénních nahrávek v různých jazycích i jejich studium. Díky podpoře méně rozšířených jazyků je cenný i pro dokumentaci jazyků.
  • Osobní produktivita: Technologicky zdatní uživatelé využívají Whisper lokálně k diktátu poznámek (není tak propracované jako Dragon pro interaktivní diktování, ale některým stačí), nebo k automatickému přepisu hlasových poznámek.

Cenový model: Whisper je zdarma pro vlastní hostování (platíte jen výpočetní náklady). Whisper API od OpenAI (pro ty, kdo jej nechtějí provozovat sami) je extrémně levné: 0,006 USD za minutu zpracovaného audia deepgram.com. To je zhruba 1/10 nebo i méně oproti běžným cloudovým STT API, což je velmi atraktivní z hlediska nákladů. Nízká cena je možná, protože model OpenAI je fixní a běží pravděpodobně ve velkém škálování optimalizovaně. Zákazníci tedy buď používají otevřený model na vlastní infrastruktuře (bez licenčních poplatků), nebo volají OpenAI API za 0,006 USD/min, což je v podstatě nejlevnější (Google je 0,024 USD/min atd.). Služba OpenAI ale nenabízí žádnou customizaci, pouze základní surový Whisper.

Silné stránky:

  • Špičková přesnost na široké škále úkolů a jazyků „out-of-the-box“ deepgram.com zilliz.com. Obzvlášť silný v rozpoznávání angličtiny s přízvukem a mnoha neanglických jazyků, kde dříve bylo nutné použít méně kvalitní službu pro daný jazyk.
  • Multilingvní a multitaskní: Jediný model pro všechny jazyky, včetně překladu – velká flexibilita.
  • Otevřenost & komunitní vývoj: Podporuje inovaci; existují např. fork projekty, které běží rychleji, nebo mají alternativní dekódování pro lepší zachování interpunkce apod.
  • Nákladová efektivita: V podstatě zdarma, pokud máte hardware, API je velmi levné – vhodné i pro velkoobjemové projekty.
  • Soukromí a offline provoz: Uživatelé mohou Whisper provozovat lokálně na vlastních serverech pro citlivá data (např. nemocnice mohou interně přepisovat záznamy bez nutnosti je posílat do cloudu). To je obrovská výhoda v některých oborech, podobná tomu, co předtím uměly jen on-prem modely IBM či Nuance.
  • Integrace: Mnoho nástrojů pro práci se zvukem přidalo rychle podporu Whisperu (např. ffmpeg má nyní filtr pro jeho spuštění). Díky popularitě existuje spoustu wrapperů (WebWhisper, Whisper.cpp pro C++ nasazení atd.), takže je snadné jej připojit.
  • Průběžná vylepšení komunitou: Zatímco verze OpenAI je statická, ostatní jej dolaďují nebo rozšiřují. OpenAI může časem vydat vylepšené verze (proslýchá se o Whisper v3 či integraci s novou multimodální platformou).

Slabé stránky:

  • Žádná vestavěná customizace pro specifickou terminologii: Oproti některým cloudovým službám či Dragonu nelze Whisper naučit slovník nebo mu vnutit určitou slovní zásobu. Pro velmi odborné termíny (např. chemické názvy) jej mohou čekat chyby, pokud je neviděl v tréninku. Jemné doladění je ale možné, pokud máte potřebná data i znalosti.
  • Náročnost na zdroje: Pro reálný čas velkého modelu potřebujete slušnou GPU. Na CPU je pomalejší (malé modely zvládnou reálný čas na CPU za cenu nižší kvality). API OpenAI tento problém řeší cloudovým výpočtem, ale při vlastním provozování ve velkém počítejte s potřebou GPU.
  • Latence: Whisper zpracovává zvuk po blocích a má obvykle malou prodlevu před odesláním prvního textu (~2 s), protože čeká na celý blok. Pro reálný čas (živé titulky) to znamená asi 2 s zpoždění, což je často akceptovatelné, ale není tak nízké jako u streamovacích systémů typu Google (který začíná výstup do 300 ms). Komunitní snahy o „streaming Whisper“ už jsou, ale nejsou triviální.
  • Angličtina převažuje v trénovacích datech: Ačkoli je vícejazyčný, cca 2/3 trénovacího korpusu tvořila angličtina. Pořád si vede skvěle i v mnoha jiných jazycích (hlavně španělština, francouzština apod.), ale jazyky s méně daty mohou být méně přesné nebo ve sporných případech upřednostnit angličtinu. Například u velmi vzácných jazyků či masivního code-mixu někdy mylně identifikuje jazyk (anebo vkládá anglický překlad či transliteraci, když si není jistý).
  • Bez rozpoznání mluvčích (diarizace): Whisper přepisuje řeč, ale neoznačuje jednotlivé mluvčí. Pokud potřebujete „Mluvčí 1 / Mluvčí 2“, je nutné dodatečně použít externí metodu pro identifikaci mluvčích. Cloudové STT to často zvládají sami.
  • Žádná oficiální podpora: Jako open model nemá žádnou oficiální podporu v případě problémů (pouze API OpenAI je jako produkt podporováno, open model ne).
  • Podivnosti ve výstupním formátu: Whisper někdy vkládá speciální tokeny typu „[Music]“ nebo interpunkci, ale nemusí vždy dodržet požadovaný formát (celkově to zvládá dobře, ale třeba ne vždy přidá otazník). Takže je často vhodné trochu výsledky upravit či model vhodně „promptovat“.
  • Navíc OpenAI API má nyní limit velikosti souboru asi 25 MB, takže delší záznamy musíte rozdělit na části.

Aktuální novinky (2024–2025):

  • I když samotný model Whisper (v2 large) nebyl OpenAI veřejně aktualizován od roku 2022, byla OpenAI Whisper API spuštěna začátkem 2023, což velmi usnadnilo a zlevnilo jeho použití deepgram.com. To dostalo sílu Whisperu do rukou mnoha vývojářů.
  • Komunita vytvořila Whisper.cpp, C++ port, který běží kvantizovaně i na CPU (dokonce na mobilech). Do roku 2024 je tak možné provozovat menší modely v reálném čase na smartphonu – některé mobilní aplikace tak fungují plně offline.
  • Objevily se výzkumné projekty, které Whisper dolaďují pro specializovaná zadání (např. lékařský přepis), byť to zatím není široce publikováno a jde spíše o práci startupů.
  • OpenAI údajně pracuje na nové generaci modelů pro řeč, možná integrujících techniky z GPT (v některých článcích je naznačeno i uvažované multimodální zpracování kombinující řeč a text). Pokud se objeví, může předčít Whisper, ale k polovině roku 2025 zůstává hlavním ASR modelem od OpenAI.
  • Co se týče adopce, do roku 2025 většina open-source projektů (Mozilla nástroje, komunita Kaldi apod.) přešla k Whisperu jako základu pro vysokou přesnost. Tím se stal v zásadě standardem.
  • Významný vývoj: Meta MMS (Massive Multilingual Speech) projekt (léto 2023) rozšířil tuto koncepci uvolněním modelů pro 1100+ jazyků (ASR, i když pro hlavní jazyky není tak přesný jako Whisper). Tato konkurence zvýšila zájem o multilingvní řeč – Whisper však stále dominuje kvalitou a je možné, že OpenAI odpoví modely s větším jazykovým pokrytím v budoucí verzi, nebo se s vývojem sladí.
  • Shrnuto, „novinkou“ je, že Whisper se stal extrémně rozšířeným, vylepšován je hlavně v rychlosti a způsobu nasazení, ne v samotném jádře. I v roce 2025 je stále nejlepší volbou pro hlasový přepis do aplikací díky kvalitě, podpoře jazyků a nákladům.

Oficiální zdroje: OpenAI Whisper GitHub zilliz.com zilliz.com; dokumentace OpenAI Whisper API (web OpenAI) zilliz.com. (Neexistuje jedna „produktová stránka“, jde o model, ale výše odkazované GitHub/Glossary dávají oficiální informace).

7. Deepgram (Speech-to-Text API & Platform) – Deepgram

Přehled: Deepgram je vývojářsky orientovaná platforma pro převod řeči na text, která nabízí rychlou a vysoce přesnou transkripci prostřednictvím sady AI modelů a robustních API. Deepgram se odlišuje díky důrazu na přizpůsobení, rychlost a úspornost pro podnikové aplikace. Od svého založení v roce 2015 si vyvinul vlastní deep learning modely pro rozpoznávání řeči (nevychází tedy z velkých technologií) a vydobyl si místo zejména mezi call centry, firmami analyzujícími hlas a technologickými společnostmi požadujícími velkoobjemové nebo realtime přepisy. V letech 2024–2025 je Deepgram často zmiňován jako hlavní alternativa k velkým cloudovým poskytovatelům pro STT, zejména po předvedení světové špičky přesnosti s nejnovějším modelem „Nova-2“ deepgram.com. Platforma nenabízí pouze hotové modely, ale také nástroje pro trénování vlastních řečových modelů na specifických datech vaší firmy (což jen málo cloudových API umožňuje samoobslužně). Deepgram lze nasadit v cloudu nebo on-premises, což ocení firmy s požadavky na flexibilitu.

Typ: Především převod řeči na text (transkripce). (Deepgram začal v roce 2025 beta nabídky Text-to-Speech a realtime Voice AI pipeline nástrojů deepgram.com deepgram.com, ale STT zůstává jádrem.)

Společnost/Vývojář: Deepgram, Inc. (nezávislý startup, od roku 2025 se však spekuluje jako o akvizičním cíli díky náskoku v STT technologii).

Schopnosti & cíloví uživatelé:

  • Reálný čas a dávková transkripce: API Deepgram umožňuje jak streamované přepisy zvuku s minimální latencí, tak dávkové zpracování audio souborů. Umí zpracovat velké objemy (propagují propustnost tisíců hodin zvuku zpracovaných rychle).
  • Vysoká přesnost & volba modelu: Nabízejí několik úrovní modelů (např. „Nova“ pro nejvyšší přesnost, „Base“ pro rychlé / méně náročné použití a někdy oborově specializované modely). Nejnovější Nova-2 model (uveden 2024) se pyšní o 30 % nižším WER než konkurence a exceluje v přesnosti realtime deepgram.com deepgram.com.
  • Přizpůsobení: Hlavní lákadlo – zákazníci mohou nahrát označená data pro trénink vlastních Deepgram modelů napasovaných na specifickou slovní zásobu (např. produktové názvy, unikátní fráze). Toto doladění umí mnohem zvýšit přesnost v daném oboru klienta.
  • Podpora více jazyků: Deepgram podporuje transkripci ve více jazycích (ke 2025 přes 30 jazyků včetně angličtiny, španělštiny, francouzštiny, němčiny, japonštiny, mandarínštiny atd.). Největší síla je v angličtině, ale rozšiřují i další.
  • Odolnost vůči šumu & audio formáty: Deepgram původně zpracovával audio přes předzpracovací pipeline, která zvládá různou kvalitu zvuku (telefonáty apod.). Přijímá mnoho formátů (populární kodeky jako MP3, WAV i realtime RTP streamy).
  • Funkce: Na požádání poskytuje diarizaci (označení mluvčích), interpunkci, rozpoznávání velikosti písmen, filtrování vulgarismů a dokonce detekci entit (jako rozpoznání čísel, měn ve zvuku). Mají i funkci na detekci klíčových slov nebo NLP nad přepisy přes jejich API pipeline.
  • Rychlost: Deepgram je známý velmi rychlým zpracováním – díky architektuře od základu v CUDA (už od začátku využívali GPU). Tvrdí, že audio na GPU zpracují rychleji než v reálném čase, i s velkými modely.
  • Škálovatelnost & nasazení: K dispozici jako cloudové API (s enterprise SLA) a také on-premises nebo v privátním cloudu (mají kontejnerovou verzi). Důraz na škálovatelnost pro podnikovou úroveň, dashboardy a analytiku využití pro klienty.
  • Use Case scénáře: Cíloví uživatelé jsou např. call centra (přepis a analýza hovorů), softwarové firmy přidávající hlasové funkce, mediální společnosti přepisující zvukové archivy a AI firmy potřebující základní STT pro tvorbu hlasových produktů. Například call centrum může použít Deepgram pro současný přepis tisíců hovorů a jejich následnou analýzu na sentiment či dodržení pravidel. Vývojáři oceňují jednoduché API a detailní dokumentaci.

Klíčové funkce:

  • Jednoduchost API: Jeden API endpoint zvládne audio soubor i stream s různými parametry (jazyk, model, interpunkce, diarizace aj.). Dostupná SDK pro populární jazyky (Python, Node, Java aj.).
  • Zvýraznění specifických klíčových slov: Můžete zadat konkrétní klíčová slova pro zvýšení šance správného rozpoznání (pokud netrénujete vlastní model, je to rychlá cesta ke zvýšení přesnosti na klíčové termíny).
  • Jednotnost dávka vs stream: Prakticky stejné API, mají také koncept pre-recorded vs live endpointů optimalizovaných dle použití.
  • Zabezpečení: Deepgram nabízí on-prem nasazení a po zpracování standardně audio neukládá (pokud si to klient výslovně nezvolí). Kritické hlavně pro finanční a medicínské zákazníky.
  • Realtime asistenční funkce: Přes API nebo připravované „Voice Assistant API“ deepgram.com umožňují scénáře jako realtime přepis + shrnutí pro agentní hovory (zdůrazňují použití v call centrech: pipeline STT -> analýza -> zasílání odpovědí).
  • Přesnost: Veřejně benchmarkovali Nova-2 např. s 8,4% medián WER v různých doménách, překonávající konkurenci (nejbližší kolem ~12 % deepgram.com), konkrétně o 36 % lepší než Whisper-large deepgram.com – pokud vám tedy záleží na každém bodu přesnosti, Deepgram vede.
  • Úspornost: Často zdůrazňují, že provoz na GPU s jejich modelem je nákladově efektivnější, a jejich cenování (viz dále) může být ve velkém objemu nižší než u některých konkurentů.
  • Podpora & monitoring: Podnikové funkce jako detailní logování, prohledávání přepisů i monitoring přes jejich konzoli.

Podporované jazyky: Deepgram se primárně zaměřuje na angličtinu (US a varianty), ale ke 2025 podporuje 20-30+ jazyků nativně, včetně hlavních evropských jazyků, japonštiny, korejštiny, mandarínštiny, hindštiny atd. Neustále rozšiřují podporu, ale na 100 jazyků jako např. Whisper ještě nemají (počtem podporovaných jazyků méně). U podporovaných jazyků umožní vlastní trénování modelu (pokud jazyk není podporovaný, lze jej poptávat, nebo použít základní multijazykový model, je-li dostupný). Nova model může být aktuálně pouze v angličtině (nejvyšší přesnost platí často pro EN a někdy španělštinu). Umí i dialekty angličtiny (můžete specifikovat britskou vs americkou angličtinu kvůli pravopisným rozdílům).

Technické pozadí: Deepgram využívá end-to-end deep learning model, historicky stavěli na samostatném výzkumu – pravděpodobně pokročilé varianty konvolučních/rekurentních sítí nebo Transformerů. Nova-2 je přímo popsána jako „Transformer-based architektura s optimalizací pro řeč“ deepgram.com. Uvádějí, že Nova-2 byla trénována na 47 miliardách tokenů a 6 milionech zdrojů deepgram.com, což je obrovské množství a znamená velkou diverzitu dat. Tvrdí, že Nova-2 je „nejlépe natrénovaný ASR model na trhu“ deepgram.com. Klíčová technická vylepšení:

  • Vylepšili rozpoznávání entit, práci s kontextem atd. pomocí vylepšení architektury deepgram.com.
  • Zaměření na streaming – modely umí rychle vydávat dílčí výsledky, pravděpodobně používají blokovou synchronní dekódovací architekturu.
  • Optimalizace pro GPU: Od začátku jedou na GPU, mnoho kódu v CUDA C++ pro inference, vysoká propustnost.
  • Vlastní modely nejspíš používají transfer learning – doladění základního modelu na datech klienta. Poskytují k tomu vlastní nástroje, nebo trénují pro vás dle plánu.
  • Balancují rychlost/přesnost s více velikostmi modelů: dříve např. „Enhanced“ vs „Standard model“. Nova-2 je možná sjednocený top-tier, menší rychlé modely nabízejí zvlášť.
  • Zajímavost: Deepgram koupil nebo vytvořil audio dataset napříč mnoha obory (v blogu uvádějí trénink na „všechny typy hovorů, meetingů, videí apod.“). Výsledky v doménové adaptaci např. speciální modely pro call centra (trénované na call datech).
  • Používali 2-fázovou architekturu v dřívějších modelech, Nova-2 je zřejmě unifikovaná síť.
  • Pravděpodobně aplikují i knowledge distillation pro zmenšování modelů (mají i menší verze).
  • Používají také kontextové upřednostnění (hintování modelu očekávanými slovy, podobně jako hints).
  • Po vydání Nova-2 zveřejnili srovnání: Nova-2 má medián WER 8,4 % oproti Whisper large 13,2 % atd., dosaženo tréninkem a vylepšením architektury deepgram.com deepgram.com.

Use Case scénáře (příklady nad rámec výše zmíněného):

  • Živý přepis v call centru: Firma využívá Deepgram k okamžitému přepisu hovorů se zákazníky, na základě kterých se agentům automaticky zobrazují relevantní informace, nebo se text analyzuje po hovoru pro účely compliance.
  • SaaS pro přepis schůzek: Nástroje jako Fireflies.ai nebo alternativy typu Otter.ai mohou používat Deepgram v backendu pro živé poznámky ze schůzek a jejich shrnutí.
  • Hlasové vyhledávání v aplikacích: Pokud aplikace přidá funkci hlasového vyhledávání nebo ovládání, může využít Deepgram STT pro převod dotazu na text (někteří si ho volí kvůli rychlosti nebo ochraně soukromí).
  • Média & zábava: Postprodukční studio může posílat velké množství zvukových stop záběrů do Deepgram pro generování přepisů – pro tvorbu titulků nebo zajištění prohledávatelnosti obsahu.
  • IoT zařízení: Některá chytrá zařízení mohou využívat Deepgram na zařízení (edge nasazení) nebo přes cloud s nízkou latencí pro přepis hlasových příkazů.
  • Vývojářské nástroje: Deepgram je integrován do no-code platforem nebo datových nástrojů pro snadné zpracování zvuku; například datová pipeline pro zpracování nahrávek hovorů využívá Deepgram k jejich převodu na text pro další analýzu.

Cenový model: Ceny Deepgram jsou založené na použití, s bezplatnými kredity na začátek (např. $200 na nový účet). Poté:

  • Mají tarify: např. bezplatný tarif může umožnit určité množství minut měsíčně, poté placený tarif kolem $1.25 za hodinu pro standardní model (tj. $0.0208 za minutu) a možná $2.50/hod pro Nova (čísla ilustrativní; např. blog Telnyx uvádí Deepgram od zdarma až po $10k/rok pro enterprise, což implikuje individuální nabídky).
  • Nabízejí také commit plány: zaplaťte předem určitou částku za nižší sazbu za minutu. Nebo paušální roční enterprise licenci.
  • V porovnání s velkými poskytovateli jsou často konkurenceschopní nebo levnější ve velkém objemu; vyšší přesnost znamená méně manuálního opravování, což je relevantní náklad ve službách typu BPO.
  • Trénování vlastního modelu může být za příplatek nebo vyžaduje enterprise plán.
  • Uvádějí, že interpunkce, diarizace apod. jsou zahrnuty bez příplatku.

Silné stránky:

  • Špičková přesnost s Nova-2 – patří k nejlepším na poli rozpoznání anglické řeči deepgram.com deepgram.com.
  • Přizpůsobitelná AI – nejde jen o černou skříňku; lze ji přizpůsobit konkrétnímu oboru, což je zásadní pro enterprise (změnit „dobrou“ přesnost na „výbornou“ pro konkrétní použití).
  • Reálný provoz v reálném čase – Deepgram umí real-time streaming s nízkou latencí a efektivitou, vhodné pro živé scénáře (některá cloudová API mají potíže při vysokém provozu v reálném čase; Deepgram byl pro toto postaven).
  • Flexibilní nasazení – cloud, on-premise, hybrid; splňují požadavky firem a související ochranu dat podle potřeb.
  • Cena a škálování – Často jsou levnější při vysokých objemech a zvládnou i extrémně velké workloady (uvádějí příklady přepisu desítek tisíc hodin měsíčně).
  • Zkušenost pro vývojáře – API a dokumentace jsou chválené; zaměřují se výhradně na řeč a poskytují dobrou podporu a expertízu. Usnadňuje třeba custom keyword boosting, vícejazyčnost v jednom API atd.
  • Zaměření na enterprise potřeby – funkce jako detekce sentimentu, sumarizace (přidávají i voice AI vlastnosti nad rámec STT), detailní analytika – vše cílené na business insighty z hlasu.
  • Podpora a partnerství – Integrace s platformami typu Zoom, technologická partnerství (například některé telekomunikace umožňují napojení Deepgramu přímo na streaming audia z hovorů).
  • Zabezpečení – Deepgram splňuje SOC2 atd.; a ti, kdo chtějí ještě větší kontrolu, mohou provozovat on-prem.

Slabé stránky:

  • Nižší povědomí o značce ve srovnání s Google/AWS; konzervativní firmy mohou váhat s menším dodavatelem (i když třeba Nuance s podílem Microsoftu je podobný případ, Deepgram je samostatný).
  • Pokrytí jazyků je užší než u světových gigantů – pokud potřebujete přepis pro jazyk, který Deepgram ještě nepodporuje, musíte se poptat/vyjednat nebo použít jiný engine.
  • Šíře funkcí – Zaměřují se čistě na STT (s některými ML rozšířeními). Nenabízí TTS ani kompletní konverzační řešení (nově je zde voice bot API, ale nemají platformu typu Google Contact Center AI nebo Watson Assistant). Pokud klient chce vše-v-jednom, Deepgram zvládne pouze přepis.
  • DIY přizpůsobení – Přizpůsobení je silnou stránkou, ale klient musí mít vlastní data a případně ML know-how (Deepgram se snaží proces co nejvíce usnadnit). Není to tak plug&play jako použití generického modelu – ale je to daň za vyšší přesnost.
  • Aktualizace – Menší firma může aktualizovat modely méně často než Google apod. (naposledy to změnili s Nova-2). Potenciálně – jakýkoli výpadek nebo limity služby mohou mít menší globální redundanci než velký cloud (zatím je Deepgram spolehlivý).
  • Při nasazení on-premise musí klient sám spravovat deployment na GPU, což může být složitější (ale řadě zákazníků se ta kontrola líbí).
  • Srovnání s open source – Někteří zvolí např. Whisper (zdarma), pokud je ultra citlivost na cenu a nižší přesnost nevadí; Deepgram musí hodnotu ospravedlnit vyšší přesností a podporou enterprise.

Novinky (2024–2025):

  • Hlavní novinka: Vydání modelu Nova-2 na konci 2024, výrazné zlepšení přesnosti (o 18 % lepší než předchozí Nova, uvádí výrazný náskok vůči konkurenci) deepgram.com deepgram.com. Drží si tím technologický náskok. Sdíleli podrobné benchmarky a whitepapery.
  • Deepgram v roce 2025 spustil Voice Agent API (beta) deepgram.com pro budování AI agentů v reálném čase – možnost nejen přepisovat, ale analyzovat a odpovídat (pravděpodobně s využitím LLM pro porozumění, plus TTS pro odpověď). Znamená to posun směrem ke komplexním AI konverzacím (přímá konkurence v oblasti contact center AI).
  • Rozšířili jazykovou podporu (přibyly další evropské a asijské jazyky v roce 2024).
  • Přidali funkce sumarizace: např. v roce 2024 byl představen volitelný modul pro AI generované shrnutí hovoru po přepisu. Využívá nad přepisy LLM obdobně jako sumarizace v Azure.
  • Vylepšené bezpečnostní funkce: v roce 2024 Deepgram splnil přísnější compliance (oznámen HIPAA compliance, čímž umožnil větší využití ve zdravotnictví).
  • Zlepšili vývojářskou zkušenost – např. vydání nového Node SDK v2, CLI nástroje pro přepis a lepších webových dokumentací.
  • Snížili latenci v reálném čase vylepšením streamovacích protokolů – uvádějí latenci pod 300 ms pro dílčí přepisy.
  • Možná bylo spuštěno partnerství s telekomunikačními poskytovateli (např. integrace s Twilio atd.) pro snadný přepis PSTN hovorů přes API Deepgram.
  • Účast na otevřených evaluacích; např. v ASR challenge se Deepgram pravidelně účastní – transparentnost výsledků.
  • Obchodně: Deepgram získal další investici (Series C v roce 2023), což značí stabilitu i možnost dalšího rozvoje.

Oficiální web: Deepgram Speech-to-Text API telnyx.com deepgram.com (produkty a dokumentace na oficiálních stránkách Deepgram).

8. Speechmatics (Any-context STT Engine) – Speechmatics Ltd.

Přehled: Speechmatics je přední engine pro převod řeči na text známý důrazem na pochopení „každého hlasu“ – tedy klade důraz na přesnost napříč různými akcenty, dialekty a demografickými skupinami mluvčích. Společnost sídlící ve Velké Británii získala reputaci už v 10. letech 21. století svým self-service STT API a on-premise řešeními, často překonávajícími velké hráče v náročných akcentových nebo audio scénářích. Technologie čerpá z pokročilého strojového učení a průlomu v self-supervised learningu, který umožnil trénink na obrovském množství nelabelovaných nahrávek pro zvýšení férovosti rozpoznávání speechmatics.com speechmatics.com. Do roku 2025 Speechmatics nabízí STT v několika formách: cloud API, nasaditelné kontejnery i OEM integrace (jejich engine v dalších produktech). Pokrývají využití od mediálního titulkování (živé vysílání) po analýzu hovorů a jejich nejnovější inovace „Flow“ API spojuje STT, převod textu na řeč a LLM pro hlasové interakce audioxpress.com audioxpress.com. Jsou známí přesností přepisů bez ohledu na přízvuk nebo věk mluvčího a tvrdí, že překonávají konkurenci zejména v odbourávání biasu (například u afroamerických hlasů či dětských hlasů dosahují podstatně lepších výsledků než konkurence) speechmatics.com speechmatics.com.

Typ: Převod řeči na text (ASR) s nově vznikajícími multimodálními hlasovými interakčními řešeními (Speechmatics Flow).

Společnost/Vývojář: Speechmatics Ltd. (Cambridge, Velká Británie). Nezávislá firma, avšak s partnerstvími napříč vysílacím a AI průmyslem.

Schopnosti & Cíloví uživatelé:

  • Univerzální STT engine: Jedním z hlavních benefitů Speechmatics je jeden engine, který dobře funguje pro „každého mluvčího, každý přízvuk, každý dialekt“ v podporovaných jazycích. To oslovuje globální firmy a vysílatele, kteří pracují s mluvčími z celého světa (například BBC, která využívá Speechmatics pro titulkování).
  • Transkripce v reálném čase: Jejich systém dokáže přepisovat živé přenosy s nízkou latencí, což je vhodné pro živé titulkování akcí, vysílání a hovorů.
  • Dávková transkripce: Vysoce výkonné zpracování předem nahraného audia/videa s průmyslově špičkovou přesností. Často využíváno pro archivaci videí, generování titulků či přepisů.
  • Vícejazyčná podpora: Rozpoznává více než 30 jazyků (včetně variant angličtiny, španelštiny, francouzštiny, japonštiny, mandarínské čínštiny, arabštiny atd.) a zvládne i code-switching (systém rozpozná, když mluvčí během konverzace přepne jazyk) docs.speechmatics.com. Podporují také automatickou detekci jazyka.
  • Vlastní slovník (Custom Words): Uživatelé mohou zadat konkrétní názvy nebo žargon pro prioritizaci (například aby engine správně vyhláskoval neobvyklá vlastní jména).
  • Flexibilní nasazení: Speechmatics může běžet v cloudu (mají SaaS platformu) nebo plně on-premise skrze Docker kontejner, což je výhodné pro citlivé prostředí. Mnoho vysílatelů provozuje Speechmatics ve svých datových centrech kvůli živým titulkům bez závislosti na internetu.
  • Přesnost v hlučném prostředí: Mají silnou robustnost vůči šumu, volitelné formátování entit (data, čísla) a funkce jako diarizace mluvčího pro rozlišení více mluvčích.
  • Cíloví uživatelé: Mediální společnosti (TV stanice, video platformy), kontaktní centra (pro přepis hovorů), podnikové transkripční řešení, dodavatelé softwaru potřebující STT (Speechmatics často licencuje svou technologii dalším poskytovatelům—OEM vztahy), státní správa (přepisy zasedání parlamentu či městských rad) a AI dodavatelé zaměřující se na nebiasovanou ASR.
  • Speechmatics Flow (2024): Kombinuje jejich STT s TTS a LLM integrací za účelem tvorby hlasových asistentů, kteří dokáží poslouchat, rozumět (pomocí LLM) a odpovídat syntetizovanou řečí audioxpress.com audioxpress.com. To ukazuje orientaci na interaktivní hlasová AI řešení (například voiceboty, kteří opravdu rozumí různým přízvukům).

Klíčové vlastnosti:

  • Přesné rozpoznání přízvuků: Podle jejich bias testování dramaticky snížili rozdíly v chybovosti mezi různými skupinami přízvuků trénováním na obrovském množství neoznačených dat speechmatics.com speechmatics.com. Například chybovost u afroamerických hlasů byla vylepšena cca o 45 % ve srovnání s konkurencí speechmatics.com.
  • Rozpoznání dětské řeči: Zvláštní zmínka o lepších výsledcích u dětských hlasů (které bývají pro ASR problémové) – 91,8% přesnost vs cca 83% pro Google v testu speechmatics.com.
  • Samořídicí model (AutoML): Jejich „Autonomous Speech Recognition“ představený okolo roku 2021 využívá 1,1 milionu hodin zvukového tréninku s použitím self-supervised learning speechmatics.com. Tento masivní trénovací přístup zlepšil pochopení rozmanitých hlasů tam, kde bylo málo označených dat.
  • Neuronové modely: Kompletně na neuronových sítích (přešli z dřívějších hybridních modelů na end-to-end neuronové kolem konce 2010s).
  • API & SDK: K dispozici REST a websocket API pro živé i dávkové nasazení. Také SDK s usnadněním integrace. Výstupem je detailní JSON včetně slov, časování, důvěryhodnosti apod.
  • Funkce jako entity: Umí chytré formátování (např. výstup „£50“, když někdo řekne „padesát liber“) a umí označit entity.
  • Pokrytí jazyků: ~34 jazyků ve vysoké kvalitě v roce 2025, včetně některých, které jiní dobře nepokrývají (například velština, kterou využívá BBC Wales).
  • Průběžné aktualizace: Pravidelně vydávají release notes s vylepšeními (viz jejich dokumentace: např. vylepšení přesnosti mandarínštiny o 5 % v jedné aktualizaci docs.speechmatics.com, nebo přidání nových jazyků jako maltština apod.).
  • Specifika Flow: Flow API umožňuje vývojářům snadno kombinovat výstup STT s LLM uvažováním a TTS výstupem, cílí tedy na novou generaci hlasových asistentů audioxpress.com audioxpress.com. Například uživatel pošle audio a dostane hlasovou odpověď (odpověď navržená LLM, přečtená pomocí TTS) – Speechmatics zde poskytuje lepidlo pro reálnou interakci v reálném čase.

Podporované jazyky: Aktivně podporováno ~30–35 jazyků (angličtina, španělština, francouzština, němčina, portugalština, italština, nizozemština, ruština, čínština, japonština, korejština, hindština, arabština, turečtina, polština, švédština atd.). Zdůrazňují pokrytí „globálních“ jazyků a uvádějí možnost přidat další na vyžádání docs.speechmatics.com. Mají také bilingvní režim pro španělštinu/angličtinu, který dokáže přepisovat smíšenou anglicko-španělskou řeč plynule docs.speechmatics.com. V poznámkách: nové jazyky jako irština a maltština přibyly v roce 2024 docs.speechmatics.com, což ukazuje, že umí vyhovět i menším jazykům, pokud je poptávka. Pyšní se pokrytím přízvuků uvnitř jazyků, např. jejich anglický model je jeden globální pokrývající US, UK, indické, australské a africké přízvuky komplexně bez nutnosti oddělených modelů.

Technické základy:

  • Samořízené učení: Používají techniky podobné Facebook wav2vec 2.0 (pravděpodobně mají vlastní variantu), aby využili obrovské množství neoznačeného audia (například YouTube, podcasty) pro pre-trénink akustických reprezentací, poté jemně dolaďují na transkribovaných datech. To jim přineslo výrazné zlepšení pokrytí přízvuků/dialektů dle zpráv z roku 2021 speechmatics.com.
  • Neuronová architektura: Pravděpodobně kombinace CNN pro extrakci příznaků a Transformerů pro modelování sekvencí (většina moderního ASR nyní využívá Conformer nebo podobné architektury). Významný update modelu nazvali „Ursa“ v release notes docs.speechmatics.com, který přinesl plošný nárůst přesnosti napříč jazyky – pravděpodobně nová velká architektura (Conformer nebo Transducer).
  • Velikosti modelů: Veřejně neoznačují detaily, ale pro on-prem mají varianty (např. „standard“ vs „enhanced“ modely). Vždy uvádějí „nízkou latenci“, takže pravděpodobně používají architekturu vhodnou pro streamování (například Transducer nebo CTC model pro inkrementální výstup).
  • Přístup k bias a férovosti: Trénováním na neoznačených rozmanitých datech se model inherentně naučil mnoho variant řeči. Pravděpodobně prováděli i pečlivé vážení – publikované výsledky snížení bias naznačují cílenou snahu zajistit stejnou přesnost pro různé skupiny mluvčích.
  • Průběžné učení: Možná zahrnují opravy od zákazníků jako volitelnou zpětnou vazbu pro vylepšení (není jisté, zda přímo dostupné zákazníkům, ale pravděpodobně interně ano).
  • Hardware a efektivita: Umí běžet na standardních CPU (mnozí zákazníci pro on-prem pravděpodobně využívají CPU clustery). Pravděpodobně však optimalizováno i pro GPU, pokud je potřeba. V některých kontextech zmiňují „nízkou náročnost“.
  • Technologie Flow API: Kombinuje jejich ASR s libovolným LLM (například OpenAI nebo jinými) a TTS partnerem – pravděpodobně tato architektura nejdříve použije STT pro text, zavolá vybraný LLM a výstup přečte pomocí TTS enginu (možná Amazon Polly nebo Azure, pokud nemají vlastní, jejich web ale zmiňuje možnost kombinovat s „preferovaným LLM“ a „preferovaným TTS“) audioxpress.com.

Možnosti využití:

  • Vysílání & média: Mnoho živých televizních přenosů ve Velké Británii využívá Speechmatics pro živé titulky v případě nedostupnosti lidských stenografů nebo pro jejich doplnění. Postprodukční studia jej také využívají k vytváření přepisů pro střih nebo zajištění souladu s předpisy.
  • Průzkum trhu & analytika: Společnosti analyzující zákaznické rozhovory nebo skupinové diskuze po celém světě používají Speechmatics pro přesný přepis obsahu z různých přízvuků (např. analýza sentimentu v mezinárodních fokusových skupinách).
  • Státní/veřejný sektor: Přepisy jednání městských rad či parlamentních zasedání (obzvláště v zemích s vícero úředními jazyky či silnými regionálními akcenty – zde Speechmatics vyniká).
  • Analýza call center: Podobné jako u konkurence, ale Speechmatics je oblíbený tam, kde mají agenti call centra nebo zákazníci silný přízvuk, který jiné systémy špatně přepisují. Také proto, že lze nasadit on-premise (což některé telekomy nebo banky v Evropě preferují).
  • Vzdělávání: Přepis nahrávek přednášek nebo poskytování titulků pro univerzitní obsah (obzvláště tam, kde mají přednášející či studenti rozmanité akcenty).
  • Poskytovatelé hlasových technologií: Některé společnosti integrovaly engine Speechmatics do svých řešení (jako white-label) díky jeho silné odolnosti vůči přízvukům, což jim dává výhodu pro globální uživatelskou základnu.
  • Titulkování uživatelského obsahu: Některé platformy umožňující uživatelům titulkovat svá videa mohou v pozadí využívat Speechmatics pro zvládnutí všech typů hlasů.

Cenový model:

  • Obvykle sestavují individuální nabídky pro firmy (zvláště pro on-premise licence – pravděpodobně jde o roční licenci závislou na objemu využití nebo počtu kanálů).
  • Pro cloudové API měly dříve zveřejněnou cenu cca 1,25 USD za hodinu či podobně, tedy konkurenceschopnou s ostatními. Možná kolem 0,02 USD/min. Může být požadován minimální měsíční odběr pro přímé firemní zákazníky.
  • Nabízí také zkušební verzi zdarma nebo 600 minut zdarma v rámci SaaS řešení v určitém období.
  • Zdůrazňují neomezené použití on-premise za paušál, což je pro velké uživatele atraktivní oproti platbě za minutu.
  • Zaměřují se na podniky, takže nejsou nejlevnější volbou při malém využití (někdo si na hraní raději vybere OpenAI Whisper). Pro profesionální použití ale jejich ceny odpovídají nebo jsou mírně pod úrovní Google/Microsoft při vysokém objemu, zejména při zohlednění poměru cena–kvalita.
  • Jejich Flow API může mít jiné ceny (snad podle interakcí či jinou, zatím není zcela jasné, protože je nové).
  • Na veřejnosti nyní žádné jednoduché ceníky nejsou (pravděpodobně přechod na model řízený obchodním oddělením), ale jsou známí rozumnými cenami a jednoduchým licencováním (což je klíčové např. pro vysílání, kde je potřeba předvídatelnost nákladů při 24/7 provozu).

Silné stránky:

  • Přesnost napříč přízvuky/dialekty: Špička v globální angličtině i vícejazyčné přesnosti s minimální zaujatostí speechmatics.com speechmatics.com. Toto „porozumění každému hlasu“ je podloženo daty a uznáváno v průmyslu – důležitý rozdíl, zvláště s rostoucím významem diverzity a inkluze.
  • Přátelské on-prem a privátní cloudové nasazení: Mnoho konkurentů tlačí jen cloud, Speechmatics umožňuje plnou kontrolu, což vyhrává zakázky v citlivých nebo na konektivitu náročných prostředích.
  • Firemní zaměření: Vysoký stupeň souladu s normami (pravděpodobně mají ISO certifikace speechmatics.com), robustní podpora, ochota řešit specifické požadavky (např. vývoj nového jazyka na zakázku nebo doladění).
  • Reálné titulkování v čase: Osvědčené při živých akcích a v TV, kde je nutná kombinace nízké latence a vysoké přesnosti.
  • Inovace a etos: Mají silný příběh v boji proti zaujatosti AI – lákavé pro firmy zaměřené na férovost. Jejich technologie přímo řeší běžnou výtku k ASR (že jí vybraní demografičtí uživatelé rozumí hůře než jiní).
  • Vícejazyčnost v jednom modelu: Podpora code-switchingu a často není nutné ručně vybírat akcenty či jazyky – model to rozpozná automaticky, což je velmi uživatelsky příjemné.
  • Stabilita a zkušenosti: Na trhu od poloviny 10. let, využíván velkými značkami (např. TED talks), takže je prověřen v praxi.
  • Překračování STT: Platforma Flow pro hlasové interakce ukazuje, že se chtějí rozvíjet i směrem k budoucnosti (tedy nejen přepis, ale plně duplexní hlasovou AI).

Slabé stránky:

  • Není tak známý mezi vývojáři jako někteří americkí hráči nebo open-source modely, což znamená menší komunitní podporu.
  • Nižší počet jazyků než Whisper nebo Google – pokud někdo potřebuje nízce rozšířené jazyky jako svahilština nebo tamilština, Speechmatics je nemusí pokrýt, pokud nejsou vyvinuty na míru.
  • Transparentnost cen: Jako firma zaměřená na podniky není ideální pro malé vývojáře, kteří oceňují samoobslužnost či levné hraní (např. OpenAI za 0,006 USD/min). Fokus je na kvalitě a byznysu, ne na nejnižší ceně.
  • Chyběla vestavěná jazyková analýza (do příchodu Flow) – hrubé přepisy vyžadují následné NLP pro získání poznatků; tradičně nenabízeli analýzu sentimentu či sumarizaci (to nechávali na zákazníky nebo partnery).
  • Konkurence velkých hráčů: Jak Google a Azure vylepšují přepisování přízvuků (a Whisper je zdarma), musí být Speechmatics stále o krok napřed, aby obhájil použití oproti rozšířenějším možnostem.
  • Nemá TTS ani jiné modality (zatím) – firmy hledající komplexní řešení mohou preferovat Azure, který nabízí STT, TTS, překladač atd., pokud Speechmatics neuzavře partnerství (Flow napovídá spíše partnerství pro TTS/LLM než vývoj vlastního řešení).
  • Škálování byznysu: jako menší firma může být otázkou, zvládnou-li globální objemy jako Google? Pravděpodobně toho zvládnou dost vzhledem ke klientům z vysílání, ale může být vnímána obava ohledně dlouhodobé podpory a udržitelnosti modelového vývoje, atd., jakožto nezávislého subjektu.

Novinky (2024–2025):

  • Speechmatics spustili Flow API v polovině roku 2024 audioxpress.com audioxpress.com, čímž výrazně rozšířili směrem k hlasové AI – v jedné pipeline kombinují STT + LLM + TTS. Otevřeli čekací listinu a zaměřili se na firemní hlasové asistenty, což ukazuje směřování ke konverzační AI integraci.
  • Přidali nové jazyky (irská gaelština a maltština v srpnu 2024) docs.speechmatics.com a dále zlepšovali modely (Ursa2 modely přinesly v srpnu 2024 výrazný nárůst přesnosti u mnoha jazyků docs.speechmatics.com).
  • Vylepšili diarizaci mluvčích a detekci více jazyků (např. lepší bilingvní přepis španělštiny a angličtiny na začátku 2024).
  • Důraz byl kladen na batch container aktualizace se zlepšenou přesností v řadě jazyků (poznámky k vydání ukazují ~5% nárůst v čínštině, zlepšení v arabštině, švédštině atd. v roce 2024) docs.speechmatics.com.
  • Pokračovali v boji proti zaujatosti a pro inkluzi: po svém průlomu v roce 2021 opět vylepšili modely s novými daty (možná v souladu s výzkumem z roku 2023). Možná představili aktualizovaný „Autonomous Speech Recognition 2.0“ s dalším zlepšením.
  • Účastnili se nebo byli citováni ve studiích Stanfordu nebo MIT o férovosti ASR, zdůrazňujíce svoji výkonnost.
  • Projevili zájem o integraci do větších platforem – možná navazují další partnerství (např. s Nvidia Riva nebo pro přepis v Zoomu – hypoteticky, ale podobné obchody mohou být uzavřeny nenápadně).
  • Z hlediska byznysu mohou v roce 2024 růst i na americkém trhu díky nové pobočce či partnerstvím, historicky byli silní zejména v Evropě.
  • V roce 2025 zůstávají nezávislí a inovativní, často vnímáni jako top ASR, pokud je klíčová nestranná přesnost.

Oficiální web: Speechmatics Speech-to-Text API audioxpress.com speechmatics.com (oficiální produktová stránka Speechmatics a zdroje).

9. ElevenLabs (Platforma pro generování a klonování hlasu) – ElevenLabs

Přehled: ElevenLabs je špičková platforma pro generování a klonování hlasu pomocí AI, která se dostala do popředí v roce 2023 díky svým neuvěřitelně realistickým a všestranným syntetickým hlasům. Specializuje se na Text-to-Speech (TTS), který dokáže vytvářet řeč s jemnými emocionálními nuancemi, a na Voice Cloning, které uživatelům umožňuje vytvořit si vlastní hlas (včetně klonování konkrétního hlasu se souhlasem) z malého vzorku zvuku. ElevenLabs nabízí jednoduché webové rozhraní i API, takže tvůrci obsahu, vydavatelé i vývojáři mohou generovat vysoce kvalitní řeč v mnoha hlasech a jazycích. V roce 2025 je ElevenLabs považována za jednu z nejlepších platforem pro ultra-realistický TTS, který je v mnoha případech téměř nerozeznatelný od lidské řeči zapier.com zapier.com. Platformu využívají autoři audioknih, tvůrci YouTube videí, tvůrci hlasů do počítačových her i pro nástroje zpřístupnění obsahu. Hlavní výhodou je míra projevnosti a přizpůsobení: uživatelé mohou nastavovat stabilitu a podobnost hlasu podle požadovaného emocionálního tónu zapier.com, a k dispozici je rozsáhlá knihovna předpřipravených hlasů i uživatelských klonů.

Typ: Text-to-Speech & Voice Cloning (s drobnou podporou převodu řeči na text pouze pro účely klonování, jinak jde hlavně o platformu pro výstup hlasu).

Společnost/vývojář: ElevenLabs (startup založený 2022, sídlo v USA/Polsko, oceněný na cca 1 mld. USD v roce 2023 zapier.com).

Schopnosti & cíloví uživatelé:

  • Ultra-realistický TTS: ElevenLabs dokáže generovat řeč s přirozenou intonací, tempem a emocí. Nezní roboticky; zachytí nuance jako smích, šepot či váhání, když je potřeba. Cíloví uživatelé: tvůrci obsahu (nahrávky videí, podcasty, audioknihy), vývojáři her (hlasy NPC), filmaři (prototypování dabingu), i jednotlivci pro zábavu či zpřístupnění obsahu (čtení článků nahlas vybraným hlasem).
  • Knihovna hlasů: V roce 2024 nabízí přes 300 předpřipravených hlasů v otevřené knihovně, včetně hlasů inspirovaných slavnými herci nebo stylem (licencované nebo přidané uživateli) zapier.com. Procházet lze podle stylu (např. vypravěčský, veselý, strašidelný apod.) a jazyků.
  • Klonování hlasu (vlastní hlasy): Uživatelé (se souhlasem) mohou vytvořit digitální kopii hlasu z několika minut zvukové nahrávky. Platforma poté vytvoří vlastní TTS hlas v daném zabarvení a stylu elevenlabs.io elevenlabs.io. Využívají to zejména tvůrci, kteří chtějí unikátní hlas vypravěče, nebo firmy pro lokalizaci hlasové značky.
  • Vícejazyčnost a cross-lingual: ElevenLabs podporuje generování řeči ve 30+ jazycích jakýmkoliv hlasem – například klonovaný anglický hlas lze nechat mluvit španělsky či japonsky při zachování jeho specifických rysů elevenlabs.io elevenlabs.io. Skvělé pro dabing do více jazyků se stejnou hlasovou identitou.
  • Ovládání emocí: Rozhraní/API umožňuje nastavovat parametry jako stabilita (konsistentnost vs. variabilita projevu), podobnost (jak přesně odpovídá originálnímu hlasu) zapier.com, i styl nebo akcent pomocí výběru hlasu. Lze tím vybrat, jestli má být řeč více expresivní či monotónní.
  • Reálný čas a nízká latence: V roce 2025 zrychlila platforma generování – zvuk lze vytvořit dostatečně rychle i pro některé aplikace v reálném čase (primárně je však asynchronní). Mají i model s nízkou latencí pro interaktivní scénáře (beta).
  • Platforma & API: Nabízejí webové studio pro ne-technické uživatele, kde lze zadat text, vybrat či upravit hlas a generovat zvuk. Pro vývojáře je k dispozici API a SDK. Nechybí ani model Eleven Multilingual v2 pro lepší neanglickou syntézu.
  • Nástroje pro publikování: Zaměřeno zejména na tvůrce audioknih – umožňuje zadávat dlouhé texty, udržet jednotnou hlasovou identitu napříč kapitolami apod. Uživatelé: autoři audioknih, vydavatelé lokalizující audioknihy, tvůrci videí i producenti obsahu pro sociální sítě.

Klíčové funkce:

  • Voice Lab & Library: Uživatelsky přívětivá „Voice Lab“ pro správu vlastních hlasů a knihovna hlasů pro vyhledávání podle kategorií (např. vypravěč, hrdinský, moderátor zpráv) zapier.com. Mnoho hlasů sdílí komunita (při zohlednění práv).
  • Modely s vysokou expresivitou: ElevenLabs uvedlo nový model (v3 na konci 2023 v alfa verzi), který dokáže lépe zachytit smích, změny tónu během věty, šepot apod. elevenlabs.io elevenlabs.io. V demo ukázkách zahrnuje dynamické emoce a dokonce i částečné zpívání.
  • Ovládání stability vs. variability: „Stability“ slider – vyšší stabilita znamená konzistentní tón (dobré pro dlouhé texty), nižší více dynamiky/emocí (např. pro dialogy postav) zapier.com.
  • Klonování se souhlasem a s ochranou: Pro klonování cizího hlasu vyžadují výslovný souhlas nebo ověření (zásady proti zneužití). Chcete-li klonovat vlastní hlas, musíte přečíst zadané fráze včetně souhlasného prohlášení (ověří jej).
  • Více hlasů & dialogy: Rozhraní umožňuje snadno vytvářet audio s více mluvčími (například různé hlasy pro odstavce nebo dialogy). Skvělé pro audio drama či simulaci konverzace.
  • Jazyky: V roce 2025 pokrývají hlavní evropské i některé asijské jazyky; uvádí 30+ (pravděpodobně angličtina, španělština, francouzština, němčina, italština, portugalština, polština, hindština, japonština, korejština, čínština atd.). Neustále je zlepšují – v3 zlepšuje přirozenost vícejazyčné syntézy.
  • Kvalita zvuku: Výstup má vysokou kvalitu (44,1 kHz), vhodnou i pro profesionální média. Na výběr jsou různé formáty (MP3, WAV).
  • API funkce: Můžete zvolit hlas podle ID, nastavovat parametry v každém požadavku, případně použít morphing hlasu (morphing stylu mezi dvěma hlasy).
  • *ElevenLabs má i menší STT (zavedli nástroj na přepisování pomocí modelu Whisper k lepšímu zarovnání dabingu), ale to není hlavní zaměření.

Podporované jazyky: 32+ jazyků pro generování TTS elevenlabs.io. Důležitá je funkce cross-lingual – není nutné vytvářet samostatný hlas pro každý jazyk, jeden hlas může mluvit všemi, byť s přízvukem podle originálu. Uvádí možnost in-language (např. klonovaný polský hlas může mluvit japonsky). Ne všechny hlasy fungují stejně dobře ve všech jazycích (některé jsou laděné hlavně na angličtinu, ale v3 model zlepšuje vícejazyčný trénink). Jazyky zahrnují hlavní světové i některé menší (např. nizozemština, švédština, možná arabština apod.). Komunita často sdílí postřehy o kvalitě v různých jazycích – do roku 2025 ElevenLabs významně zlepšil neanglické výstupy.

Technologické základy:

  • ElevenLabs využívá proprietární deep learning model, pravděpodobně kombinaci textového enkodéru na bázi Transformer a generativního audio dekodéru (vocoder), podobného jako VITS nebo Grad-TTS, ale výrazně optimalizovaného. Investují do výzkumu expresivity – možná používají techniky jako předtrénované hlasové enkodéry (např. Wav2Vec2) pro zachycení identity hlasu, a směsné či prompt-based metody pro styl.
  • Model v3 (Eleven v3) naznačuje novou architekturu, pravděpodobně kombinující vícejazyčný trénink a stylové tokeny pro emoce elevenlabs.io.
  • Zmiňují „průlomové AI algoritmy“ elevenlabs.io – pravděpodobně používají velké množství trénovacích dat (uvedli tréninky na tisících hodin včetně veřejně dostupných audioknih) a zaměřují se na multispeaker trénink, aby jeden model dokázal produkovat mnoho hlasů.
  • Systém se částečně podobá OpenAI TTS pro voice chat v ChatGPT: jde o jediný multi-voice model. ElevenLabs je v tomto na špičce.
  • Zavedli zero-shot klonování: z krátkého vzorku dokáže model vytvořit klon hlasu, pravděpodobně extrakcí voice embeddingu (např. d-vector) a jeho vložením do TTS modelu jako podmínku. Tak vznikají klony na počkání.
  • Pracují na emotivním ovlivnění – pravděpodobně pomocí stylových tokenů nebo více referenčních nahrávek (hlas s různými emocemi při tréninku).
  • Dále se zaměřují na rychlou syntézu: možná používají GPU akceleraci a efektivní vocodery, aby zvládli výstup téměř v reálném čase (možná se jedná o paralelní vocoder).
  • Výzvou je fonetické sjednocení cross-lingual – pravděpodobně používají IPA nebo jiný sjednocený fonémový prostor, aby model mohl v jednom hlasu správně vyslovovat vícejazyčně (uživatelské zkušenosti ukazují, že to zvládá dobře).
  • Propracovaný textový frontend: správná výslovnost jmen, homografů, rozpoznání kontextu (kvalitní výstup svědčí o robustním normalizačním systému a zřejmě o interním jazykovém modelu pro volbu správné výslovnosti podle kontextu).
  • ElevenLabs pravděpodobně využívá zpětnou vazbu od uživatelů: díky široké základně pravděpodobně shromažďují data o chybných výstupech a modely průběžně dolaďují (zvlášť u často opravovaných jevů).

Oblasti použití:

  • Nahrávání audioknih: Nezávislí autoři používají ElevenLabs k tvorbě audioknižních verzí bez nutnosti najímat hlasové herce, vyberou si vhodný hlas vypravěče z knihovny nebo naklonují svůj vlastní hlas. Nakladatelé lokalizují knihy tím, že naklonují hlas vypravěče do jiného jazyka.
  • Namluvení videí (YouTube, e-learning): Tvůrci rychle generují namluvení pro vysvětlovací videa nebo kurzy. Někteří to využívají k A/B testování různých stylů hlasu pro svůj obsah.
  • Vývoj her: Nezávislí vývojáři her to používají k tomu, aby dali hlasové repliky postavám NPC, vybírají pro každou postavu jiný hlas a generují dialogy, což znamená výraznou úsporu nákladů na nahrávky.
  • Dabing a lokalizace: Studio může nadabovat film nebo seriál do více jazyků pomocí klonu hlasu původního herce, který promlouvá těmito jazyky – zachová si tak původní hlasovou osobnost. ElevenLabs už využily některé fanouškovské projekty k tomu, aby původní herci „namluvili“ nové repliky.
  • Přístupnost a předčítání: Lidé to využívají ke čtení článků, e-mailů nebo PDF příjemným hlasem podle svého výběru. Zrakově hendikepovaní uživatelé těží z přirozenější syntézy řeči, takže je dlouhý poslech pohodlnější.
  • Prototypování hlasu: Reklamní agentury či filmaři prototypují voiceovery a reklamy s AI hlasy, aby získali souhlas klientů ještě před objednáním lidského nahrávání. Někdy je AI hlas natolik dobrý, že se použije i ve finální podobě u menších projektů.
  • Osobní klonování hlasu: Někteří lidé klonují hlasy starších příbuzných (se svolením), aby je zachovali, nebo klonují svůj hlas a delegují některé úkony (například nechají „svůj hlas“ číst své texty).
  • Interaktivní vyprávění příběhů: Aplikace nebo hry, které generují obsah za běhu, využívají ElevenLabs k namluvení dynamických replik (je třeba počítat s určitou latencí).
  • Hlasy pro call centra a virtuální asistenty: Firmy si mohou vytvořit výrazný vlastní hlas prostřednictvím klonování nebo zakázkové tvorby s ElevenLabs a použít ho ve svých IVR nebo virtuálních asistentech, aby byl unikátní a odrážel značku.
  • Efektivita tvorby obsahu: Autoři generují dialogy postav v audio podobě, aby zjistili, jak zní v provedení, což usnadňuje psaní scénářů.

Cenový model: ElevenLabs nabízí freemium a předplatitelský model:

  • Bezplatná úroveň: cca 10 minut vygenerovaného zvuku měsíčně na vyzkoušení zapier.com.
  • Starter tarif: 5 $/měsíc (nebo 50 $/rok) nabízí cca 30 minut měsíčně plus přístup ke klonování hlasu a základním právům na komerční použití zapier.com.
  • Vyšší tarify (např. Creator, Independent Publisher atd.) stojí více měsíčně a nabízejí větší využití (hodiny generování) a další funkce jako vyšší kvalita, více vlastních hlasů, priorita, případně přístup k API v závislosti na tarifu zapier.com zapier.com.
  • Enterprise: vlastní ceny pro velké objemy (neomezené tarify dle dohody atd.).
  • Ve srovnání s cloudovým TTS, které často účtuje za znak, ElevenLabs účtuje za délku výstupu. Např. 5 $ za 30 minut, což činí cca 0,17 $ za minutu, což je konkurenceschopné vzhledem ke kvalitě a zahrnutým právům.
  • Další minuty lze většinou dokoupit (nadlimitní nebo jednorázové balíčky).
  • Cenování zahrnuje využití hotových hlasů i klonování hlasu. Pokud klonujete cizí hlas z jejich knihovny, budete možná potřebovat doložit práva, atd., ale služba pravděpodobně zajišťuje zákonnost.
  • Mají API pro předplatitele (pravděpodobně od tarifu 5 $, ale s omezenou kvótou).
  • Celkově velmi přístupné jednotlivým tvůrcům (což přispělo k jeho rozšíření), škálovatelné i pro větší potřeby.

Silné stránky:

  • Nepřekonatelná kvalita a realističnost hlasu: Častá zpětná vazba uživatelů je, že hlasy od ElevenLabs patří k nejlidštějším veřejně dostupným zapier.com zapier.com. Přenášejí emoce a přirozený rytmus, často překonávají mnoho nabídek velkých TTS ve výrazu.
  • Přátelské pro uživatele a kreativní svoboda: Platforma je navržena tak, aby i úplný laik snadno klonoval hlas nebo měnil stylové parametry. To snižuje bariéry pro kreativní využití AI hlasu.
  • Masivní výběr hlasů: Stovky hlasů a možnost vytvářet vlastní znamenají, že je možné dosáhnout prakticky jakéhokoli stylu či osobnosti – mnohem širší výběr než u běžných TTS služeb (které mívají 20–50 hlasů).
  • Vícejazyčnost a překlad hlasů: Schopnost přenést hlas přes jazyky s uchováním akcentu/emocí je unikátní výhodou, usnadňuje tvorbu vícejazyčného obsahu.
  • Rychlý vývoj: Jako dynamický startup ElevenLabs rychle zavádí nové funkce (např. rychlý přechod z v1 na v3 model během roku, přidávání jazyků, smích, šepot). Také rychle zapracovává komunitní zpětnou vazbu.
  • Angažovaná komunita: Mnoho tvůrců se na ně obrací, sdílejí tipy a hlasy, což zvyšuje dosah a zajišťuje testování mnoha případů použití a činí produkt robustnějším.
  • Flexibilní API integrace: Vývojáři jej mohou zabudovat do aplikací (některé nástroje na namlouvání i Discord boti již ElevenLabs používají pro generování výstupu hlasu).
  • Nákladově efektivní: Pro malé a střední využití je to mnohem levnější než najímat hlasové herce a studio, přitom nabízí téměř profesionální výsledky. Hodnota této nabídky je zásadní pro nezávislé tvůrce.
  • Etické zábrany: Zavedli některé kontroly (klonování hlasu vyžaduje ověření nebo je přístupné jen v dražších tarifech, provádí také detekci zneužití). To je důležité pro budování důvěry u držitelů práv.
  • Financování a růst: Dobře financovaní a široce používaní, takže je pravděpodobné, že dlouhodobě přežijí a budou se dále zlepšovat.

Slabé stránky:

  • Riziko zneužití: Samotné silné stránky (realistické klonování) mají i svou stinnou stránku – už v počátcích došlo k incidentům zneužití pro deepfake hlasy. Donutilo je to k přísnějším pravidlům a detekci; přesto samotná existence technologie znamená riziko zneužití k vydávání se za jiné, pokud nebude dobře hlídáno.
  • Konzistentnost při dlouhých nahrávkách: U velmi dlouhých nahrávek bývá někdy složité udržet naprosto shodnou citovou linku – model může lehce měnit tón či tempo v různých kapitolách (nastavení stability a novější modely v3 na tom pracují).
  • Výslovnost neobvyklých slov: Ač je velmi dobrá, občas špatně vysloví jména nebo vzácná slova. Nabízejí ruční opravování (fonetický přepis), ale ne vždy je vše správné už na první pokus. Podobnými nedostatky trpí i jiné TTS, ale je třeba s tím počítat.
  • Limity API / škálování: Pro opravdu velké nasazení (třeba tisíce hodin automaticky) můžou být throughput limity, ač u enterprise zákazníků škálují infrastrukturu dle potřeby. Velcí poskytovatelé cloudů zvládají masivní paralelní požadavky zatím lépe.
  • Neobsahuje rozpoznávání řeči ani řízení dialogu: Není to samo o sobě kompletní konverzační AI platforma – je třeba jej propojit se STT a logikou (což pro někoho může být nevýhoda oproti řešením jako Amazon Polly + Lex, ale lze je s ElevenLabs snadno integrovat).
  • Sílející konkurence: Velcí hráči a nové startupy sledují úspěch ElevenLabs; OpenAI může přijít s pokročilou TTS, stejně jako Microsoft (např. VALL-E). ElevenLabs tedy musí dál rychle inovovat, aby zůstali na špici.
  • Licencování a práva: Uživatelé musejí myslet na to, zda používají hlasy, které zní jako skuteční lidé nebo klony. I se souhlasem mohou vzniknout právní šedé zóny (právo na podobu) v některých jurisdikcích. Tato složitost může některé firmy odrazovat, dokud se nevyjasní legislativa a etika.
  • Limity akcentů a jazyků: Přestože je vícejazyčný, hlas může v některých jazycích nést akcent původního jazyka. Pro určité užití je třeba nativně znějící hlas (ElevenLabs to možná časem vyřeší úpravou hlasů dle jazyků nebo větší nabídkou nativních hlasů).
  • Závislost na cloudu: Je to uzavřená cloudová služba, nenabízí lokální provoz. Někteří uživatelé raději volí on-prem řešení pro citlivý obsah (firmy často nechtějí nahrávat důvěrné scénáře do cloudu). Není možnost self-hostingu (na rozdíl od některých open source TTS motorů).

Poslední aktualizace (2024–2025):

  • ElevenLabs představili Eleven Multilingual v2 koncem roku 2023, což výrazně zlepšilo výstup v jiných jazycích než angličtině (méně přízvuku, lepší výslovnost).
  • Vydali alfa verzi Voice Generation v3, která zvládá například smích, změnu stylu uprostřed věty a celkově větší dynamický rozsah elevenlabs.io elevenlabs.io. Tato verze se patrně plně rozšířila v roce 2024 a činí hlasy ještě realističtějšími (např. v ukázkách byly plně hrané scény).
  • Rozšířili klonování hlasu tak, aby umožňovalo okamžité klonování hlasu z pouhých ~3 sekund audia v omezené betě (pokud je to pravda, pravděpodobně se používá technologie podobná Microsoft VALL-E, o které jistě věděli). To by zásadně zjednodušilo klonování pro uživatele.
  • Knihovna hlasů se značně rozrostla díky nové funkci sdílení hlasů: do roku 2025 je k dispozici tisíce hlasů vytvořených uživateli (některé veřejně dostupné nebo originální) – jakýsi „trh“ s hlasy.
  • Zajistili si další partnerství; např. někteří vydavatelé otevřeně používají ElevenLabs k výrobě audioknih, nebo je ElevenLabs integrován do populárního video softwaru (možná plugin pro Adobe Premiere nebo After Effects, který umožňuje generovat komentář přímo v aplikaci).
  • Získali další investice při vysokém ohodnocení zapier.com, což naznačuje expanzi (možná do souvisejících oblastí jako výzkum hlasového dialogu nebo prozódie).
  • Z hlediska bezpečnosti implementovali systém otisku hlasu – každé audio generované ElevenLabs lze identifikovat díky skrytému vodoznaku nebo detekční AI, kterou vyvíjejí za účelem prevence zneužití.
  • Přidali beta verzi nástroje Voice Design, ve kterém si uživatelé mohou „namíchat“ hlas nebo upravit některé charakteristiky a vytvořit tak nový AI hlas bez nutnosti lidského vzorku. To otevírá kreativní možnosti pro tvorbu unikátních hlasů, které nejsou vázány na skutečné osoby.
  • Vylepšili také používání API pro vývojáře – přidali například asynchronní generování, detailnější ovládání přes API, a možná i možnost provozu on-prem pro enterprise zákazníky (nepotvrzeno, ale u velkých klientů by to bylo možné).
  • Souhrnně, ElevenLabs v roce 2025 stále nastavuje laťku v oblasti AI generování hlasu a nutí ostatní je dohánět.

Oficiální web: ElevenLabs Voice AI Platform zapier.com zapier.com (oficiální stránky text-to-speech a klonování hlasu od ElevenLabs).

10. Resemble AI (Voice Cloning & Custom TTS Platform) – Resemble AI

Přehled: Resemble AI je přední AI platforma pro klonování hlasu a vlastní syntézu řeči (text-to-speech), která uživatelům umožňuje vytvářet velmi realistické hlasové modely a generovat řeč v těchto hlasech. Založeno v roce 2019, Resemble se zaměřuje na rychlé a škálovatelné klonování hlasu pro kreativní i komerční využití. Vyniká tím, že nabízí více způsobů, jak hlas klonovat: z textu (stávající TTS hlasy lze přizpůsobit), z audio dat nebo dokonce v reálném čase. Do roku 2025 se Resemble AI používá k tvorbě realistických AI hlasů pro filmy, hry, reklamy a virtuální asistenty, často tam, kde je potřeba konkrétní hlas napodobující skutečnou osobu nebo unikátní firemní hlas. Disponuje také funkcí „Localize“, umožňující jednomu hlasu mluvit více jazyky (podobně jako ElevenLabs) resemble.ai resemble.ai. Resemble nabízí API i webové studio a je obzvlášť atraktivní pro firmy, které chtějí integrovat vlastní hlasy do svých produktů (s možností větší enterprise kontroly včetně provozu na vlastních serverech).

Typ: Text-to-Speech & Klonování hlasu, plus reálný převod hlasu (Voice Conversion) v reálném čase.

Společnost/Vývojář: Resemble AI (kanadský startup).

Schopnosti & Cíloví uživatelé:

  • Klonování hlasu: Uživatelé mohou vytvořit klon hlasu již z několika minut nahraného hlasu. Klonování v Resemble je vysoce kvalitní, zachovává zabarvení a přízvuk původního hlasu. Cíloví uživatelé jsou např. studia vyrábějící syntetické hlasy talentů, značky tvořící vlastní hlasové persony a vývojáři integrující unikátní hlasy do aplikací.
  • Vlastní generování TTS: Jakmile je hlas naklonován nebo vytvořen, lze vkládat text a generovat řeč v daném hlasu přes webovou aplikaci nebo API. Řeč může nést různý výraz (Resemble umí zachytit emoci z datasetu nebo pomocí doplňkového ovládání).
  • Převod hlasu v reálném čase: Výrazná funkce – Resemble zvládne převod řeči na řeč, kdy vy mluvíte a výstup je téměř okamžitě v cílovém klonovaném hlasu resemble.ai resemble.ai. Vhodné např. pro dabing nebo živé aplikace (osoba mluví a její hlas vychází jako jiná postava).
  • Localize (přes-jazykové): Jejich nástroj Localize umí překládat a převádět hlas do 60+ jazyků resemble.ai. Prakticky mohou vzít anglický hlasový model a nechat ho mluvit i jinými jazyky při zachování stejné identity hlasu. To slouží ke globalizaci dialogu či obsahu.
  • Emoce a styl: Resemble zdůrazňuje, že kopíruje nejen hlas, ale i emoce a styl. Jejich systém dokáže vtisknout emocionální tón z referenčních nahrávek do generovaného výstupu resemble.ai resemble.ai.
  • Flexibilní vstup & výstup: Podporují nejen prostý text, ale i API, které může přijímat parametry pro emoci, a systém „Dialogue“ pro správu konverzací. Výstupy jsou ve standardních audio formátech a je možné detailně upravovat rychlost atd.
  • Integrace & nasazení: Resemble nabízí cloudové API, ale také možnost provozu on-prem nebo v privátním cloudu pro firmy (data neodcházejí ven). Například mají plugin pro Unity pro herní vývojáře, což zjednodušuje integraci hlasů do her. Pravděpodobně podporují i telekomunikační integraci.
  • Použití & uživatelé: Herní vývojáři (Resemble se používal ve hrách pro postavy), filmová postprodukce (např. oprava dialogu nebo tvorba hlasů pro CGI postavy), reklama (klony hlasů celebrit pro endorsementy, s povolením), call centra (virtuální agent se specifickým hlasem), i pro zlepšení přístupnosti (např. lidem po ztrátě hlasu dát digitální alternativu jejich původního hlasu).

Hlavní funkce:

  • 4 způsoby klonování: Resemble propaguje klonování nahráním hlasu na web (čtení 50 vět apod.), nahráním existujících dat, vygenerováním nového hlasu smíšením více hlasů nebo jedním kliknutím spojením několika hlasů pro nový styl.
  • Převod řeč-řeč: Zadáte audio vstup (např. svůj hlas se scénářem) a Resemble převede do cílového hlasu včetně nuancí jako intonace. Funguje téměř v reálném čase (malé zpoždění).
  • API a GUI: Ne-technici mohou použít přehledné webové rozhraní pro generování klipů, úpravu intonace označením slov a jejich vyladění (mají funkci ruční úpravy tempa či důrazu na slovech, podobně jako úprava zvuku) – srovnatelné s Descript Overdub.
  • Zachycení emocí: Prezentují možnost „zachytit spektrum emocí“ – pokud zdrojový hlas obsahuje více emocionálních stavů, model je může generovat také. Umožňují i označit trénovací data podle emocí a pak generovat například „naštvaný“ nebo „šťastný“ tón.
  • Masová generace & personalizace: Resemble API zvládne dynamickou generaci ve velkém (např. automatizovaná výroba tisíců personalizovaných sdělení – mají případovou studii s personalizovanými audioreklamami se jmény atd.).
  • Kvalita & úpravy: Používají neuronový vysokokvalitní vokodér pro přirozený zvuk. Zmiňují rozbor a korekci slabých audio signálů před přepisem telnyx.com – to se však spíše týká STT u Watsonu. U Resemble pravděpodobně také předzpracovávají audio dle potřeby.
  • Projekty & spolupráce: Ve webovém studiu mají funkce pro týmovou spolupráci na hlasových projektech, poslech verzí atd.
  • Etika/ověření: Zavádějí ověření vlastnictví hlasu – např. požadují namluvit konkrétní souhlasné věty. Také umožňují vodoznak do výstupů, pokud je potřeba detekce.
  • Resemble Fill – zajímavá funkce: umožňuje nahrát reálnou nahrávku, a pokud jsou v ní chybějící nebo špatná slova, stačí zadat nový text a systém jej v daném klonovaném hlasu plynule vloží do audia – v podstatě AI hlasové „patchování“. Vhodné např. pro postprodukci ve filmu k opravě replik bez nového natáčení.
  • Analytika & ladění: Pro firmy umožňují analýzy využití, nastavení slovníku (lexikonu) pro speciální výslovnosti atd.

Podporované jazyky: Podpora výstupu ve více než 50 jazycích aibase.com a ve funkci Localize konkrétně uvádějí 62 jazyků resemble.ai. Je to tedy velmi široké pokrytí (podobné ElevenLabs). Zahrnují například angličtinu, španělštinu, francouzštinu, němčinu, italštinu, polštinu, portugalštinu, ruštinu, čínštinu, japonštinu, korejštinu, různé indické jazyky, arabštinu atd. Zmiňují i možnost nechat hlas promluvit jazyky, které nebyly v původních datech, což znamená, že používají vícejazyčný TTS engine.
Uvádějí i schopnost řešit code-switching, což je spíše téma STT. U TTS jsou ale vícejazyčné hlasy hlavní předností.

Technické základy:

  • Engine Resemble pravděpodobně zahrnuje víceřečnický neuronový TTS model (například variantu Glow-TTS nebo FastSpeech) a vysokofideliťní vokodér (pravděpodobně něco jako HiFi-GAN). Používají hlasový enkodér (podobný technikám speaker embedding), což umožňuje rychlé klonování z příkladů.
  • Zmiňují použití strojového učení ve velkém měřítku – předpokládá se trénink na obrovském množství hlasových dat (pravděpodobně licencovaných ze studií, veřejných datasetů atd.).
  • Konverze řeči v reálném čase naznačuje model schopný přijímat audio rysy zdrojového hlasu a převádět je na cílové hlasové rysy téměř v reálném čase. Pravděpodobně používají kombinaci automatického rozpoznávání řeči (k získání fonémů/časového zarovnání) a následné resyntézy s cílovou barvou hlasu, nebo end-to-end model pro konverzi hlasu, který pro rychlost nepotřebuje explicitní transkripci.
  • Ovládání emocí: Pravděpodobně používají přístup stylových tokenů, samostatné modely pro emoce, nebo doladění s emocionálními štítky.
  • Localize: Možná využívají pipeline: řeč-na-text (s překladem) a následně text-na-řeč. Nebo mají přímý cross-jazykový hlasový model (méně pravděpodobné). Pravděpodobně integrují krok překladu. Zdůrazňují ale zachování osobnosti hlasu v nových jazycích, což znamená použití stejného hlasového modelu s neanglickými vstupy.
  • Škálovatelnost a rychlost: Tvrdí konverzi v reálném čase s minimální latencí. Generování TTS pro běžný text může být pomalejší než u ElevenLabs, pokud mají složitější backend, ale pravděpodobně dále optimalizují. Uvádějí například generování 15 minut audia z pouhých 50 nahraných vět (rychlé klonování).
  • Pravděpodobně se zaměřují na věrnou reprodukci akustických detailů, aby klon byl nerozeznatelný od originálu. Pravděpodobně používají pokročilé ztrátové funkce nebo GANy pro zachycení identity hlasu.
  • Zmiňují analýzu a úpravu vstupního audia pro S2S – pravděpodobně redukce šumu nebo vyrovnání místnosti.
  • Technologie zahrnuje funkce Voice Enhancer (zlepšení kvality audia), pokud je potřeba pro vstupní signály.

Scénáře použití:

  • Film & TV: Resemble bylo použito pro klonování hlasů herců při postprodukci (například oprava repliky nebo generování nových, pokud herec není k dispozici). Také pro tvorbu AI hlasů CG postav nebo „omlazení hlasu“ starších herců.
  • Hraní her: Herní studia používají Resemble k vygenerování hodin dialogů NPC po naklonování jen několika dabérů (šetří náklady a umožňuje rychle měnit scénáře).
  • Reklama & marketing: Značky klonují hlas celebrit (se souhlasem) pro vytváření variant reklam nebo personalizovaných promo ve velkém. Nebo vytvoří fiktivní hlas značky pro konzistenci po celém světě – jazyk lze upravovat, ale hlas zůstává totožný.
  • Konverzační AI asistenti: Některé firmy napájejí své IVR nebo virtuální asistenty vlastním hlasem Resemble odpovídajícím firemnímu stylu, místo generického TTS. (Například bankovní asistent mluvící unikátním hlasem).
  • Osobní použití při ztrátě hlasu: Lidé, kteří kvůli nemoci přichází o hlas, využili Resemble k jeho klonování a zachování; později ho používají jako svůj „text-to-speech“ hlas na komunikaci. (Podobné jako dříve Lyrebird, nyní vlastněný firmou Descript; Resemble tuto možnost také podporuje).
  • Lokalizace médií: Dabingová studia používají Resemble Localize pro rychlý dabing obsahu – zadají původní hlasové repliky a získají výstup v cílovém jazyce se stejným hlasovým zabarvením. Výrazně zrychluje práci, ale často je třeba lidských úprav.
  • Interaktivní narativy: Resemble lze integrovat do aplikací s interaktivními příběhy nebo AI vypravěči, kde je potřeba generovat hlasy naživo (možná méně běžné než před-generační řešení kvůli latenci, ale možné).
  • Korporátní tréninky / e-learning: Generování hlasového komentáře pro tréninková videa nebo kurzy pomocí klonovaných profesionálních speakerů – v několika jazycích bez nutnosti opakovaného nahrávání, vždy s konzistentním tónem.

Cenový model: Resemble je více orientované na firemní klientelu, ale některé ceny uvádí:

  • Mají bezplatný trial (pravděpodobně umožňuje omezené klonování a pár minut generování s vodoznakem).
  • Ceny jsou typicky podle využití nebo formou předplatného. Pro jednotlivé tvůrce mají tarif kolem 30 $/měsíc pro určité využití a počet hlasů, dále pak poplatky za nadlimitní použití.
  • Pro firmy pravděpodobně individuální nabídky. Také platby za API podle spotřeby.
  • Například jeden zdroj uvádí cenu 0,006 $ za sekundu vygenerovaného audia (~0,36 $/min) pro standardní generování; s množstevními slevami.
  • Mohou účtovat zvlášť za vytvoření hlasu (poplatek za hlas při vysoké kvalitě s jejich asistencí).
  • Protože ElevenLabs je levnější, Resemble pravděpodobně nesoutěží na ceně pro malé uživatele, ale na funkcích a připravenosti pro firemní nasazení (např. zvýrazňují neomezené využití na vlastní plán, nebo uzavřenou licenční dohodu).
  • Měli i možnost přímého licencování modelu pro on-premise řešení, což bude dražší, ale dává plnou kontrolu.
  • Celkově je pravděpodobně Resemble dražší než ElevenLabs při srovnatelném vytížení, ale nabízí funkce, které konkurence nemá (realtime, přímé integrační pipeline atd.), což dává smysl pro určité klienty.

Silné stránky:

  • Kompletní Voice AI balík: Resemble pokrývá vše – TTS, klonování, konverzi hlasu v reálném čase, multilanguage dubbing, audio editaci (doplnění mezer). Je to all-in-one řešení pro potřeby hlasové syntézy.
  • Zaměření na firmy & přizpůsobení: Nabízí velkou flexibilitu (možnosti nasazení, technickou podporu na míru, custom integrace), což je atraktivní pro firemní klienty.
  • Kvalitní klonování & emoce: Klony mají velmi vysokou věrnost, mnoho případových studií dokládá skvělé zachycení stylu a emocí resemble.ai resemble.ai. Například případ s matčiným dnem přinesl 354 tisíc personalizovaných zpráv s 90% přesností hlasu resemble.ai – silný důkaz škály i kvality.
  • Realtime schopnosti: Schopnost konverze hlasu živě je unikátní – málo kdo to nabízí. Otevírá to scénáře v přímých přenosech či performancích (např. živý dabing řečníka do jiného hlasu v reálném čase).
  • Lokalizace/jazyky: Přes 60 jazyků, důraz na zachování stejného hlasu napříč jazyky resemble.ai je velký plus pro globální obsahové týmy.
  • Etika & kontroly: Prezentují se jako etičtí (vyžadují souhlas atd.) a důrazně to propagují. Mají i ochranu před zneužitím (ověření větou, podobně jako konkurence).
  • Případové studie & zkušenosti: Resemble bylo použito v prestižních projektech (i v Hollywoodu), což zvyšuje jejich důvěryhodnost. Např. příklad na webu – hra oceněná Apple Design Award resemble.ai ukazuje kreativitu (Crayola Adventures s dynamickými voiceovery).
  • Škálovatelnost & ROI: Někteří klienti zmiňují obrovské zvýšení produkce obsahu (Truefan: 70x navýšení, 7x růst příjmů resemble.ai). To dokládá schopnost zvládnout velké objemy.
  • Multi-hlas & emoce v jednom výstupu: Prezentují možnost tvořit dialogy nebo interaktivní hlasy jednoduše (např. aplikace ABC Mouse pro Q&A s dětmi resemble.ai).
  • Kontrola kvality hlasu: Mají funkce pro zajištění studiové kvality (mixování pozadí, mastering pro studiový zvuk), což základní TTS API většinou nenabízí.
  • Průběžný vývoj: Pravidelně vydávají vylepšení (naposledy „Contextual AI voices“ nebo vylepšené algoritmy).

Slabiny:

  • Není tak snadné/levné pro hobby uživatele: Ve srovnání s ElevenLabs je Resemble zaměřeno na firmy. Rozhraní je silné, možná ale méně přehledné pro nováčky, cena může být bariérou pro malé uživatele (ti raději použijí ElevenLabs).
  • Méně mainstream publicity: I když uznávaní v určitých kruzích, nemají takovou virální známost jako ElevenLabs mezi běžnými tvůrci v roce 2023. Jsou vnímáni spíš jako služba pro profesionály v pozadí.
  • Kvalita vs. ElevenLabs: Rozdíl není velký, ale někteří audio nadšenci tvrdí, že ElevenLabs má mírně větší detaily v angličtině (ultrarealistické emoce), zatímco Resemble je velmi blízko a někdy lepší v jiných aspektech (například realtime). Závod je těsný, ale vnímání je důležité.
  • Optimalizační kompromisy: Nabízení jak TTS, tak konverze v reálném čase znamená potřebu ladit pro obě oblasti, zatímco ElevenLabs se soustředí čistě na „offline“ kvalitu TTS. Pokud se nezvládne, může část mírně zaostávat (ale zatím to zvládají dobře).
  • Závislost na kvalitě trénovacích dat: Pro nejlepší výsledek potřebujete čisté, kvalitní nahrávky. Pokud je vstup šumový či omezený, výsledná kvalita klesá. Mají sice vylepšování, ale fyzika platí pro všechny.
  • Právní riziko u použití: Stejná kategorie jako všude – etika klonování hlasu. Sice ji řeší dobře, ale někteří klienti si dávají pozor na případnou budoucí regulaci či reputační rizika (obava z nálepky „deepfake“). Resemble, zaměřené na enterprise, to řeší NDA a jasnou dokumentací, nicméně je to tržní výzva obecně.
  • Konkurence a překryv: Objevila se řada nových služeb (některé na open source modelech) – často levnější klonování. Resemble musí zaujmout kvalitou a funkcemi. Také velké cloud platformy (např. Microsoft Custom Neural Voice) jsou konkurenty pro firemní zakázky (Microsoft navíc vlastní Nuance).
  • Uživatelská kontrola: Přestože mají nástroje pro úpravu, doladění jemných parametrů řeči není tak detailní jako by zvládl člověk – tvůrci někdy generují více verzí nebo dokončují audio až v postprodukci, aby dosáhli kýženého výsledku (platí ale pro všechny AI hlasové systémy).

Novinky (2024–2025):

  • Resemble uvedlo na trh „Resemble AI 3.0“ kolem roku 2024 s hlavními vylepšeními modelu, zaměřenými na širší škálu emocí a lepší vícejazyčný výstup. Možná začlenili technologie typu VALL-E nebo vylepšené zero-shot schopnosti, aby se minimalizovalo množství dat potřebných ke klonovaní hlasu.
  • Rozšířili počet podporovaných jazyků v rámci Localize přibližně ze 40 na 62 a zvýšili přesnost překladů tak, aby byla zachována intonace originálu (možná sladěním textového překladu se stylovými hlasovými podněty).
  • Latence při převodu hlasu v reálném čase byla dále snížena – možná je nyní odezva pod 1 sekundu.
  • Přidali možnost ovládání stylu pomocí příkladu – např. zadáte ukázku cílové emoce nebo kontextu a TTS tuto náladu napodobí. To pomáhá, když potřebujete, aby hlas zněl například nadšeně nebo smutně v určité větě; zadáte referenční klip s požadovaným tónem (může být z dat původního řečníka nebo i z jiného hlasu), který řídí syntézu.
  • Možná integrovali malý LLM pro predikci intonace (například automaticky určují, na co ve větě klást důraz nebo jak ji emočně přečíst na základě obsahu).
  • Vylepšení vývojářské platformy: např. zjednodušené API pro paralelní generování mnoha hlasových klipů, websockety pro TTS streamování v reálném čase atd.
  • Z hlediska bezpečnosti: představili Voice Authentication API, která dokáže ověřit, zda je daný záznam generován Resemble, nebo zda se někdo nesnaží klonovat hlas, který mu nepatří (nějaký interní watermark nebo detekce hlasového podpisu).
  • Získali několik velkých partnerství – například s významným dabingovým studiem nebo s mediálními společnostmi pro lokalizaci obsahu. Případ Age of Learning (ABC Mouse) je jeden z příkladů, další spolupráce mohou následovat.
  • Pravděpodobně rozšířili i svůj marketplace hlasových talentů: navázání vztahů s dabéry za účelem vytvoření licencovaných „hlasových skinů“, které si ostatní mohou za poplatek použít (etická monetizace hlasů).
  • Neustálý výzkum a vývoj Resemble je udrží mezi špičkou hlasových klonovacích služeb v roce 2025 s robustní podnikatelskou klientelou.

Oficiální web: Resemble AI Voice Cloning Platform aibase.com resemble.ai (oficiální stránka popisující jejich možnosti vlastního hlasu a převodu řeči na řeč v reálném čase).

Zdroje:

  1. Google Cloud Text-to-Speech – „380+ hlasů ve více než 50 jazycích a variantách.“ (dokumentace Google Cloud cloud.google.com
  2. Google Cloud Speech-to-Text – Vysoce přesné, podpora 120+ jazyků, přepis v reálném čase. (Krisp Blog krisp.ai
  3. Microsoft Azure Neural TTS – „Podporuje 140 jazyků/variant a 400 hlasů.“ (Microsoft TechCommunity techcommunity.microsoft.com
  4. Microsoft Azure STT – Přepis vhodný pro firmy, přizpůsobení a bezpečnost v 75+ jazycích. (Telnyx Blog telnyx.com telnyx.com
  5. Amazon Polly – „Amazon Polly nabízí 100+ hlasů ve 40+ jazycích… emočně působivé generativní hlasy.“ (AWS What’s New aws.amazon.com aws.amazon.com
  6. Amazon Transcribe – ASR nové generace se 100+ jazyky, rozpoznání mluvčích, v reálném čase i dávkově. (AWS Overview aws.amazon.com aws.amazon.com
  7. IBM Watson STT – „Přizpůsobitelné modely pro odvětvová specifická slovní zásoba, silné zabezpečení dat; využíván ve zdravotnictví/právu.“ (Krisp Blog krisp.ai krisp.ai
  8. Nuance Dragon – „Dragon Medical nabízí vysoce přesný přepis složité lékařské terminologie; flexibilní nasazení on-prem/cloud.“ (Krisp Blog krisp.ai krisp.ai
  9. OpenAI Whisper – Otevřený model trénovaný na 680k hodin, „podpora 99 jazyků“, téměř špičková přesnost ve více jazycích. (Zilliz Glossary zilliz.com zilliz.com
  10. OpenAI Whisper API – „$0,006 za minutu“ za Whisper-large přes OpenAI, což umožňuje levný a kvalitní přepis pro vývojáře deepgram.com】.
  11. Deepgram Nova-2 – „O 30 % nižší WER než konkurence; nejpřesnější anglický STT (medián WER 8,4 % vs. Whisper 13,2 %).“ (Deepgram Benchmarks deepgram.com deepgram.com
  12. Deepgram Customization – Umožňuje trénink vlastních modelů na specifický žargon a zvýšení přesnosti o více než 18 % oproti předchozímu modelu. (Gladia blog přes Deepgram gladia.io deepgram.com
  13. Speechmatics Přesnost & Bias – „91,8% přesnost u dětských hlasů vs Google 83,4 %; 45% pokles chyb u afroamerických hlasů.“ (Speechmatics Press speechmatics.com speechmatics.com
  14. Speechmatics Flow (2024) – ASR v reálném čase + LLM + TTS pro hlasové asistenty; 50 podporovaných jazyků s různými akcenty. (audioXpress audioxpress.com audioxpress.com
  15. ElevenLabs Voice AI – „Přes 300 hlasů, ultra-realistické s emocionální variací; klonování hlasu dostupné (5 minut záznamu → nový hlas).“ (Zapier Review zapier.com zapier.com
  16. ElevenLabs Pricing – Zdarma 10 min/měsíc, placené plány od $5/měsíc za 30 min s klonováním a komerčním využitím. (Zapier zapier.com zapier.com
  17. ElevenLabs Multilingual – Jeden hlas ovládá 30+ jazyků; expresivní model v3 umí i šeptat, křičet, dokonce zpívat. (ElevenLabs Blog elevenlabs.io elevenlabs.io
  18. Resemble AI Voice Cloning – „Generujte řeč ve svém klonovaném hlasu ve 62 jazycích; převod řeči na řeč v reálném čase.“ (Resemble AI resemble.ai resemble.ai
  19. Resemble Case Study – *Truefan kampaň: 354k personalizovaných video zpráv s AI klonovanými hlasy celebrit a 90% podobností, 7× ROI resemble.ai】, *ABC Mouse využil Resemble pro interaktivní dětskou appku s real-time Q&A hlasem resemble.ai】.
  20. Resemble AI Funkce – Zachycení emocí a přenos stylu u klonovaných hlasů; možnost opravovat existující audio („Resemble Fill“). (dokumentace Resemble AI resemble.ai resemble.ai

Tags: , ,