Top 10 AI Voice and Speech Technologies Dominating 2025 (TTS, STT, Voice Cloning)
17 сентября 2025
92 mins read

Топ-10 голосовых и речевых ИИ-технологий, доминирующих в 2025 году (TTS, STT, клонирование голоса)

  • Google Cloud Speech AI предоставляет синтез речи (Text-to-Speech) с более чем 380 голосами на 50+ языках с использованием WaveNet/Neural2, распознавание речи (Speech-to-Text) на 125+ языках, а также Custom Voice, который станет общедоступным в 2024 году.
  • Azure Speech Service предлагает нейронный синтез речи (Neural Text-to-Speech) с 446 голосами на 144 языках (по состоянию на середину 2024 года), распознавание речи на 75+ языках и Custom Neural Voice с облачным или локальным развертыванием.
  • Amazon Polly предоставляет более 100 голосов на 40+ языках, включает Neural Generative TTS с 13 ультра-выразительными голосами к концу 2024 года, а Amazon Transcribe поддерживает более 100 языков.
  • IBM Watson Speech Services предоставляют синтез речи на 13+ языках и распознавание речи на 8–10 языках, с крупными моделями речи 2024 года и локальным развертыванием через Cloud Pak.
  • Nuance Dragon Medical One обеспечивает почти 100% точность медицинского диктанта после адаптации пользователя, поддерживает автономную работу на ПК и интегрируется с Microsoft 365 Dictate и Dragon Ambient Experience.
  • OpenAI Whisper — это открытая модель STT, обученная на 680 000 часах аудио, поддерживает около 99 языков, может переводить речь, а Whisper-large через API стоит $0,006 за минуту.
  • Deepgram выпустила Nova-2 в 2024 году, обеспечивая примерно на 30% меньшую WER и медианную WER 8,4% на различных данных, с поддержкой потоковой обработки в реальном времени и локальным развертыванием.
  • Speechmatics Flow, запущенный в 2024 году, сочетает STT с LLM и TTS, поддерживает 30+ языков и демонстрирует 91,8% точности на детских голосах с улучшением на 45% для афроамериканских голосов; ирландский и мальтийский языки добавлены в августе 2024 года.
  • ElevenLabs предлагает более 300 готовых голосов и, с моделью v3 2024 года, поддерживает 30+ языков и клонирование голоса по нескольким минутам аудио.
  • Resemble AI обеспечивает преобразование и клонирование голоса в реальном времени на 62 языках с помощью Localize, а кампания Truefan создала 354 000 персонализированных сообщений с примерно 90% сходством голоса.

Введение

Технологии Voice AI в 2025 году характеризуются выдающимися достижениями в синтезе речи (Text-to-Speech, TTS), распознавании речи (Speech-to-Text, STT) и клонировании голоса. Ведущие платформы обеспечивают всё более естественный синтез речи и высокоточное распознавание, что позволяет использовать их для виртуальных ассистентов, транскрипции в реальном времени, реалистичного озвучивания и многоязычного дубляжа. В этом обзоре представлены 10 ведущих платформ Voice AI, доминирующих в 2025 году и преуспевающих в одной или нескольких из этих областей. Для каждой платформы приведён обзор возможностей, ключевые функции, поддерживаемые языки, используемые технологии, сценарии применения, цены, сильные и слабые стороны, последние инновации (2024–2025) и ссылка на официальный сайт продукта. Для быстрого сравнения приведена сводная таблица с основными характеристиками.

Сводная таблица сравнения

ПлатформаВозможности (TTS/STT/Клонирование)Модель ценообразованияЦелевая аудитория и варианты использования
Google Cloud Speech AITTS (голоса WaveNet/Neural2); STT (120+ языков); Опция создания собственного голосаcloud.google.com id.cloud-ace.comОплата по мере использования (за символ для TTS; за минуту для STT); Доступны бесплатные кредитыcloud.google.comПредприятия и разработчики, создающие голосовые приложения мирового масштаба (контакт-центры, медиатранскрипция, IVR и др.)krisp.ai cloud.google.com
Microsoft Azure Speech ServiceTTS (нейронные голоса – 400+ голосов, 140+ языковtechcommunity.microsoft.com); STT (75+ языков, перевод)telnyx.com krisp.ai; Custom Neural Voice (клонирование)Оплата по мере использования (за символ/час); бесплатный уровень и кредиты Azure для тестированияtelnyx.comПредприятия, которым нужен безопасный, настраиваемый голосовой ИИ (многоязычные приложения, голосовые ассистенты, транскрипция для медицины/юридической сферы)krisp.ai krisp.ai
Amazon AWS Voice AI (Polly & Transcribe)TTS (100+ голосов, 40+ языковaws.amazon.com, нейронные и генеративные голоса); STT (в реальном времени и пакетный режим, 100+ языковaws.amazon.com)Оплата по мере использования (за миллион символов для TTS; за секунду для STT); Бесплатный уровень на 12 месяцев <a href=»https://aws.amazon.com/polly/#:~:text=Yes,details%2C%20see%20Amazon%20Polly%aws.amazon.com aws.amazon.comБизнесы на AWS, которым нужны масштабируемые голосовые функции (озвучивание медиа, транскрипция звонков в службу поддержки, голосовые интерактивные приложения) telnyx.com aws.amazon.com
IBM Watson Speech ServicesTTS (нейронные голоса на нескольких языках); STT (в реальном времени и пакетный режим, модели, адаптированные под домен)Оплата по использованию (бесплатный lite-тариф; поэтапная тарификация в зависимости от использования)Предприятия в специализированных областях (финансы, здравоохранение, юриспруденция), которым нужны высоконастраиваемые и безопасные речевые решения krisp.ai telnyx.com
Nuance Dragon (Microsoft)STT (чрезвычайно точное распознавание речи; специализированные версии, например, для медицины, юриспруденции); Голосовые командыЛицензия на пользователя или подписка (ПО Dragon); Корпоративные лицензии для облачных сервисовПрофессионалы (врачи, юристы) и предприятия, которым требуется высокоточная транскрипция и голосовое документирование krisp.ai krisp.ai
OpenAI Whisper (open source)STT (передовое многоязычное ASR – ~99 языков zilliz.com; также перевод)Открытый исходный код (лицензия MIT); использование OpenAI API примерно $0,006/минутаРазработчики и исследователи, которым нужно максимально точное распознавание речи (например, сервисы транскрипции, перевод, анализ голосовых данных) zilliz.com zilliz.com
DeepgramSTT (корпоративные модели на базе трансформеров с на 30% меньшей ошибкой по сравнению с конкурентами deepgram.com); Некоторые возможности TTS появляютсяПодписка или оплата за использование API (бесплатные кредиты, затем поэтапная тарификация; ~$0,004–0,005/минута для последней модели) deepgram.comТехнологические компании и контакт-центры, которым нутрансляция в реальном времени, высокообъемная транскрипция с индивидуальной настройкой модели telnyx.com deepgram.com
SpeechmaticsSTT (самообучающаяся ASR, 50+ языков с любым акцентом audioxpress.com); некоторые голосовые решения с интеграцией LLM (Flow API для ASR+TTS) audioxpress.com audioxpress.comПодписка или корпоративная лицензия (облачный API или локально); индивидуальные предложения для больших объемовМедиа и глобальные компании, которым требуется инклюзивная, не зависящая от акцента транскрипция (живые субтитры, голосовая аналитика) с возможностью локального размещения для конфиденциальности speechmatics.com speechmatics.com
ElevenLabsTTS (ультрареалистичные, выразительные голоса); Клонирование голоса (создание индивидуальных голосов по образцам); Многоязычный синтез речи (30+ языков с сохранением оригинального голоса) elevenlabs.io resemble.aiБесплатный тариф (~10 мин/мес); Платные планы от $5/мес (30 мин+) zapier.com zapier.comСоздатели контента, издатели и разработчики, которым нужны высококачественные озвучки, аудиокниги, голоса персонажей или клонирование голоса для медиа zapier.com zapier.com
Resemble AITTS и Клонирование голоса (мгновенное клонирование с эмоциями; преобразование речи в речь); Дублирование на 50+ языках с тем же голосом <a href=»https://www.aibase.com/news/554#:~:text=The%20data%20to%20be%20translateaibase.com resemble.aiКорпоративные и основанные на использовании тарифы (индивидуальные планы; доступна бесплатная пробная версия)Медиа, игровые и маркетинговые команды, создающие индивидуальные фирменные голоса, локализованный голосовой контент или осуществляющие преобразование голоса в реальном времени в интерактивных приложенияхresemble.ai resemble.ai

1. Google Cloud Speech AI (TTS & STT) – Google

Обзор: Решение Google Cloud Speech AI включает в себя Cloud Text-to-Speech и Speech-to-Text API, которые известны высокой точностью и масштабируемостью. TTS от Google создает естественную, похожую на человеческую речь с помощью современных моделей глубокого обучения (например, WaveNet, Neural2) videosdk.live, а STT обеспечивает точное распознавание речи в реальном времени на более чем 120 языках и диалектах krisp.ai. Целевая аудитория — от предприятий, нуждающихся в многоязычных голосовых приложениях, до разработчиков, внедряющих голосовые функции в приложения или устройства. Google также предлагает опцию Custom Voice, позволяющую клиентам создавать уникальный голос ИИ на основе собственных записей id.cloud-ace.com (с этическими гарантиями).

Ключевые особенности:

  • Text-to-Speech: Более 380 голосов на 50+ языках и вариантах cloud.google.com, включая WaveNet и новейшие голоса Neural2 для реалистичной интонации. Предлагаются стили голоса (например, «Studio» — имитация профессиональных дикторов) и тонкая настройка через SSML для управления тоном, высотой, скоростью и паузами videosdk.live videosdk.live.
  • Speech-to-Text: Потоковая и пакетная транскрипция в реальном времени с поддержкой более 125 языков, автоматической пунктуацией, временными метками на уровне слов и определением говорящих krisp.ai krisp.ai. Поддерживается speech adaptation (кастомные словари) для улучшения распознавания терминов в специфических областях krisp.ai krisp.ai.
  • Пользовательские модели: Cloud STT позволяет пользователям настраивать модели с учетом специфической терминологии, а Cloud TTS предлагает Custom Voice (нейронное клонирование голоса) для создания фирменной голосовой идентичности id.cloud-ace.com id.cloud-ace.com.
  • Интеграция и инструменты: Бесшовно интегрируется с экосистемой Google Cloud (например, Dialogflow CX для голосовых ботов). Предоставляет SDK/REST API и поддерживает развертывание на различных платформах.

Поддерживаемые языки: Более 50 языков для TTS (все основные мировые языки и многие региональные варианты) cloud.google.com, и 120+ языков для STT krisp.ai. Такая широкая языковая поддержка делает сервис подходящим для глобальных приложений и задач локализации. Обе API поддерживают различные акценты и диалекты английского; STT может автоматически определять языки в многоязычном аудио и даже транскрибировать код-свитчинг (до 4 языков в одном высказывании) googlecloudcommunity.com googlecloudcommunity.com.

Техническая основа: TTS от Google построен на исследованиях DeepMind – например, нейронные вокодеры WaveNet и последующие разработки AudioLM/Chirp для выразительной, низкозадерживающей речи cloud.google.com cloud.google.com. Голоса синтезируются с помощью глубоких нейронных сетей, достигающих почти человеческого уровня по просодии. STT использует сквозные модели глубокого обучения (дополненные обширными аудиоданными Google); обновления включают архитектуры на основе Transformer и масштабное обучение для постоянного повышения точности. Google также обеспечивает оптимизацию моделей для масштабного развертывания в облаке, предлагая такие функции, как потоковое распознавание с низкой задержкой и возможность обработки шумного аудио благодаря обучению с учетом шума.

Сценарии использования: Универсальность голосовых API Google позволяет использовать их в таких случаях, как:

  • Автоматизация контакт-центров: IVR-системы и голосовые боты, которые естественно общаются с клиентами (например, голосовой агент Dialogflow, предоставляющий информацию по счету) cloud.google.com.
  • Транскрипция и создание субтитров для медиа: Транскрибирование подкастов, видео или прямых трансляций (субтитры в реальном времени) на нескольких языках для обеспечения доступности или индексирования.
  • Голосовые ассистенты и IoT: Работа виртуальных помощников на смартфонах или устройствах умного дома (сама технология используется в Google Assistant) и голосовое управление в IoT-приложениях.
  • Электронное обучение и создание контента: Генерация озвучки аудиокниг или видеороликов с помощью естественных голосов, а также транскрипция лекций или встреч для последующего просмотра.
  • Доступность: Включение преобразования текста в речь для экранных дикторов и вспомогательных устройств, а также преобразование речи в текст для диктовки вместо набора.

Ценообразование: Google Cloud использует модель оплата по мере использования. Для TTS цена рассчитывается за миллион символов (например, около $16 за 1 млн символов для голосов WaveNet/Neural2, и меньше для стандартных голосов). STT оплачивается за каждые 15 секунд или за минуту аудио (~$0,006 за 15 секунд для стандартных моделей) в зависимости от уровня модели и режима (реальное время или пакетная обработка). Google предлагает щедрый бесплатный уровень — новые клиенты получают $300 кредитов и ежемесячные бесплатные квоты (например, 1 час STT и несколько миллионов символов TTS) cloud.google.com. Это делает начальное тестирование малозатратным. Для больших объемов доступны корпоративные скидки и контракты на обязательное использование.

Сильные стороны: Платформа Google выделяется высоким качеством и точностью звука (используя исследования Google AI). Она обладает широкой языковой поддержкой (по-настоящему глобальный охват) и масштабируемостью на инфраструктуре Google (способна обрабатывать крупномасштабные задачи в реальном времени). Сервисы удобны для разработчиков благодаря простым REST/gRPC API и клиентским библиотекам. Постоянные инновации Google (например, новые голоса, улучшения моделей) обеспечивают передовые показатели cloud.google.com. Кроме того, как полноценный облачный пакет, сервис хорошо интегрируется с другими продуктами Google (Storage, Translation, Dialogflow) для создания комплексных голосовых приложений.

Слабые стороны: Стоимость может стать высокой при масштабировании, особенно для генерации длинных TTS или круглосуточной транскрипции — пользователи отмечают, что цены Google могут быть дорогими для крупномасштабного использования без скидок за объем telnyx.com. Некоторые пользователи сообщают, что точность STT может варьироваться при сильных акцентах или шумном аудио, что требует адаптации модели. В режиме реального времени STT может иметь небольшую задержку при высокой нагрузке telnyx.com. Еще один момент — политика управления данными Google: несмотря на наличие опций конфиденциальности, некоторые организации с чувствительными данными могут предпочесть локальные решения (которые облачный подход Google напрямую не предлагает, в отличие от некоторых конкурентов).

Последние обновления (2024–2025): Google продолжает совершенствовать свои голосовые сервисы. В конце 2024 года компания начала обновлять многие TTS-голоса на европейских языках до новых, более естественных версий googlecloudcommunity.com googlecloudcommunity.com. В Cloud TTS теперь поддерживаются голоса Chirp v3 (использующие исследования AudioLM для более спонтанного звучания речи) и синтез многоголосого диалога cloud.google.com cloud.google.com. В части STT Google выпустила улучшенные модели с большей точностью и расширенным языковым охватом — теперь поддерживается более 125 языков gcpweekly.com telnyx.com. Особенно важно, что Google сделала Custom Voice общедоступной, позволяя клиентам обучать и внедрять собственные TTS-голоса на основе их аудиоданных (с прохождением этической проверки Google) id.cloud-ace.com id.cloud-ace.com. Эти инновации, а также постепенное добавление новых языков и диалектов, позволяют Google оставаться на передовой голосового ИИ в 2025 году.

Официальный сайт: Google Cloud Text-to-Speech cloud.google.com (для TTS) и страницы продуктов Speech-to-Text krisp.ai.

2. Microsoft Azure Speech Service (TTS, STT, Voice Cloning) – Microsoft

Обзор: Сервис Azure AI Speech от Microsoft — это корпоративная платформа, предлагающая Neural Text-to-Speech, Speech-to-Text, а также такие возможности, как Speech Translation и Custom Neural Voice. TTS от Azure предоставляет огромный выбор голосов (более 400 голосов на 140 языках/локалях) с качеством, близким к человеческому techcommunity.microsoft.com, включая различные стили и эмоции. Его STT (распознавание речи) отличается высокой точностью, поддерживает более 70 языков для потоковой или пакетной транскрипции в реальном времени telnyx.com, и может даже переводить устную речь на лету на другие языки krisp.ai. Отличительной чертой является корпоративная кастомизация: клиенты могут обучать собственные акустические/языковые модели или создавать клон голоса для своего бренда. Azure Speech тесно интегрирован с облачной экосистемой Azure (SDK и REST API) и основан на многолетних исследованиях Microsoft в области распознавания речи (включая технологии Nuance, приобретённой Microsoft).

Ключевые возможности:

  • Neural Text-to-Speech: Огромная библиотека готовых нейронных голосов на 144 языках/вариантах (446 голосов на середину 2024 года) techcommunity.microsoft.com, от неформальных разговорных тонов до формальных стилей повествования. Голоса создаются с помощью глубоких обучающих моделей Microsoft для просодии (например, варианты Transformer и Tacotron). Azure предлагает уникальные стили голоса (жизнерадостный, эмпатичный, обслуживание клиентов, новости и др.) и тонкую настройку (через SSML) высоты, скорости и произношения. Примечательная функция — поддержка многоязычности и нескольких говорящих: некоторые голоса могут переключаться между языками, а сервис поддерживает несколько ролей говорящих для создания диалогов.
  • Speech-to-Text: Высокоточное ASR с режимами потоковой и пакетной транскрипции в реальном времени. Поддержка 75+ языков/диалектов telnyx.com и такие функции, как автоматическая пунктуация, фильтрация ненормативной лексики, диаризация говорящих, пользовательский словарь и speech translation (транскрипция и перевод речи за один шаг) krisp.ai. STT от Azure подходит как для коротких команд, так и для длинных транскрипций, с возможностью использования улучшенных моделей для специфических задач (например, колл-центр).
  • Custom Neural Voice: Сервис клонирования голоса, который позволяет организациям создавать уникальный ИИ-голос, смоделированный по образцу целевого диктора (требуется ~30 минут обучающего аудио и строгая проверка согласия). Это создает синтетический голос, представляющий бренд или персонажа, используемый в таких продуктах, как иммерсивные игры или разговорные агенты. Custom Neural Voice от Microsoft известен своим качеством, как видно на примере таких брендов, как голос Flo от Progressive или чат-боты AT&T.
  • Безопасность и развертывание: Azure Speech делает акцент на корпоративной безопасности — шифрование данных, соответствие стандартам конфиденциальности и возможность использовать контейнеризованные конечные точки (чтобы компании могли развертывать речевые модели локально или на периферии для чувствительных сценариев) krisp.ai. Эта гибкость (облако или локально через контейнер) ценится в таких секторах, как здравоохранение.
  • Интеграция: Разработан для интеграции с экосистемой Azure — например, использование с Cognitive Services (перевод, когнитивный поиск), Bot Framework (для голосовых ботов) или Power Platform. Также поддерживает Speaker Recognition (аутентификация по голосу) как часть речевого предложения.

Поддерживаемые языки: Голосовой ИИ Azure поразительно многоязычен. TTS охватывает 140+ языков и вариантов (с голосами практически на всех основных языках и многих региональных вариантах — например, несколько акцентов английского, китайские диалекты, индийские языки, африканские языки) techcommunity.microsoft.com. STT поддерживает 100+ языков для транскрипции (и может автоматически определять языки в аудио или обрабатывать многоязычную речь) techcommunity.microsoft.com. Функция Speech Translation поддерживает десятки языковых пар. Microsoft также постоянно добавляет языки с низкими ресурсами, стремясь к инклюзивности. Эта широта делает Azure лучшим выбором для приложений, требующих международного охвата или поддержки локальных языков.

Техническая основа: Технология распознавания речи Microsoft основана на глубоких нейронных сетях и обширных исследованиях (часть которых ведётся в Microsoft Research и использует приобретённые алгоритмы Nuance). Neural TTS использует такие модели, как Transformer и варианты FastSpeech, для генерации речевого сигнала, а также вокодеры, похожие на WaveNet. Последним достижением Microsoft стало достижение паритета с человеком в некоторых задачах TTS — благодаря масштабному обучению и тонкой настройке для имитации нюансов человеческой речи techcommunity.microsoft.com. Для STT Azure использует комбинацию акустических и языковых моделей; с 2023 года внедрены акустические модели на базе Transformer (улучшена точность и устойчивость к шуму) и унифицированные модели “Conformer”. Azure также применяет ансамблирование моделей и обучение с подкреплением для постоянного улучшения. Кроме того, предлагается адаптивное обучение — возможность улучшать распознавание специфической терминологии с помощью текстовых данных (кастомные языковые модели). На инфраструктурном уровне Azure Speech может использовать ускорение на GPU в облаке для потоковой передачи с низкой задержкой и автоматически масштабируется для обработки пиковых нагрузок (например, при создании субтитров для крупных мероприятий в реальном времени).

Сценарии использования: Azure Speech применяется в различных отраслях:

  • Обслуживание клиентов и IVR: Многие компании используют STT и TTS от Azure для работы IVR-систем колл-центров и голосовых ботов. Например, авиакомпания может использовать STT для транскрипции телефонных запросов клиентов и отвечать с помощью Neural TTS-голоса, при необходимости даже переводя речь между языками krisp.ai.
  • Виртуальные ассистенты: Технология лежит в основе голосовых функций виртуальных агентов, таких как Cortana, и сторонних ассистентов, встроенных в автомобили или бытовую технику. Функция создания индивидуального голоса позволяет этим ассистентам иметь уникальную персону.
  • Создание контента и медиа: Студии видеоигр и анимационные компании используют Custom Neural Voice для создания уникальных голосов персонажей без длительных записей с актёрами (например, чтение сценариев клонированным голосом актёра). Медиа-компании используют Azure TTS для озвучивания новостей, аудиокниг или многозвучного дубляжа контента.
  • Доступность и образование: Точное STT от Azure помогает создавать субтитры в реальном времени для встреч (например, в Microsoft Teams) и лекций, что полезно для людей с нарушениями слуха или языковыми барьерами. TTS используется в функциях чтения вслух в Windows, электронных книгах и образовательных приложениях.
  • Продуктивность предприятий: Транскрипция встреч, голосовой почты или диктовки для документов — распространённый вариант использования. Технология Nuance Dragon (теперь принадлежит Microsoft) интегрирована для обслуживания таких профессий, как врачи (например, преобразование речи в текст для клинических заметок) и юристы для диктовки документов с высокой точностью по терминологии отрасли krisp.ai krisp.ai.

Ценообразование: Azure Speech использует модель оплаты по факту потребления. Для STT взимается плата за каждый час обработанного аудио (разные тарифы для стандартных и пользовательских или улучшенных моделей). Например, стандартная транскрипция в реальном времени может стоить около $1 за час аудио. TTS оплачивается за символ или за 1 миллион символов (примерно $16 за миллион символов для нейронных голосов, что сопоставимо с конкурентами). Для Custom Neural Voice предусмотрена дополнительная плата за настройку/обучение и за использование. Azure предлагает бесплатные тарифы: например, определённое количество часов STT бесплатно в первые 12 месяцев и бесплатные символы для синтеза речи. Azure также включает речевые сервисы в свой пакет Cognitive Services, который корпоративные клиенты могут приобрести с объёмными скидками. В целом, цены конкурентоспособны, но пользователям стоит учитывать, что за расширенные функции (например, пользовательские модели или стили с высокой точностью) может взиматься дополнительная плата.

Сильные стороны: Речевой сервис Microsoft готов для предприятий — известен надёжной безопасностью, конфиденциальностью и соответствием требованиям (важно для регулируемых отраслей) krisp.ai. Он обеспечивает непревзойдённую настройку: пользовательские голоса и модели STT дают организациям тонкий контроль. Широта поддержки языков и голосов — одна из лучших в отрасли techcommunity.microsoft.com, что делает его универсальным решением для глобальных нужд. Интеграция с широкой экосистемой Azure и инструментами для разработчиков (отличные SDK для .NET, Python, Java и др.) — сильная сторона, упрощающая разработку комплексных решений. Голоса Microsoft очень естественны, часто отмечаются за выразительность и разнообразие доступных стилей. Ещё одно преимущество — гибкое развёртывание: возможность запускать контейнеры позволяет использовать сервис офлайн или на периферии, что предлагают немногие облачные провайдеры. Наконец, постоянные обновления Microsoft (часто основанные на собственных продуктах, таких как Windows, Office и Xbox, использующих речевые технологии) означают, что сервис Azure Speech использует передовые исследования и масштабное тестирование в реальных условиях.

Слабые стороны: Хотя качество Azure высокое, стоимость может увеличиваться при интенсивном использовании, особенно для Custom Neural Voice (требует значительных вложений и прохождения процесса одобрения Microsoft), а также для длинных транскрипций, если нет корпоративного соглашения telnyx.com. Множество функций и опций сервиса означают более высокую кривую обучения — новым пользователям может быть сложно разобраться во всех настройках (например, выбор среди множества голосов или настройка пользовательских моделей требует определённой экспертизы). По точности Azure STT — один из лидеров, но некоторые независимые тесты показывают, что Google или Speechmatics немного опережают по отдельным метрикам (точность может зависеть от языка или акцента). Кроме того, полноценное использование возможностей Azure Speech часто предполагает, что вы находитесь в экосистеме Azure — сервис работает лучше всего при интеграции с хранилищем Azure и т.д., что может не подойти тем, кто использует мультиоблако или ищет более простое автономное решение. Наконец, как и с любым облачным сервисом, использование Azure Speech означает отправку данных в облако — организации с крайне чувствительными данными могут предпочесть решение только на собственной инфраструктуре (контейнер Azure помогает, но не бесплатен).

Последние обновления (2024–2025): Microsoft активно расширяет языковые и голосовые возможности. В 2024 году Azure Neural TTS добавил 46 новых голосов и 2 новых языка, доведя общее количество до 446 голосов на 144 языках techcommunity.microsoft.com. Также были прекращены старые “стандартные” голоса в пользу исключительно нейронных (с сентября 2024 года) для обеспечения более высокого качества learn.microsoft.com. Microsoft представила инновационную функцию Voice Flex Neural (превью), которая позволяет ещё более динамично менять стили речи. В STT Microsoft интегрировала некоторые возможности Dragon от Nuance в Azure — например, модели Dragon Legal и Medical стали доступны в Azure для специализированной транскрипции с очень высокой точностью по техническим терминам. Также были выпущены обновления Speech Studio, графического инструмента для простого создания пользовательских речевых моделей и голосов. Ещё одно важное новшество: Speech to Text Azure получил улучшение благодаря новой фундаментальной модели (сообщается о модели с несколькими миллиардами параметров), что повысило точность примерно на 15% и позволило транскрибировать смешанные языки за один раз aws.amazon.com aws.amazon.com. Кроме того, Microsoft объявила об интеграции речи с сервисами Azure OpenAI — теперь можно, например, преобразовать речь встречи в текст и затем использовать GPT-4 для создания резюме (всё внутри Azure). Продолжающаяся интеграция генеративного ИИ (например, GPT) с речью, а также улучшения в обработке акцентов и снижении предвзятости (часть из которых реализуется благодаря партнёрству Microsoft с организациями для снижения ошибок у разных групп пользователей), позволяют Azure Speech оставаться на передовой в 2025 году.

Официальный сайт: Azure AI Speech Service techcommunity.microsoft.com (официальная страница продукта Microsoft Azure для Speech).

3. Amazon AWS Voice AI – Amazon Polly (TTS) и Amazon Transcribe (STT)

Обзор: Amazon Web Services (AWS) предоставляет мощный облачный голосовой ИИ через Amazon Polly для преобразования текста в речь и Amazon Transcribe для преобразования речи в текст. Polly преобразует текст в реалистичную речь с использованием различных голосов и языков, в то время как Transcribe использует автоматическое распознавание речи (ASR) для создания высокоточных транскрипций из аудио. Эти сервисы входят в широкий спектр ИИ-решений AWS и выигрывают от масштабируемости и интеграции AWS. Голосовые технологии Amazon отличаются надежностью и используются в различных отраслях для задач, таких как IVR-системы, создание субтитров для медиа, голосовые помощники и многое другое. Хотя Polly и Transcribe являются отдельными сервисами, вместе они покрывают весь спектр потребностей в голосовом вводе и выводе. Amazon также предлагает сопутствующие сервисы: Amazon Lex (для разговорных ботов), Transcribe Call Analytics (для аналитики контакт-центров) и индивидуальную программу Brand Voice (Amazon создает уникальный голос TTS для бренда клиента). AWS Voice AI ориентирован на разработчиков и предприятия, уже использующие экосистему AWS, предоставляя им простую интеграцию с другими ресурсами AWS.

Ключевые особенности:

  • Amazon Polly (TTS): Polly предлагает 100+ голосов на 40+ языках и диалектах aws.amazon.com, включая как мужские, так и женские голоса, а также нейронные и стандартные варианты. Голоса «реалистичные», созданы с помощью глубокого обучения для передачи естественной интонации и ритма. Polly поддерживает нейронный TTS для высококачественной речи и недавно представила нейронный генеративный TTS-движок – передовую модель (с 13 ультра-выразительными голосами на конец 2024 года), которая создает более эмоциональную, разговорную речь aws.amazon.com aws.amazon.com. Polly предоставляет такие функции, как поддержка Speech Synthesis Markup Language (SSML) для тонкой настройки речи (произношение, акценты, паузы) aws.amazon.com. Также есть специальные стили озвучивания; например, стиль Newscaster для чтения новостей или Conversational для более непринужденного тона. Уникальная функция Polly — автоматическая регулировка скорости речи для длинных текстов (дыхание, пунктуация) с помощью long-form синтез-движка, что обеспечивает более естественное озвучивание аудиокниг или новостей (есть даже специальные голоса для длинных текстов).
  • Amazon Transcribe (STT): Transcribe может обрабатывать как пакетную транскрипцию заранее записанных аудиофайлов, так и транскрипцию в реальном времени. Поддерживает более 100 языков и диалектов для транскрипции aws.amazon.com, и может автоматически определять язык речи. Ключевые функции включают диаризацию по говорящим (различение говорящих в многоголосом аудио) krisp.ai, пользовательский словарь (обучение системы терминам или именам, специфичным для области) telnyx.com, пунктуацию и регистр (автоматически вставляет знаки препинания и заглавные буквы для удобочитаемости) krisp.ai, и генерацию временных меток для каждого слова. В Transcribe также есть фильтрация контента (маскировка или пометка ненормативной лексики/ПДн) и редактирование – полезно для записи звонков в колл-центрах для сокрытия конфиденциальной информации. Для телефонии и встреч существуют специализированные улучшения: например, Transcribe Medical для медицинской речи (соответствует HIPAA) и Call Analytics, который не только транскрибирует, но и предоставляет анализ настроения, категоризацию звонков и генерацию сводки с помощью интегрированного ML aws.amazon.com aws.amazon.com.
  • Интеграция и инструменты: Polly и Transcribe интегрируются с другими сервисами AWS. Например, результат Transcribe может напрямую поступать в Amazon Comprehend (NLP-сервис) для более глубокого анализа текста или в Translate для перевода транскриптов. Polly может работать с AWS Translate для создания голосового вывода на других языках. AWS предоставляет SDK на многих языках (Python boto3, Java, JavaScript и др.) для легкого вызова этих сервисов. Также есть удобные функции, например, MediaConvert от Amazon может использовать Transcribe для автоматической генерации субтитров к видеофайлам. Кроме того, AWS предлагает Presign APIs, которые позволяют безопасно загружать файлы для транскрипции или стриминга напрямую с клиента.
  • Кастомизация: Хотя голоса Polly заранее созданы, AWS предлагает Brand Voice — программу, в рамках которой эксперты Amazon создадут индивидуальный TTS-голос для клиента (это не самообслуживание; это совместная работа — например, KFC Canada работала с AWS для создания голоса полковника Сандерса через Polly’s Brand Voice venturebeat.com). Для Transcribe кастомизация осуществляется через пользовательский словарь или Custom Language Models (для некоторых языков AWS позволяет обучить небольшую пользовательскую модель, если у вас есть транскрипты; сейчас в ограниченном предварительном доступе).
  • Производительность и масштабируемость: Сервисы Amazon известны своей проверенной в производстве масштабируемостью (Amazon, вероятно, даже использует Polly и Transcribe внутри компании для Alexa и сервисов AWS). Оба сервиса способны обрабатывать большие объемы: Transcribe в режиме потоковой передачи может одновременно обрабатывать множество потоков (масштабируется горизонтально), а пакетные задания могут обрабатывать много часов аудио, хранящегося на S3. Polly может быстро синтезировать речь, поддерживает кэширование результатов и предлагает нейронное кэширование часто используемых фраз. Задержка низкая, особенно при использовании AWS-регионов, близких к пользователям. Для IoT или edge-применений AWS не предлагает офлайн-контейнеры для этих сервисов (в отличие от Azure), но предоставляет edge-коннекторы через AWS IoT для потоковой передачи в облако.

Поддерживаемые языки:

  • Amazon Polly: Поддерживает десятки языков (на данный момент около 40+). Включает большинство основных языков: английский (США, Великобритания, Австралия, Индия и др.), испанский (ЕС, США, Латинская Америка), французский, немецкий, итальянский, португальский (Бразилия и ЕС), хинди, арабский, китайский, японский, корейский, русский, турецкий и другие aws.amazon.com. Для многих языков доступно несколько голосов (например, для американского английского — более 15 голосов). AWS продолжает добавлять языки — например, в конце 2024 года были добавлены чешский и швейцарский немецкий docs.aws.amazon.com. Не все языки мира охвачены, но выбор широк и постоянно расширяется.
  • Amazon Transcribe: На 2025 год поддерживает 100+ языков и вариантов для транскрипции aws.amazon.com. Изначально поддерживалось около 31 языка (в основном западные языки), но Amazon значительно расширил список, используя модель нового поколения, чтобы включить гораздо больше языков (в том числе вьетнамский, фарси, суахили и др.). Также поддерживается многоязычная транскрипция — сервис может распознавать и транскрибировать двуязычные разговоры (например, смесь английского и испанского в одном звонке). Для специализированных областей: Transcribe Medical в настоящее время поддерживает медицинскую диктовку на нескольких диалектах английского и испанского языков.

Техническая основа: Генеративный голос Amazon (Polly) использует передовые нейронные сетевые модели, включая трансформер с миллиардом параметров для своих новейших голосов aws.amazon.com. Эта архитектура модели позволяет Polly генерировать речь в потоковом режиме, сохраняя высокое качество — создавая речь, которая «эмоционально вовлечённая и очень разговорная» aws.amazon.com. Более ранние голоса используют конкатенативные подходы или старые нейронные сети для стандартных голосов, но сейчас акцент полностью смещён на нейронный TTS. Со стороны STT, Amazon Transcribe работает на ASR-модели нового поколения (с несколькими миллиардами параметров), которую Amazon создала и обучила на огромных объёмах аудио (по сообщениям, миллионы часов) aws.amazon.com. Вероятно, модель использует архитектуру Transformer или Conformer для достижения высокой точности. Она оптимизирована для работы с различными акустическими условиями и акцентами (Amazon явно отмечает, что учитывает разные акценты и шумы) aws.amazon.com. Примечательно, что развитие Transcribe было под влиянием достижений в распознавании речи Amazon Alexa — улучшения моделей Alexa часто внедряются в Transcribe для более широкого использования. AWS применяет методы самообучения для языков с малым количеством ресурсов (аналогично SpeechMix или wav2vec), чтобы расширить языковое покрытие. С точки зрения развертывания, эти модели работают на управляемой инфраструктуре AWS; AWS имеет специализированные чипы для инференса (например, AWS Inferentia), которые могут использоваться для экономичного запуска этих моделей.

Сценарии использования:

  • Интерактивные голосовые меню (IVR): Многие компании используют Polly для озвучивания подсказок и Transcribe для распознавания того, что говорят абоненты в телефонных меню. Например, IVR банка может озвучивать информацию о счёте через Polly и использовать Transcribe для понимания голосовых запросов.
  • Аналитика контакт-центра: Использование Transcribe для транскрибирования звонков в службу поддержки (через Amazon Connect или другие платформы колл-центров) с последующим анализом для определения настроения клиента или эффективности оператора. Функции Call Analytics (с определением настроения и суммаризацией) помогают автоматизировать контроль качества звонков aws.amazon.com aws.amazon.com.
  • Медиа и развлечения: Polly используется для генерации озвучки новостных статей или блогов (некоторые новостные сайты предлагают «прослушать статью» с помощью голосов Polly). Transcribe используется вещателями для создания субтитров к прямым эфирам или видеоплатформами для автоматической генерации субтитров к загружаемым пользователями видео. Продакшн-студии могут использовать Transcribe для получения расшифровок видеоматериалов для целей монтажа (поиск по тексту внутри видео).
  • Электронное обучение и доступность: Платформы электронного обучения используют Polly для преобразования письменного контента в аудио на нескольких языках, делая учебные материалы более доступными. Transcribe может помочь создавать расшифровки уроков или позволять студентам искать по записям лекций.
  • Голосовые функции устройств и приложений: Многие мобильные приложения или IoT-устройства используют AWS для голосовых функций. Например, мобильное приложение может использовать Transcribe для голосового поиска (запишите вопрос, отправьте в Transcribe, получите текст). Голоса Polly можно встроить в устройства, такие как умные зеркала или системы оповещения, чтобы озвучивать предупреждения или уведомления.
  • Многоязычный дубляж: Используя комбинацию сервисов AWS (Transcribe + Translate + Polly), разработчики могут создавать автоматизированные решения для дубляжа. Например, взять видео на английском, сделать транскрипцию, перевести транскрипт на испанский, затем использовать испанский голос Polly для создания испанской озвучки.
  • Игры и интерактивные медиа: Разработчики игр могут использовать Polly для динамических диалогов NPC (чтобы текстовые реплики могли быть озвучены без записи актёров для каждой строки). У Polly даже есть голос NTTS (Джастин), который был создан для пения, и который некоторые использовали для творческих проектов.

Ценообразование: Цены AWS основаны на потреблении:

  • Amazon Polly: Оплата за миллион символов входного текста. Первые 5 миллионов символов в месяц бесплатны в течение 12 месяцев (для новых аккаунтов) aws.amazon.com. После этого стандартные голоса стоят около $4 за 1 млн символов, нейронные — около $16 за 1 млн символов (эти цены могут немного отличаться в зависимости от региона). Новые “генеративные” голоса могут иметь премиальное ценообразование (например, немного выше за символ из-за большей вычислительной нагрузки). Стоимость Polly примерно сопоставима с Google/Microsoft в категории нейронных голосов. Дополнительная плата за хранение или потоковую передачу аудио не взимается (кроме минимальных затрат на S3 или передачу данных, если вы храните/доставляете аудио).
  • Amazon Transcribe: Оплата за секунду аудио. Например, стандартная транскрипция стоит $0.0004 за секунду (что составляет $0.024 за минуту). Таким образом, один час стоит около $1.44. Для дополнительных функций действуют немного другие тарифы: например, использование Transcribe Call Analytics или Medical может стоить чуть дороже (~$0.0008/сек). Потоковая обработка в реальном времени также тарифицируется по секундам. AWS предоставляет 60 минут транскрипции бесплатно в месяц в течение 12 месяцев для новых пользователей aws.amazon.com. Также AWS часто предлагает ступенчатые скидки для больших объёмов или корпоративных контрактов через AWS Enterprise Support.
  • Подход AWS модульный: если вы используете Translate или другие сервисы вместе, они оплачиваются отдельно. Однако преимущество в том, что вы платите только за то, что используете, и можете уменьшить расходы до нуля, когда сервис не используется. Это экономично при нерегулярном использовании, но для очень больших постоянных нагрузок может потребоваться переговоры о скидках или использование планов экономии AWS.

Сильные стороны: Главная сильная сторона голосовых сервисов AWS — их доказанная масштабируемость и надежность: они созданы для работы с производственными нагрузками (SLA AWS 99,9%, многорегиональное резервирование и т.д.). Глубокая интеграция с экосистемой AWS — плюс для тех, кто уже использует AWS (IAM для контроля доступа, S3 для ввода/вывода и т.д., все работает вместе бесшовно). Голоса Polly считаются очень естественными, а появление новых генеративных голосов еще больше приблизило их к человеческой речи, плюс есть специализация на эмоциональной выразительности aws.amazon.com. Transcribe известен своей устойчивостью к сложному аудио (был одним из первых, кто сделал акцент на обработке разных акцентов и шумных фонов aws.amazon.com). Сервисы относительно просты в использовании через API, у AWS хорошая документация и примеры кода. AWS также предлагает конкурентные цены, а бесплатный уровень помогает новым пользователям. Еще одна сильная сторона — быстрый темп развития: Amazon регулярно добавляет функции (например, определение токсичности в Transcribe для модерации) и расширяет языковую поддержку, часто вдохновляясь реальными потребностями клиентов AWS. В плане безопасности AWS силен: контент шифруется, можно не сохранять данные или автоматически удалять их после обработки. Для корпоративных клиентов AWS также предоставляет поддержку людей и архитекторов решений для эффективного внедрения этих сервисов.

Слабые стороны: Для некоторых разработчиков потенциальным минусом может быть то, что для работы с AWS требуется регистрация аккаунта и понимание AWS IAM и консоли, что может быть избыточно, если нужен только быстрый тест голоса (в отличие от некоторых конкурентов, предлагающих более простые публичные эндпоинты или GUI-инструменты). В отличие от некоторых конкурентов (Google, Microsoft), у AWS нет самообслуживаемого кастомного клонирования голоса для всех; Brand Voice доступен только для крупных клиентов. Это значит, что небольшие пользователи не могут обучать свои голоса на AWS, кроме функции лексикона. В настоящее время у AWS также нет опции локального/офлайн-развертывания Polly или Transcribe — только облако (можно использовать edge Outposts или локальные зоны Amazon, но это не то же самое, что офлайн-контейнер). По точности, хотя Transcribe силен, некоторые независимые тесты иногда показывали чуть более высокую точность Microsoft или Google для отдельных языков или кейсов (это зависит; новая модель AWS сократила разрыв). Еще один момент: языковое покрытие в TTS — 40+ языков это хорошо, но Google и Microsoft поддерживают еще больше; AWS может немного отставать по некоторым локализованным голосам (например, у Google сейчас больше индийских языков в TTS, чем у Polly). Наконец, множество смежных сервисов AWS может запутать некоторых (например, выбор между Transcribe и Lex для определенных задач), что требует некоторого понимания облачной архитектуры.

Последние обновления (2024–2025): AWS внес значительные обновления в Polly и Transcribe:

  • Polly: В ноябре 2024 года AWS запустила шесть новых «генеративных» голосов на нескольких языках (французский, испанский, немецкий, различные варианты английского), расширив количество голосов в этой категории с 7 до 13 aws.amazon.com. Эти голоса используют новый генеративный движок TTS и отличаются высокой выразительностью, ориентированы на использование в разговорном ИИ. Также были добавлены Long-Form NTTS voices для испанского и английского языков, которые сохраняют чёткость на очень длинных отрывках aws.amazon.com aws.amazon.com. Ранее, в 2024 году, AWS представила голос в стиле Newscaster style на бразильском португальском и других языках. В марте 2025 года в документации Amazon Polly указано, что сервис теперь поддерживает чешский и швейцарский немецкий, что отражает продолжающееся расширение языков docs.aws.amazon.com. Ещё одно обновление: AWS улучшила качество нейронных голосов Polly (вероятно, обновление базовой модели) — некоторые пользователи отметили более плавную просодию в обновлённых голосах.
  • Transcribe: В середине 2024 года Amazon анонсировала next-gen ASR model (Nova), которая лежит в основе Transcribe, что значительно повысило точность и увеличило количество поддерживаемых языков до 100+ aws.amazon.com. Также был запущен Transcribe Call Analytics по всему миру, с возможностью получать conversation summaries с помощью генеративного ИИ (интеграция с AWS Bedrock или моделями OpenAI) — по сути, автоматическое подведение итогов ключевых моментов звонка после транскрипции. Ещё одна новая функция — Real-Time Toxicity Detection (запущена в конце 2024 года), которая позволяет разработчикам обнаруживать враждебные высказывания или домогательства в живом аудио через Transcribe, что важно для модерации голосовых чатов в реальном времени aws.amazon.com. В 2025 году AWS тестирует custom language models (CLM) для Transcribe, позволяя компаниям дообучать ASR на своих данных (это конкурирует с Azure custom STT). В части ценообразования AWS сделала Transcribe более выгодным для крупных клиентов, автоматически вводя поэтапное ценообразование при превышении определённых порогов часов в месяц. Все эти обновления показывают стремление AWS оставаться лидером в области голосового ИИ, постоянно улучшая качество и функциональность.

Официальные сайты: Amazon Polly – сервис преобразования текста в речь aws.amazon.com aws.amazon.com; Amazon Transcribe – сервис преобразования речи в текст aws.amazon.com aws.amazon.com.

4. Речевые сервисы IBM Watson (TTS & STT) – IBM

Обзор: IBM Watson предлагает как Text-to-Speech, так и Speech-to-Text в рамках своих AI-сервисов Watson. IBM имеет долгую историю в области речевых технологий, и её облачные сервисы отражают акцент на кастомизации, отраслевой экспертизе и конфиденциальности данных. Watson Text-to-Speech может синтезировать естественно звучащую речь на нескольких языках, а Watson Speech-to-Text обеспечивает высокоточное распознавание с возможностью адаптации к специализированной лексике. Речевые сервисы IBM особенно популярны в таких отраслях, как здравоохранение, финансы и юриспруденция, где лексика может быть сложной, а безопасность данных имеет первостепенное значение. IBM предлагает варианты локального развертывания своих моделей (через IBM Cloud Pak), что привлекательно для организаций, которые не могут использовать публичное облако для голосовых данных. Хотя доля IBM на рынке облачных речевых технологий меньше по сравнению с тремя лидерами (Google, MS, AWS), компания остаётся надёжным поставщиком корпоративного уровня для речевых решений, требующих настройки под специфическую терминологию или интеграции с более широкой экосистемой Watson (включая переводчики, фреймворк ассистентов и др.).

Ключевые особенности:

  • Watson Text-to-Speech (TTS): Поддерживает несколько голосов на 13+ языках (включая американский/британский английский, испанский, французский, немецкий, итальянский, японский, арабский, бразильский португальский, корейский, китайский и др.). Голоса являются «нейронными», и IBM постоянно их обновляет – например, были добавлены новые выразительные нейронные голоса для некоторых языков (например, выразительный австралийский английский голос) cloud.ibm.com. В IBM TTS можно настраивать параметры, такие как высота тона, скорость и акцентирование, с помощью расширений SSML от IBM. Некоторые голоса обладают функцией выразительного чтения (например, голос может звучать сочувственно или взволнованно). IBM также добавила функцию custom voice, где клиенты могут совместно с IBM создать уникальный синтетический голос (аналог фирменного голоса, обычно для корпоративных клиентов). Особенностью является низкая задержка потоковой передачи – TTS от IBM может возвращать аудио в режиме реального времени, что полезно для отзывчивых голосовых ассистентов.
  • Watson Speech-to-Text (STT): Предлагает транскрипцию в реальном времени или пакетную обработку с такими функциями, как диаризация по говорящим (различение говорящих) krisp.ai, поиск по ключевым словам (возможность выводить временные метки для определённых интересующих ключевых слов) и альтернативы слов (альтернативные варианты с указанием уверенности для неуверенных транскрипций). STT от IBM известен своей мощной поддержкой кастомных языковых моделей: пользователи могут загружать тысячи терминов, специфичных для своей области, или даже аудио+транскрипты, чтобы адаптировать модель, например, под медицинскую терминологию или юридические фразы krisp.ai krisp.ai. Это значительно повышает точность в этих сферах. IBM также поддерживает несколько широкополосных и узкополосных моделей, оптимизированных для телефонного аудио и высококачественного аудио. Поддерживается около 10 языков для транскрипции (английский, испанский, немецкий, японский, мандаринский и др.) с высокой точностью, а для некоторых есть отдельные телефонные модели (которые справляются с телефонными шумами и кодеками). Интересная функция — автоматическое интеллектуальное форматирование — например, система может форматировать даты, валюты и числа в транскрипции для удобства чтения.
  • Оптимизация под отрасли: IBM предлагает предварительно обученные отраслевые модели, такие как Watson Speech Services для здравоохранения, которые заранее адаптированы для медицинской диктовки, и транскрипция для медиа и развлечений с библиотеками имён собственных для медиа. Эти опции отражают ориентированный на консалтинг подход IBM, когда решение может быть адаптировано под сферу клиента.
  • Безопасность и развертывание: Важное преимущество — IBM позволяет запускать Watson Speech-сервисы в собственной инфраструктуре клиента (вне IBM Cloud) через IBM Cloud Pak for Data. Это контейнеризированное решение означает, что чувствительное аудио не покидает серверы компании, что решает вопросы локализации и конфиденциальности данных. Даже в IBM Cloud по умолчанию данные не сохраняются, а все передачи зашифрованы. IBM соответствует строгим стандартам (HIPAA, готовность к GDPR).
  • Интеграция: Watson Speech интегрируется с Watson Assistant от IBM (можно легко добавить STT/TTS в чат-боты). Также сервис связан с более широкой AI-платформой IBM — например, результаты STT можно передавать в Watson Natural Language Understanding для извлечения тональности или в Watson Translate для многоязычной обработки. IBM предоставляет веб-сокеты и REST-интерфейсы для потоковой и пакетной обработки соответственно.

Поддерживаемые языки:

  • TTS: Собственная TTS от IBM поддерживает около 13 языков (и некоторые диалекты). В их числе основные бизнес-языки. Хотя это меньше, чем у Google или Amazon, IBM делает упор на качество голосов в поддерживаемых языках. Примечательные языки: английский (США, Великобритания, Австралия), французский, немецкий, итальянский, испанский (ЕС и Латинская Америка), португальский (Бразилия), японский, корейский, мандаринский (упрощённый китайский), арабский и, возможно, русский. В последних обновлениях добавлялись новые голоса для уже поддерживаемых языков, а не новые языки. Например, IBM представила 27 новых голосов для 11 языков в одном обновлении voximplant.com (например, добавление детских голосов, новых диалектов).
  • STT: IBM STT стабильно поддерживает примерно 8-10 языков (английский, испанский, французский, немецкий, японский, корейский, бразильский португальский, современный стандартный арабский, мандаринский китайский и итальянский). Английский (США и Великобритания) — самый функциональный (есть кастомизация и узкополосные модели). Для некоторых языков доступны опции перевода на английский в Watson (однако это отдельный сервис Watson). По сравнению с конкурентами, у IBM меньше языков, но они охватывают те, где выше всего спрос в бизнесе, и для них есть возможность кастомизации.

Техническая основа: Речевые технологии IBM развивались на базе собственных исследований (IBM была пионером с такими технологиями, как основанный на скрытых марковских моделях ViaVoice в 90-х, а затем и с подходами глубокого обучения). Современный Watson STT использует глубокие нейронные сети (вероятно, похожие на двунаправленные LSTM или акустические модели Transformer) плюс n-граммную или нейронную языковую модель. IBM делает акцент на адаптацию к домену: вероятно, используется transfer learning для дообучения базовых моделей на отраслевых данных при создании кастомных моделей. В некоторых исследованиях IBM применяет так называемое “Speaker Adaptive Training” — возможно, это позволяет модели адаптироваться, если она распознаёт постоянного говорящего (полезно для диктовки). Watson TTS использует нейронную sequence-to-sequence модель для синтеза речи; у IBM есть технология expressive tuning — обучение голосов на экспрессивных записях, чтобы они могли генерировать более эмоциональную речь. Исследования IBM по эмоциональному TTS (например, статья “Expressive Speech Synthesis”) легли в основу голосов Watson TTS, делая их способными к тонким интонационным изменениям. Ещё один элемент: IBM внедрила механизм внимания в TTS для лучшей обработки аббревиатур и незнакомых слов. С точки зрения инфраструктуры, сервисы IBM — это контейнеризированные микросервисы; производительность хорошая, хотя исторически некоторые пользователи отмечали, что Watson STT может быть чуть медленнее Google по скорости выдачи результатов (делается упор на точность, но это могло улучшиться). Вероятно, для генерации TTS IBM также использует ускорение на GPU.

Сценарии использования:

  • Здравоохранение: Больницы используют Watson STT (часто через партнёров) для расшифровки диктовок врачей (Dragon Medical — распространён, но IBM предлагает альтернативу для некоторых). Также — голосовое взаимодействие в медицинских приложениях (например, медсестра задаёт вопрос информационной системе больницы вслух и получает ответ через Watson Assistant с STT/TTS).
  • Обслуживание клиентов: IBM Watson Assistant (виртуальный агент) в связке с Watson TTS/STT обеспечивает работу голосовых ботов для линий поддержки клиентов. Например, телеком-компания может использовать голосового агента на базе Watson для обработки типовых звонков (Watson STT распознаёт запрос клиента, Watson TTS отвечает).
  • Соответствие требованиям и СМИ: Финансовые торговые компании могут использовать Watson STT для транскрипции телефонных звонков трейдеров с целью мониторинга соответствия требованиям, используя безопасность Watson и возможность локального развертывания. Медиаорганизации могут использовать Watson для транскрипции видео или архивирования трансляций (особенно если требуется локальное решение для больших архивов).
  • Образование и доступность: Университеты использовали Watson для транскрипции лекций или предоставления субтитров, особенно когда важна конфиденциальность контента и требуется запускать систему внутри организации. Watson TTS использовался для создания аудио для цифрового контента и экранных дикторов (например, сайт электронной коммерции использует Watson TTS для озвучивания описаний товаров для пользователей с нарушениями зрения).
  • Государственный сектор: Безопасное развертывание Watson делает его подходящим для государственных учреждений, которым нужны голосовые технологии, например, для транскрипции публичных собраний (с пользовательским словарём для местных имён/терминов) или предоставления многоязычных голосовых систем для обслуживания граждан.
  • Автомобильная промышленность: У IBM были партнёрства по использованию Watson в автомобильных информационно-развлекательных системах – использование STT для голосовых команд в автомобиле и TTS для озвучивания ответов (карты, информация о транспортном средстве). Функция пользовательского словаря полезна для автомобильной терминологии (названия моделей и т.д.).

Ценообразование: IBM предлагает Lite-план с некоторым бесплатным лимитом (например, 500 минут STT в месяц и определённое количество тысяч символов TTS) – это удобно для разработки. Далее оплата идёт по использованию:

  • STT: Примерно $0,02 за минуту для стандартных моделей (то есть $1,20 за час) на IBM Cloud. Пользовательские модели стоят дороже (около ~$0,03/мин). Однако эти цифры могут меняться; IBM часто заключает корпоративные соглашения. В целом, цены IBM конкурентоспособны, иногда немного ниже за минуту, чем у крупных облачных конкурентов по STT, чтобы привлечь клиентов. Минус – поддерживается меньше языков.
  • TTS: Оплата за миллион символов, примерно $20 за миллион символов для нейронных голосов (стандартные голоса дешевле). Ранее цена составляла $0,02 за ~1000 символов, что соответствует $20 за миллион. Экспрессивные голоса могут стоить столько же. В Lite-тарифе, например, предоставлялось 10 000 символов бесплатно.
  • Уникальная особенность IBM — лицензирование для локального развертывания – если вы развертываете через Cloud Pak, вы можете платить за годовую лицензию или использовать кредиты, что может быть значительной статьёй расходов, но включает неограниченное использование до предела мощности. Это привлекательно для крупных пользователей, предпочитающих фиксированную модель оплаты или обязанных хранить данные внутри компании.

Сильные стороны: Основная сила IBM заключается в кастомизации и отраслевой экспертизе. Watson STT можно тонко настроить для работы со сложной терминологией с высокой точностью, krisp.ai krisp.ai, превосходя универсальные модели в таких областях, как медицинская диктовка или юридические транскрипты. Клиенты часто отмечают готовность IBM работать над индивидуальными решениями – IBM может сопровождать процесс создания индивидуальной модели или голоса при необходимости (за отдельную плату). Конфиденциальность данных и возможность локального размещения — большой плюс; немногие другие предлагают такой уровень контроля. Это делает IBM предпочтительным выбором для некоторых государственных и корпоративных клиентов. Точность IBM STT на чистом аудио с правильной настройкой отличная — в некоторых тестах Watson STT был лидером в таких областях, как телефонная речь, при соответствующей настройке. Голоса IBM TTS, хотя их и меньше, очень высокого качества (особенно нейронные голоса, представленные в последние годы). Еще одно преимущество — интеграция с полной AI-платформой IBM: для компаний, уже использующих Watson NLP, Knowledge Studio или платформы данных IBM, добавление речевых сервисов происходит просто. У IBM также сильная служба поддержки; клиенты часто получают прямую поддержку инженеров Watson при корпоративных тарифах. Наконец, бренд IBM в AI (особенно после победы DeepQA/Watson на Jeopardy) внушает доверие — некоторые руководители выбирают IBM для критически важных систем именно из-за этого наследия.

Слабые стороны: Речевые сервисы IBM уступают по количеству поддерживаемых языков и голосов конкурентам — например, если вам нужен шведский TTS или вьетнамский STT, у IBM их может не быть, а у других есть. Это ограничивает использование для глобальных потребительских приложений. Интерфейс IBM Cloud и документация, хотя и хорошие, иногда уступают по удобству для разработчиков очень ориентированной на разработчиков документации AWS или интегрированным студиям Azure. Темпы развития IBM в AI замедлились по сравнению с новыми игроками; поэтому сообщество и примеры с открытым исходным кодом для Watson speech встречаются реже. Еще один недостаток — масштабируемость для очень больших задач в реальном времени — хотя IBM может масштабироваться, у них меньше глобальных дата-центров для Watson, чем, например, у Google, поэтому задержки могут быть выше, если вы находитесь далеко от региона IBM Cloud. По стоимости, если вам нужно много языков или голосов, IBM может оказаться дороже, так как придется использовать нескольких поставщиков. Кроме того, из-за ориентации IBM на корпоративный сегмент некоторые аспекты самообслуживания менее удобны — например, для кастомизации модели могут потребоваться ручные действия или обращение в IBM, тогда как у Google/AWS можно просто загрузить данные для автоматической донастройки. IBM также не так часто рекламирует улучшения точности моделей — поэтому есть ощущение, что их модели обновляются реже (хотя обновления происходят, просто менее заметно). Наконец, экосистема IBM не так широко распространена среди разработчиков, что может быть минусом, если вам важна широкая поддержка сообщества или интеграция сторонних инструментов.

Последние обновления (2024–2025): IBM продолжает модернизировать свои речевые решения. В 2024 году IBM представила Large Speech Models (как функцию раннего доступа) для английского, японского и французского языков, что значительно повысило точность благодаря использованию более крупных нейронных сетей (об этом сообщалось в примечаниях к релизу Watson STT) cloud.ibm.com. В Watson TTS появились новые голоса: IBM добавила улучшенные нейронные голоса для австралийского английского, корейского и нидерландского языков в середине 2024 года cloud.ibm.com. Также были улучшены выразительные стили некоторых голосов (например, голос “Allison” для американского английского получил обновление, чтобы звучать более разговорно для использования в Watson Assistant). В части инструментов IBM выпустила интеграцию с Watson Orchestrate – теперь их low-code AI-оркестрация может легко подключать STT/TTS, например, для транскрибирования встречи и последующего её резюмирования с помощью Watson NLP. IBM также работала над снижением предвзятости в распознавании речи, признав, что старые модели допускали больше ошибок для некоторых диалектов; новая крупная модель для английского, по сообщениям, улучшила распознавание для разных говорящих за счёт обучения на более разнообразных данных. Примечательное событие 2025 года: IBM начала использовать foundation models from huggingface для некоторых задач, и есть предположение, что IBM может внедрить/открыть исходные модели (например, Whisper) для языков, которые пока не поддерживаются; однако официальных заявлений пока не было. В целом, обновления IBM направлены на повышение качества и поддержание актуальности (хотя они были менее заметны, чем анонсы конкурентов). Приверженность IBM гибридному облачному ИИ означает, что, возможно, мы увидим дальнейшее упрощение развертывания Watson Speech на Kubernetes и интеграцию с мультиоблачными стратегиями.

Официальный сайт: IBM Watson Speech-to-Text telnyx.com telnyx.com и страницы продуктов Text-to-Speech на IBM Cloud.

5. Nuance Dragon (распознавание речи и голосовой ввод) – Nuance (Microsoft)

Обзор: Nuance Dragon — это ведущая технология распознавания речи, которая долгое время была золотым стандартом для голосового диктования и транскрипции, особенно в профессиональных сферах. Nuance Communications (теперь компания Microsoft с 2022 года) разработала Dragon как набор продуктов для различных отраслей: Dragon Professional для общего диктования, Dragon Legal, Dragon Medical и др., каждый из которых адаптирован к лексике своей области. Dragon известен своей чрезвычайно высокой точностью преобразования речи в текст, особенно после короткого обучения пользователя. Также поддерживает голосовое управление (управление программами с помощью голоса). В отличие от облачных API, Dragon исторически работает как программное обеспечение на ПК или корпоративных серверах, что делало его выбором для пользователей, которым нужно диктовать в реальном времени без интернета или с гарантированной приватностью. После приобретения основная технология Nuance также интегрирована в облако Microsoft (как часть Azure Speech и функций Office 365), но сам Dragon остается отдельной линейкой продуктов. В 2025 году Dragon выделяется в этом списке как специалист: если другие — это более широкие платформы, то Dragon сосредоточен на индивидуальной продуктивности и отраслевой точности.

Тип: В первую очередь Speech-to-Text (STT). (У Nuance есть продукты TTS и голосовой биометрии, но бренд “Dragon” — это STT. Здесь мы рассматриваем Dragon NaturallySpeaking и связанные продукты).

Компания/Разработчик: Nuance (приобретена Microsoft). Nuance имеет десятилетия опыта в области речи; они были пионерами во многих голосовых инновациях (они даже обеспечивали работу старых телефонных IVR и раннего бэкенда Siri). Теперь под управлением Microsoft их исследования способствуют развитию Azure.

Возможности и целевая аудитория: Возможности Dragon сосредоточены на непрерывном распознавании речи с минимальным количеством ошибок и голосовом управлении компьютером. Целевая аудитория включает:

  • Медицинские специалисты: Dragon Medical One широко используется врачами для диктовки клинических заметок прямо в EHR, обрабатывая сложную медицинскую терминологию и названия препаратов с точностью около 99% krisp.ai.
  • Юридические специалисты: Dragon Legal обучен юридическим терминам и форматированию (знает ссылки, юридические формулировки). Юристы используют его для составления документов голосом.
  • Бизнес и частные пользователи: Dragon Professional позволяет любому диктовать электронные письма, отчеты или управлять ПК (открывать программы, отправлять команды) голосом, повышая продуктивность.
  • Доступность: Люди с ограниченными возможностями (например, с ограниченной подвижностью) часто используют Dragon для работы с компьютером без рук.
  • Правоохранительные органы/Общественная безопасность: Некоторые полицейские департаменты используют Dragon для диктовки отчетов о происшествиях в патрульных машинах.

Ключевые особенности:

  • Высокоточное диктование: Dragon обучается голосу пользователя и может достигать очень высокой точности после короткого обучения (чтение отрывка) и дальнейшего обучения. Использует контекст для правильного выбора омонимов и адаптируется к исправлениям пользователя.
  • Пользовательский словарь и макросы: Пользователи могут добавлять собственные слова (например, имена собственные, профессиональный жаргон) и пользовательские голосовые команды (макросы). Например, врач может добавить шаблон, который срабатывает, когда он говорит «вставить абзац нормального физикального осмотра».
  • Непрерывное обучение: По мере того как пользователь исправляет ошибки, Dragon обновляет его профиль. Он может анализировать электронную почту и документы пользователя, чтобы изучить стиль письма и словарный запас.
  • Офлайн-работа: Dragon работает локально (для версий для ПК), не требуя подключения к облаку, что важно для конфиденциальности и низкой задержки.
  • Интеграция голосовых команд: Помимо диктовки, Dragon позволяет полностью управлять компьютером с помощью голоса. Вы можете сказать «Открой Microsoft Word» или «Щелкни меню Файл» или даже перемещаться по голосу. Это распространяется на форматирование текста («сделай последнее предложение жирным») и другие операции.
  • Поддержка нескольких говорящих через специализации: Хотя один профиль Dragon предназначен для одного пользователя, в сценариях, таких как расшифровка записи, Nuance предлагает решения, такие как Dragon Legal Transcription, которые могут определять говорящих в записанных многоголосых диктовках (но это скорее отдельное решение, чем основная функция).
  • Облачное/корпоративное управление: Для предприятий Dragon предлагает централизованное управление пользователями и развертывание (например, Dragon Medical One — это облачный подписочный сервис, чтобы врачи могли использовать его на разных устройствах). Включает шифрование трафика клиент-сервер для облачных решений.

Поддерживаемые языки: В первую очередь английский (различные акценты). Nuance выпускает версии и для других основных языков, но флагман — американский английский. Существуют продукты Dragon для британского английского, французского, итальянского, немецкого, испанского, голландского и др. Каждый обычно продается отдельно, так как оптимизирован под конкретный язык. Отраслевые версии (медицинская, юридическая) в основном ориентированы на английский (хотя у Nuance была медицинская версия и для некоторых других языков). По состоянию на 2025 год Dragon наиболее широко представлен на англоязычных рынках. Его точность в английской диктовке непревзойденна, но, например, китайский или арабский на уровне качества Dragon может не поддерживаться (у Nuance есть другие движки для разных языков, используемые в продуктах для контакт-центров, но не как потребительский Dragon).

Техническая основа: Dragon начинался с моделей скрытых марковских процессов и продвинутых языковых моделей n-грамм. Со временем Nuance интегрировала глубокое обучение (нейронные сети) в акустические модели. В последних версиях Dragon используется акустическая модель на основе глубокой нейронной сети (DNN), которая адаптируется к голосу и окружению пользователя, что повышает точность, особенно при акцентах или небольшом фоновом шуме. Также используется движок распознавания непрерывной речи с очень большим словарём и декодированием, основанным на контексте (то есть анализируются целые фразы для определения слов). Ключевая технология — адаптация к говорящему: модель постепенно подстраивает веса под голос конкретного пользователя. Кроме того, специализированные языковые модели для определённых областей (юридическая/медицинская) обеспечивают приоритет терминов из этих сфер (например, в медицинской версии слово «орган» скорее будет понято как часть тела, а не музыкальный инструмент, исходя из контекста). У Nuance также есть запатентованные методы обработки речевых дисфлюенций и автоматического форматирования (например, определение, когда вставить запятую или точку при паузе). После приобретения компанией Microsoft, вероятно, некоторые исследования архитектуры на основе трансформеров внедряются в бэкэнд, но коммерческий Dragon 16 (последний релиз для ПК) всё ещё использует гибрид нейронных и традиционных моделей, оптимизированных для работы на локальном ПК. Ещё один аспект: Dragon использует многоэтапное распознавание — может быть первый проход, затем второй с использованием языкового контекста более высокого уровня для уточнения. Также реализованы алгоритмы шумоподавления для фильтрации входящего сигнала с микрофона (Nuance продаёт сертифицированные микрофоны для наилучших результатов).

Сценарии использования (расширено):

  • Клиническая документация: Врачи диктуют описание приёма пациента — например: «Пациент жалуется на лихорадку и кашель в течение 5 дней…» Dragon мгновенно транскрибирует это в электронную медицинскую карту, позволяя врачу поддерживать зрительный контакт с пациентом вместо набора текста. Некоторые используют Dragon в реальном времени во время приёма для составления заметок.
  • Подготовка документов: Юристы используют Dragon для составления контрактов или исковых заявлений голосом, что часто быстрее, чем печатать длинные документы.
  • Электронная почта и заметки: Занятые профессионалы, которые хотят разбирать почту голосом или делать заметки на встречах с помощью диктовки вместо письма.
  • Бесконтактная работа с компьютером: Пользователи с травмами от повторяющихся нагрузок или инвалидностью, которые используют Dragon для управления компьютером (открытие приложений, просмотр веб-страниц, диктовка текста) полностью голосом.
  • Транскрипционные сервисы: Nuance предлагает продукт Dragon Legal Transcription, который может преобразовывать аудиофайлы (например, записанные интервью или судебные заседания) в текст. Это используется юридическими фирмами или полицией для расшифровки аудио с нагрудных камер или интервью и т.д.

Модель ценообразования: Nuance Dragon обычно продаётся как лицензируемое ПО:

  • Dragon Professional Individual (ПК) — бессрочная лицензия (например, $500) или подписка. В последнее время акцент смещается в сторону подписки (например, Dragon Professional Anywhere работает по подписке).
  • Dragon Medical One — подписка SaaS, часто около $99/пользователь/месяц (цена выше из-за специализированного словаря и поддержки).
  • Dragon Legal — бессрочная лицензия или подписка, часто дороже, чем Professional.
  • Крупные организации могут получить корпоративные лицензии. Благодаря интеграции с Microsoft некоторые функции могут начать появляться в продуктах Microsoft 365 (например, новая функция диктовки в Office получает улучшения от Nuance).
  • В Azure Microsoft теперь предлагает “Azure Cognitive Services – Custom Speech”, который частично использует технологии Nuance. Но сам Dragon пока остается отдельным продуктом.

Сильные стороны:

  • Непревзойденная точность в специализированной диктовке, особенно после адаптации krisp.ai krisp.ai. Dragon действительно выделяется распознаванием сложных терминов с минимальной ошибкой – например, почти безошибочно транскрибирует сложный медицинский отчет с названиями препаратов и измерениями.
  • Персонализация пользователя: Создается пользовательский профиль, который обучается – точность повышается по мере использования, чего облачные API распознавания речи не делают для каждого пользователя в такой степени.
  • Работа в реальном времени и офлайн: Задержка практически отсутствует; слова появляются почти так же быстро, как вы их произносите (на хорошем ПК). И не требуется интернет, что также означает, что данные не покидают ваш компьютер (большой плюс для конфиденциальности).
  • Голосовые команды и интеграция в рабочие процессы: Можно диктовать и форматировать в одном предложении (“Открой Outlook и ответь на это письмо: Дорогой Джон, новая строка, спасибо за ваше сообщение…”) – система хорошо справляется с сочетанием диктовки и команд.
  • Специализированные продукты: Наличие специализированных версий (Медицинская, Юридическая) означает готовность к работе в этих сферах “из коробки” без необходимости ручной настройки.
  • Стабильность и доверие: Многие профессионалы используют Dragon годами и доверяют его результатам – это зрелое, проверенное решение. С поддержкой Microsoft оно, скорее всего, будет продолжать развиваться и улучшаться (интеграция с облачным ИИ для дальнейшей настройки и т.д.).
  • Мультиплатформенность: Dragon доступен в первую очередь на Windows; Dragon Anywhere (мобильное приложение) позволяет диктовать на iOS/Android в пути (синхронизация пользовательского словаря через облако). А через облако (Medical One) доступен и на тонких клиентах.
  • Также, распознавание говорящего: система действительно рассчитана на одного пользователя за раз, что на самом деле повышает точность (в отличие от универсальной модели, пытающейся распознать любой голос, Dragon настраивается под ваш голос).

Слабые стороны:

  • Стоимость и доступность: Dragon дорогой и не бесплатен для пробного использования, кроме, возможно, короткой демо-версии. В отличие от облачных STT API, где вы платите только за фактическое использование (что может быть дешевле при редком использовании), Dragon требует предварительных вложений или постоянной подписки.
  • Кривая обучения: Пользователям часто приходится тратить время на обучение Dragon и освоение специальных голосовых команд и техник коррекции для достижения наилучших результатов. Это мощный инструмент, но не такой “plug-and-play”, как голосовой ввод на смартфоне.
  • Чувствительность к окружающей среде: Хотя Dragon хорошо справляется с шумом, он работает лучше всего в тихой обстановке с качественным микрофоном. Фоновый шум или некачественные микрофоны могут значительно ухудшить производительность.
  • Ориентация на одного говорящего: Программа не предназначена для одновременной расшифровки разговоров с несколькими участниками (можно использовать режим транскрипции на записях, но в реальном времени — только для одного говорящего). Для транскрипции встреч облачные сервисы, поддерживающие несколько говорящих, могут быть проще.
  • Требовательность к ресурсам: Запуск Dragon может сильно нагружать процессор и оперативную память ПК, особенно при первоначальной обработке. Некоторые пользователи отмечают замедление других задач или сбои при нехватке ресурсов. Облачные версии снимают эту нагрузку, но требуют стабильного интернета.
  • Поддержка Mac: Несколько лет назад Nuance прекратила выпуск Dragon для Mac (существуют обходные пути с использованием Dragon Medical на виртуализации Mac и т.д., но сейчас нет нативного продукта для Mac), что является минусом для пользователей Mac.
  • Конкуренция со стороны общего ASR: По мере улучшения облачных STT-сервисов (например, OpenAI Whisper достигает высокой точности бесплатно), некоторые индивидуальные пользователи могут выбрать эти альтернативы, если им не нужны все функции Dragon. Однако такие альтернативы всё ещё уступают по интерфейсу диктовки и персональной адаптации.

Последние обновления (2024–2025): После приобретения Microsoft компания Nuance стала менее публичной, но интеграция уже идёт:

  • Microsoft интегрировала технологии Dragon в функцию Dictate в Microsoft 365, повысив её точность для пользователей Office за счёт использования бэкенда Nuance (это не явно брендировано, но было объявлено как часть “Microsoft и Nuance предоставляют облачные AI-решения”).
  • В 2023 году Dragon Professional Anywhere (облачная версия Dragon) получила улучшенную точность и стала доступна через Azure для корпоративных клиентов, что демонстрирует синергию с облаком Microsoft.
  • Nuance также выпустила новый продукт под названием Dragon Ambient eXperience (DAX) для здравоохранения, который выходит за рамки диктовки: он слушает разговоры врача и пациента и автоматически генерирует черновики заметок. Это сочетает ASR Dragon и AI-суммаризацию (показывая, как Nuance использует генеративный ИИ) — большое новшество 2024 года в медицине.
  • Dragon Medical One продолжает расширять языковую поддержку: в конце 2024 года Microsoft объявила о расширении медицинской диктовки Nuance на британский английский, австралийский английский и другие языки, а также о более глубокой интеграции с Epic EHR.
  • Для юридической сферы Nuance интегрируется с программами для управления делами для более удобной вставки диктовки.
  • В ближайшее время мы можем увидеть части Dragon, предлагаемые как Azure “Custom Speech for Enterprise”, объединённые с сервисами Azure Speech. В начале 2025 года в предварительных версиях было показано, что Azure Custom Speech может использовать корпус Dragon или адаптироваться с персонализацией, похожей на Nuance, что намекает на слияние технологий.
  • Что касается основного продукта, Dragon NaturallySpeaking 16 был выпущен (первая крупная версия под управлением Microsoft) в начале 2023 года, с улучшенной поддержкой Windows 11 и небольшими улучшениями точности. Так что к 2025 году, возможно, на горизонте появится версия 17 или унифицированная версия от Microsoft.
  • В целом, Nuance Dragon продолжает совершенствовать точность (не драматический скачок, так как она уже была высокой, а инкрементальный), а основные изменения касаются того, как продукт упаковывается (облако, решения с амбиентным интеллектом, интеграция с экосистемой ИИ Microsoft).

Официальный сайт: страницы Nuance Dragon (Professional, Legal, Medical) krisp.ai krisp.ai на сайте Nuance или через сайт подразделения Nuance компании Microsoft.

6. OpenAI Whisper (модель распознавания речи и API) – OpenAI

Обзор: OpenAI Whisper — это модель автоматического распознавания речи с открытым исходным кодом (STT), которая произвела фурор в сообществе ИИ благодаря отличной точности и многоязычным возможностям. Выпущенная OpenAI в конце 2022 года, Whisper — это не облачный сервис с пользовательским интерфейсом, как другие, а мощная модель (а теперь и API), которую разработчики могут использовать для транскрипции и перевода аудио. К 2025 году Whisper стала доминирующей технологией для STT во многих приложениях, часто «под капотом». Она известна тем, что поддерживает широкий спектр языков (почти 100) и устойчива к акцентам и фоновому шуму благодаря обучению на 680 000 часах аудио, собранного из интернета zilliz.com. OpenAI предлагает Whisper через свой API (оплата по мере использования), а веса модели также доступны бесплатно, так что любой с достаточными вычислительными ресурсами может запускать или дообучать её офлайн. Появление Whisper значительно улучшило доступ к высококачественному распознаванию речи, особенно для разработчиков и исследователей, которым нужна была альтернатива облачным API крупных технологических компаний или открытая, настраиваемая модель.

Тип: Речь-в-текст (транскрипция и перевод). (Whisper не генерирует голос; она только преобразует аудиоречь в текст и может также переводить устную речь на английский текст.)

Компания/разработчик: OpenAI (хотя, как проект с открытым исходным кодом, есть и вклад сообщества).

Возможности и целевая аудитория:

  • Многоязычное распознавание речи: Whisper может транскрибировать речь на 99 языках с впечатляющей точностью zilliz.com. Это включает многие языки, которые плохо поддерживаются коммерческими API.
  • Перевод речи: Он может напрямую переводить многие языки в английский текст (например, на входе французская аудиозапись — на выходе английский текстовый перевод) zilliz.com.
  • Устойчивость: Он лучше многих моделей справляется с разными типами входных данных — акцентами, диалектами, фоновым шумом — благодаря разнообразию обучающих данных. Также может распознавать такие вещи, как слова-паразиты, смех («[смех]») и т.д., делая расшифровки более насыщенными.
  • Таймкоды: Предоставляет таймкоды на уровне слов или предложений, что позволяет создавать субтитры и синхронизировать текст с аудио.
  • Удобный API: Через Whisper API от OpenAI (использует модель large-v2) разработчики могут отправить аудиофайл и получить расшифровку простым HTTP-запросом. Это ориентировано на разработчиков, которым нужна быстрая интеграция.
  • Для исследователей и энтузиастов: Поскольку модель с открытым исходным кодом, исследователи ИИ или энтузиасты могут экспериментировать, дообучать под конкретные задачи или запускать локально бесплатно. Это широко демократизировало ASR-технологии.

Ключевые особенности:

  • Высокая точность: В тестах самая большая модель Whisper (~1,6 млрд параметров) достигает уровня ошибок на словах, сопоставимого или лучшего, чем у ведущих облачных сервисов для многих языков deepgram.com deepgram.com. Например, английская транскрипция чрезвычайно точна, и особенно важно, что точность на неанглийских языках — это прорыв (там, где у других моделей точность падает, Whisper сохраняет высокую производительность).
  • Не требует обучения для использования: Из коробки очень функционален. Нет необходимости в обучении под каждого пользователя, как у Dragon — он универсален (хотя и не специализирован под отдельные области).
  • Таймкоды на уровне сегментов: Выходные данные Whisper разбиты на сегменты с таймкодами начала/конца, что удобно для создания субтитров. Даже пытается интеллектуально разбивать по паузам.
  • Разные размеры моделей: Whisper выпускается в нескольких размерах (tiny, base, small, medium, large). Меньшие модели работают быстрее и могут запускаться даже на мобильных устройствах (с некоторой потерей точности). Крупные модели (large-v2 — самая точная) требуют GPU и больше вычислительных ресурсов, но дают лучшие результаты deepgram.com.
  • Определение языка: Whisper может автоматически определять язык речи на аудио и затем использовать соответствующее декодирование для этого языка zilliz.com.
  • Открытый исходный код и сообщество: Благодаря открытости существует множество вкладов от сообщества: например, более быстрые варианты Whisper, Whisper с пользовательскими опциями декодирования и т.д.
  • Дополнительные возможности API: Предоставляемый OpenAI API может возвращать как обычный текст, так и JSON с подробной информацией (включая вероятность слов и т.д.), а также поддерживает параметры, такие как prompt (для направления транскрипции с учетом контекста).
  • Развертывание на устройстве: Поскольку его можно запускать локально (если позволяет оборудование), он используется в сценариях на устройстве или на собственной инфраструктуре, где облако недоступно (например, журналист расшифровывает конфиденциальные интервью офлайн с помощью Whisper или приложение предлагает транскрипцию голосовых заметок на устройстве для обеспечения приватности).

Поддерживаемые языки: Whisper официально поддерживает ~99 языков для транскрипции zilliz.com. Это охватывает широкий спектр — от широко распространённых языков (английский, испанский, мандаринский, хинди, арабский и др.) до менее распространённых (валлийский, монгольский, суахили и др.). В обучающих данных был значительный, но не исключительный уклон в сторону английского (около 65% обучения было на английском), поэтому английский наиболее точен, но система также хорошо работает и с многими другими языками (особенно с романскими и индоевропейскими, представленными в обучающем наборе). Она также может транскрибировать аудио с переключением языков (смешанные языки). Функция перевода на английский работает примерно для 57 неанглийских языков, для которых она была специально обучена переводить community.openai.com.

Технические основы: Whisper — это модель Transformer последовательного преобразования (архитектура энкодер-декодер), аналогичная тем, что используются в нейронном машинном переводе zilliz.com zilliz.com. Аудио разбивается на части и преобразуется в лог-Мел спектрограммы, которые подаются на вход энкодеру; декодер генерирует текстовые токены. Особенностью является то, что OpenAI обучила модель на большом и разнообразном датасете из 680 тысяч часов аудио из интернета, включая многоязычную речь и соответствующий текст (часть данных, вероятно, была собрана из корпусов субтитров и т.д.) zilliz.com. Обучение было «слабонаблюдаемым» — иногда использовались несовершенные транскрипции — что, интересно, сделало Whisper устойчивым к шуму и ошибкам. В модели есть специальные токены для выполнения задач: например, токен <|translate|> включает режим перевода, а <|laugh|> обозначает смех и т.д., что позволяет ей выполнять несколько задач (так она может делать как транскрипцию, так и перевод) zilliz.com. Крупная модель (Whisper large-v2) содержит около 1,55 миллиарда параметров и обучалась на мощных GPU в течение нескольких недель; это фактически передовой уровень среди общедоступных моделей. Она также использует пометки времени на уровне слов, предсказывая временные токены (сегментирует аудио, определяя, где делать паузы). В конструкции Whisper не используется внешняя языковая модель; это end-to-end система, то есть она обучалась языковому и акустическому моделированию одновременно. Благодаря обучению на большом количестве фонового шума и различных аудиоусловий, энкодер научился извлекать устойчивые признаки, а декодер — выдавать связный текст даже из несовершенного аудио. Открытый исходный код позволяет запускать модель на таких фреймворках, как PyTorch; появилось много оптимизаций (например, OpenVINO, ONNX runtime и др.) для ускорения работы. Модель довольно ресурсоемкая — для транскрипции в реальном времени с большой моделью обычно требуется хороший GPU, хотя квантизированная средняя модель почти справляется в реальном времени на современном CPU.

Сферы применения:

  • Сервисы и приложения для транскрипции: Многие стартапы и проекты по транскрипции теперь используют Whisper вместо обучения собственной модели. Например, инструменты для транскрипции подкастов, приложения для транскрипции встреч (некоторые боты Zoom используют Whisper), рабочие процессы транскрипции для журналистики и т.д. часто используют Whisper благодаря его высокой точности и отсутствию поминутной оплаты.
  • Субтитры для YouTube/видео: Создатели контента используют Whisper для генерации субтитров к видео (особенно на нескольких языках). Существуют инструменты, в которые можно загрузить видео, и Whisper сгенерирует субтитры в формате srt.
  • Изучение языков и перевод: Режим перевода Whisper используется для получения английского текста из иностранной речи, что помогает создавать переводные субтитры или помогает изучающим язык транскрибировать и переводить иностранный контент.
  • Доступность: Разработчики внедряют Whisper в приложения для создания транскрипций в реальном времени для глухих или слабослышащих пользователей (например, мобильное приложение, которое слушает разговор и отображает живые субтитры с помощью Whisper локально).
  • Голосовые интерфейсы и аналитика: Некоторые любительские проекты голосовых ассистентов используют Whisper для преобразования речи в текст офлайн как часть цепочки обработки (для ассистентов, ориентированных на конфиденциальность). Также компании, анализирующие записи колл-центров, могут использовать Whisper для транскрибирования звонков (хотя компании могут предпочесть коммерческие API для поддержки).
  • Академические и лингвистические исследования: Благодаря открытости, исследователи используют Whisper для транскрибирования полевых записей на разных языках и их изучения. Широкая языковая поддержка помогает документировать малоизученные языки.
  • Личная продуктивность: Технически подкованные пользователи могут использовать Whisper локально для диктовки заметок (не так отточено, как у Dragon для интерактивного диктования, но некоторые так делают), или для автоматической транскрипции своих голосовых заметок.

Модель ценообразования: Whisper бесплатен для самостоятельного размещения (только вычислительные затраты). Whisper API от OpenAI (для тех, кто не хочет запускать его самостоятельно) крайне доступен: $0,006 за минуту обработанного аудио deepgram.com. Это примерно в 10 раз дешевле или даже меньше, чем у типичных облачных STT API, что делает его очень привлекательным с финансовой точки зрения. Такая низкая цена возможна, потому что модель OpenAI фиксирована и, вероятно, оптимизирована для масштабного запуска. Поэтому целевые клиенты либо используют открытую модель на своем оборудовании (нулевая стоимость лицензии), либо обращаются к API OpenAI за $0,006/мин, что дешевле почти всех (у Google $0,024/мин и т.д.). Однако сервис OpenAI не поддерживает кастомизацию и не делает ничего сверх базового Whisper.

Сильные стороны:

  • Передовая точность на широком спектре задач и языков «из коробки» deepgram.com zilliz.com. Особенно хорошо понимает акцентированный английский и многие неанглийские языки, для которых раньше приходилось использовать менее оптимизированные сервисы.
  • Мультиязычность и мультизадачность: Одна модель для всех языков и даже для перевода — очень гибко.
  • Открытый исходный код и поддержка сообщества: способствует инновациям; например, существуют форки, которые работают быстрее или с альтернативным декодированием для лучшего сохранения пунктуации и т.д.
  • Экономичность: По сути бесплатно, если есть оборудование, а API очень дешевый, что делает возможными крупные проекты по транскрипции с точки зрения затрат.
  • Конфиденциальность и офлайн-режим: Пользователи могут запускать Whisper локально на своих серверах для работы с чувствительными данными (например, больницы могут развернуть его внутри своей сети для расшифровки записей без отправки в облако). Это огромное преимущество в определённых контекстах, аналогично тому, как офлайн-модель такого типа соперничает с тем, что раньше могли делать только IBM или локальные решения Nuance.
  • Интеграция: Многие существующие аудиоинструменты быстро интегрировали Whisper (например, в ffmpeg теперь есть фильтр для запуска whisper). Его популярность привела к появлению множества обёрток (WebWhisper, Whisper.cpp для развертывания на C++ и др.), так что подключить его очень просто.
  • Постоянные улучшения сообществом: Хотя версия OpenAI статична, другие пользователи дообучили или расширили её. Также возможно, что OpenAI выпустит улучшенные версии (ходят слухи о Whisper v3 или интеграции с их новой мультимодальной работой).

Слабые стороны:

  • Нет встроенной настройки под специфическую лексику: В отличие от некоторых облачных сервисов или Dragon, вы не можете добавить в Whisper собственный словарь для смещения результатов. Поэтому для крайне специализированных терминов (например, химические названия) Whisper может ошибаться, если не встречал их в обучении. Однако дообучение возможно, если у вас есть данные и экспертиза.
  • Требовательность к ресурсам: Для работы большой модели в реальном времени требуется хороший GPU. На CPU она работает медленно (хотя меньшие модели могут работать в реальном времени на CPU с некоторой потерей качества). API OpenAI решает это, выполняя тяжелую работу в облаке, но если вы размещаете решение у себя и в большом масштабе, вам понадобятся GPU.
  • Задержка: Whisper обрабатывает аудио по частям и часто с небольшой задержкой для финализации сегментов. Для приложений в реальном времени (например, живые субтитры) может быть задержка около 2 секунд до появления первого текста, так как система ждёт завершения блока. Это приемлемо во многих случаях, но не так быстро, как некоторые системы, оптимизированные для потоковой обработки, например, Google, которые могут начать вывод менее чем за 300 мс. Сообщество работает над созданием “потокового Whisper”, но это непросто.
  • Смещение в сторону английского в обучении: Хотя модель многоязычная, около 2/3 обучающих данных были на английском. Она всё равно отлично работает на многих языках (особенно испанском, французском и др.), но для языков с меньшим количеством данных в обучении точность может быть ниже или модель может предпочесть выводить текст на английском, если не уверена. Например, для очень редких языков или сильного смешения языков она может ошибочно идентифицировать язык или вставить английский текст (некоторые пользователи отмечали, что Whisper иногда вставляет английский перевод или транслитерацию, если не уверена в слове).
  • Нет диаризации по говорящим: Whisper транскрибирует всю речь, но не помечает, кто говорит. Если вам нужно “Говорящий 1 / Говорящий 2”, необходимо применять внешние методы идентификации говорящих. Во многих облачных STT это встроено.
  • Нет официальной поддержки: Как открытая модель, при возникновении проблем нет официальной линии поддержки (хотя у OpenAI API поддержка есть как у продукта, у открытой модели её нет).
  • Особенности формата вывода: Whisper может включать в результат не речевые токены вроде “[Music]” или пытаться добавить пунктуацию, и иногда форматирование может не соответствовать желаемому (хотя в целом работает хорошо). Например, может не поставить вопросительный знак, даже если предложение было вопросительным, потому что модель не обучалась всегда его вставлять и т.д. Для доработки требуется постобработка или специальные подсказки.
  • Кроме того, в настоящее время API OpenAI имеет ограничение на размер файла примерно 25 МБ, что означает, что для отправки длинных аудиозаписей их необходимо разбивать на части.

Последние обновления (2024–2025):

  • Хотя сама модель Whisper (v2 large) публично не обновлялась OpenAI с 2022 года, OpenAI Whisper API был запущен в начале 2023 года, что сделало её использование простым и дешёвым по сравнению с deepgram.com. Это дало возможность большему количеству разработчиков использовать возможности Whisper.
  • Сообщество создало Whisper.cpp — порт на C++, который может работать на CPU (даже на мобильных устройствах) за счёт квантизации модели. К 2024 году проект стал зрелым, что позволило запускать небольшие модели в реальном времени на смартфонах — некоторые мобильные приложения для транскрипции работают полностью офлайн.
  • Ведутся исследовательские работы на основе Whisper: например, дообучение Whisper для специализированных задач (например, медицинская транскрипция) различными группами (хотя это не широко опубликовано, некоторые стартапы, вероятно, этим занимались).
  • OpenAI, предположительно, работает над моделью речи следующего поколения, возможно, интегрируя техники из GPT (есть намёки в их публикациях на потенциальную мультимодальную модель, работающую с речью и текстом). Если такая модель появится, она может заменить Whisper, но по состоянию на середину 2025 года Whisper остаётся их основным решением для ASR.
  • Что касается внедрения, к 2025 году многие open-source проекты (например, инструменты Mozilla, сообщество Kaldi и др.) перешли на использование Whisper в качестве базовой модели из-за её высокой точности. Это фактически сделало её стандартом.
  • Значимое событие: исследование Meta MMS (Massive Multilingual Speech) (середина 2023 года) развило эту идею, выпустив модели для ASR, охватывающие более 1100 языков (хотя по основным языкам точность ниже, чем у Whisper). Эта конкуренция вызвала ещё больший интерес к многоязычной речи — Whisper по-прежнему лидирует по качеству, но возможно, OpenAI ответит выпуском Whisper v3 с поддержкой большего числа языков или с учётом подобных разработок.
  • В итоге, “обновление” заключается в том, что Whisper стал крайне распространённым, а улучшения вокруг него касались скорости и внедрения, а не изменений самой модели. В 2025 году это по-прежнему один из лучших вариантов для интеграции голосовой транскрипции в продукт благодаря сочетанию качества, поддержки языков и стоимости.

Официальные ресурсы: OpenAI Whisper GitHub zilliz.com zilliz.com; документация по OpenAI Whisper API (сайт OpenAI) zilliz.com. (Отдельной “страницы продукта” нет, так как это модель, но ссылки на GitHub/Glossary выше дают официальный контекст).

7. Deepgram (Speech-to-Text API & Platform) – Deepgram

Обзор: Deepgram — это ориентированная на разработчиков платформа преобразования речи в текст, предлагающая быстрые и высокоточные транскрипции с помощью набора ИИ-моделей и мощных API. Deepgram выделяется акцентом на кастомизации, скорости и экономичности для корпоративных приложений. Основанная в 2015 году, компания разработала собственные модели распознавания речи на основе глубокого обучения (вместо использования решений крупных технологических компаний) и заняла свою нишу, особенно среди контакт-центров, компаний по аналитике голоса и технологических фирм, которым требуется масштабная или работающая в реальном времени транскрипция. В 2024–2025 годах Deepgram часто упоминается как одна из лучших альтернатив крупным облачным провайдерам для STT, особенно после демонстрации мирового лидерства по точности с последней моделью “Nova-2” deepgram.com. Платформа предоставляет не только готовые модели, но и инструменты для обучения пользовательских моделей речи на специфических данных компании (то, что немногие облачные API предлагают в режиме самообслуживания). Deepgram может быть развернут как в облаке, так и локально, что привлекательно для бизнеса с особыми требованиями к гибкости.

Тип: В первую очередь Преобразование речи в текст (транскрипция). (Deepgram начал бета-тестирование решений для преобразования текста в речь и инструментов для работы с Voice AI в реальном времени с 2025 года deepgram.com deepgram.com, но их основное направление — STT.)

Компания/разработчик: Deepgram, Inc. (независимый стартап, однако к 2025 году ходят слухи о возможном приобретении из-за технологического лидерства в STT).

Возможности и целевая аудитория:

  • Транскрипция в реальном времени и пакетная обработка: API Deepgram позволяет как транскрибировать потоковое аудио с минимальной задержкой, так и обрабатывать аудиофайлы пакетно. Система способна обрабатывать большие объемы (они заявляют о пропускной способности в тысячи аудио-часов за короткое время).
  • Высокая точность и выбор моделей: Предлагается несколько уровней моделей (например, “Nova” — для максимальной точности, “Base” — для более быстрой/легкой работы, а также иногда специализированные по отраслям модели). Последняя модель Nova-2 (выпущена в 2024 году) демонстрирует на 30% меньшую WER по сравнению с конкурентами и особенно хороша в точности в реальном времени deepgram.com deepgram.com.
  • Кастомизация: Важное преимущество — клиенты могут загружать размеченные данные для обучения пользовательских моделей Deepgram, адаптированных под их уникальный словарь (например, названия продуктов, специфические фразы). Такая донастройка может значительно повысить точность для конкретной сферы клиента.
  • Многоязычная поддержка: Deepgram поддерживает транскрипцию на многих языках (более 30 языков на 2025 год, включая английский, испанский, французский, немецкий, японский, китайский и др.). Основная сила — английский, но поддержка других языков расширяется.
  • Устойчивость к шуму и аудиоформаты: Deepgram изначально обрабатывал аудио через предварительный процессинг, способный работать с различным качеством звука (телефонные звонки и т.д.). Поддерживает широкий спектр форматов (включая популярные кодеки, такие как MP3, WAV, а также потоковые RTP в реальном времени).
  • Функции: Предоставляет диаризацию (определение говорящих) по запросу, расстановку знаков препинания, регистр, фильтрацию ненормативной лексики и даже распознавание сущностей (например, определение чисел, валют в речи). Также есть функция обнаружения ключевых слов или выполнения некоторых NLP-задач по транскриптам через их API.
  • Скорость: Deepgram известен очень быстрой обработкой — благодаря изначальной реализации на CUDA (с самого начала использовались GPU). Заявляют обработку аудио быстрее реального времени на GPU, даже с большими моделями.
  • Масштабируемость и развертывание: Доступен как облачный API (с корпоративными SLA), а также для локального или частного облачного развертывания (есть контейнерная версия). Акцентируют внимание на масштабируемости до корпоративных объемов, предоставляют дашборды и аналитику использования для клиентов.
  • Сценарии использования: Целевые пользователи — контакт-центры (для транскрипции и аналитики звонков), софтверные компании, добавляющие голосовые функции, медиа-компании для расшифровки аудиоархивов и AI-компании, которым нужна базовая STT для построения голосовых продуктов. Например, колл-центр может использовать Deepgram для одновременной транскрипции тысяч звонков и последующего анализа на предмет настроения клиента или соответствия стандартам. Разработчики ценят их простой API и подробную документацию.

Ключевые функции:

  • Удобство API: Один API-эндпоинт может обрабатывать аудиофайл или поток с различными параметрами (язык, модель, пунктуация, диаризация и др.). Доступны SDK для популярных языков (Python, Node, Java и др.).
  • Усиление распознавания ключевых слов: Можно указать конкретные ключевые слова для повышения вероятности их распознавания (если не обучаете кастомную модель, это быстрый способ повысить точность по отдельным терминам).
  • Единообразие пакетной и потоковой обработки: Почти одинаковый API; также есть концепция предзаписанных и живых эндпоинтов, оптимизированных соответственно.
  • Безопасность: Deepgram предлагает такие функции, как локальное развертывание, и по умолчанию не хранит аудио после обработки (если не выбрано иное). Для финансовых/медицинских клиентов это критично.
  • Функции помощи агенту в реальном времени: Через их API или будущий “Voice Assistant API” deepgram.com доступны сценарии вроде транскрипции + краткое содержание для звонков агентов в реальном времени (особо отмечают использование в контакт-центрах с цепочкой STT -> анализ -> даже отправка ответов).
  • Заявления о точности: Они публично провели бенчмаркинг Nova-2, показав, например, 8,4% медианный WER по разным доменам, опережая других провайдеров, где ближайший результат может быть около 12% deepgram.com, и конкретно на 36% относительно лучше, чем Whisper-large deepgram.com – то есть для бизнеса, где важна каждая точка точности, Deepgram лидирует.
  • Экономичность: Они часто подчеркивают, что запуск их модели на GPU более экономичен, а их цены (см. ниже) могут быть ниже при больших объемах, чем у некоторых конкурентов.
  • Поддержка и мониторинг: Корпоративные функции, такие как детализированное логирование, поиск по транскриптам и мониторинг через их консоль.

Поддерживаемые языки: Основной фокус Deepgram — английский (США и акценты), но на 2025 год поддерживается 20-30+ языков нативно, включая основные европейские языки, японский, корейский, мандарин, хинди и др. Они расширяются, но, возможно, еще не поддерживают 100 языков (меньше, чем у Whisper по количеству). Однако они позволяют создавать кастомные модели для поддерживаемых языков (если язык не поддерживается, возможно, придется запросить его или использовать базовую многоязычную модель, если она есть). Модель Nova, возможно, сейчас только для английского (их наивысшая точность часто для английского и иногда испанского). Поддерживаются диалекты английского (можно указать британский или американский для тонких различий в написании).

Техническая основа: Deepgram использует end-to-end модель глубокого обучения, исторически построенную на autonomous research – вероятно, это продвинутая вариация сверточных и рекуррентных сетей или трансформеров. Nova-2 конкретно описывается как «архитектура на основе Transformer с оптимизациями для речи» deepgram.com. Указывается, что Nova-2 обучалась на 47 миллиардах токенов и 6 миллионах ресурсов deepgram.com, что очень много и говорит о большом разнообразии данных. Они утверждают, что Nova-2 — «самая глубоко обученная ASR-модель на рынке» deepgram.com. Ключевые технические достижения:

  • Они улучшили распознавание сущностей, обработку контекста и др. за счет изменений в архитектуре deepgram.com.
  • Они делают акцент на потоковую обработку – их модели могут быстро выдавать частичные результаты, что говорит, возможно, о блочной синхронной архитектуре декодирования.
  • Они оптимизируют под GPU: с самого начала использовали GPU и много писали на CUDA C++ для инференса, добиваясь высокой пропускной способности.
  • Пользовательские модели, вероятно, используют transfer learning – дообучение своих базовых моделей на данных клиента. Они предоставляют инструменты или сами обучают модель для вас в зависимости от тарифа.
  • Они также внедряют баланс скорости/точности с помощью нескольких размеров моделей: например, раньше у них была “Enhanced model” и “Standard model”. Nova-2, возможно, объединяет это или является топовой моделью, а другие – более маленькие и быстрые.
  • Интересный момент: Deepgram приобрели или собрали датасет речи из разных доменов (в некоторых блогах упоминается обучение на “всех типах звонков, встреч, видео и т.д.”). Также они подчеркивают результаты адаптации к домену, например, специализированные модели для колл-центров (возможно, дообученные на данных звонков).
  • У них есть упоминание 2-ступенчатой модели в старой архитектуре, но Nova-2, похоже, представляет собой большую единую модель.
  • Возможно, также используется дистилляция знаний для сжатия моделей (так как у них есть и более компактные варианты).
  • Они также упоминают использование контекстных подсказок (например, подсказывая модели ожидаемые слова, что похоже на предоставление подсказок).
  • С выходом Nova-2 они опубликовали сравнения: у Nova-2 медианный WER 8,4% против Whisper large 13,2% и т.д., достигнуто за счет обучения и улучшений архитектуры deepgram.com deepgram.com.

Сценарии использования (некоторые примеры помимо упомянутых):

  • Онлайн-транскрипция для колл-центра: Компания использует Deepgram для транскрипции звонков клиентов в реальном времени, а затем использует текст для вывода релевантной информации для операторов или для анализа после звонка на соответствие стандартам.
  • Транскрипция встреч SaaS: Инструменты вроде Fireflies.ai или альтернативы Otter.ai могут использовать Deepgram на бэкенде для создания заметок и резюме встреч в реальном времени.
  • Голосовой поиск в приложениях: Если приложение добавляет функцию голосового поиска или команд, оно может использовать STT Deepgram для преобразования запроса в текст (некоторые выбирают его за скорость или приватность).
  • Медиа и развлечения: Постпродакшн-студия может загрузить большое количество аудиоматериалов в Deepgram, чтобы получить транскрипции для создания субтитров или сделать контент доступным для поиска.
  • IoT-устройства: Некоторые умные устройства могут использовать Deepgram на устройстве (edge deployment) или через облако с низкой задержкой для транскрипции команд.
  • Инструменты для разработчиков: Deepgram интегрирован в no-code платформы или инструменты для работы с данными, чтобы упростить обработку аудиоданных; например, аналитический пайплайн, обрабатывающий записи звонков, использует Deepgram для преобразования их в текст для дальнейшего анализа.

Модель ценообразования: У Deepgram ценообразование основано на использовании, с бесплатными кредитами для начала (например, $200 кредита для новых аккаунтов). После этого:

  • У них есть тарифные планы: например, бесплатный тариф может позволять определённое количество минут в месяц, затем платный тариф примерно $1,25 в час для стандартной модели (то есть $0,0208 за минуту) и, возможно, $2,50/час для Nova (цифры примерные; действительно, блог Telnyx показывает, что Deepgram начинается с бесплатного и до $10k/год для корпоративных клиентов, что подразумевает индивидуальные условия).
  • Они также предлагают планы с обязательствами: например, заплатить определённую сумму заранее за более низкую ставку за минуту. Или фиксированную годовую корпоративную лицензию.
  • По сравнению с крупными провайдерами, они обычно конкурентоспособны или дешевле при больших объёмах; плюс повышение точности означает меньше ручной корректировки, что является фактором затрат для BPO.
  • Обучение индивидуальных моделей может быть дополнительной платной опцией или требовать корпоративного тарифа.
  • Они заявляют, что не взимают плату за пунктуацию, диаризацию и т.д., эти функции включены.

Сильные стороны:

  • Точность высшего уровня с Nova-2 – лидирует в области распознавания английской речи deepgram.com deepgram.com.
  • Настраиваемый ИИ – это не только чёрный ящик; вы можете адаптировать его под свою область, что очень важно для предприятий (превращает “хорошую” точность в “отличную” для вашего случая использования).
  • Работа в реальном времени – потоковая обработка Deepgram в реальном времени отличается низкой задержкой и эффективностью, что делает её подходящей для живых приложений (некоторые облачные API испытывают трудности с объёмом в реальном времени; Deepgram изначально создавался для этого).
  • Гибкое развертывание – облако, локально, гибридно; они подстраиваются под компании, включая требования к конфиденциальности данных.
  • Стоимость и масштабируемость – Часто оказывается дешевле при больших объёмах, и масштабируется до очень больших нагрузок (они приводят примеры транскрибирования десятков тысяч часов в месяц).
  • Опыт разработчика – Их API и документация получают высокие оценки; они полностью сосредоточены на речи, поэтому предоставляют хорошую поддержку и экспертизу в этой области. Такие функции, как индивидуальное усиление ключевых слов, многоязычность в одном API и т.д., очень удобны.
  • Ориентация на потребности предприятий – такие функции, как определение настроения, суммирование (они добавляют некоторые возможности голосового ИИ помимо обычного STT), и подробная аналитика входят в их платформу, ориентированную на бизнес-инсайты из голоса.
  • Поддержка и партнёрства – Интеграция с такими платформами, как Zoom, и технологические партнёрства (например, некоторые телеком-провайдеры позволяют напрямую подключать Deepgram для потоковой передачи аудио звонков).
  • Безопасность – Deepgram соответствует SOC2 и т.д., а для тех, кто хочет ещё большего контроля, есть возможность самостоятельного размещения.

Слабые стороны:

  • Меньшая узнаваемость бренда по сравнению с Google/AWS; некоторые консервативные предприятия могут колебаться, выбирая меньшего поставщика (хотя доля Microsoft в Nuance — похожий сценарий, Deepgram просто независим).
  • Покрытие языков уже, чем у мировых технологических гигантов — если вам нужна транскрипция для языка, который Deepgram пока не поддерживает, возможно, придется обратиться к ним или использовать других.
  • Широта функционала — Они фокусируются только на STT (с некоторыми ML-дополнениями). Они не предлагают TTS или полноценное решение для разговоров (хотя теперь у них есть API голосового бота, им не хватает целой платформы, как у Google Contact Center AI или Watson Assistant). Поэтому если клиенту нужно комплексное голосовое и разговорное решение, Deepgram занимается только транскрипцией.
  • DIY Кастомизация — Хотя настройка под себя — это сильная сторона, она требует от клиента наличия данных и, возможно, знаний в ML (хотя Deepgram старается упростить процесс). Не так просто, как использовать универсальную модель — но это плата за улучшение.
  • Обновления — Меньшая компания может обновлять модели реже, чем, например, Google (хотя недавно они это сделали с Nova-2). Также возможные простои или лимиты сервиса могут иметь меньшую глобальную избыточность, чем у крупных облаков (хотя пока Deepgram был надежен).
  • При использовании on-prem клиенту нужно самостоятельно управлять развертыванием на GPU, что может быть сложностью (но многим нравится такой контроль).
  • Сравнение с open source — Некоторые могут выбрать Whisper (бесплатно), если критична цена и приемлема чуть меньшая точность; Deepgram постоянно нужно доказывать свою ценность по сравнению с открытыми моделями, опережая их по точности и предоставляя поддержку для предприятий.

Последние обновления (2024–2025):

  • Главное: Выпуск модели Nova-2 в конце 2024 года, значительное улучшение точности (на 18% лучше предыдущей Nova, и они заявили о крупных улучшениях по сравнению с конкурентами) deepgram.com deepgram.com. Это удерживает Deepgram на передовой. Они опубликовали подробные бенчмарки и white paper в подтверждение.
  • Deepgram запустил Voice Agent API (бета) в 2025 году deepgram.com для создания AI-агентов в реальном времени — по сути, добавляя возможность не только транскрибировать, но и анализировать и отвечать (вероятно, с интеграцией LLM для понимания и TTS для ответа). Это говорит о расширении за пределы чистого STT к AI-решениям для разговоров (прямой конкурент в сфере contact center AI).
  • Они расширили языковую поддержку (добавили больше европейских и азиатских языков в 2024 году).
  • Они добавили функции, такие как суммаризация: Например, в 2024 году они представили дополнительный модуль, в котором после транскрибирования звонка Deepgram может предоставить сгенерированное ИИ резюме разговора. Это использует LLM поверх транскриптов, аналогично предложению по суммаризации звонков от Azure.
  • Улучшенные функции безопасности: В 2024 году Deepgram достиг более высоких стандартов соответствия (была объявлена совместимость с HIPAA, что позволило большему количеству клиентов из сферы здравоохранения использовать их).
  • Они улучшили опыт разработчиков – например, выпустили новый Node SDK v2, CLI-инструмент для транскрипции и улучшили сайт с документацией.
  • С точки зрения производительности, они снизили задержку в реальном времени, оптимизировав свои протоколы потоковой передачи, заявляя о задержке менее 300 мс для частичных транскриптов.
  • Возможно, было запущено партнерство с телеком-провайдерами (например, интеграция с Twilio и др.), чтобы упростить транскрипцию звонков по PSTN через API Deepgram.
  • Они также участвовали в открытых оценках; например, если проводится ASR-челлендж, Deepgram часто принимает в нем участие – демонстрируя прозрачность результатов.
  • С бизнес-стороны Deepgram привлек дополнительное финансирование (раунд C в 2023 году), что говорит о стабильности и возможности инвестировать в R&D.

Официальный сайт: Deepgram Speech-to-Text API telnyx.com deepgram.com (официальные страницы продукта и документации Deepgram).

8. Speechmatics (Any-context STT Engine) – Speechmatics Ltd.

Обзор: Speechmatics — ведущий движок преобразования речи в текст, известный своим акцентом на понимании «каждого голоса» — то есть, он делает упор на точность для широкого спектра акцентов, диалектов и демографических групп говорящих. Базирующаяся в Великобритании компания Speechmatics приобрела репутацию в 2010-х годах благодаря своему самообслуживаемому STT API и решениям для локального размещения, часто превосходя крупных игроков в ситуациях с сильными акцентами или сложным звуком. Их технология основана на передовом машинном обучении и прорыве в самостоятельном обучении, что позволило обучать на огромных объемах неразмеченного аудио для повышения справедливости распознавания speechmatics.com speechmatics.com. К 2025 году Speechmatics предоставляет STT в нескольких формах: облачный API, разворачиваемые контейнеры и даже OEM-интеграции (их движок внутри других продуктов). Они обслуживают такие сценарии, как создание субтитров для медиа (субтитры для прямых трансляций) и аналитика звонков, а их недавняя инновация — API “Flow” — объединяет STT с синтезом речи и LLM для голосовых взаимодействий audioxpress.com audioxpress.com. Их признают за точные транскрипции независимо от акцента или возраста говорящего, утверждая, что они превосходят конкурентов, особенно в устранении предвзятости (например, их система показала значительно лучшую точность для афроамериканских голосов и детских голосов по сравнению с другими) speechmatics.com speechmatics.com.

Тип: Преобразование речи в текст (ASR) с развивающимися мультимодальными решениями для голосового взаимодействия (Speechmatics Flow).

Компания/разработчик: Speechmatics Ltd. (Кембридж, Великобритания). Независимая, но с партнёрствами в вещательных и AI-индустриях.

Возможности и целевая аудитория:

  • Универсальный STT-движок: Одно из преимуществ Speechmatics — единый движок, который хорошо работает для «любого говорящего, любого акцента, любого диалекта» в поддерживаемых языках. Это привлекательно для глобальных компаний и вещателей, которые работают с носителями разных языков по всему миру (например, BBC, которая использовала Speechmatics для создания субтитров).
  • Транскрипция в реальном времени: Их система может транскрибировать прямые трансляции с низкой задержкой, что делает её подходящей для создания субтитров в реальном времени на мероприятиях, трансляциях и звонках.
  • Пакетная транскрипция: Высокопроизводительная обработка заранее записанного аудио/видео с ведущей в отрасли точностью. Часто используется для видеоархивов, создания субтитров или текстовых расшифровок.
  • Многоязычная поддержка: Распознаёт более 30 языков (включая варианты английского, испанский, французский, японский, мандаринский, арабский и др.) и может даже обрабатывать code-switching (их система может определять, когда говорящий переключается между языками в ходе разговора) docs.speechmatics.com. Также поддерживается автоматическое определение языка.
  • Пользовательский словарь (пользовательские слова): Пользователи могут предоставлять конкретные имена или профессиональный жаргон для приоритизации (чтобы движок знал, как правильно писать редкие имена собственные, например).
  • Гибкое развертывание: Speechmatics может работать в облаке (у них есть SaaS-платформа) или полностью локально через Docker-контейнер, что привлекательно для чувствительных сред. Многие вещатели запускают Speechmatics в своих собственных дата-центрах для создания субтитров в реальном времени, чтобы не зависеть от интернета.
  • Точность в шумных условиях: У них высокая устойчивость к шуму, а также опциональный вывод форматирования сущностей (даты, числа) и такие функции, как speaker diarization для различения нескольких говорящих.
  • Целевые пользователи: Медиа-компании (телесети, видеоплатформы), контакт-центры (для транскрипции звонков), корпоративные решения для транскрипции, поставщики ПО, которым нужен STT (Speechmatics часто лицензирует свою технологию другим провайдерам — OEM-партнёрства), государственные органы (транскрипции заседаний парламента или совета) и AI-поставщики, ориентирующиеся на беспристрастное ASR.
  • Speechmatics Flow (2024): Объединяет их STT с TTS и интеграцией LLM для создания голосовых ассистентов, которые могут слушать, понимать (с помощью LLM) и отвечать синтезированной речью audioxpress.com audioxpress.com. Это указывает на ориентацию на интерактивные голосовые AI-решения (например, голосовые боты, которые действительно понимают разные акценты).

Ключевые возможности:

  • Точные акценты: Согласно их тестированию на предвзятость, они значительно сократили различия в ошибках между разными акцентными группами, обучая на больших неразмеченных данных speechmatics.com speechmatics.com. Например, уровень ошибок для афроамериканских голосов был улучшен примерно на 45% по сравнению с конкурентами speechmatics.com.
  • Распознавание детской речи: Они отдельно отмечают лучшие результаты на детских голосах (которые обычно сложны для ASR) — 91,8% точности против примерно 83% у Google на тесте speechmatics.com.
  • Самообучающаяся модель (AutoML): Их “Автономное распознавание речи”, представленное примерно в 2021 году, использовало 1,1 миллиона часов аудиотренировок с самообучением speechmatics.com. Такой масштабный подход улучшил понимание разнообразных голосов там, где размеченных данных было мало.
  • Нейронные модели: Полностью на основе нейронных сетей (они перешли от старых гибридных моделей к сквозным нейронным к концу 2010-х).
  • API и SDK: Предлагают REST- и websocket-API для потоковой и пакетной обработки. Также есть SDK для упрощённой интеграции. На выходе подробный JSON с словами, таймингом, уверенностью и др.
  • Функции, такие как сущности: Умеют умно форматировать (например, выводить “£50”, когда кто-то говорит “пятьдесят фунтов”) и могут размечать сущности.
  • Языковое покрытие: Около 34 языков на высоком уровне качества по состоянию на 2025 год, включая некоторые, которые другие могут плохо поддерживать (например, валлийский, так как BBC Wales использовала их).
  • Постоянные обновления: Они регулярно публикуют релиз-ноты с улучшениями (как видно в их документации: например, улучшили точность для мандаринского на 5% в одном из обновлений docs.speechmatics.com, или добавили новые языки, такие как мальтийский, и др.).
  • Особенности Flow: Flow API позволяет разработчикам бесшовно объединять вывод STT с рассуждениями LLM и выводом TTS, нацеливаясь на голосовых ассистентов нового поколения audioxpress.com audioxpress.com. Например, можно отправить аудио и получить голосовой ответ (ответ, предоставленный LLM и озвученный TTS) — Speechmatics обеспечивает связующее звено для взаимодействия в реальном времени.

Поддерживаемые языки: Активно поддерживается около 30-35 языков (английский, испанский, французский, немецкий, португальский, итальянский, нидерландский, русский, китайский, японский, корейский, хинди, арабский, турецкий, польский, шведский и др.). Они подчеркивают охват «глобальных» языков и заявляют, что могут добавить больше по запросу docs.speechmatics.com. Также есть билингвальный режим для испанского/английского, который может без проблем транскрибировать смешанную английско-испанскую речь docs.speechmatics.com. В их примечаниях: новые языки, такие как ирландский и мальтийский, были добавлены в 2024 году docs.speechmatics.com, что говорит о поддержке и малых языков при наличии спроса. Они гордятся охватом акцентов внутри языков, например, их английская модель — это одна глобальная модель, охватывающая акценты США, Великобритании, Индии, Австралии, Африки без необходимости отдельных моделей.

Техническая основа:

  • Обучение с самоконтролем: Они использовали техники, схожие с wav2vec 2.0 от Facebook (вероятно, у них есть собственный вариант), чтобы использовать огромное количество неразмеченного аудио (например, YouTube, подкасты) для предобучения акустических представлений, а затем дообучали на транскрибированных данных. Это дало им значительный прирост в охвате акцентов и диалектов, как сообщалось в 2021 году speechmatics.com.
  • Нейронная архитектура: Вероятно, комбинация CNN для извлечения признаков и Transformer для моделирования последовательностей (в большинстве современных ASR сейчас используется Conformer или похожие архитектуры). В примечаниях к релизу они назвали свое крупное обновление модели «Ursa» docs.speechmatics.com, что дало значительный прирост точности по всем языкам — вероятно, это новая крупная архитектура модели (Conformer или Transducer).
  • Размеры моделей: Не раскрываются публично, но для локального размещения у них есть варианты (например, модели “стандарт” и “улучшенная”). Они всегда упоминают “низкую задержку”, поэтому, вероятно, используют архитектуру, подходящую для потоковой передачи (например, модель на основе Transducer или CTC для поэтапного вывода).
  • Подход к предвзятости и справедливости: Благодаря обучению на неразмеченных разнообразных данных, модель изначально усвоила множество вариантов речи. Также, вероятно, была проведена тщательная балансировка — их опубликованные результаты по снижению предвзятости свидетельствуют о целенаправленных усилиях для обеспечения равной точности для разных групп говорящих.
  • Непрерывное обучение: Возможно, они включают исправления клиентов в качестве необязательной обратной связи для улучшения (неизвестно, доступно ли это клиентам, но, вероятно, используется внутри компании).
  • Аппаратное обеспечение и эффективность: Могут работать на стандартных CPU (для многих клиентов, размещающих локально, вероятно, используются кластеры CPU). Но, скорее всего, также оптимизированы для GPU при необходимости. В некоторых случаях упоминается “малый след” (низкие требования к ресурсам).
  • Технология Flow API: Объединяет их ASR с любым LLM (может быть OpenAI или другие) и их TTS-партнером — вероятно, эта архитектура использует их STT для получения текста, затем вызывает выбранный LLM, затем использует TTS-движок (возможно, Amazon Polly или Azure, если нет собственного, но сайт предлагает комбинировать с “предпочтительным LLM” и “предпочтительным TTS”) audioxpress.com.

Сценарии использования:

  • Вещание и медиа: Многие прямые телетрансляции в Великобритании используют Speechmatics для создания субтитров в реальном времени, когда стенографисты недоступны или для их поддержки. Также постпродакшн-студии используют его для создания транскриптов для монтажа или соблюдения требований.
  • Маркетинговые исследования и аналитика: Компании, анализирующие интервью с клиентами или групповые обсуждения по всему миру, используют Speechmatics для точной транскрипции контента с разными акцентами (например, для анализа настроений в многонациональных фокус-группах).
  • Государственный/публичный сектор: Транскрипция заседаний городских советов или парламентских сессий (особенно в странах с несколькими языками или ярко выраженными местными акцентами — здесь Speechmatics особенно эффективен).
  • Аналитика колл-центров: Аналогично другим решениям, но Speechmatics особенно востребован там, где у операторов или клиентов сильные акценты, которые другие движки могут неверно распознать. Также благодаря возможности локального размещения (что предпочитают некоторые телекомы или банки в Европе).
  • Образование: Транскрипция записей лекций или создание субтитров для университетского контента (особенно если у преподавателей или студентов разные акценты).
  • Поставщики голосовых технологий: Некоторые компании интегрировали движок Speechmatics в свои решения (под собственным брендом) благодаря его известной устойчивости к акцентам, что дает им преимущество для глобальных пользователей.
  • Субтитры для пользовательского контента: Некоторые платформы, позволяющие пользователям добавлять субтитры к своим видео, могут использовать Speechmatics в фоновом режиме для обработки самых разных голосов.

Модель ценообразования:

  • Они обычно предоставляют индивидуальные коммерческие предложения для предприятий (особенно для локальных лицензий – скорее всего, это годовая лицензия в зависимости от использования или количества каналов).
  • Для облачного API у них раньше была опубликована цена около $1,25 в час или что-то подобное, что сопоставимо с другими. Возможно, примерно ~$0,02/мин. Для прямых корпоративных клиентов может быть минимальное ежемесячное обязательство.
  • Они также предлагали бесплатную пробную версию или 600 бесплатных минут на своем SaaS на определенном этапе.
  • Они делают акцент на неограниченное использование on-prem за фиксированную плату, что для активных пользователей может быть привлекательнее по сравнению с поминутной оплатой.
  • Поскольку они ориентированы на корпоративный сегмент, они не самые дешевые, если у вас очень маленький объем использования (кто-то может выбрать OpenAI Whisper для хобби). Но для профессионального использования их цены сопоставимы или немного ниже, чем у Google/Microsoft при больших объемах, особенно подчеркивая соотношение цена-качество.
  • Их Flow API может иметь другую схему ценообразования (возможно, по взаимодействию или что-то подобное, пока неясно, так как это новый продукт).
  • Сейчас публичные цены не видны (вероятно, переход на модель продаж через менеджеров), но они известны разумными ценами и прозрачным лицензированием (особенно важно для вещания, где при использовании 24/7 нужны предсказуемые расходы).

Сильные стороны:

  • Точность по акцентам/диалектам: Лучшая в классе точность для глобального английского и многоязычия с минимальными искажениями speechmatics.com speechmatics.com. Этот принцип «понимает каждый голос» подтверждается данными и признан в отрасли – это большое преимущество, особенно по мере того, как разнообразие и инклюзивность становятся ключевыми.
  • Дружелюбие к on-prem и частным облакам: Многие конкуренты работают только в облаке; Speechmatics дает клиентам полный контроль при необходимости, выигрывая тендеры в чувствительных и ограниченных по пропускной способности сценариях.
  • Ориентация на корпоративный сегмент: Высокий уровень соответствия требованиям (скорее всего, у них есть ISO-сертификации speechmatics.com), надежная поддержка, готовность решать индивидуальные задачи (например, добавить новый язык по запросу или провести настройку).
  • Субтитры в реальном времени: Проверено на живых мероприятиях и ТВ, где требуется низкая задержка и высокая точность одновременно.
  • Инновации и этика: У них сильная позиция по снижению предвзятости ИИ – что может быть важно для компаний, заботящихся о справедливости. Их технологии напрямую решают распространенную критику ASR (что она хуже работает для определенных демографических групп).
  • Многоязычность в одной модели: Поддержка смешения языков и отсутствие необходимости вручную выбирать акценты или языки в некоторых случаях — модель сама это определяет — удобно для пользователя.
  • Стабильность и опыт работы: На рынке с середины 2010-х, используется крупными брендами (TED talks и др.), то есть решение проверено временем.
  • Выход за рамки STT: Платформа голосового взаимодействия Flow говорит о том, что они развиваются с учетом будущих потребностей (инвестируют не только в транскрипцию, но и в полноценный голосовой ИИ с двусторонним взаимодействием).

Слабые стороны:

  • Менее известны в сообществе разработчиков, чем некоторые американские компании или open source-модели, поэтому поддержка сообщества меньше.
  • Меньшее количество поддерживаемых языков, чем у Whisper или Google, — если нужен малораспространённый язык, например, суахили или тамильский, у Speechmatics его может не быть, если специально не разработан.
  • Прозрачность ценообразования: Как компания, ориентированная на корпоративный сегмент, для небольших разработчиков сервис может быть не таким удобным для самостоятельного использования или дешевым для экспериментов, как, например, $0.006/мин у OpenAI. Их приоритет — качество и корпоративный сегмент, а не обязательно самая низкая цена.
  • Нет встроенного языкового понимания (до Flow) — для получения инсайтов из расшифровок может потребоваться дополнительная NLP-обработка; исторически они не занимались анализом тональности или суммаризацией (это оставляли клиентам или партнерам).
  • Конкуренция со стороны Big Tech: По мере того как Google и Azure улучшают работу с акцентами (а Whisper бесплатен), Speechmatics приходится постоянно опережать их, чтобы оставаться предпочтительным выбором по сравнению с более распространёнными решениями.
  • Нет TTS или других модальностей (пока) — компаниям, которым нужен универсальный сервис, возможно, больше подойдет Azure, где есть STT, TTS, переводчик и т.д., если только Speechmatics не будет сотрудничать с другими (Flow подразумевает партнерство для TTS/LLM, а не собственную разработку).
  • Масштабирование бизнеса: как более небольшая компания, масштаб может вызывать вопросы — смогут ли они обрабатывать объемы на уровне Google по всему миру? Вероятно, да, учитывая их вещательных клиентов, но восприятие может вызывать опасения по поводу долгосрочной поддержки или способности поддерживать расходы на обучение моделей и т.д. как независимая компания.

Последние обновления (2024–2025):

  • Speechmatics запустила Flow API в середине 2024 года audioxpress.com audioxpress.com, что стало стратегическим расширением в область голосового ИИ: объединение STT + LLM + TTS в одном пайплайне. Открыли лист ожидания и нацелились на создание корпоративных голосовых ассистентов, что говорит о переходе к интеграции разговорного ИИ.
  • Они внедрили новые языки (ирландский гэльский и мальтийский в августе 2024) docs.speechmatics.com и продолжили совершенствовать модели (модели Ursa2 были внедрены, что дало прирост точности для многих языков в августе 2024 docs.speechmatics.com). Они улучшили диаризацию по говорящим и возможности многоязыкового распознавания (например, улучшили транскрипцию испанско-английской речи в начале 2024 года). Был сделан акцент на обновлениях batch container с повышением точности для ряда языков (в релиз-нотах отмечен прирост ~5% для мандаринского, улучшения для арабского, шведского и др. в 2024) docs.speechmatics.com. В отношении предвзятости и инклюзивности: после их прорыва в 2021 году, вероятно, они снова обновили свои модели с использованием большего объема данных (возможно, в соответствии с исследованиями 2023 года). Возможно, был запущен обновленный “Autonomous Speech Recognition 2.0” с дальнейшими улучшениями. Они участвовали или упоминались в исследованиях, таких как исследования Стэнфорда или MIT по справедливости ASR, что подчеркивает их эффективность. Они проявляют интерес к встраиванию в крупные платформы – возможно, увеличивают количество партнерств (например, интеграция в Riva от Nvidia или транскрипцию Zoom – гипотетически, но такие сделки могут быть заключены негласно). С точки зрения бизнеса, Speechmatics, возможно, расширяет присутствие на рынке США с новым офисом или партнерствами, поскольку исторически они были сильны в Европе. В 2025 году они остаются независимыми и инновационными, часто считаются одним из лучших ASR, когда важна беспристрастная точность.

Официальный сайт: Speechmatics Speech-to-Text API audioxpress.com speechmatics.com (официальная страница продукта Speechmatics и ресурсы).

9. ElevenLabs (платформа для генерации и клонирования голоса) – ElevenLabs

Обзор: ElevenLabs — это передовая платформа генерации и клонирования голосов на базе ИИ, которая стала известна в 2023 году благодаря своим невероятно реалистичным и универсальным синтетическим голосам. Она специализируется на Text-to-Speech (TTS), способном воспроизводить речь с тонкими эмоциональными нюансами, и на Voice Cloning, позволяя пользователям создавать индивидуальные голоса (вплоть до клонирования голоса конкретного человека с его согласия) по небольшому аудиофрагменту. ElevenLabs предлагает простой веб-интерфейс и API, что позволяет создателям контента, издателям и разработчикам генерировать высококачественную речь на множестве голосов и языков. К 2025 году ElevenLabs считается одной из ведущих платформ для ультрареалистичного TTS, зачастую неотличимого от человеческой речи во многих сценариях использования zapier.com zapier.com. Она используется для всего: от озвучивания аудиокниг до озвучки видео на YouTube, голосов игровых персонажей и инструментов доступности. Ключевое отличие — уровень выразительности и настройки: пользователи могут регулировать параметры стабильности и схожести для получения нужного эмоционального оттенка zapier.com, а платформа предлагает большую библиотеку готовых голосов и пользовательских клонов.

Тип: Text-to-Speech & Voice Cloning (с некоторыми вспомогательными функциями распознавания речи для процесса клонирования, но в первую очередь это платформа для генерации голоса).

Компания/разработчик: ElevenLabs (стартап, основанный в 2022 году, базируется в США/Польше, оценивался примерно в $1 млрд к 2023 году zapier.com).

Возможности и целевая аудитория:

  • Ультрареалистичный TTS: ElevenLabs может генерировать речь с естественной интонацией, темпом и эмоциями. Она не звучит роботизировано; платформа передает такие нюансы, как смешки, шепот, паузы при необходимости. Целевая аудитория — создатели контента (озвучка видео, подкасты, аудиокниги), разработчики игр (голоса NPC), кинематографисты (прототипирование дубляжа) и даже частные лица для развлечения или доступности (чтение статей выбранным голосом вслух).
  • Библиотека голосов: К 2024 году в публичной библиотеке ElevenLabs более 300 готовых голосов, включая некоторые, смоделированные по мотивам известных актеров или стилей (лицензированные или добавленные пользователями) zapier.com. Пользователи могут выбирать по стилю (повествовательный, веселый, страшный и т.д.) и языкам.
  • Клонирование голоса (пользовательские голоса): Пользователи (с соответствующими правами) могут создать цифровую копию голоса, предоставив несколько минут аудиозаписи. Платформа создаст индивидуальный голос TTS, который будет говорить с тем же тембром и стилем elevenlabs.io elevenlabs.io. Это популярно среди создателей, которые хотят уникальный голос рассказчика, или для компаний, локализующих голосовой бренд.
  • Мультиязычность и кросс-языковость: ElevenLabs поддерживает генерацию речи на 30+ языках с использованием любого голоса, то есть вы можете клонировать голос англоговорящего и заставить его говорить по-испански или по-японски, сохраняя вокальные характеристики elevenlabs.io elevenlabs.io. Это мощный инструмент для дубляжа контента на несколько языков с сохранением идентичности голоса.
  • Управление эмоциями: Интерфейс/API позволяет настраивать такие параметры, как стабильность (постоянство против вариативности подачи), сходство (насколько строго соблюдаются характеристики оригинального голоса) zapier.com, а также стиль и акцент через выбор голоса. Это позволяет точно настраивать исполнение — например, сделать чтение более выразительным или монотонным.
  • Реальное время и низкая задержка: К 2025 году ElevenLabs увеличила скорость генерации — теперь она может создавать аудио достаточно быстро для некоторых приложений в реальном времени (хотя в основном работает асинхронно). У них даже есть модель с низкой задержкой для интерактивных сценариев (бета).
  • Платформа и API: Они предоставляют веб-студию, где пользователи без технических навыков могут ввести текст, выбрать или настроить голос и сгенерировать аудио. Для разработчиков доступны API и SDK. Также есть такие функции, как Eleven Multilingual v2 — модель для улучшенного синтеза на неанглийских языках.
  • Инструменты публикации: Специально ориентированы на создателей аудиокниг — например, поддерживается ввод длинных текстов, сохранение идентичности голоса на протяжении глав и т.д. Целевая аудитория: самиздат-авторы, издатели, локализующие аудиокниги, видеомейкеры и создатели контента для соцсетей, которым нужен диктор.

Ключевые возможности:

  • Voice Lab и библиотека: Удобная «Voice Lab», где можно управлять пользовательскими голосами, и Voice Library, где можно искать голоса по категориям (например, стили «рассказчик», «героический», «ведущий новостей») zapier.com. Многие голоса доступны для сообщества (с правами).
  • Модели с высокой выразительностью: ElevenLabs выпустила новую модель (v3, с конца 2023 года в альфа-версии), которая может естественно передавать смех, менять интонацию в середине предложения, шептать и т.д. elevenlabs.io elevenlabs.io. В их демонстрации был пример с динамическими эмоциями и даже с пением (в определённой степени).
  • Стабильность против вариативности: Ползунок “Stability” — более высокая стабильность даёт ровный тон (подходит для длинного повествования), более низкая делает речь более динамичной/эмоциональной (подходит для диалогов персонажей) zapier.com.
  • Клонирование с согласием и мерами безопасности: Для клонирования внешнего голоса требуется явное согласие или верификация (чтобы предотвратить злоупотребления). Например, чтобы клонировать свой голос, нужно прочитать предоставленные фразы, включая заявление о согласии (они это проверяют).
  • Мультиголос и диалоги: Их интерфейс позволяет легко создавать многоголосое аудио (например, разные голоса для разных абзацев/реплик). Отлично подходит для аудиоспектаклей или симуляции беседы.
  • Языки: На 2025 год поддерживаются основные европейские и некоторые азиатские языки; упоминается более 30 (вероятно, включая английский, испанский, французский, немецкий, итальянский, португальский, польский, хинди, японский, корейский, китайский и др.). Эти языки постоянно совершенствуются — v3 улучшила естественность мультиязычной речи.
  • Качество аудио: Выходной звук высокого качества (44,1 кГц), подходит для профессиональных медиа. Доступно несколько форматов (MP3, WAV).
  • Возможности API: Можно указывать голос по ID, настраивать параметры для каждого запроса, а также, например, использовать морфинг голоса (стилевое смешивание двух голосов).
  • У ElevenLabs также есть небольшая функция STT (они представили инструмент транскрипции на базе Whisper, возможно, для синхронизации дубляжа), но это не основной фокус.

Поддерживаемые языки: 32+ языка для генерации TTS elevenlabs.io. Важно, что кросс-языковые возможности означают, что не нужен отдельный голос для каждого языка — один голос может говорить на всех, хотя и с акцентом, если он есть у оригинального голоса. Отмечается возможность in-language (например, клонировать польского диктора и заставить его говорить по-японски). Не все голоса одинаково хорошо работают на всех языках (некоторые дообученные голоса могут быть в основном англоязычными, но модель v3 решает задачу мультиязычного обучения). Включены все основные языки и некоторые менее распространённые (скорее всего, охватывают нужные для контент-рынков, например, нидерландский, шведский, возможно, арабский и др.). Сообщество часто делится отзывами о качестве на разных языках — к 2025 году ElevenLabs значительно улучшила качество неанглийских языков.

Техническая основа:

  • ElevenLabs использует запатентованную модель глубокого обучения, вероятно, ансамбль текстового энкодера на основе Transformer и генеративного аудиодекодера (вокодера), возможно, похожего на модели типа VITS или Grad-TTS, но сильно оптимизированного. Они инвестировали в исследования выразительности — возможно, используя такие техники, как предварительно обученные энкодеры речи (например, Wav2Vec2) для захвата идентичности голоса из образцов, а также подход на основе смеси дикторов или промптов для стиля.
  • Модель v3 с упоминанием “Eleven v3” предполагает, что они создали новую архитектуру, возможно, совмещающую многоязычное обучение и токены стиля для эмоций elevenlabs.io.
  • Они упоминают “прорывные AI-алгоритмы” elevenlabs.io — вероятно, они используют большое количество обучающих данных (они заявляли, что обучались на тысячах часов, включая множество аудиокниг из общественного достояния и т.д.), и делают акцент на обучение с несколькими дикторами, чтобы одна модель могла создавать множество голосов.
  • Это в некоторой степени аналогично тому, как работает TTS от OpenAI (голосовая функция ChatGPT): одна мультиголосовая модель. ElevenLabs здесь на передовой.
  • Они внедряют zero-shot cloning: по короткому образцу их модель может адаптироваться к этому голосу. Возможно, используется подход извлечения эмбеддинга диктора (например, d-vector или аналогичный), который затем подается в TTS-модель для задания голоса. Так клоны создаются мгновенно.
  • Они работают над эмоциональным кондиционированием — возможно, используя токены стиля или несколько эталонных аудиозаписей (например, обучая на голосах с пометками эмоций).
  • Также акцент на быструю синтезу: возможно, с использованием ускорения на GPU и эффективных вокодеров для вывода почти в реальном времени. (Могут использовать параллельный вокодер для скорости).
  • Одна из задач — кросс-лингвистическое выравнивание: вероятно, они используют IPA или унифицированное фонемное пространство, чтобы модель могла говорить на других языках тем же голосом с правильным произношением (по отзывам пользователей, с этим справляется неплохо).
  • Они определенно много делают и на этапе обработки текста: правильное произношение имен, омографов, учет контекста (высокое качество говорит о хорошей системе нормализации текста и, возможно, внутренней языковой модели для выбора произношения в контексте).
  • Вероятно, ElevenLabs использует и обратную связь: у них много пользователей, так что, возможно, они собирают данные о случаях неправильного произношения и постоянно дообучают/улучшают модель (особенно по частым пользовательским исправлениям и т.д.).

Сферы применения:

  • Озвучка аудиокниг: Независимые авторы используют ElevenLabs для создания аудиокниг без найма дикторов, выбирая подходящий голос из библиотеки или клонируя свой собственный. Издатели локализуют книги, клонируя голос диктора на другой язык.
  • Озвучка видео (YouTube, e-Learning): Создатели быстро генерируют озвучку для обучающих видео или курсов. Некоторые используют это для A/B тестирования разных стилей голоса для своего контента.
  • Разработка игр: Независимые разработчики игр используют это, чтобы озвучивать реплики NPC-персонажей, выбирая разные голоса для каждого персонажа и генерируя диалоги, что позволяет значительно сэкономить на затратах на запись.
  • Дубляж и локализация: Студия может дублировать фильм или шоу на несколько языков, используя клон голоса оригинального актёра, говорящего на этих языках — сохраняя оригинальную вокальную индивидуальность. Уже сейчас ElevenLabs использовался в некоторых фанатских проектах, чтобы оригинальные актёры «произносили» новые реплики.
  • Доступность и чтение: Люди используют это для озвучивания статей, писем или PDF приятным голосом на свой выбор. Пользователи с нарушением зрения получают выгоду от более естественного TTS, что делает длительное прослушивание более комфортным.
  • Прототипирование голоса: Рекламные агентства или кинематографисты создают прототипы озвучки и рекламы с помощью ИИ-голосов, чтобы получить одобрение клиента до записи с человеком. Иногда ИИ-голос настолько хорош, что остаётся финальным для небольших проектов.
  • Персональное клонирование голоса: Некоторые люди клонируют голоса пожилых родственников (с разрешения), чтобы сохранить их, или свой собственный голос, чтобы делегировать некоторые задачи (например, чтобы «их голос» читал их тексты).
  • Интерактивное повествование: Приложения или игры, которые генерируют контент на лету, используют ElevenLabs для озвучивания динамических реплик (с учётом некоторой задержки).
  • Голоса для колл-центров или виртуальных ассистентов: Компании могут создать уникальный фирменный голос с помощью клонирования или кастомизации в ElevenLabs и использовать его в IVR или виртуальном ассистенте, чтобы он был уникальным и соответствовал бренду.
  • Эффективность создания контента: Авторы генерируют аудиодиалоги персонажей, чтобы услышать, как они звучат в исполнении, что помогает при написании сценариев.

Модель ценообразования: ElevenLabs предлагает freemium и подписочную модель:

  • Бесплатный уровень: ~10 минут сгенерированного аудио в месяц для тестирования zapier.com.
  • Тариф Starter: $5/месяц (или $50/год) — примерно 30 минут в месяц плюс доступ к клонированию голоса и базовым коммерческим правам на использование zapier.com.
  • Более высокие тарифы (например, Creator, Independent Publisher и др.) стоят дороже в месяц и предоставляют больше времени (часы генерации) и дополнительные функции, такие как более высокое качество, больше кастомных голосов, приоритет, возможно, доступ к API в зависимости от уровня zapier.com zapier.com.
  • Enterprise: индивидуальное ценообразование для крупных объёмов использования (безлимитные тарифы обсуждаются и т.д.).
  • В отличие от облачных TTS, которые часто взимают плату за каждый символ, ElevenLabs взимает плату за время вывода. Например, $5 за 30 минут, что фактически составляет $0,17 за минуту, что конкурентоспособно с учетом качества и включенных прав.
  • Часто можно приобрести дополнительное использование (перерасход или разовые пакеты).
  • В стоимость включено использование готовых голосов и клонирование голоса. У них есть положения, что если вы клонируете чей-то голос, используя их библиотеку голосов, вам может понадобиться подтверждение прав и т.д., но, предположительно, сервис обеспечивает законность.
  • У них есть API для подписчиков (вероятно, начиная с плана за $5, но с ограниченной квотой).
  • В целом, довольно доступно для индивидуальных создателей (что и способствовало популярности), с возможностью масштабирования для больших нужд.

Сильные стороны:

  • Несравненное качество и реалистичность голоса: Часто пользователи отмечают, что голоса ElevenLabs — одни из самых человечных из доступных широкой публике zapier.com zapier.com. Они передают эмоции и естественный ритм, превосходя многие TTS-решения крупных компаний по выразительности.
  • Удобство и творческая свобода: Платформа разработана так, что даже неспециалист может легко клонировать голос или настроить параметры стиля. Это снижает порог входа для творческого использования AI-голоса.
  • Огромный выбор голосов: Сотни голосов и возможность создать свой собственный позволяют добиться практически любого стиля или персонажа — гораздо больше вариантов, чем у типичных TTS-сервисов (у которых может быть 20-50 голосов).
  • Мультиязычность и кросс-языковость: Возможность использовать голос на разных языках с сохранением акцента/эмоций — уникальное преимущество, упрощающее создание многоязычного контента.
  • Быстрый цикл улучшений: Как специализированный стартап, ElevenLabs быстро внедряет новые функции (например, быстрый переход от модели v1 к v3 за год, добавление языков, смеха/шепота). Также они быстро учитывают отзывы сообщества.
  • Активное сообщество: Многие создатели присоединились к платформе, делятся советами и голосами, что увеличивает охват и позволяет исследовать множество сценариев использования, делая продукт более устойчивым.
  • Гибкая интеграция API: Разработчики могут встроить сервис в приложения (некоторые приложения, такие как инструменты для озвучки или Discord-боты, начали использовать ElevenLabs для создания голосовых выходных данных).
  • Выгодно по соотношению цена/качество: Для небольшого и среднего использования это гораздо дешевле, чем нанимать диктора и арендовать студию, при этом результат почти профессиональный. Это огромное преимущество для независимых создателей.
  • Этические меры: Введены определенные меры безопасности (клонирование голоса требует верификации или доступно только на более высоком тарифе для предотвращения злоупотреблений, также проводится обнаружение голосов для выявления неправомерного использования). Это укрепляет доверие правообладателей.
  • Финансирование и рост: Хорошо финансируется и широко используется, поэтому, вероятно, будет существовать и постоянно совершенствоваться.

Слабые стороны:

  • Потенциал для злоупотреблений: Сами сильные стороны (реалистичное клонирование) имеют и тёмную сторону — действительно, на ранних этапах были случаи использования для дипфейковых голосов. Это вынудило их внедрить более строгие политики использования и обнаружения. Тем не менее, само существование технологии означает риск подделки, если не обеспечить хорошую защиту.
  • Согласованность для длинных текстов: Иногда поддерживать точную эмоциональную согласованность на очень длинных озвучках бывает сложно. Модель может немного менять тон или темп между главами (хотя настройка стабильности и грядущая версия v3 решают это лучше).
  • Произношение необычных слов: Хотя система довольно хороша, иногда неправильно произносит имена или редкие термины. Они предлагают ручные исправления (можно прописать слова фонетически), но это не идеально «из коробки» для каждого собственного имени. У конкурирующих облачных TTS схожие проблемы, но это нужно учитывать.
  • Ограничения по скорости API / масштабируемость: При очень большом масштабе (например, автоматическая генерация тысяч часов) можно столкнуться с ограничениями пропускной способности, хотя, вероятно, они могут масштабировать бэкенд для корпоративных клиентов. Крупные облачные провайдеры сейчас могут обрабатывать массовые параллельные запросы более бесшовно.
  • Нет встроенного распознавания речи или управления диалогом: Это не полноценная платформа для разговорного ИИ — потребуется интеграция с STT и логикой (некоторые могут считать это недостатком по сравнению с комплексными решениями вроде Amazon Polly + Lex и др. Однако ElevenLabs легко интегрируется с другими системами).
  • Жёсткая конкуренция: Крупные игроки и новые стартапы заметили успех ElevenLabs; OpenAI сами могут выйти с продвинутым TTS, или другие компании (например, новый исследовательский проект Microsoft VALL-E) со временем могут составить конкуренцию. Поэтому ElevenLabs нужно продолжать инновации, чтобы опережать по качеству и функциям.
  • Лицензирование и права: Пользователям нужно быть внимательными при использовании голосов, похожих на реальные или клонов. Даже с согласием могут быть юридические «серые зоны» (права на сходство) в некоторых юрисдикциях. Эта сложность может отпугнуть часть коммерческих пользователей, пока законы/этика не станут яснее.
  • Ограничения по акцентам и языкам: Хотя поддерживается несколько языков, голос может сохранять акцент исходного языка. Для некоторых задач может потребоваться носительский голос для каждого языка (возможно, ElevenLabs решит это в будущем с помощью адаптации голоса или предоставления библиотеки носителей).
  • Зависимость от облака: Это закрытый облачный сервис; нет локального офлайн-решения. Некоторые пользователи предпочли бы локальное размещение для конфиденциального контента (некоторые компании не захотят загружать секретные сценарии в облако). Нет версии для самостоятельного размещения (в отличие от некоторых открытых TTS-движков).

Недавние обновления (2024–2025):

  • ElevenLabs представила Eleven Multilingual v2 в конце 2023 года, что значительно улучшило неанглоязычный вывод (меньше акцента, лучшее произношение).
  • Они выпустили альфу Voice Generation v3, которая может обрабатывать такие вещи, как смех, смена стиля в середине предложения и в целом более широкий динамический диапазон elevenlabs.io elevenlabs.io. Вероятно, это было полностью внедрено в 2024 году, делая голоса еще более реалистичными (например, в демо были полностью разыгранные сцены).
  • Они расширили возможности клонирования голоса, позволив мгновенное клонирование голоса всего по ~3 секундам аудио в ограниченной бете (если это правда, возможно, используется технология, похожая на VALL-E от Microsoft, о которой они, безусловно, знали). Это значительно упростило бы клонирование для пользователей.
  • Библиотека голосов резко выросла после запуска функции обмена голосами: к 2025 году доступны тысячи голосов, созданных пользователями (некоторые в общественном достоянии или оригинальные) – своего рода “маркетплейс” голосов.
  • Они заключили больше партнерств; например, некоторые издатели открыто используют ElevenLabs для аудиокниг или интеграции с популярным видеософтом (возможно, плагин для Adobe Premiere или After Effects для генерации озвучки прямо в приложении).
  • Они привлекли больше инвестиций при высокой оценке zapier.com, что говорит о расширении (возможно, в смежные области, такие как диалоговые системы или исследование просодии).
  • В плане безопасности они внедрили систему отпечатков голоса – любое аудио, сгенерированное ElevenLabs, можно идентифицировать как таковое с помощью скрытого водяного знака или AI-детектора, который они разрабатывают для предотвращения злоупотреблений.
  • Они добавили инструмент Voice Design (в бете), который позволяет пользователям “смешивать” голоса или настраивать некоторые характеристики для создания нового AI-голоса без необходимости использовать человеческий образец. Это открывает творческие возможности для генерации уникальных голосов, не связанных с реальными людьми.
  • Также улучшили использование API для разработчиков – добавили такие функции, как асинхронная генерация, более тонкий контроль через API и, возможно, опцию on-prem для предприятий (не подтверждено, но возможно для крупных клиентов).
  • В целом, ElevenLabs продолжает задавать планку для генерации AI-голосов в 2025 году, заставляя других догонять.

Официальный сайт: ElevenLabs Voice AI Platform zapier.com zapier.com (официальный сайт для синтеза речи и клонирования голоса от ElevenLabs).

10. Resemble AI (Платформа для клонирования голоса и кастомного TTS) – Resemble AI

Обзор: Resemble AI — это ведущая платформа для клонирования голоса с помощью ИИ и индивидуального синтеза речи, которая позволяет пользователям создавать высокореалистичные голосовые модели и генерировать речь этими голосами. Основанная в 2019 году, Resemble специализируется на быстром и масштабируемом клонировании голосов для творческого и коммерческого использования. Она выделяется тем, что предлагает несколько способов клонирования голосов: на основе текста (существующие TTS-голоса, которые можно настраивать), на основе аудиоданных и даже в режиме реального времени (конвертация голоса). К 2025 году Resemble AI используется для создания реалистичных ИИ-голосов для фильмов, игр, рекламы и виртуальных ассистентов, особенно там, где требуется определённый голос — либо копия реального человека, либо уникальный фирменный голос. Также есть функция “Localize”, позволяющая одному голосу говорить на многих языках (аналогично ElevenLabs) resemble.ai resemble.ai. Resemble предлагает API и веб-студию, и особенно интересна компаниям, желающим интегрировать индивидуальные голоса в свои продукты (с возможностью корпоративного контроля, например, локального развертывания при необходимости).

Тип: Синтез речи (Text-to-Speech) и клонирование голоса, а также конвертация голоса в реальном времени.

Компания/разработчик: Resemble AI (стартап из Канады).

Возможности и целевая аудитория:

  • Клонирование голоса: Пользователи могут создать клон голоса всего по нескольким минутам записанного аудио. Клонирование Resemble отличается высоким качеством, точно передавая тембр и акцент исходного голоса. Целевая аудитория — студии контента, которым нужны синтетические голоса талантов, бренды для создания фирменного голосового персонажа и разработчики, желающие уникальные голоса для приложений.
  • Индивидуальный синтез речи (TTS): После клонирования или создания голоса можно вводить текст и генерировать речь этим голосом через веб-приложение или API. Речь может передавать широкий спектр эмоций (Resemble может улавливать эмоции из датасета или с помощью дополнительного управления).
  • Конвертация голоса в реальном времени: Особенность платформы — Resemble может выполнять конвертацию речи в речь, то есть вы говорите, а на выходе почти в реальном времени получается речь целевого клонированного голоса resemble.ai resemble.ai. Это полезно для дубляжа или живых выступлений (например, человек говорит, а его голос звучит как другой персонаж).
  • Localize (кросс-языковая функция): Их инструмент Localize может переводить и конвертировать голос на 60+ языков resemble.ai. По сути, они могут взять англоязычную голосовую модель и заставить её говорить на других языках, сохраняя индивидуальность голоса. Это используется для глобальной локализации диалогов и контента.
  • Эмоции и стиль: Resemble подчеркивает копирование не только голоса, но и эмоций и стиля. Их система может передавать эмоциональный тон, присутствующий в эталонных записях, в сгенерированный результат resemble.ai resemble.ai.
  • Гибкий ввод и вывод: Они поддерживают не только обычный текст, но и API, который может принимать параметры эмоций, а также систему “Диалог” для управления разговорами. Вывод осуществляется в стандартных аудиоформатах, с возможностью тонкой настройки, например, изменения скорости и т.д.
  • Интеграция и развертывание: Resemble предлагает облачный API, но также может быть развернут локально или в частном облаке для предприятий (чтобы данные не покидали пределы компании). Например, у них есть плагин для Unity для разработчиков игр, что облегчает интеграцию голосов в игры. Также, вероятно, поддерживается интеграция с телефонными системами.
  • Сценарии использования и пользователи: Разработчики игр (Resemble использовался в играх для озвучки персонажей), пост-продакшн фильмов (например, для исправления диалогов или создания голосов для CGI-персонажей), реклама (клонирование голосов знаменитостей для рекламы с разрешения), колл-центры (создание виртуального агента с индивидуальным голосом), и доступность (например, предоставление людям, потерявшим голос, цифрового голоса, похожего на их прежний).

Ключевые возможности:

  • 4 способа клонирования: Resemble предлагает клонирование через запись своего голоса на их сайте (прочитать 50 предложений и т.д.), загрузку существующих данных, создание нового голоса путем смешивания голосов или однокликовое объединение нескольких голосов для получения нового стиля.
  • Конвейер “речь-в-речь”: Вы предоставляете входной аудиофайл (может быть ваша речь с новыми репликами), и Resemble преобразует его в целевой голос, сохраняя нюансы, такие как интонация, из исходного аудио. Это происходит почти в реальном времени (небольшая задержка).
  • API и графический интерфейс: Нетехнические пользователи могут использовать удобный веб-интерфейс для генерации клипов, настройки интонации путем выбора слов и их изменения (есть функция ручной настройки темпа или акцента на словах, аналогично редактированию аудио) – сопоставимо с возможностями редактирования Descript Overdub.
  • Захват эмоций: Они заявляют о “захвате эмоций во всем спектре” – если в обучающих данных исходного голоса были разные эмоциональные состояния, модель может их воспроизводить. Также можно помечать обучающие данные по эмоциям, чтобы при синтезе включать режим “злой” или “радостный”.
  • Массовая генерация и персонализация: API Resemble может динамически генерировать аудио в больших объемах (например, автоматизированное создание тысяч персонализированных сообщений – есть кейс с персонализированной аудиорекламой с уникальными именами и т.д.).
  • Качество и улучшения: Они используют нейросетевой высококачественный вокодер для обеспечения четкости и естественности результата. Упоминается анализ и коррекция слабых аудиосигналов до начала транскрипции telnyx.com – возможно, это относится к STT в Watson. Для Resemble не уверен, но, предположительно, они также предварительно обрабатывают аудио по мере необходимости.
  • Проекты и совместная работа: У них есть функции управления проектами в их веб-студии, так что команды могут совместно работать над голосовыми проектами, прослушивать дубли и т.д.
  • Этика/Проверка: У них также есть меры для подтверждения права собственности на голос – например, требуется произнести специальные фразы-согласия. Также они могут добавлять водяные знаки на выходные файлы, если это нужно для обнаружения.
  • Resemble Fill – одна из заметных функций: вы можете загрузить реальную голосовую запись, и если есть пропущенные или неудачные слова, вы можете ввести новый текст, и он будет бесшовно интегрирован в оригинал с помощью клонированного голоса – по сути, AI-голосовое «патчинг». Полезно в постпродакшене фильмов для исправления реплики без перезаписи.
  • Аналитика и настройка: Для корпоративных клиентов они предоставляют аналитику использования, возможность настраивать лексикон (для индивидуальных произношений) и т.д.

Поддерживаемые языки: Более 50 языков поддерживаются для голосового вывода aibase.com, и они отдельно отмечают 62 языка в своем инструменте дубляжа Localize resemble.ai. То есть, очень широкий охват (похожий набор на ElevenLabs). Включены такие языки, как английский, испанский, французский, немецкий, итальянский, польский, португальский, русский, китайский, японский, корейский, возможно, различные индийские языки, арабский и др. Часто упоминается, что голос может говорить на языках, которых не было в исходных данных, то есть у них под капотом многоязыковой TTS-движок.
Также упоминается возможность обработки code-switching при необходимости, но это больше относится к STT. Для TTS многоязычные голоса — ключевая функция.

Техническая основа:

  • Движок Resemble, вероятно, использует многоголосовую нейросетевую TTS-модель (например, вариант Glow-TTS или FastSpeech) плюс высококачественный вокодер (скорее всего, что-то вроде HiFi-GAN). Включён голосовой энкодер (похожий на техники speaker embedding), что позволяет быстро клонировать по примерам.
  • Они упоминают использование машинного обучения в больших масштабах – предположительно, обучение на огромных объёмах голосовых данных (возможно, лицензированных у студий, из открытых датасетов и т.д.).
  • Реальное время преобразования речи подразумевает модель, которая может брать аудиопризнаки исходного голоса и сопоставлять их с признаками целевого голоса почти в реальном времени. Вероятно, используется комбинация автоматического распознавания речи (для получения фонем/тайминга) и последующего синтеза с тембром целевого голоса, либо end-to-end модель преобразования голоса, не требующая явной транскрипции для скорости.
  • Управление эмоциями: Возможно, используется подход style tokens или отдельные модели для каждой эмоции, либо дообучение с метками эмоций.
  • Localize: Возможно, реализован пайплайн: распознавание речи (с переводом), затем синтез речи. Или у них есть прямая кросс-языковая голосовая модель (менее вероятно). Скорее всего, интегрирован этап перевода. Но они подчеркивают сохранение индивидуальности голоса на новых языках, что подразумевает использование одной и той же голосовой модели с неанглоязычными входными данными.
  • Масштабируемость и скорость: Они заявляют о преобразовании в реальном времени с минимальной задержкой. Их генерация TTS для обычного текста может быть немного медленнее, чем у ElevenLabs, если больше бэкенда, но, вероятно, они оптимизируют процесс. Упоминается генерация 15 минут аудио всего из 50 записанных предложений (быстрое клонирование).
  • Скорее всего, они делают упор на точную передачу акустических деталей, чтобы клон был неотличим. Возможно, используют продвинутые функции потерь или GAN для захвата индивидуальности голоса.
  • Они упоминают, что анализируют и корректируют аудиовходы для S2S — вероятно, это шумоподавление или согласование фонового шума помещения.
  • Технология охватывает функции Voice Enhancer (например, улучшение качества аудио), если это необходимо для входных сигналов.

Сценарии использования:

  • Кино и ТВ: Resemble использовался для клонирования голосов актеров на этапе пост-продакшна (например, чтобы исправить реплику или сгенерировать текст, если актер недоступен). Также используется для создания ИИ-голосов для CG-персонажей или для омоложения голоса (делая голос пожилого актера снова молодым).
  • Игры: Игровые студии используют Resemble для генерации часов диалогов NPC после клонирования нескольких актеров озвучки (экономит средства и позволяет быстро менять сценарии).
  • Реклама и маркетинг: Бренды клонируют голос знаменитости (с разрешения), чтобы создавать вариации рекламы или персонализированные промо в больших объемах. Или создают вымышленный голос бренда для единообразия на мировых рынках, меняя язык, но сохраняя голосовую идентичность.
  • Разговорные ИИ-агенты: Некоторые компании используют индивидуальный голос Resemble для IVR или виртуальных ассистентов, чтобы он соответствовал бренду, а не был обычным TTS-голосом. (Например, голосовой помощник банка с уникальным голосом).
  • Личное использование при потере голоса: Люди, теряющие голос из-за болезни, использовали Resemble для клонирования и сохранения своего голоса, чтобы затем использовать его как свой голос для синтеза речи. (Похоже на то, что делали компании вроде Lyrebird (куплена Descript); Resemble тоже это предлагает).
  • Локализация медиа: Студии дубляжа используют Resemble Localize для быстрого дубляжа — вводят оригинальные реплики, получают выход на целевом языке с похожим голосом. Это значительно сокращает время, хотя часто требует доработки человеком.
  • Интерактивные повествования: Resemble можно интегрировать в приложения для интерактивных историй или ИИ-рассказчиков, где нужно генерировать голоса на лету (возможно, менее распространено, чем предварительная генерация из-за задержки, но возможно).
  • Корпоративное обучение/электронное обучение: Генерация озвучки для обучающих видео или курсов с помощью клонов профессиональных дикторов, на нескольких языках без повторной записи, что обеспечивает единый тон.

Модель ценообразования: Resemble больше ориентирован на корпоративный сегмент, но некоторые цены указаны:

  • Есть бесплатная пробная версия (возможно, позволяет ограниченное клонирование голоса и несколько минут генерации с водяным знаком).
  • Ценообразование обычно основано на использовании или подписке. Для отдельных создателей у них было что-то вроде $30 в месяц за определённый объём использования и голоса, затем дополнительные сборы за превышение.
  • Для корпоративных клиентов, вероятно, индивидуальные условия. Также была оплата по мере использования для API.
  • Например, один источник указывал стоимость $0,006 за секунду сгенерированного аудио (~$0,36/мин) для стандартной генерации, с оптовыми скидками.
  • Они могут взимать отдельную плату за создание голоса (например, плата за голос, если он создаётся с их помощью в высоком качестве).
  • Учитывая, что EleveLabs дешевле, Resemble может конкурировать не по низкой цене, а по функциям и готовности к корпоративному использованию (например, они выделяют неограниченное использование на индивидуальном плане или договариваются о лицензии на сайт).
  • У них была опция полностью лицензировать модель для локального размещения, что, вероятно, дорого, но даёт полный контроль.
  • В целом, вероятно, дороже, чем ElevenLabs при сопоставимом использовании, но предлагает функции, которых нет у некоторых конкурентов (работа в реальном времени, прямые интеграционные пайплайны и т.д., что оправдывает цену для определённых клиентов).

Сильные стороны:

  • Комплексный набор инструментов Voice AI: Resemble охватывает все направления — TTS, клонирование, преобразование голоса в реальном времени, многозадачный дубляж, аудиоредактирование (заполнение пауз). Это универсальное решение для задач синтеза голоса.
  • Ориентация на бизнес и кастомизация: Они предлагают большую гибкость (варианты развертывания, индивидуальная поддержка, кастомные интеграции), что удобно для корпоративного внедрения.
  • Качественное клонирование и эмоциональная достоверность: Их клоны очень высокого качества, и многочисленные кейсы показывают, насколько хорошо они передают стиль и эмоции resemble.ai resemble.ai. Например, кейс с кампанией ко Дню матери, когда было доставлено 354 тыс. персонализированных сообщений с точностью голоса 90% resemble.ai — сильное доказательство масштабируемости и качества.
  • Возможности в реальном времени: Возможность преобразовывать голос вживую выделяет их — немногие другие это предлагают. Это открывает сценарии использования в живых выступлениях или трансляциях (например, можно в реальном времени дублировать голос спикера другим голосом).
  • Локализация/Языки: Более 60 языков и акцент на сохранении одного и того же голоса на всех языках resemble.ai — большой плюс для глобального производства контента.
  • Этика и контроль: Они позиционируют себя как этичную платформу (требуется согласие и т.д.). И активно продвигают это в маркетинге, что важно для клиентов с вопросами интеллектуальной собственности. Также есть технологии предотвращения злоупотреблений (например, требование прочитать специальную проверочную фразу, как и у других).
  • Кейсы и опыт: Resemble использовался в известных проектах (некоторые голливудские проекты и т.д.), что придаёт им авторитет. Например, пример на их сайте о получившей премию Apple Design Award игре, использующей их resemble.ai, показывает возможный креатив (Crayola Adventures с динамическими озвучками).
  • Масштабируемость и ROI: Некоторые клиенты отмечают огромный рост контента (пример Truefan: увеличение создания контента в 70 раз, рост дохода в 7 раз resemble.ai). Это показывает, что они могут эффективно работать с большими объёмами.
  • Мультиголос и эмоции в одном выводе: Они демонстрируют, как можно легко создавать диалоги или интерактивные голоса (например, приложение ABC Mouse использует это для вопросов и ответов с детьми resemble.ai).
  • Контроль качества голоса: У них есть функции для обеспечения качества результата (например, добавление фоновой музыки или мастеринг для студийного качества), чего нет у некоторых обычных TTS API.
  • Постоянный рост: Они выпускают обновления (например, недавно новые “Contextual AI voices” или обновления алгоритмов).

Слабые стороны:

  • Не так просто/дёшево для любителей: По сравнению с ElevenLabs, Resemble больше ориентирован на корпоративных/предпринимательских клиентов. Интерфейс мощный, но, возможно, менее интуитивный, чем у сверхпростого Eleven для новичков. Также цена может быть барьером для небольших пользователей (они могут выбрать ElevenLabs вместо этого).
  • Чуть меньше популярности среди широкой публики: Хотя они уважаемы в определённых кругах, у них нет такой вирусной узнаваемости, как у ElevenLabs среди массовых создателей в 2023 году. Их могут воспринимать больше как сервис для профессионалов за кулисами.
  • Качество против ElevenLabs: Разница незначительна, но некоторые энтузиасты голосов отмечают, что у ElevenLabs может быть преимущество в сверхреалистичных эмоциях для английского, в то время как Resemble очень близок и иногда лучше в других аспектах (например, в реальном времени). Конкуренция плотная, но восприятие имеет значение.
  • Компромиссы в фокусе: Предлагая и TTS, и работу в реальном времени, им, возможно, приходится балансировать оптимизацию для обоих направлений, тогда как ElevenLabs полностью сосредоточен на оффлайн-качестве TTS. Если не контролировать, одна из областей может немного отставать (хотя пока они справляются).
  • Зависимость от качества обучающих данных: Чтобы получить лучший результат от клона Resemble, желательно предоставить чистые, качественные записи. Если входные данные шумные или ограниченные, результат страдает. У них есть улучшения для смягчения, но физику не обманешь.
  • Юридические вопросы использования: Та же категория проблемы — этика клонирования. Они хорошо справляются с этим, но потенциальные клиенты всё равно могут сомневаться, думая о будущих регуляциях или общественном восприятии использования клонированных голосов (страх быть помеченным как “дипфейк”). Resemble, ориентируясь на корпоративный сектор, вероятно, решает это с помощью NDA и разрешений, но это общая рыночная проблема.
  • Конкуренция и пересечение: Появилось много новых сервисов (некоторые на базе открытых моделей), предлагающих более дешевое клонирование. Resemble приходится выделяться качеством и функционалом. Также крупные облачные компании (например, Custom Neural Voice от Microsoft) напрямую конкурируют за корпоративные контракты (особенно теперь, когда Microsoft владеет Nuance).
  • Контроль пользователя: Хотя у них есть некоторые инструменты для редактирования, настройка тонких элементов речи может быть не такой детализированной, как у человека — создателям, возможно, придется генерировать несколько версий или всё равно делать аудиопостобработку, чтобы получить именно то, что нужно (это касается всех ИИ-голосов).

Последние обновления (2024–2025):

  • Resemble выпустила «Resemble AI 3.0» примерно в 2024 году с серьёзными улучшениями модели, сосредоточившись на большем эмоциональном диапазоне и улучшенной многоязычной выдаче. Возможно, внедрили что-то вроде VALL-E или улучшили zero-shot-возможности, чтобы уменьшить объём данных, необходимых для клонирования.
  • Они расширили количество языков Localize примерно с 40 до 62 и повысили точность перевода, чтобы интонация оригинала сохранялась (возможно, за счёт согласования перевода текста с голосовыми стилевыми подсказками).
  • Задержки при преобразовании голоса в реальном времени были ещё больше снижены — возможно, теперь ответ занимает менее 1 секунды.
  • Они внедрили функцию управления стилем по примеру — например, вы предоставляете образец нужной эмоции или контекста, и TTS имитирует этот стиль. Это помогает, если вы хотите, чтобы голос звучал, скажем, взволнованно или грустно в определённой реплике; вы даёте референс с нужным тоном (может быть, из данных оригинального диктора или даже другого голоса), чтобы направить синтез.
  • Возможно, интегрировали маломасштабную LLM для помощи с предсказанием интонации (например, чтобы автоматически определять, где делать акцент или как эмоционально прочитать фразу по содержанию).
  • Улучшили платформу для разработчиков: например, более удобный API для параллельной генерации множества голосовых клипов, websockets для потокового TTS в реальном времени и т.д.
  • В области безопасности: они запустили Voice Authentication API, который может проверить, сгенерировано ли аудио с помощью Resemble, или если кто-то пытается клонировать чужой голос (какая-то внутренняя водяная метка или определение голосового сигнатура).
  • Заключили несколько крупных партнёрств — например, с ведущей студией дубляжа или с медиа-компаниями для локализации контента. Пример с Age of Learning (ABC Mouse) — один из них, но могут появиться и другие.
  • Вероятно, они расширили свой маркетплейс голосовых талантов: возможно, наладили сотрудничество с актёрами озвучки для создания лицензированных голосовых скинов, которые другие могут использовать за плату (этичная монетизация голосов).
  • Постоянные НИОКР Resemble позволяют им оставаться среди ведущих сервисов по клонированию голосов в 2025 году с широкой корпоративной клиентурой.

Официальный сайт: Платформа клонирования голоса Resemble AI aibase.com resemble.ai (официальный сайт, описывающий их возможности по созданию индивидуальных голосов и преобразованию речи в речь в реальном времени).

Источники:

  1. Google Cloud Text-to-Speech – «Более 380 голосов на 50+ языках и вариантах». (Документация Google Cloud cloud.google.com
  2. Google Cloud Speech-to-Text – Высокая точность, поддержка более 120 языков, транскрипция в реальном времени. (Блог Krisp krisp.ai
  3. Microsoft Azure Neural TTS – «Поддерживает 140 языков/вариантов и 400 голосов». (Microsoft TechCommunity techcommunity.microsoft.com
  4. Microsoft Azure STT – STT корпоративного уровня с возможностью настройки и безопасностью для 75+ языков. (Блог Telnyx telnyx.com telnyx.com
  5. Amazon Polly – «Amazon Polly предлагает более 100 голосов на 40+ языках… эмоционально выразительные генеративные голоса». (AWS What’s New aws.amazon.com aws.amazon.com
  6. Amazon Transcribe – Модель ASR нового поколения с поддержкой более 100 языков, определением говорящих, в реальном времени и пакетно. (Обзор AWS aws.amazon.com aws.amazon.com
  7. IBM Watson STT – «Настраиваемые модели для терминологии, специфичной для отрасли, высокая безопасность данных; используется в здравоохранении/юридической сфере.» (Krisp Blog krisp.ai krisp.ai
  8. Nuance Dragon – «Dragon Medical обеспечивает высокоточное распознавание сложной медицинской терминологии; гибкое размещение — локально или в облаке.» (Krisp Blog krisp.ai krisp.ai
  9. OpenAI Whisper – Открытая модель, обученная на 680 тыс. часов, «поддерживает 99 языков», с почти передовой точностью на многих языках. (Zilliz Glossary zilliz.com zilliz.com
  10. OpenAI Whisper API – «$0,006 за минуту» для Whisper-large через OpenAI, что обеспечивает недорогую и качественную транскрипцию для разработчиков deepgram.com】.
  11. Deepgram Nova-2 – «На 30% ниже WER, чем у конкурентов; самое точное английское STT (средний WER 8,4% против 13,2% у Whisper).» (Deepgram Benchmarks deepgram.com deepgram.com
  12. Deepgram Customization – Позволяет обучать модель под конкретный жаргон и увеличивает точность на 18%+ по сравнению с предыдущей моделью. (Gladia blog via Deepgram gladia.io deepgram.com
  13. Speechmatics Accuracy & Bias – «Показал 91,8% точности на детских голосах против 83,4% у Google; снижение ошибок на 45% для афроамериканских голосов.» (Speechmatics Press speechmatics.com speechmatics.com
  14. Speechmatics Flow (2024) – Реальное время ASR + LLM + TTS для голосовых ассистентов; поддержка 50 языков с разнообразными акцентами. (audioXpress audioxpress.com audioxpress.com
  15. ElevenLabs Voice AI – «Более 300 голосов, ультрареалистичные с эмоциональными вариациями; доступно клонирование голоса (5 минут аудио → новый голос).» (Zapier Review zapier.com zapier.com
  16. ElevenLabs Pricing – Бесплатно 10 мин/мес, платные тарифы от $5/мес за 30 мин с клонированием и коммерческим использованием. (Zapier zapier.com zapier.com
  17. ElevenLabs Multilingual – Один голос говорит на 30+ языках; выразительная модель v3 может шептать, кричать и даже петь. (ElevenLabs Blog elevenlabs.io elevenlabs.io
  18. Resemble AI Voice Cloning – «Генерируйте речь своим клонированным голосом на 62 языках; преобразование голоса из речи в речь в реальном времени.» (Resemble AI resemble.ai resemble.ai
  19. Resemble Case Study – Кампания Truefan: 354 тыс. персонализированных видеосообщений с AI-клонированными голосами знаменитостей с 90% схожестью, 7× ROI resemble.ai】, *ABC Mouse использовал Resemble для интерактивного детского приложения с голосовым Q&A в реальном времени resemble.ai】.
  20. Функции Resemble AI – Захват эмоций и перенос стиля в сгенерированных голосах; возможность редактировать существующее аудио (“Resemble Fill”). (Документация Resemble AI resemble.ai resemble.ai
From Skies to Sidewalks: Inside the 2025 Drone Delivery Revolution
Previous Story

От небес к тротуарам: внутри революции дрон-доставки 2025 года

Go toTop