Top 10 AI Voice and Speech Technologies Dominating 2025 (TTS, STT, Voice Cloning)

2025年主导市场的十大AI语音与语音技术(TTS、STT、语音克隆)

  • Google Cloud Speech AI 提供基于 WaveNet/Neural2 的文本转语音(TTS),覆盖 50 多种语言、380 多种声音,语音转文本(STT)支持 125 多种语言,2024 年将全面推出自定义语音功能。
  • Azure Speech Service 提供神经网络文本转语音,拥有 144 种语言、446 种声音(截至 2024 年中),语音转文本支持 75 多种语言,并支持云端或本地部署的自定义神经语音。
  • Amazon Polly 提供 40 多种语言、100 多种声音,2024 年底将推出 13 种超高表现力的神经生成 TTS 声音,Amazon Transcribe 支持 100 多种语言。
  • IBM Watson 语音服务支持 13 种以上语言的文本转语音和 8–10 种语言的语音转文本,2024 年推出大型语音模型,并可通过 Cloud Pak 实现本地部署。
  • Nuance Dragon Medical One 在用户适应后可实现近 100% 的医学听写准确率,支持离线 PC 操作,并可与 Microsoft 365 Dictate 及 Dragon Ambient Experience 集成。
  • OpenAI Whisper 是一个开源 STT 模型,基于 68 万小时音频训练,支持约 99 种语言,可进行语音翻译,Whisper-large API 价格为每分钟 $0.006。
  • Deepgram 于 2024 年发布 Nova-2,字错误率(WER)降低约 30%,在多样化数据上中位 WER 为 8.4%,支持实时流式和本地部署。
  • Speechmatics Flow 于 2024 年推出,将 STT、LLM 和 TTS 结合,支持 30 多种语言,儿童语音识别准确率达 91.8%,非裔美国人语音提升 45%;2024 年 8 月新增爱尔兰语和马耳他语。
  • ElevenLabs 提供 300 多种预制声音,2024 年 v3 模型支持 30 多种语言,并可通过几分钟音频进行语音克隆。
  • Resemble AI 通过 Localize 实现 62 种语言的实时语音转换和克隆,Truefan 活动生成 354,000 条个性化消息,语音相似度约 90%。

简介

2025 年的语音 AI 技术在文本转语音(TTS)语音转文本(STT)语音克隆等方面取得了显著进步。行业领先平台提供愈发自然的语音合成和高度准确的语音识别,支持从虚拟助手、实时转录到逼真配音和多语种配音等多种应用场景。本报告介绍了 2025 年主导市场的十大语音 AI 平台,它们在上述领域之一或多个方面表现突出。每个平台条目均包含能力概述、主要特性、支持语言、底层技术、应用场景、定价、优缺点、2024–2025 年最新创新及官方产品页面链接。文末附有对比表,便于快速了解各平台亮点。

概要对比表

平台功能(TTS/STT/克隆)定价模式目标用户与使用场景
Google Cloud Speech AITTS(WaveNet/Neural2 语音);STT(120+种语言);自定义语音选项 [1] [2]按使用量计费(TTS按字符,STT按分钟);提供免费额度 [3]为构建全球规模语音应用的企业与开发者(呼叫中心、媒体转录、IVR等) [4] [5]
Microsoft Azure Speech ServiceTTS(神经语音——400+种语音,140+种语言 [6]);STT(75+种语言,翻译) [7] [8];自定义神经语音(克隆)按使用量计费(按字符/小时);免费额度及Azure试用积分 [9]需要安全、可定制语音AI的企业(多语言应用、语音助手、医疗/法律转录) [10] [11]
Amazon AWS Voice AI(Polly & Transcribe)TTS(100+种语音,40+种语言 [12],神经及生成式语音);STT(实时及批量,100+种语言 [13]按使用量计费(TTS每百万字符,STT每秒);12个月免费额度 <a href=”https://aws.amazon.com/polly/#:~:text=Yes,details%2C%20see%20Amazon%20Polly%aws.amazon.com [14]在 AWS 上需要可扩展语音功能的企业(媒体解说、客服通话转录、语音交互应用) [15] [16]
IBM Watson 语音服务TTS(多语言神经语音);STT(实时与批量,领域定制模型)按使用付费(免费轻量级套餐;按用量分级定价)在专业领域(金融、医疗、法律)需要高度可定制和安全语音解决方案的企业 [17] [18]
Nuance Dragon(微软)STT(极高精度的听写;领域专用版本,如医疗、法律);语音命令按用户授权或订阅(Dragon 软件);云服务企业授权需要高精度转录和语音驱动文档的专业人士(医生、律师)及企业 [19] [20]
OpenAI Whisper(开源)STT(最先进的多语言 ASR——约 99 种语言 [21];也支持翻译)开源(MIT 许可);OpenAI API 使用费约 $0.006/分钟需要顶级精度语音识别的开发者和研究人员(如转录服务、语言翻译、语音数据分析) [22] [23]
DeepgramSTT(企业级,基于 transformer 的模型,错误率比竞争对手低 30% [24]);部分 TTS 功能正在推出订阅或按用量计费 API(免费额度,之后分级定价;最新模型约 $0.004–0.005/分钟) [25]需要 re 的科技公司和联络中心实时、高容量转录,支持自定义模型调优 [26] [27]
SpeechmaticsSTT(自监督ASR,支持50多种语言和任意口音 [28]);部分LLM集成语音解决方案(ASR+TTS的Flow API) [29] [30]订阅或企业授权(云API或本地部署);大批量定制报价需要包容性、口音无关转录(实时字幕、语音分析)并有本地部署隐私选项的媒体和全球企业 [31] [32]
ElevenLabsTTS(超逼真、富有表现力的语音);语音克隆(通过样本定制语音);多语言语音合成(30多种语言保持原声) [33] [34]免费套餐(约10分钟/月);付费计划起价$5/月(30分钟以上) [35] [36]需要高质量配音、有声书旁白、角色配音或媒体语音克隆的内容创作者、出版商和开发者 [37] [38]
Resemble AITTS & 语音克隆(即时情感语音克隆;语音到语音转换);同一声音支持50多种语言配音 <a href=”https://www.aibase.com/news/554#:~:text=The%20data%20to%20be%20translateaibase.com [39]企业和按使用量计费(定制方案;提供免费试用)为媒体、游戏和营销团队创建定制品牌声音、本地化语音内容,或在交互式应用中实现实时语音转换 [40] [41]

1. Google Cloud Speech AI (TTS & STT) – Google

Overview: Google Cloud’s Speech AI offering encompasses Cloud Text-to-Speech and Speech-to-Text APIs, which are renowned for high fidelity and scalability. Google’s TTS produces natural, humanlike speech using advanced deep-learning models (e.g. WaveNet, Neural2) [42], while its STT achieves accurate real-time transcription in over 120 languages/dialects [43]. Target users range from enterprises needing global multilingual voice applications to developers embedding voice into apps or devices. Google also offers a Custom Voice option allowing clients to create a unique AI voice using their own recordings [44] (with ethical safeguards).

Key Features:

  • Text-to-Speech: 380+ voices across 50+ languages/variants [45], including WaveNet and latest Neural2 voices for lifelike intonation. Offers voice styles (e.g. “Studio” voices emulating professional narrators) and fine control via SSML for tone, pitch, speed, and pauses [46] [47].
  • Speech-to-Text: Real-time streaming and batch transcription with support for 125+ languages, automatic punctuation, word-level timestamps, and speaker diarization [48] [49]. Allows speech adaptation (custom vocabularies) to improve recognition of domain-specific terms [50] [51].
  • 自定义模型:Cloud STT 允许用户针对特定术语调整模型,Cloud TTS 提供自定义语音(神经语音克隆),用于打造品牌语音身份 [52] [53]
  • 集成与工具:可与 Google Cloud 生态系统无缝集成(如用于语音机器人的 Dialogflow CX)。提供 SDK/REST API,并支持在多种平台上部署。

支持的语言:TTS 支持50 多种语言(涵盖所有主要世界语言及众多地区变体) [54],STT 支持120 多种语言 [55]。广泛的语言支持使其适用于全球化应用和本地化需求。两种 API 都能处理多种英语口音和方言;STT 可自动检测多语种音频中的语言,甚至可转录代码切换(一次发音最多支持 4 种语言) [56] [57]

技术基础:Google 的 TTS 基于 DeepMind 的研究——如WaveNet神经声码器及后续的AudioLM/Chirp进展,实现富有表现力、低延迟的语音 [58] [59]。语音通过深度神经网络合成,在韵律上接近人类水平。STT 使用端到端深度学习模型(结合 Google 大量音频数据);更新采用基于 Transformer 的架构和大规模训练,不断提升准确率。Google 还确保模型针对云端大规模部署进行了优化,提供如低延迟流式识别、通过抗噪训练处理嘈杂音频等功能。

应用场景:Google 语音 API 的多样性推动了如下应用场景:

  • 联络中心自动化:IVR 系统和语音机器人可与客户自然对话(如 Dialogflow 语音代理提供账户信息) [60]
  • 媒体转录与字幕:为播客、视频或直播(实时字幕)进行多语言转录,以提升可访问性或便于索引。
  • 语音助手与物联网:为智能手机或智能家居设备上的虚拟助手(Google Assistant 本身就使用了这项技术)提供支持,并在物联网应用中实现语音控制。
  • 在线学习与内容创作:用自然语音生成有声书旁白或视频配音,并转录讲座或会议内容以便后续回顾。
  • 无障碍辅助:为屏幕阅读器和辅助设备提供文本转语音功能,并为用户提供语音转文本以便语音输入。

价格:Google Cloud 采用按需付费模式。TTS 按每百万字符计费(例如 WaveNet/Neural2 语音每百万字符约 $16,标准语音更低)。STT 按每 15 秒或每分钟音频计费(标准模型每 15 秒约 $0.006),具体取决于模型等级及是实时还是批量处理。Google 提供了慷慨的免费额度——新用户可获得 $300 试用金和每月免费用量(如 1 小时 STT 和数百万字符 TTS) [61]。这使得初期试用成本较低。对于大批量用户,企业级批量折扣和承诺使用合同也可用。

优势:Google 平台以高音频质量和准确率(依托 Google AI 研究)而著称。它拥有广泛的语言支持(真正的全球覆盖)和可扩展性(可在 Google 基础设施上处理大规模实时工作负载)。服务对开发者友好,提供简单的 REST/gRPC API 和客户端库。Google 持续创新(如新语音、模型改进)确保了业界领先的性能 [62]。此外,作为完整的云套件,它还能与 Google 其他服务(存储、翻译、Dialogflow)良好集成,便于构建端到端语音应用。

劣势:在大规模使用时成本可能较高,尤其是长文本 TTS 生成或 24/7 转录——有用户指出,若无批量折扣,Google 的定价对大规模使用来说较为昂贵 [63]。部分用户反映,STT 对重口音或嘈杂音频的准确率仍有波动,需进行模型适配。高负载下实时 STT 可能会有一定延迟 [64]。另一个考虑因素是 Google 的数据治理——虽然服务提供数据隐私选项,但部分对数据敏感的组织可能更倾向于本地部署方案(而 Google 的云为中心的方式不像部分竞争对手那样直接支持本地部署)。

最新更新(2024–2025): Google 继续完善其语音产品。2024 年底,Google 开始升级许多欧洲语言的 TTS 语音为更自然的新版本 [65] [66]。Cloud TTS 现已支持Chirp v3语音(利用 AudioLM 研究,实现更自然的对话感)以及多说话人对话合成 [67] [68]。在 STT 方面,Google 推出了更高准确率、支持超过 125 种语言的改进模型 [69] [70]。值得注意的是,Google 已将Custom Voice正式开放,允许客户用自己的音频数据训练和部署定制 TTS 语音(需通过 Google 的伦理审核流程) [71] [72]。这些创新,以及语言和方言的逐步增加,使 Google 在 2025 年依然处于语音 AI 的前沿。

官方网站:Google Cloud Text-to-Speech [73](TTS)和 Speech-to-Text [74]产品页面。

2. Microsoft Azure Speech Service(TTS、STT、语音克隆)– Microsoft

概述: Microsoft 的 Azure AI Speech 服务是一个企业级平台,提供 神经网络文本转语音(TTS)语音转文本(STT),以及如 语音翻译自定义神经语音等功能。Azure 的 TTS 提供了极为丰富的语音选择(覆盖 140 种语言/地区的 400 多种语音),具有人类般的音质 [75],包括多种风格和情感。其 STT(语音识别)准确率极高,支持 70 多种语言的实时或批量转录 [76],甚至可以将语音实时翻译成其他语言 [77]。其一大特色是企业级定制化:客户可训练自定义声学/语言模型,或为品牌创建专属克隆语音。Azure Speech 与 Azure 云生态系统紧密集成(提供 SDK 和 REST API),并由微软数十年的语音研发(包括微软收购的 Nuance 技术)支持。

主要功能:

  • 神经网络文本转语音: 拥有庞大的预置神经语音库,覆盖144 种语言/变体(截至 2024 年中有 446 种语音) [78],从日常对话语气到正式旁白风格应有尽有。语音由微软的深度学习模型(如 Transformer 和 Tacotron 变体)打造,具备韵律感。Azure 提供独特的语音风格(如愉快、富有同理心、客户服务、新闻播报等)和细致的控制(通过 SSML 调整音高、语速和发音)。一大亮点是多语言和多说话人支持:部分语音可实现代码切换,服务支持多说话人角色以生成对话。
  • 语音转文本: 高精度自动语音识别,支持实时流式和批量转录模式。支持75+ 种语言/方言 [79],并提供自动标点、脏话过滤、说话人分离、自定义词汇和语音翻译(一步完成语音转录和翻译) [80]等功能。Azure 的 STT 既可用于短指令,也可用于长文本转录,并可针对特定场景(如呼叫中心)选择增强模型。
  • 自定义神经语音: 一项语音克隆服务,使组织能够创建基于目标说话人建模的独特AI语音(需要约30分钟的训练音频并严格审核同意)。这会生成一个代表品牌或角色的合成语音,用于沉浸式游戏或对话代理等产品。微软的自定义神经语音以其高质量著称,已被Progressive的Flo语音或AT&T的聊天机器人等品牌采用。
  • 安全与部署: Azure语音强调企业级安全——数据加密、符合隐私标准,并可选择使用容器化端点(因此企业可在本地或边缘部署语音模型以应对敏感场景) [81]。这种灵活性(云端或本地容器部署)在医疗等行业尤为受重视。
  • 集成: 设计用于与Azure生态系统集成——例如,可与认知服务(翻译、认知搜索)、Bot Framework(用于语音机器人)、或Power Platform配合使用。还支持说话人识别(语音认证),作为语音服务的一部分。

支持的语言: Azure的语音AI极为多语种。TTS覆盖140多种语言和变体(几乎涵盖所有主要语言及众多地区变体——如多种英语口音、中文方言、印度语言、非洲语言) [82]。STT支持100多种语言转录(可自动检测音频语言或处理多语种语音) [83]。语音翻译功能支持数十种语言对。微软也持续增加低资源语言,致力于包容性。这种广度使Azure成为需要国际化或本地语言支持应用的首选。

技术基础:微软的语音技术由深度神经网络和大量研究支持(部分源自微软研究院及收购的Nuance算法)。神经TTS采用如Transformer和FastSpeech变体等模型生成语音波形,并使用类似WaveNet的声码器。微软最新的突破是在某些TTS任务上实现了与人类相当的表现——这得益于大规模训练和微调以模仿人类表达的细微差别 [84]。对于STT,Azure结合了声学模型和语言模型;自2023年以来,引入了基于Transformer的声学模型(提升了准确率和抗噪能力)以及统一的“Conformer”模型。Azure还利用模型集成和强化学习进行持续改进。此外,它还提供了自适应学习——通过提供文本数据(自定义语言模型)来提升对特定术语的识别能力。在基础设施方面,Azure Speech可在云端利用GPU加速实现低延迟流式处理,并可自动扩展以应对高峰(如大型活动的实时字幕)。

应用场景:Azure Speech被广泛应用于各行各业:

  • 客户服务与IVR:许多企业使用Azure的STT和TTS为呼叫中心IVR系统和语音机器人提供支持。例如,航空公司可能会用STT转录客户电话请求,并用神经TTS语音进行回应,甚至根据需要实现语言翻译 [85]
  • 虚拟助手:它为虚拟代理(如Cortana)及嵌入汽车或家电的第三方助手提供语音支持。自定义语音功能让这些助手拥有独特的个性。
  • 内容创作与媒体:视频游戏工作室和动画公司使用自定义神经语音为角色赋予独特声音,无需大量配音演员录音(如用演员克隆的声音朗读剧本)。媒体公司用Azure TTS进行新闻播报、有声书或内容的多语种配音。
  • 无障碍与教育:Azure高精度STT有助于为会议(如Microsoft Teams)和课堂讲座生成实时字幕,帮助有听力障碍或语言障碍的人士。TTS被用于Windows的朗读功能、电子书和学习应用。
  • 企业生产力:会议、语音邮件或文档口述的转录是常见用途。Nuance Dragon 的技术(现归微软所有)已集成,用于服务医生等专业人士(如临床笔记的语音转文字)和律师,用于高精度地口述专业术语的摘要 [86] [87].

定价:Azure Speech 采用按使用量计费。对于STT,按处理的音频小时数计费(标准模型与自定义或增强模型费率不同)。例如,标准实时转录大约为每小时音频1美元左右。TTS按字符数或每百万字符计费(神经网络语音大约每百万字符16美元,和竞争对手类似)。自定义神经语音需额外支付设置/训练费和使用费。Azure 提供免费套餐:如前12个月内有一定小时数的STT免费,以及免费文本转语音字符数。Azure 还将语音服务包含在其Cognitive Services 套餐中,企业客户可批量购买享受折扣。总体而言,定价具有竞争力,但用户需注意高级功能(如自定义模型或高保真风格)可能费用更高。

优势:微软的语音服务面向企业——以强大的安全性、隐私和合规性著称(对受监管行业尤为重要) [88]。它提供无与伦比的定制能力:自定义语音和自定义STT模型让组织拥有精细控制。语言和语音支持的广度处于行业领先地位 [89],成为全球化需求的一站式解决方案。与更广泛的 Azure 生态系统和开发者工具(.NET、Python、Java等优秀SDK)的集成是强项,简化了端到端解决方案的开发。微软的语音高度自然,常因其表现力和多样化风格受到好评。另一优势是灵活部署——可运行容器意味着支持离线或边缘使用,这是少数云服务商能做到的。最后,微软的持续更新(常受自家产品如 Windows、Office 和 Xbox 语音技术的推动)意味着 Azure Speech 服务受益于前沿研究和大规模真实场景测试。

劣势:虽然 Azure 的质量很高,但对于大量使用来说成本可能会迅速增加,尤其是自定义神经语音(需要大量投资并通过微软审批流程)以及长文本转录(如果没有企业协议) [90]。该服务的众多功能和选项意味着学习曲线较高——新用户可能会觉得操作所有设置很复杂(例如,在众多语音中选择或配置自定义模型需要一定专业知识)。在准确性方面,Azure STT 属于领先者,但一些独立测试显示 Google 或 Speechmatics 在某些基准上略有领先(准确性可能取决于语言或口音)。此外,充分发挥 Azure Speech 的潜力通常假设你处于Azure 生态系统——与 Azure 存储等集成时效果最佳,这可能不适合使用多云或寻求更简单独立服务的用户。最后,与任何云服务一样,使用 Azure Speech 意味着将数据发送到云端——对于极度敏感数据的组织,可能更倾向于仅本地部署的解决方案(Azure 的容器有帮助,但并非免费)。

近期更新(2024–2025):微软大幅扩展了语言和语音产品。2024 年,Azure Neural TTS 新增了46 种新语音和 2 种新语言,总数达到144 种语言的 446 种语音 [91]。他们还淘汰了旧的“标准”语音,转而只保留神经语音(自 2024 年 9 月起),以确保更高质量 [92]。微软推出了一项创新功能,名为Voice Flex Neural(预览版),可更动态地调整说话风格。在 STT 方面,微软将部分 Nuance 的Dragon能力集成到 Azure——例如,Dragon LegalMedical模型已在 Azure 上可用,用于特定领域转录,在专业术语上具有极高准确率。他们还推出了Speech Studio更新,这是一个可轻松创建自定义语音模型和语音的图形界面工具。另一项重大进展:Azure 的Speech to Text受益于新的基础模型(据称为数十亿参数模型),准确率提升约 15%,并支持一次性转录多种语言 [93] [94]。此外,微软宣布将语音与 Azure OpenAI 服务集成——支持如将会议语音转为文本后再用 GPT-4 总结(全部在 Azure 内完成)等场景。生成式 AI(如 GPT)与语音的持续集成,以及口音和偏见处理的改进(部分得益于微软与组织合作以降低多样化说话者的错误率),使 Azure Speech 在 2025 年依然处于前沿。

官方网站: Azure AI 语音服务 [95](Microsoft Azure 语音官方产品页面)。

3. Amazon AWS 语音 AI – Amazon Polly(TTS)与 Amazon Transcribe(STT)

概述: Amazon Web Services (AWS) 通过 Amazon Polly(文本转语音)和 Amazon Transcribe(语音转文本)提供强大的云端语音 AI。Polly 可将文本转换为多种声音和语言的逼真语音,而 Transcribe 则利用自动语音识别(ASR)从音频生成高精度转录。这些服务属于 AWS 广泛的 AI 产品线,并受益于 AWS 的可扩展性和集成性。亚马逊的语音技术以高可靠性著称,已被各行业广泛应用于 IVR 系统、媒体字幕、语音助手等场景。虽然 Polly 和 Transcribe 是独立服务,但两者结合可满足语音输入与输出的全方位需求。亚马逊还提供相关服务:Amazon Lex(对话机器人)、Transcribe Call Analytics(联络中心智能分析)、以及定制化的 Brand Voice 项目(为客户品牌打造专属 TTS 声音)。AWS 语音 AI 主要面向已在 AWS 生态系统中的开发者和企业,便于与其他 AWS 资源集成。

主要特性:

  • Amazon Polly(TTS):Polly 提供 100+ 种声音,覆盖 40+ 种语言和变体 [96],包括男女声及神经网络和标准选项。声音“逼真”,采用深度学习技术,捕捉自然语调和节奏。Polly 支持 神经网络 TTS,实现高质量语音,并于 2024 年底推出了 Neural Generative TTS 引擎——一款先进模型(目前有 13 种超具表现力的声音),可生成更具情感、对话风格的语音 [97] [98]。Polly 提供 语音合成标记语言(SSML)支持,可微调语音输出(发音、重音、停顿) [99]。还包括特殊语音风格,如 新闻播报员风格,或 对话式风格,适合轻松语气。Polly 独特之处在于其 长文本合成引擎可自动调整语速(呼吸、标点),确保有声书或新闻朗读更自然(甚至有专门的长文本声音)。
  • Amazon Transcribe(语音转文本,STT):Transcribe 可处理批量转录预先录制的音频文件和实时流式转录。它支持100 多种语言和方言的转录 [100],并可自动识别所说语言。主要功能包括说话人分离(区分多说话人音频中的说话人) [101]自定义词汇表(可教系统领域专用术语或名称) [102]标点和大小写(自动插入标点和大写以提升可读性) [103],以及每个词的时间戳生成。Transcribe 还具备内容过滤(可屏蔽或标记脏话/个人敏感信息)和编辑功能——在呼叫中心录音中可用于编辑敏感信息。针对电话和会议,还有专门的增强功能:如Transcribe Medical用于医疗语音(符合 HIPAA 标准)以及Call Analytics,不仅能转录,还能提供情感分析、通话分类和集成机器学习的摘要生成 [104] [105]
  • 集成与工具:Polly 和 Transcribe 都可与其他 AWS 服务集成。例如,Transcribe 的输出可直接输入到Amazon Comprehend(NLP 服务)进行更深入的文本分析,或输入到Translate以获得翻译后的转录文本。Polly 可与AWS Translate配合,实现跨语言语音输出。AWS 提供多种语言的 SDK(如 Python boto3、Java、JavaScript 等),便于调用这些服务。还有一些便捷功能,如 Amazon 的MediaConvert可利用 Transcribe 自动为视频文件生成字幕。此外,AWS 还提供Presign API,允许安全地直接从客户端上传音频进行转录或流式处理。
  • 定制化:虽然 Polly 的语音为预制,但 AWS 提供Brand Voice,这是一个由 Amazon 专家为客户打造定制 TTS 语音的项目(非自助服务,需要合作——例如,KFC 加拿大与 AWS 合作,通过 Polly 的 Brand Voice 创建了桑德斯上校的声音 [106])。对于 Transcribe,定制方式为自定义词汇表或自定义语言模型(部分语言 AWS 允许你用转录文本训练小型自定义模型,目前处于有限预览阶段)。
  • 性能与可扩展性:亚马逊的服务以大规模生产验证著称(亚马逊甚至可能在 Alexa 和 AWS 服务内部使用 Polly 和 Transcribe)。两者都能处理大量数据:Transcribe 流式传输可同时处理许多流(横向扩展),批量作业可处理存储在 S3 上的数小时音频。Polly 可快速合成语音,甚至支持结果缓存,并提供常用句子的神经缓存。延迟很低,尤其是在使用靠近用户的 AWS 区域时。对于物联网或边缘应用,AWS 不像 Azure 那样为这些服务提供离线容器,但他们通过 AWS IoT 提供边缘连接器以实现云端流式传输。

支持的语言:

  • Amazon Polly:支持数十种语言(目前约 40 多种)。涵盖大多数主流语言:英语(美国、英国、澳大利亚、印度等)、西班牙语(欧洲、美洲、拉美)、法语、德语、意大利语、葡萄牙语(巴西和欧洲)、印地语、阿拉伯语、中文、日语、韩语、俄语、土耳其语等 [107]。许多语言有多种声音(例如美式英语有 15 种以上)。AWS 持续增加新语言——例如在 2024 年底新增了捷克语和瑞士德语语音 [108]。虽然并未覆盖全球所有语言,但选择范围广泛且不断增长。
  • Amazon Transcribe:截至 2025 年,支持100 多种语言及其变体的转录 [109]。最初仅支持约 31 种语言(主要为西方语言),但亚马逊大幅扩展,利用新一代模型涵盖更多语言(如越南语、波斯语、斯瓦希里语等)。还支持多语言转录——可检测并转录双语对话(如一次通话中混合英语和西班牙语)。领域专用:Transcribe Medical 目前支持多种英语和西班牙语方言的医学听写。

技术基础:Amazon 的生成式语音(Polly)采用先进的神经网络模型,包括其最新语音所用的十亿参数 Transformer模型 [110]。这种模型架构使 Polly 能够以流式方式生成语音,同时保持高质量——生成“情感丰富且高度口语化”的语音 [111]。早期的语音采用拼接方法或较旧的神经网络用于标准语音,但现在的重点已完全转向神经 TTS。在 STT 方面,Amazon Transcribe 由新一代基础 ASR 模型(数十亿参数)驱动,由 Amazon 构建并在大量音频(据称数百万小时)上训练 [112]。该模型很可能采用 Transformer 或 Conformer 架构以实现高准确率。它经过优化,能够处理各种声学条件和口音(Amazon 明确提到其考虑了不同口音和噪音) [113]。值得注意的是,Transcribe 的发展受到 Amazon Alexa 语音识别进步的影响——Alexa 模型的改进常常会传递到 Transcribe 以供更广泛使用。AWS 对低资源语言采用了自监督学习技术(类似 SpeechMix 或 wav2vec 的方式)以扩展语言覆盖范围。在部署方面,这些模型运行在 AWS 的托管基础设施上;AWS 拥有专用的推理芯片(如 AWS Inferentia),可能用于高效运行这些模型。

使用场景:

  • 交互式语音应答(IVR):许多公司使用 Polly 播报提示,并用 Transcribe 捕捉来电者在电话菜单中的语音。例如,银行的 IVR 可能通过 Polly 播报账户信息,并用 Transcribe 理解口头请求。
  • 联络中心分析:使用 Transcribe 转录客户服务通话(通过 Amazon Connect 或其他呼叫中心平台),然后分析客户情绪或坐席表现。通话分析功能(带有情感检测和摘要)有助于自动化通话质量保障 [114] [115]
  • 媒体与娱乐:Polly 被用于为新闻文章或博客生成旁白(一些新闻网站提供“收听本文”功能,使用 Polly 语音)。Transcribe 被广播公司用于直播电视的字幕,或被视频平台用于为用户上传的视频自动生成字幕。制作工作室可能用 Transcribe 获取素材的转录文本,以便编辑时通过文本搜索视频内容。
  • 电子学习与无障碍访问:电子学习平台使用Polly将书面内容转换为多语言音频,使学习材料更易获取。Transcribe可以帮助创建课程的文字稿,或让学生搜索讲座录音。
  • 设备与应用语音功能:许多移动应用或物联网设备依赖AWS实现语音功能。例如,移动应用可能用Transcribe实现语音搜索(录下你的问题,发送给Transcribe,获得文本)。Polly的语音可以嵌入到智能镜子或公告系统等设备中,用于播报提醒或通知。
  • 多语言配音:开发者可以结合多种AWS服务(Transcribe + Translate + Polly)创建自动配音解决方案。例如,将英文视频转录,翻译成西班牙语,再用西班牙语Polly语音生成西班牙语配音音轨。
  • 游戏与互动媒体:游戏开发者可能用Polly为NPC动态生成对话(这样文本对话就能被朗读,无需为每句台词录制配音)。Polly甚至有一款NTTS语音(Justin)专为歌唱设计,有人用它做过创意项目。

价格:AWS的定价基于用量:

  • Amazon Polly:按输入文本的百万字符计费。新账户前12个月每月前500万字符免费 [116]。之后,标准语音约为每百万字符4美元,神经语音约为每百万字符16美元(不同地区价格略有差异)。新的“生成式”语音可能有溢价(如每字符略高,因为计算量更大)。Polly的价格与Google/Microsoft的神经语音大致相当。存储或流式传输音频不额外收费(除非你用S3存储/分发,产生极少的数据传输费)。
  • Amazon Transcribe:按音频秒数计费。例如,标准转录价格为每秒0.0004美元(即每分钟0.024美元),一小时约1.44美元。部分附加功能价格略高:如Transcribe Call Analytics或Medical约为每秒0.0008美元。实时流式转录同样按秒计价。新用户前12个月每月有60分钟免费转录额度 [117]。此外,AWS对大批量或企业合同常有分级折扣(通过AWS Enterprise Support)。
  • AWS的方式是模块化的:如果你同时用Translate或其他服务,这些会单独计费。但好处是你只为实际用量付费,未用时可降至零。这对偶发性使用很省钱,但若是大规模持续工作负载,可能需要协商折扣或使用AWS的节省计划。

优点: AWS语音服务最大的优点是其经过验证的可扩展性和可靠性——它们被设计用于处理生产级工作负载(AWS的99.9%服务级别协议,多区域冗余等)。与AWS生态系统的深度集成对于已经在AWS上的用户来说是一个加分项(如IAM用于访问控制,S3用于输入/输出等,所有服务无缝协作)。Polly的语音被认为非常自然,新一代生成式语音的加入进一步缩小了与类人语音的差距,并且在情感表达方面有专长 [118]。Transcribe以其在复杂音频环境下的强大表现而闻名(它是最早强调对不同口音和嘈杂背景处理能力的服务之一 [119])。这些服务通过API相对易于使用,AWS也有完善的文档和示例代码。AWS还提供有竞争力的定价,免费套餐有助于新用户入门。另一个优点是改进速度快——亚马逊定期增加新功能(如Transcribe中的有害内容检测用于内容审核)和更多语言支持,通常是根据真实AWS客户需求而来。在安全性方面,AWS表现强劲:内容会被加密,用户可以选择不存储数据或在处理后自动删除数据。对于企业客户,AWS还提供人工支持和解决方案架构师,协助有效部署这些服务。

缺点: 对于某些开发者来说,一个潜在的缺点是AWS需要注册账户并了解AWS IAM和控制台,如果只是想做一个简单的语音测试,这可能有些繁琐(相比之下,一些竞争对手提供更简单的公共端点或图形界面工具)。与部分竞争对手(如Google、Microsoft)不同,AWS没有面向所有用户的自助式自定义语音克隆;Brand Voice仅限于大型合作。这意味着小型用户无法在AWS上训练自己的语音,除了词典功能外。AWS目前也缺乏Polly或Transcribe的本地/离线部署选项——仅限云端(虽然可以使用Amazon的边缘Outposts或本地区域,但这与离线容器不同)。在准确率方面,虽然Transcribe表现强劲,但某些独立测试有时会在特定语言或用例上将Microsoft或Google的准确率评为略高(具体情况可能不同;AWS的新模型已大幅缩小差距)。另一个方面:TTS的语言覆盖——40多种语言虽然不错,但Google和Microsoft支持的语言更多;在某些本地化语音选项上AWS可能略有滞后(例如,目前Google在TTS中支持的印度语言比Polly多)。最后,AWS众多相关服务可能会让部分用户感到困惑(比如在某些任务中如何选择Transcribe还是Lex),需要一定的云架构知识。

近期更新(2024–2025): AWS对Polly和Transcribe都进行了重大更新:

  • Polly: 2024年11月,AWS推出了六种新的“生成式”语音,涵盖多种语言(法语、西班牙语、德语、英语变体),该类别的语音数量从7种扩展到13种 [120]。这些语音采用了新的生成式TTS引擎,表现力极强,主要面向对话式AI应用。同时还新增了长文本NTTS语音(西班牙语和英语),可在超长文本中保持清晰度 [121] [122]。2024年初,AWS还推出了新闻播报风格的巴西葡萄牙语等语音。2025年3月,Amazon Polly的文档显示该服务现已支持捷克语和瑞士德语,反映出语言支持的持续扩展 [123]。另一个更新是:AWS提升了Polly的神经语音质量(很可能是底层模型升级)——部分用户发现更新后的语音韵律更加流畅。
  • Transcribe: 2024年中,亚马逊发布了下一代ASR模型(Nova),为Transcribe提供支持,显著提升了准确率,并将支持语言数量提升至100+ [124]。他们还在全球范围推出了Transcribe通话分析,可通过生成式AI(集成AWS的Bedrock或OpenAI模型)获得对话摘要——即在转录后自动总结通话要点。另一个新功能是实时有害内容检测(2024年底上线),允许开发者通过Transcribe在实时音频中检测仇恨言论或骚扰内容,这对于直播语音聊天的内容审核非常重要 [125]。2025年,AWS正在预览自定义语言模型(CLM),让企业可用自有数据微调ASR(这与Azure的自定义STT形成竞争)。在价格方面,AWS通过自动分级定价,使Transcribe对大批量客户更具成本效益——当月使用时长达到一定阈值后自动享受更低价格。所有这些更新显示了AWS在语音AI领域保持领先地位的决心,不断提升质量和功能。

官方网站: Amazon Polly – 文字转语音服务 [126] [127];Amazon Transcribe – 语音转文字服务 [128] [129]

4. IBM Watson 语音服务(TTS & STT)– IBM

概述: IBM Watson 提供 文字转语音语音转文字,作为其 Watson AI 服务的一部分。IBM 在语音技术领域有着悠久的历史,其云服务体现了对定制化、行业专长和数据隐私的关注。Watson 文字转语音可合成多种语言的自然语音,Watson 语音转文字则提供高度准确的转录,并能适应专业词汇。IBM 的语音服务在医疗、金融和法律等行业尤为受欢迎,这些行业的词汇复杂且数据安全至关重要。IBM 允许其模型的本地部署选项(通过 IBM Cloud Pak),适合无法将语音数据上传至公有云的组织。虽然 IBM 在云语音领域的市场份额小于三大巨头(Google、MS、AWS),但它依然是值得信赖的企业级供应商,适用于需要针对特定术语调整或与 IBM 更大 Watson 生态系统(包括语言翻译、助手框架等)集成的语音解决方案。

主要特性:

  • Watson 文字转语音(TTS): 支持13+种语言(包括美式/英式英语、西班牙语、法语、德语、意大利语、日语、阿拉伯语、巴西葡萄牙语、韩语、中文等)多种声音。语音为“神经网络型”,IBM 持续升级——例如,为某些语言新增了富有表现力的神经语音(如富有表现力的澳大利亚英语语音) [130]。IBM TTS 允许通过 IBM 的 SSML 扩展调整音高、语速和重音等参数。部分语音具备富有表现力的朗读能力(如可表现同理心或兴奋的语音)。IBM 还新增了自定义语音功能,客户可与 IBM 合作创建独特的合成语音(类似品牌语音,通常为企业级合作)。一大亮点是低延迟流式输出——IBM 的 TTS 可实时分段返回音频,适合响应式语音助手。
  • Watson 语音转文字(STT): 提供实时或批量转录,具备如 说话人分离(区分说话人) [131]关键词检测(可为特定关注关键词输出时间戳)、以及 词语备选项(对不确定转录结果给出置信度排序的备选词)等功能。IBM 的 STT 以其强大的 自定义语言模型支持而著称:用户可以上传数千个特定领域术语,甚至音频+转录文本,以便将模型适配到如医学术语或法律短语等场景 [132] [133]。这极大提升了相关领域的准确率。IBM 还支持 多种宽带和窄带模型,分别针对电话音频和高质量音频进行优化。其转录支持约 10 种语言(英语、西班牙语、德语、日语、普通话等),准确率高,并为部分语言提供独立的 电话模型(可处理电话噪音和编解码器)。一个有趣的功能是 自动智能格式化 —— 例如,它可以在转录输出中自动格式化日期、货币和数字,提升可读性。
  • 领域优化: IBM 提供预训练的 行业模型,如 Watson Speech Services for Healthcare,已针对医疗口述做了预适配,以及 媒体与娱乐转录,内置媒体专有名词库。这些选项体现了 IBM 的咨询导向策略,可为客户领域量身定制解决方案。
  • 安全与部署: 一大卖点是 IBM 允许在客户自有环境(非 IBM Cloud)中运行 Watson Speech 服务,通过 IBM Cloud Pak for Data 实现。该容器化方案意味着敏感音频无需离开公司服务器,解决数据本地化和隐私问题。即使在 IBM Cloud 上,也默认不存储数据,所有传输均加密。IBM 符合严格合规要求(HIPAA、GDPR 就绪)。
  • 集成: Watson Speech 可与 IBM 的 Watson Assistant 集成(便于为聊天机器人添加 STT/TTS)。它还可与 IBM 更广泛的 AI 产品组合联动——例如,可将 STT 结果输入 Watson Natural Language Understanding 以提取情感,或输入 Watson Translate 进行多语言处理。IBM 提供 WebSocket 和 REST 接口,分别用于流式和批量处理。

支持的语言:

  • TTS: IBM 的 TTS 原生支持约 13 种语言(以及一些方言)。这包括主要的商务语言。虽然数量少于 Google 或亚马逊,但 IBM 注重所支持语言的高质量语音。主要语言包括:英语(美国、英国、澳大利亚)、法语、德语、意大利语、西班牙语(欧洲和拉美)、葡萄牙语(巴西)、日语、韩语、普通话(简体中文)、阿拉伯语,以及可能的俄语。最近的更新主要是为现有语言增加更多语音,而不是新增许多新语言。例如,IBM 在一次更新中为 11 种语言引入了 27 种新语音 [134](如增加儿童语音、新方言)。
  • STT: IBM STT 稳定支持大约 8-10 种语言(英语、西班牙语、法语、德语、日语、韩语、巴西葡萄牙语、现代标准阿拉伯语、普通话和意大利语)。其中英语(美国和英国)功能最丰富(支持定制和窄带模型)。部分语言在 Watson 中有 到英语的翻译 选项(但这使用的是独立的 Watson 服务)。与竞争对手相比,IBM 的语言覆盖范围较小,但涵盖了企业需求最高的语言,并且这些语言支持定制。

技术基础: IBM 的语音技术源自其研究(IBM 曾是 90 年代基于隐马尔可夫模型的 ViaVoice 等技术的先驱,后来采用深度学习方法)。现代 Watson STT 使用深度神经网络(很可能类似于双向 LSTM 或 Transformer 声学模型)以及 n-gram 或神经语言模型。IBM 强调 领域适应:在创建自定义模型时,可能会使用迁移学习对基础模型进行领域数据微调。IBM 还在部分研究中采用了“说话人自适应训练”——如果识别到同一说话人,模型可能会进行适应(对听写很有用)。Watson TTS 使用神经序列到序列模型进行语音合成;IBM 有一项 表达调优 技术——用富有表现力的录音训练语音,使其能生成更具情感的语音。IBM 关于情感 TTS 的研究(如“表达性语音合成”论文)为 Watson TTS 语音提供了理论基础,使其能够实现细微的语调变化。另一个要素:IBM 在 TTS 中引入了 注意力机制,以更好地处理缩写和未见词。在基础设施方面,IBM 的服务为容器化微服务;性能良好,尽管历史上有用户反映 Watson STT 返回结果可能比 Google 略慢(优先保证准确率而非速度,但这一点可能已改善)。IBM 也很可能为 TTS 生成利用了 GPU 加速。

应用场景:

  • 医疗健康: 医院通过合作伙伴等方式使用 Watson STT 转录医生口述的病历(Dragon Medical 很常见,但 IBM 为部分场景提供了替代方案)。此外,医疗应用中的语音交互(如护士对医院信息系统语音提问,并通过 Watson Assistant 结合 STT/TTS 获得答案)。
  • 客户服务: IBM Watson Assistant(虚拟代理)结合 Watson TTS/STT,为客户服务热线提供语音机器人。例如,电信公司可能会用基于 Watson 的语音代理处理常规来电(用 Watson STT 识别来电者请求,用 Watson TTS 回应)。
  • 合规与媒体:金融交易公司可能会使用 Watson STT 转录交易员的电话以进行合规监控,利用 Watson 的安全性和本地部署能力。媒体机构可能会使用 Watson 转录视频或归档广播(尤其是在需要本地解决方案以处理大型档案时)。
  • 教育与无障碍:大学曾使用 Watson 转录讲座或提供字幕,尤其是在内容隐私受到关注并希望内部运行时。Watson TTS 也被用于为数字内容和屏幕阅读器生成音频(例如,电商网站使用 Watson TTS 为视障用户朗读产品描述)。
  • 政府: Watson 的安全部署使其适用于需要语音技术的政府机构,例如转录公共会议(可为本地名称/术语定制词汇)或为市民服务提供多语种语音应答系统。
  • 汽车行业: IBM 曾与汽车信息娱乐系统合作,将 Watson 用于车载语音命令(STT)和语音响应(TTS,如地图、车辆信息)。自定义词汇功能对汽车术语(如车型名称等)很有用。

定价: IBM 提供Lite 计划,包含部分免费额度(如每月 500 分钟 STT,以及一定数量的 TTS 字符)——适合开发使用。超出部分按用量计费:

  • STT: IBM Cloud 上标准模型约为每分钟 $0.02(即每小时 $1.20)。自定义模型需额外付费(约 ~$0.03/分钟)。但具体价格可能有变动;IBM 通常会与企业客户协商定价。IBM 的定价总体具有竞争力,有时 STT 每分钟价格比大型云服务商略低,以吸引客户。缺点是支持的语言数量较少。
  • TTS: 按每百万字符计费,神经网络语音约为每百万字符 $20(标准语音更便宜)。IBM 之前的定价为每约 1000 字符 $0.02,折合每百万字符 $20。表现型语音可能价格相同。Lite 级别免费额度约为 10,000 字符。
  • IBM 的独特之处在于本地授权——如果通过 Cloud Pak 部署,可能需要按年付费或使用积分,这可能是一笔不小的开支,但可在容量范围内不限用量。对于偏好固定成本模式或必须保证数据内部留存的大用户来说很有吸引力。

优势:IBM的核心优势在于定制化和领域专长。Watson STT可以被精细调优,以高准确率处理复杂术语, [135] [136],在医疗听写或法律转录等场景中优于通用模型。客户常常提到IBM愿意为定制解决方案投入——如果需要,IBM可以协助创建定制模型或语音(作为付费服务)。数据隐私和本地部署能力是重大优势;很少有其他厂商能提供如此高的控制力。这使得IBM成为某些政府和企业客户的首选。经过适当定制后,IBM STT在清晰音频上的准确率非常出色——在某些基准测试中,Watson STT在电话语音等领域调优后表现居首。IBM的TTS语音虽然数量较少,但质量很高(尤其是近年来推出的神经网络语音)。另一个优势是可与IBM完整AI套件集成——对于已经在使用Watson NLP、Knowledge Studio或IBM数据平台的公司,增加语音功能非常简单。IBM还拥有强大的支持网络;企业级客户通常能获得Watson服务的直接支持工程师。最后,IBM在AI领域的品牌(尤其是在DeepQA/Watson赢得《危险边缘》后)带来信心——一些决策者因这一传统而信任IBM用于关键任务系统。

劣势:与竞争对手相比,IBM的语音服务在语言和语音的覆盖面较窄——例如,如果你需要瑞典语TTS或越南语STT,IBM可能没有,而其他厂商可能有。这限制了其在全球消费级应用中的使用。IBM Cloud的界面和文档虽然扎实,但在用户友好性上有时不如AWS的开发者文档或Azure的一体化工作室。IBM在AI领域的市场势头相较新入局者有所放缓,因此Watson语音的社区支持或开源示例较少。另一个劣势是大规模实时工作负载的可扩展性——虽然IBM可以扩展,但Watson的全球数据中心数量不如Google多,因此如果你距离IBM云区域较远,延迟可能更高。在成本方面,如果你需要多种语言或语音,IBM可能更贵,因为你可能需要多家供应商。此外,IBM专注于企业,导致某些“自助”功能不够便捷——例如,定制模型可能需要一些手动步骤或联系IBM,而Google/AWS则可以较自动地上传数据进行微调。IBM也不经常宣传原始模型准确率的提升——因此有一种印象认为他们的模型更新不够频繁(尽管实际上有更新,只是较为低调)。最后,IBM的生态系统在开发者中并不广泛采用,如果你需要广泛的社区或第三方工具集成,这可能是个缺点。

最新更新(2024–2025): IBM 继续对其语音产品进行现代化升级。2024 年,IBM 推出了大型语音模型(作为早期访问功能),适用于英语、日语和法语,通过利用更大的神经网络显著提升了准确率(这一点在 Watson STT 发布说明中有提及) [137]。Watson TTS 推出了新声音:IBM 于 2024 年中为澳大利亚英语、韩语和荷兰语新增了增强型神经语音 [138]。他们还改进了一些语音的表现风格(例如,美国英语语音“Allison”获得了新升级,使其在 Watson Assistant 场景下听起来更具对话感)。在工具方面,IBM 发布了Watson Orchestrate集成——这意味着他们的低代码 AI 编排现在可以轻松接入 STT/TTS,比如转录会议内容并用 Watson NLP 进行摘要。IBM 还致力于减少语音识别中的偏见,承认旧模型对某些方言的错误率较高;据称,他们新的大型英语模型通过训练更多样化的数据,提高了对多样化说话者的识别能力。2025 年的一个显著进展:IBM 开始在部分任务中利用huggingface 的基础模型,有猜测认为 IBM 可能会将开源模型(如 Whisper)纳入其未覆盖语言的产品中;但目前尚无官方公告。总之,IBM 的更新主要聚焦于质量提升和保持相关性(尽管其公告不如竞争对手那样引人注目)。IBM 对混合云 AI 的承诺意味着我们可能会看到 Watson Speech 在 Kubernetes 上的部署更加便捷,并能更好地与多云战略集成。

官方网站: IBM Watson Speech-to-Text [139] [140] 以及 IBM Cloud 上的 Text-to-Speech 产品页面。

5. Nuance Dragon(语音识别与语音输入)——Nuance(微软)

概述: Nuance Dragon 是一款顶级语音识别技术,长期以来一直是语音听写和转录的黄金标准,尤其是在专业领域。Nuance Communications(自2022年起为微软公司)开发了 Dragon 产品套件,面向不同行业:Dragon Professional 用于通用听写,Dragon LegalDragon Medical等,每款产品都针对其领域的词汇进行了优化。Dragon 以其极高的语音转文本准确率而著称,尤其是在用户经过短暂训练后。它还支持语音命令功能(通过语音控制软件)。与云 API 不同,Dragon 传统上作为软件运行在个人电脑或企业服务器上,这使其成为需要实时听写且无需联网或需要隐私保障用户的首选。被收购后,Nuance 的核心技术也被集成进微软云(作为 Azure Speech 和 Office 365 功能的一部分),但 Dragon 本身仍是一个产品线。到2025年,Dragon 作为专家型产品在本列表中脱颖而出:其他产品是更广泛的平台,而 Dragon 专注于个人生产力和领域专属的高准确率

类型: 主要为语音转文本(STT)。(Nuance 也有 TTS 产品和语音生物识别产品,但“Dragon”品牌是 STT。这里我们聚焦于 Dragon NaturallySpeaking 及相关产品。)

公司/开发者: Nuance(被微软收购)。Nuance 在语音领域有数十年经验,开创了许多语音创新(他们甚至为早期电话 IVR 和 Siri 后端提供技术支持)。现在归微软所有,他们的研究推动了 Azure 的进步。

能力与目标用户: Dragon 的能力集中在连续语音识别(错误率极低)和语音控制计算。目标用户包括:

  • 医疗专业人士: Dragon Medical One 被医生广泛用于直接将临床笔记听写到电子病历系统中,能以约99%的准确率处理复杂的医学术语和药品名称 [141]
  • 法律专业人士: Dragon Legal 针对法律术语和格式进行了训练(它了解引文、法律措辞)。律师用它通过语音起草文件。
  • 一般商务与个人用户: Dragon Professional 允许任何人通过语音听写邮件、报告或控制电脑(打开程序、发送命令),提升生产力。
  • 无障碍: 有残障(如行动不便)的人常依赖 Dragon 实现免手操作电脑。
  • 执法/公共安全: 一些警察部门在巡逻车内用 Dragon 听写事件报告。

主要特性:

  • 高准确率听写: Dragon 会学习用户的声音,经过简短训练(朗读一段文字)和持续学习后可达到极高准确率。它能利用上下文正确选择同音词,并根据用户纠正不断适应。
  • 自定义词汇与宏命令:用户可以添加自定义词汇(如专有名词、行业术语)和自定义语音命令(宏)。例如,医生可以添加一个模板,当他们说“插入正常体格检查段落”时自动触发。
  • 持续学习:当用户纠正错误时,Dragon会更新其个人资料。它可以分析用户的电子邮件和文档,以学习写作风格和词汇。
  • 离线运行:Dragon在本地运行(针对PC版本),无需云连接,这对于隐私和低延迟至关重要。
  • 语音命令集成:除了听写之外,Dragon还允许通过语音完全控制计算机。你可以说“打开Microsoft Word”或“点击文件菜单”,甚至可以通过语音导航。这还包括文本格式化(“加粗上一句”)及其他操作。
  • 通过专业领域支持多说话人:虽然每个用户只有一个Dragon个人资料,但在如录音转录等场景下,Nuance提供如Dragon Legal Transcription等解决方案,可以识别录音中多说话人的身份(但这不是核心功能,而是特定解决方案)。
  • 云端/企业管理:对于企业用户,Dragon提供集中式用户管理和部署(例如,Dragon Medical One是基于云的订阅服务,因此医生可以跨设备使用)。对于这些云服务,还包括客户端与服务器之间流量的加密。

支持的语言:主要为英语(多种口音)。Nuance也有其他主要语言的版本,但旗舰产品是美式英语。还有面向英式英语、法语、意大利语、德语、西班牙语、荷兰语等的Dragon产品。每种语言通常单独销售,因为它们针对该语言进行了优化。专业领域版本(医疗、法律)主要以英语为主(尽管Nuance曾为部分其他语言提供医疗版)。截至2025年,Dragon在英语市场的影响力最强。其英语听写的准确率无与伦比,但可能无法以Dragon级别的质量支持中文或阿拉伯语(Nuance在联络中心产品中有其他语言引擎,但没有面向消费者的Dragon版本)。

技术基础:Dragon 最初采用隐马尔可夫模型和先进的 n-gram 语言模型。多年来,Nuance 将深度学习(神经网络)集成到声学模型中。最新的 Dragon 版本使用深度神经网络(DNN)声学模型,能够适应用户的声音和环境,从而提升准确率,尤其是在有口音或轻微背景噪音时表现更好。它还采用了超大词汇量的连续语音识别引擎,并结合上下文驱动的解码(即通过分析整句话来决定具体词语)。其中一项关键技术是说话人自适应:模型会逐步调整权重以适应特定用户的声音。此外,领域专用语言模型(如法律/医疗)确保系统会偏向这些专业术语(例如在医疗版中,“organ”更可能被理解为人体器官而非乐器,依据上下文)。Nuance 还拥有处理语音不流畅和自动格式化(如根据停顿自动插入逗号或句号)的专利技术。微软收购后,后端很可能引入了一些基于 transformer 架构的研究,但商业版 Dragon 16(最新 PC 版)仍采用神经网络与传统模型的混合体,针对本地 PC 性能进行了优化。另一个方面:Dragon 利用多轮识别——可能先进行初步识别,再通过更高层次的语言上下文进行第二轮精细化识别。它还配备了降噪算法以过滤麦克风输入(Nuance 还销售认证麦克风以获得最佳效果)。

使用场景(扩展):

  • 临床文档:医生口述病人就诊过程——例如:“患者主诉发热和咳嗽 5 天……” Dragon 可将其即时转录到电子病历中,使医生能与患者保持眼神交流而无需打字。有些医生甚至在患者就诊时实时使用 Dragon 草拟病历。
  • 文档起草:律师通过语音使用 Dragon 起草合同或诉状,这通常比长时间打字更高效。
  • 邮件与笔记记录:繁忙的专业人士希望通过语音处理邮件,或在会议期间通过口述记录笔记而非手写。
  • 免手操作电脑:患有重复性劳损或残障的用户可完全通过语音操作电脑(打开应用、浏览网页、口述文本)。
  • 转录服务:Nuance 提供名为 Dragon Legal Transcription 的产品,可将音频文件(如录音采访或法庭记录)转录成文字。该服务被律师事务所或警方用于转录随身摄像头或采访录音等。

定价模式:Nuance Dragon 通常以授权软件形式销售:

  • Dragon Professional Individual(PC 版)——一次性授权(如 500 美元)或订阅制。近期趋势为订阅制(如 Dragon Professional Anywhere 为订阅制)。
  • Dragon Medical One——订阅制 SaaS,通常约 99 美元/用户/月(因专业词汇和支持而定价较高)。
  • Dragon Legal——一次性授权或订阅制,通常比 Professional 版更贵。
  • 大型组织可以获得批量许可。随着与微软的整合,一些功能可能会开始出现在 Microsoft 365 产品中(例如,Office 中的新语音输入功能获得了 Nuance 的增强)。
  • 在 Azure 中,微软现在提供“Azure 认知服务 – 自定义语音”,部分利用了 Nuance 技术。但 Dragon 本身目前仍是独立的。

优势:

  • 在特定领域的语音输入准确率无与伦比,尤其是在适应后 [142] [143]。Dragon 对复杂术语的识别几乎没有错误,这一点真正让它脱颖而出——例如,几乎完美地转录包含药品名称和计量单位的复杂医学报告。
  • 用户个性化: 它会创建一个用户档案并不断学习——你用得越多,准确率越高,而通用云 API 并不会对每个用户做到这种程度的个性化。
  • 实时与离线: 几乎没有延迟;在一台性能不错的电脑上,语音输入的文字几乎能同步显示。而且你不需要联网,这也意味着数据不会离开你的设备(对保密性来说是个大优点)。
  • 语音指令与工作流集成: 你可以一边说一边格式化内容(“打开 Outlook 并回复这封邮件:亲爱的 John,逗号,换行,谢谢你的来信……”)——它非常擅长将语音输入与指令结合。
  • 专业化产品: 针对医疗、法律等领域有专门版本,开箱即用,无需手动定制。
  • 一致性与信任: 许多专业人士多年来一直在使用 Dragon,并信任其输出——这是一个成熟、经过实战考验的解决方案。有了微软的支持,它很可能会持续发展甚至变得更好(与云端 AI 集成进一步优化等)。
  • 多平台:Dragon 主要支持 Windows;Dragon Anywhere(移动应用)可在 iOS/Android 上实现随时随地语音输入(自定义词汇云同步)。通过云端(Medical One),也可在瘦客户端访问。
  • 此外,说话人识别:它实际上是为单用户设计的,这反而提升了准确率(相比通用模型要适应任何声音,Dragon 会专门适应你的声音)。

劣势:

  • 成本与可及性: Dragon 价格昂贵,除了可能有一个短暂的试用期外,没有免费试用。与按用量付费的云端语音转文字 API(偶尔使用时可能更便宜)不同,Dragon 需要前期投入或持续订阅。
  • 学习曲线: 用户通常需要花时间训练 Dragon,并学习特定的语音指令和纠错技巧,才能获得最佳效果。它功能强大,但不像智能手机上的语音输入那样即插即用。
  • 环境敏感性: 虽然在处理噪音方面表现良好,但Dragon在安静环境和高质量麦克风下效果最佳。背景噪音或低质量麦克风会显著降低其性能。
  • 单一说话者专注: 它并不适合实时转录多说话者对话(可以在录音上使用转录模式,但实时时仅适用于一位说话者)。对于会议转录,能够处理多说话者的云服务可能更为直接。
  • 资源消耗大: 运行Dragon对PC的CPU/RAM要求较高,尤其是在初始处理时。有些用户发现它会拖慢其他任务,或者在系统资源不足时崩溃。云版本可以分担这些负载,但需要稳定的网络。
  • Mac支持: Nuance几年前已停止了Mac版Dragon的开发(可以通过Mac虚拟化等方式使用Dragon Medical,但目前没有原生Mac产品),这对Mac用户来说是个缺点。
  • 通用ASR的竞争: 随着通用云端STT技术的提升(如OpenAI Whisper免费达到高准确率),部分个人用户如果不需要Dragon的全部功能,可能会选择这些替代方案。然而,这些替代方案在听写界面和个性化适应方面仍有差距。

近期更新(2024–2025): 自被微软收购以来,Nuance在公开场合相对低调,但整合工作正在进行中:

  • 微软已将Dragon技术集成到Microsoft 365的Dictate功能中,通过使用Nuance后端提升了Office用户的准确率(虽然没有明确标注品牌,但作为“微软与Nuance共同提供云原生AI解决方案”的一部分被宣布)。
  • 2023年,Dragon Professional Anywhere(Dragon的云端流式版本)提升了准确率,并通过Azure向企业客户提供,展现了与微软云的协同效应。
  • Nuance还推出了一款名为Dragon Ambient eXperience (DAX)的新产品,面向医疗领域,超越了传统听写:它能监听医患对话并自动生成草稿笔记。这结合了Dragon的ASR和AI摘要(展示了Nuance如何利用生成式AI)——是2024年医疗领域的一大创新。
  • Dragon Medical One持续扩展语言支持:微软于2024年底宣布,Nuance的医疗听写将扩展到英式英语、澳大利亚英语等,并与Epic EHR实现更深度集成。
  • 在法律领域,Nuance已与案件管理软件集成,实现更便捷的听写插入。
  • 我们或许很快会看到Dragon的部分功能以Azure “企业定制语音”的形式推出,并与Azure语音服务融合。2025年初的预览显示,Azure的定制语音可以接收Dragon语料库或进行类似Nuance的个性化适配,暗示技术趋于融合。
  • 在核心产品方面,Dragon NaturallySpeaking 16于2023年初发布(微软收购后首个主要版本),对Windows 11的支持得到了提升,识别准确率也有小幅提升。因此,到2025年,或许第17版或统一的微软版本即将到来。
  • 总的来说,Nuance Dragon持续提升准确率(并非大幅跃升,因为本身已很高,而是渐进式提升),更大的变化在于其打包方式(云端、环境智能解决方案、与微软AI生态系统的集成)。

官方网站:Nuance Dragon(专业版、法律版、医疗版)页面 [144] [145],可在Nuance官网或通过微软Nuance部门网站访问。

6. OpenAI Whisper(语音识别模型与API)– OpenAI

概述: OpenAI Whisper 是一个开源自动语音识别(STT)模型,以其卓越的准确率和多语言能力在AI社区引发轰动。由OpenAI于2022年底发布,Whisper并不像其他产品那样是云服务前端,而是一个强大的模型(现也有API),开发者可用于音频转录和翻译。到2025年,Whisper已成为众多应用中主流的STT技术,常作为底层技术被采用。它以支持多种语言(近100种)和对口音、背景噪音的强大适应性著称,这得益于其在68万小时网络音频 [146]上训练。OpenAI通过API(按使用付费)提供Whisper,模型权重也可免费获取,任何有足够算力的人都可离线运行或微调。Whisper的推出极大提升了高质量语音识别的可及性,尤其对希望替代大型科技云API或需要开放、可定制模型的开发者和研究者而言。

类型:语音转文本(转录与翻译)。(Whisper不生成语音;它只将语音音频转换为文本,并可将口语翻译为英文文本。)

公司/开发者:OpenAI(但作为开源项目,也有社区贡献)。

能力与目标用户:

  • 多语言语音识别:Whisper可对99种语言进行高准确率转录 [147]。其中包括许多商业API难以覆盖的语言。
  • 语音翻译:它可以将多种语言直接翻译成英文文本(例如,输入法语音频,输出英文文本翻译) [148].
  • 鲁棒性:由于多样化的训练数据,它能比许多模型更好地处理各种输入——不同口音、方言和背景噪音。它还能捕捉诸如填充词、笑声(“[laughter]”)等内容,使转录更丰富。
  • 时间戳:它提供单词级或句子级时间戳,便于生成字幕并将文本与音频对齐。
  • 用户友好API:通过OpenAI的Whisper API(使用large-v2模型),开发者可以发送音频文件并通过简单的HTTP请求获得转录结果。这面向需要快速集成的开发者。
  • 研究人员和爱好者:由于该模型是开源的,AI研究人员或爱好者可以进行实验、针对特定领域微调,或在本地免费运行。这极大地普及了ASR技术。

主要特性:

  • 高准确率:在评测中,Whisper最大模型(约16亿参数)在许多语言上的词错误率与领先的云服务持平或更优 [149] [150]。例如,其英文转录极为准确,更重要的是在非英语语言上的准确率表现突出(当其他模型准确率下降时,Whisper依然表现强劲)。
  • 无需训练即可使用:开箱即用,非常强大。也无需像Dragon那样为每个用户单独训练——它是通用的(但不是领域专用)。
  • 分段级时间戳:Whisper的输出被分为带有起止时间戳的片段,适用于字幕制作。它甚至会尝试在停顿处智能分段。
  • 不同模型尺寸:Whisper有多种尺寸(tiny、base、small、medium、large)。小模型运行更快,甚至可以在移动设备上运行(但准确率略有下降)。大模型(large-v2最为准确)需要GPU和更多算力,但效果最佳 [151].
  • 语言识别:Whisper可以自动检测音频中的语言,然后使用相应的解码方式 [152].
  • 开源与社区:开源意味着有许多社区贡献:如更快的Whisper变体、带自定义解码选项的Whisper等。
  • API 附加功能:OpenAI 提供的 API 可以返回纯文本或包含详细信息(包括单词概率等)的 JSON,并支持如 prompt(通过上下文引导转录)等参数。
  • 边缘部署:由于可以在本地运行(如果硬件允许),它被用于无法使用云的本地或本地服务器场景(例如,记者离线用 Whisper 转录敏感采访,或应用在本地为隐私提供语音笔记转录)。

支持的语言:Whisper 官方支持转录中约99 种语言 [153]。涵盖范围广泛——从广泛使用的语言(英语、西班牙语、普通话、印地语、阿拉伯语等)到小语种(威尔士语、蒙古语、斯瓦希里语等)。其训练数据以英语为主(约 65% 的训练为英语),但并非唯一,因此英语最为准确,但在许多其他语言(尤其是训练集中出现的罗曼语族和印欧语系语言)上表现也非常好。它还可以转录混合语言音频(代码切换)。翻译为英语的功能适用于其明确训练过的约 57 种非英语语言 [154]

技术基础:Whisper 是一种序列到序列的Transformer模型(编码器-解码器架构),类似于神经机器翻译中使用的模型 [155] [156]。音频被分块并转换为 log-Mel 频谱图,输入到编码器;解码器生成文本标记。独特之处在于,OpenAI 用大规模且多样化的数据集(来自网络的 68 万小时音频,包括多语种语音及其对应文本,其中部分可能来自字幕语料库等)对其进行了训练 [157]。训练是“弱监督”的——有时使用不完美的转录文本——有趣的是,这让 Whisper 对噪声和错误具有很强的鲁棒性。该模型有特殊标记来处理任务:例如,它有一个 <|translate|> 标记来触发翻译模式,或 <|laugh|> 表示笑声等,使其能够多任务处理(这也是它能做转录或翻译的原因) [158]。大型模型(Whisper large-v2)拥有约 15.5 亿参数,并在强大的 GPU 上训练了数周;它基本上代表了当时公开可用的最前沿水平。它还通过预测时间标记来实现词级时间戳(通过预测何时分段来切分音频)。Whisper 的设计不包含外部语言模型;它是端到端的,意味着它同时学习了语言和声学建模。由于训练时包含了大量背景噪声和各种音频条件,编码器学到了鲁棒特征,解码器即使面对不完美音频也能输出连贯文本。开源代码允许在如 PyTorch 等框架上运行模型;许多优化(如 OpenVINO、ONNX runtime 等)也被开发出来以加速推理。它相对较重——用大型模型实时转录通常需要较好的 GPU,不过量化后的中型模型在现代 CPU 上几乎可以实现实时。

应用场景:

  • 转录服务与应用:许多转录初创公司或项目现在都基于 Whisper 构建,而不是自己训练模型。例如,播客转录工具、会议转录应用(有些 Zoom 机器人使用 Whisper)、新闻转录工作流等,通常利用 Whisper 的高准确率且无需按分钟计费。
  • YouTube/视频字幕:内容创作者使用 Whisper 为视频生成字幕(尤其是多语言)。有些工具可以输入视频,Whisper 生成 srt 字幕文件。
  • 语言学习与翻译:Whisper 的翻译模式可将外语语音转为英文文本,有助于生成翻译字幕,或帮助语言学习者转录和翻译外语内容。
  • 无障碍功能: 开发者将 Whisper 集成到应用中,为聋人或听力障碍用户实现实时转录(例如,一个本地运行的移动应用,监听对话并用 Whisper 显示实时字幕)。
  • 语音界面与分析: 一些语音助手爱好者项目使用 Whisper 离线将语音转为文本(适用于注重隐私的语音助手)。此外,分析呼叫中心录音的公司也可能用 Whisper 转录通话(不过公司可能会倾向于使用商业 API 以获得支持)。
  • 学术与语言学研究: 由于其开源,研究人员用 Whisper 转录各种语言的实地录音并进行研究。其广泛的语言支持对于记录资源稀缺语言非常有帮助。
  • 个人生产力: 技术熟练的用户可能会本地使用 Whisper 进行语音笔记(虽然没有 Dragon 那种交互式听写那么完善,但有人会用),或自动转录语音备忘录。

定价模式: Whisper 自托管时免费(仅有计算成本)。OpenAI 的 Whisper API(适合不想自己部署的人)价格极低:每分钟 0.006 美元 的音频处理费 [159]。这大约是典型云端语音转文本 API 价格的十分之一甚至更低,极具价格吸引力。如此低价是因为 OpenAI 的模型是固定的,并且他们很可能进行了大规模优化。因此,目标用户要么在自有硬件上使用开源模型(零授权费),要么以每分钟 0.006 美元调用 OpenAI 的 API,这远低于几乎所有竞争对手(Google 为每分钟 0.024 美元等)。不过,OpenAI 的服务不支持定制,仅提供原始 Whisper 功能。

优势:

  • 开箱即用的最先进准确率,适用于多种任务和语言 [160] [161]。尤其擅长理解带口音的英语和许多非英语语言,以前这些语言只能用优化较差的服务。
  • 多语言与多任务:一个模型支持所有语言,甚至支持翻译——非常灵活。
  • 开源与社区驱动:促进创新;例如,有些分支运行更快,或采用替代解码以更好地保留标点等。
  • 高性价比:如果有硬件基本免费,API 也极其便宜,使大规模转录项目在成本上可行。
  • 隐私与离线:用户可以在本地本地部署Whisper以处理敏感数据(例如,医院可以在内部部署,用于转录录音而无需上传到云端)。在某些场景下,这是一个巨大的优势,类似于拥有这样一个离线模型可以媲美只有IBM或本地Nuance才能做到的事情。
  • 集成:许多现有音频工具很快集成了Whisper(例如,ffmpeg现在有一个过滤器可以运行whisper)。它的流行意味着有许多封装(如WebWhisper、Whisper.cpp用于C++部署等),因此很容易接入。
  • 社区持续改进:虽然OpenAI的版本是静态的,但其他人已经对其进行了微调或扩展。此外,OpenAI可能会发布改进版本(有关于Whisper v3或与其新多模态工作集成的传闻)。

劣势:

  • 无法内置自定义特定术语:与某些云服务或Dragon不同,你无法向Whisper输入自定义词汇以进行偏置。因此,对于极为专业的术语(如化学名称),Whisper可能会出错,除非它在训练中见过类似内容。不过,如果你有数据和专业知识,可以进行微调。
  • 资源消耗大:实时运行大型模型需要一块不错的GPU。在CPU上运行会很慢(虽然较小的模型可以在CPU上实时运行,但会牺牲一些质量)。OpenAI API通过在云端完成繁重计算解决了这个问题,但如果你要大规模自托管,就需要GPU。
  • 延迟:Whisper以分段方式处理音频,通常会有很小的延迟来最终确定片段。对于实时应用(如实时字幕),首段文本出现可能有约2秒延迟,因为它需要等待一个片段。这在许多情况下可以接受,但延迟不如某些为流式优化的系统(如Google的,能在300毫秒内开始输出)低。社区正在努力实现“流式Whisper”,但并不简单。
  • 训练中的英语偏向:虽然是多语言的,但其训练数据约有2/3为英语。它在许多语言(尤其是西班牙语、法语等)上的表现依然出色,但训练数据较少的某些语言可能准确率较低,或在不确定时倾向输出英语。例如,对于非常罕见的语言或大量混合语言,Whisper可能会误判或错误地产生一些英文文本(有用户指出Whisper有时会插入英文翻译或音译,如果它对某个词不确定)。
  • 无说话人分离:Whisper会转录所有语音,但不会标注说话人。如果你需要“说话人1/说话人2”,则需要之后应用外部说话人识别方法。许多云端STT内置了该功能。
  • 无正式支持:作为一个开源模型,如果出现问题,没有官方支持渠道(虽然OpenAI API作为产品有支持,但开源模型没有)。
  • 输出格式小问题:Whisper可能会包含非语音标记如“[Music]”,或尝试添加标点,有时可能不完全符合期望的格式(尽管通常表现良好)。例如,即使一句话是疑问句,它也可能不会加问号,因为没有被明确训练为总是插入等。需要一些后处理或提示来优化。
  • 此外,OpenAI 的 API 目前有大约 25 MB 的文件大小限制,这意味着必须将较长的音频分块发送。

近期更新(2024–2025):

  • 虽然 Whisper 模型本身(v2 large)自 2022 年以来 OpenAI 尚未公开更新,但 OpenAI Whisper API 于 2023 年初推出,使得使用 [162] 变得简单且便宜。这让更多开发者能够使用 Whisper 的强大功能。
  • 社区推出了 Whisper.cpp,这是一个 C++ 移植版本,可以通过量化模型在 CPU(甚至移动设备)上运行。到 2024 年,这一项目已趋于成熟,使得小型模型能够在智能手机上实时运行——为一些移动转录应用提供完全离线的支持。
  • 有一些基于 Whisper 的研究工作:例如,不同团队对 Whisper 进行了领域特定的微调(如医疗转录),虽然没有广泛发表,但一些初创公司很可能已经做到了。
  • OpenAI 可能一直在开发下一代语音模型,可能会整合 GPT 的技术(他们的一些论文中有关于潜在多模态模型处理语音和文本的暗示)。如果此类模型发布,可能会取代 Whisper,但截至 2025 年中,Whisper 仍然是他们的主要 ASR 产品。
  • 在采用方面,到 2025 年,许多开源项目(如 Mozilla 的工具、Kaldi 社区等)已转向将 Whisper 作为基线,因其高准确率。这实际上使其成为了标准。
  • 一个值得注意的发展:Meta 的 MMS(Massive Multilingual Speech)研究(2023 年中)通过发布覆盖 1100 多种语言的 ASR 模型扩展了这一理念(尽管在主流语言上的准确率不如 Whisper)。这种竞争进一步激发了对多语种语音的兴趣——Whisper 依然在质量上占主导地位,但我们可能会看到 OpenAI 推出支持更多语言的 Whisper v3,或与此类发展保持一致。
  • 总的来说,“更新”在于 Whisper 变得极为普及,相关改进主要体现在速度和部署上,而非核心模型的变化。由于其质量、语言支持和成本的结合,Whisper 仍然是 2025 年任何需要语音转录产品的首选。

官方资源: OpenAI Whisper GitHub [163] [164];OpenAI Whisper API 文档(OpenAI 官网) [165]。(没有单独的“产品页面”,因为它是一个模型,但上面的 GitHub/术语表引用提供了官方背景信息)。

7. Deepgram(语音转文本 API & 平台)– Deepgram

概述: Deepgram 是一个面向开发者的语音转文本平台,通过一套 AI 模型和强大的 API 提供快速、高度准确的转录服务。Deepgram 的差异化在于专注于定制化、速度和成本效益,面向企业级应用。公司成立于 2015 年,自主构建了深度学习语音模型(而非采用大型科技公司的模型),并在联络中心、语音分析公司以及需要大规模或实时转录的科技公司中占据了一席之地。到 2024–2025 年,Deepgram 经常被提及为 STT 领域大型云服务商的顶级替代方案,尤其是在其最新模型 “Nova-2” 展示出世界领先的准确率后 [166]。该平台不仅提供开箱即用的模型,还提供用于在公司特定数据上训练自定义语音模型的工具(很少有云 API 提供自助服务)。Deepgram 可部署在云端或本地,适合有灵活性需求的企业。

类型: 主要为语音转文本(转录)。(截至 2025 年,Deepgram 已开始测试文本转语音和实时语音 AI流水线工具的 Beta 版 [167] [168],但 STT 仍是其核心。)

公司/开发者:Deepgram, Inc.(独立初创公司,但到 2025 年因其在 STT 技术上的领先地位而被传为收购目标)。

能力与目标用户:

  • 实时与批量转录: Deepgram 的 API 支持流式音频转录(延迟极低)和音频文件的批量处理。它能够处理大批量音频(官方宣传可快速处理数千小时音频)。
  • 高准确率与模型选择: 提供多种模型层级(如“Nova”用于最高准确率,“Base”用于更快/更轻量的场景,有时还有特定领域模型)。最新的Nova-2 模型(2024 年发布)号称比竞争对手低 30% 的 WER,并在实时准确率方面表现出色 [169] [170]
  • 定制化: 主要亮点之一——客户可上传标注数据,训练专属 Deepgram 模型,适应其特定词汇(如产品名、独特短语)。这种微调能显著提升该客户领域的准确率。
  • 多语言支持: Deepgram 支持多种语言的转录(截至 2025 年支持 30 多种语言,包括英语、西班牙语、法语、德语、日语、中文等)。其主要优势在英语,但其他语言也在扩展中。
  • 噪声鲁棒性与音频格式: Deepgram 最初通过一个预处理管道处理音频,可以应对不同音质(如电话通话等)。它支持多种音频格式(包括流行的编解码器如 MP3、WAV,甚至实时 RTP 流)。
  • 功能: 它按需提供说话人分离(说话人标记)、标点、大小写、脏话过滤,甚至实体检测(如识别说出的数字、货币)。他们还提供通过 API 管道检测关键词或对转录文本进行部分 NLP 的功能。
  • 速度: Deepgram 以极快的处理速度著称——得益于其自底向上基于 CUDA 构建(最初就使用 GPU)。他们声称即使使用大型模型,也能在 GPU 上实现比实时更快的音频处理。
  • 可扩展性与部署: 提供云 API(具备企业级 SLA),也可本地部署或私有云部署(有容器化版本)。他们强调可扩展到企业级体量,并为客户提供仪表盘和使用分析。
  • 使用场景: 目标用户包括呼叫中心(用于通话转录和分析)、添加语音功能的软件公司、转录音频档案的媒体公司,以及需要基础 STT 构建语音产品的 AI 公司。例如,呼叫中心可以用 Deepgram 同时转录数千通电话,然后分析客户情绪或合规性。开发者喜欢他们简洁的 API 和详细的文档。

主要功能:

  • API 易用性: 单一 API 端点即可处理音频文件或流,并支持多种参数(语言、模型、标点、说话人分离等)。提供主流语言 SDK(Python、Node、Java 等)。
  • 自定义关键词增强: 你可以提供特定关键词以提升这些词的识别概率(如果不训练自定义模型,这是提升特定术语准确率的快捷方式)。
  • 批量与流式统一: 基本上是同一个 API;他们还区分了预录音与实时端点,并做了相应优化。
  • 安全性: Deepgram 提供本地部署等功能,处理后默认不存储音频(除非选择存储)。对于金融/医疗客户,这一点至关重要。
  • 实时坐席辅助功能: 通过其 API 或即将推出的“Voice Assistant API” [171],支持如实时转录+摘要等坐席通话场景(他们特别强调在呼叫中心中可实现 STT→分析→甚至自动回复的流程)。
  • 准确率声明: 他们公开对Nova-2进行了基准测试,例如,8.4%中位数词错误率(WER),涵盖多个领域,优于其他服务商,最近的可能约为12% [172],并且具体来说,比Whisper-large相对好36% [173] —— 这意味着对于每一个准确率点都很在意的企业来说,Deepgram处于领先地位。
  • 成本效益: 他们经常强调,使用GPU运行他们的模型更具成本效益,并且他们的定价(见下文)在大批量时可能低于一些竞争对手。
  • 支持与监控: 企业级功能如详细日志、转录搜索,以及通过其控制台进行监控。

支持的语言: Deepgram主要专注于英语(美国及其口音),但截至2025年,已原生支持20-30多种语言,包括主要的欧洲语言、日语、韩语、普通话、印地语等。他们一直在扩展,但目前支持的语言数量可能还没有达到100种(数量上少于Whisper)。不过,对于他们支持的语言,可以定制模型(如果某种语言不支持,可能需要申请,或使用基础多语言模型(如有))。Nova模型目前可能仅支持英语(其最高准确率通常为英语,有时为西班牙语)。他们确实支持英语方言(你可以指定英式英语或美式英语,以区分细微的拼写差异)。

技术基础: Deepgram采用端到端深度学习模型,历史上基于自主研究——很可能是卷积和循环神经网络或Transformer的高级变体。他们的Nova-2具体被描述为“基于Transformer架构并针对语音进行了优化” [174]。他们提到Nova-2训练时使用了470亿个标注和600万个资源 [175],数据量巨大,表明数据多样性很高。他们声称Nova-2是“市场上训练最深的ASR模型” [176]。主要技术成就:

  • 他们通过架构调整提升了实体识别、上下文处理等能力 [177]
  • 他们专注于流式处理——他们的模型可以快速输出部分结果,表明可能采用了分块同步解码架构。
  • 他们针对GPU进行了优化:从一开始就使用GPU,并用CUDA C++编写了大量推理代码,实现了高吞吐量。
  • 自定义模型很可能采用迁移学习——在客户数据上微调其基础模型。根据不同的方案,他们会提供工具,或者由他们为你训练。
  • 他们还通过多种模型尺寸实现了速度/准确率的平衡:例如,之前有“增强模型”和“标准模型”。Nova-2 可能将其统一,或者作为顶级模型,其他则为更小更快的模型。
  • 一个有趣的点:Deepgram收购或自建了覆盖多个领域的语音数据集(他们的一些博客提到训练数据包括“各种通话、会议、视频等”)。他们还强调领域适应的效果,比如为呼叫中心定制的专用模型(可能在通话数据上微调)。
  • 他们在旧架构中提到过两阶段模型,但Nova-2看起来像是一个大型统一模型。
  • 也可能使用知识蒸馏来压缩模型(因为他们也有更小的模型可用)。
  • 他们还提到使用上下文偏置(比如用预期词语提示模型,这类似于提供提示)。
  • 随着Nova-2的发布,他们公布了对比数据:Nova-2的中位数WER为8.4%,而Whisper large为13.2%等,这是通过训练和架构改进实现的 [178] [179]

使用场景(部分超出前述内容的例子):

  • 呼叫中心实时转录: 一家公司使用Deepgram实时转录客户通话,然后用文本为客服弹出相关信息,或在通话后用于合规分析。
  • 会议转录SaaS: 类似Fireflies.ai或Otter.ai的工具可能在后台用Deepgram进行实时会议记录和摘要。
  • 应用中的语音搜索: 如果一个应用添加了语音搜索或语音指令功能,可能会用Deepgram的STT将查询转为文本(有些选择它是因为速度或隐私)。
  • 媒体与娱乐: 后期制作公司可能将大量原始音频输入Deepgram,获取转录文本以制作字幕或让内容可检索。
  • 物联网设备: 一些智能设备可以在本地(边缘部署)或通过低延迟云端使用Deepgram转录指令。
  • 开发者工具: Deepgram已集成到无代码平台或数据工具中,帮助轻松处理音频数据;例如,处理通话录音的数据分析流程会用Deepgram将其转为文本以便进一步分析。

定价模式:Deepgram 的定价基于用量,有免费额度可供起步(如新账户有 $200 额度)。之后:

  • 他们有分级方案:例如,免费层每月允许一定分钟数,然后付费层标准模型约 $1.25/小时(即 $0.0208/分钟),Nova 可能为 $2.50/小时(数字仅为示例;实际上,Telnyx 博客显示 Deepgram 从免费起步,企业级最高可达 $10,000/年,意味着有定制方案)。
  • 他们也提供承诺计划:如预付一定金额可获得更低的每分钟单价,或年度企业固定授权。
  • 与大型服务商相比,他们通常在大规模使用时更有竞争力或更便宜;加上准确率提升,意味着人工校正更少,这对 BPO 来说也是成本因素。
  • 自定义模型训练可能需要额外费用或企业方案。
  • 他们宣传标点、说话人分离等不额外收费,这些都是包含的功能。

优势:

  • Nova-2 顶级准确率——在英语语音识别领域领先 [180] [181]
  • 可定制的 AI——不仅仅是黑盒;你可以针对你的领域进行定制,这对企业来说非常重要(能将“好”的准确率提升为“极佳”)。
  • 实时性能——Deepgram 的实时流式传输延迟低且高效,适合实时应用(部分云 API 在实时大流量下表现不佳;Deepgram 天生为此设计)。
  • 灵活部署——云端、本地、混合部署均可;可满足企业数据隐私等要求。
  • 成本与规模——在高用量下通常更便宜,并可扩展到极大工作负载(他们强调有每月转录数万小时的案例)。
  • 开发者体验——API 和文档广受好评;专注语音领域,提供优质支持和专业知识。自定义关键词增强、多语言单一 API 等功能也很方便。
  • 专注企业需求——如情感检测、摘要(他们正在增加超越基础语音转文本的语音 AI 能力)、详细分析等功能,面向企业从语音中获取业务洞察。
  • 支持与合作——可与 Zoom 等平台集成,并有技术合作伙伴(如部分电话服务商可直接接入 Deepgram 实时流式通话音频)。
  • 安全性——Deepgram 通过 SOC2 认证等,如需更高控制权也可自托管。

弱点:

  • 品牌知名度较低,与 Google/AWS 相比;一些保守的企业可能会犹豫是否选择较小的供应商(尽管微软持有 Nuance 的股份也是类似情况,只是 Deepgram 是独立公司)。
  • 语言覆盖范围比全球大型科技公司窄——如果你需要 Deepgram 尚未支持的语言转录,可能需要向他们提出请求或使用其他服务。
  • 功能广度——他们专注于语音转文本(并带有一些机器学习扩展)。他们不提供语音合成或完整的对话解决方案(虽然现在有了语音机器人 API,但还没有像 Google Contact Center AI 或 Watson Assistant 那样的完整平台)。所以如果客户想要一体化的语音和对话解决方案,Deepgram 只能处理转录部分。
  • 自助定制——虽然定制是其优势,但这要求客户拥有数据,甚至具备一定的机器学习知识(尽管 Deepgram 力图简化流程)。不像使用通用模型那样即插即用——但这是提升效果的权衡。
  • 更新频率——小公司可能没有 Google 那样频繁地更新模型(不过最近他们推出了 Nova-2)。此外,任何潜在的停机或服务限制,其全球冗余性可能不如大型云服务(但目前为止,Deepgram 一直很可靠)。
  • 如果使用本地部署,客户需要自行管理 GPU 上的部署,这可能会带来一定复杂性(但很多客户喜欢这种可控性)。
  • 与开源对比——如果极度注重成本且能接受略低的准确率,有些人可能会选择 Whisper(免费);Deepgram 必须通过保持更高准确率和提供企业支持,不断证明其相较于开源模型的价值。

近期更新(2024–2025):

  • 重磅消息:Nova-2 模型于 2024 年底发布,准确率大幅提升(比上一代 Nova 提高 18%,并宣称大幅超越竞争对手) [182] [183]。这让 Deepgram 保持在前沿。他们还分享了详细的基准测试和白皮书作为支撑。
  • Deepgram 于 2025 年推出了语音代理 API(测试版) [184],用于构建实时 AI 代理——不仅能转录,还能分析和响应(很可能集成了 LLM 理解和 TTS 语音合成)。这表明其业务已从纯语音转文本扩展到 AI 对话解决方案(直接进入联络中心 AI 领域竞争)。
  • 他们扩展了语言支持(2024 年新增了更多欧洲和亚洲语言)。
  • 他们增加了诸如摘要等功能:例如,在2024年,他们推出了一个可选模块,在转录通话后,Deepgram可以提供由AI生成的通话摘要。这是在转录文本基础上利用LLM,类似于Azure的通话摘要服务。
  • 增强的安全功能:2024年,Deepgram达到了更高的合规标准(宣布通过了HIPAA合规,使更多医疗客户能够使用他们的服务)。
  • 他们提升了开发者体验——例如,发布了新的Node SDK v2、用于转录的CLI工具,以及更好的文档网站。
  • 在性能方面,他们通过优化流式协议提升了实时延迟,声称部分转录的延迟低于300毫秒。
  • 可能与电话服务提供商(如与Twilio等的集成)建立了合作,允许通过Deepgram的API轻松实现PSTN通话转录。
  • 他们还参与了公开评测;例如,如果有ASR挑战,Deepgram通常会参与——以展示结果的透明度。
  • 在商业方面,Deepgram获得了更多融资(2023年C轮),显示出稳定性和投资研发的能力。

官方网站: Deepgram语音转文本API [185] [186](Deepgram的官方产品和文档页面)。

8. Speechmatics(任意场景STT引擎)——Speechmatics有限公司

概述: Speechmatics 是一家领先的语音转文字引擎,以其对理解“每一个声音”的关注而闻名——这意味着它强调在各种口音、方言和说话者群体中实现高准确率。Speechmatics 总部位于英国,在 2010 年代因其自助式 STT API 和本地部署解决方案而建立了声誉,在口音较重或音频有挑战性的场景中常常优于大型厂商。他们的技术源自先进的机器学习和自监督学习的突破,这使其能够利用大量未标注音频进行训练,从而提升识别的公平性 [187] [188]。到 2025 年,Speechmatics 以多种形式提供 STT:云 API、可部署容器,甚至 OEM 集成(他们的引擎嵌入在其他产品中)。他们服务的场景包括媒体字幕(直播字幕)和通话分析,最近的创新“Flow”API 将 STT 与文本转语音及 LLM 结合,实现语音交互 [189] [190]。他们因无论说话者口音或年龄都能实现高准确率转录而受到认可,声称在消除偏见方面优于竞争对手(例如,他们的系统在非裔美国人和儿童语音上的准确率明显高于其他系统) [191] [192]

类型:语音转文字(ASR),并有新兴的多模态语音交互解决方案(Speechmatics Flow)。

公司/开发者:Speechmatics Ltd.(英国剑桥)。独立公司,但与广播和 AI 行业有合作伙伴关系。

能力与目标用户:

  • 通用 STT 引擎: Speechmatics 的卖点之一是单一引擎可在支持的语言中适用于“任何说话者、任何口音、任何方言”。这对需要处理全球各地说话者的全球企业和广播公司很有吸引力(例如 BBC 就曾使用 Speechmatics 进行字幕制作)。
  • 实时转录: 他们的系统可以以低延迟转录直播流,适用于活动、广播和通话的实时字幕。
  • 批量转录: 以行业领先的准确率高吞吐量处理预录音频/视频。常用于视频档案、生成字幕或文字稿。
  • 多语言支持: 识别30多种语言(包括英语变体、西班牙语、法语、日语、普通话、阿拉伯语等),甚至可以处理代码切换(他们的系统可以检测说话者在对话中切换语言) [193]。他们还支持自动语言检测。
  • 自定义词典(自定义词汇): 用户可以提供特定名称或术语以优先处理(例如让引擎知道如何拼写不常见的专有名词)。
  • 灵活部署: Speechmatics 可在云端运行(他们有SaaS平台),也可通过Docker容器完全本地部署,适合对环境敏感的场景。许多广播公司在自己的数据中心运行Speechmatics进行实时字幕,以避免依赖互联网。
  • 嘈杂环境下的准确性: 他们具备强大的噪声鲁棒性,并可选输出实体格式(日期、数字)以及说话人分离等多说话人区分功能。
  • 目标用户: 媒体公司(电视网络、视频平台)、联络中心(通话转录)、企业转录解决方案、需要STT的软件厂商(Speechmatics经常将其技术授权给其他供应商——OEM合作)、政府(议会或理事会会议记录)以及专注于无偏ASR的AI厂商。
  • Speechmatics Flow(2024): 将其STT与TTS和LLM集成,打造能够倾听、理解(通过LLM)并用合成语音回应的语音助手 [194] [195]。这表明其目标是面向交互式语音AI解决方案(如真正能理解各种口音的语音机器人)。

主要功能:

  • 精准口音识别: 根据他们的偏差测试,通过在大量无标注数据上训练,显著减少了不同口音群体之间的错误差异 [196] [197]。例如,非裔美国人语音的错误率相比竞争对手提升了约45% [198]
  • 儿童语音识别: 他们特别指出在儿童语音(通常对ASR来说很难)上有更好的表现——准确率为91.8%,而Google在同一测试中约为83% [199]
  • 自监督模型(AutoML): 他们在2021年左右推出的“自主语音识别”利用了110万小时的音频进行自监督学习训练 [200]。这种大规模训练方法提升了在标注数据稀缺时对多样化语音的理解能力。
  • 神经网络模型: 完全基于神经网络(他们在2010年代末从旧的混合模型转向端到端神经网络)。
  • API与SDK: 提供REST和websocket API用于实时和批量处理。也有SDK便于集成。输出详细JSON,包括单词、时间、置信度等。
  • 实体等功能: 支持智能格式化(如将“fifty pounds”输出为“£50”),并可标注实体。
  • 语言覆盖: 截至2025年,支持约34种高质量语言,包括一些其他厂商覆盖不佳的语言(如威尔士语,因BBC Wales采用了他们的服务)。
  • 持续更新: 他们会定期发布改进说明(如在文档中所见:某次更新中普通话准确率提升5% [201],或新增如马耳他语等新语言)。
  • Flow 细节: Flow API 允许开发者无缝结合 STT 输出、LLM 推理和 TTS 输出,面向下一代语音助手 [202] [203]。例如,可以发送音频并获得语音回复(由 LLM 提供答案并通过 TTS 朗读)——Speechmatics 提供实时交互的粘合剂。

支持的语言: 目前积极支持约 30-35 种语言(英语、西班牙语、法语、德语、葡萄牙语、意大利语、荷兰语、俄语、中文、日语、韩语、印地语、阿拉伯语、土耳其语、波兰语、瑞典语等)。他们强调覆盖“全球性”语言,并表示可根据需求添加更多语言 [204]。他们还为西班牙语/英语提供双语模式,可无缝转录混合的英西语音 [205]。在其说明中:2024 年新增了爱尔兰语和马耳他语 [206],表明如果有需求,他们也会支持小语种。他们以口音覆盖为傲,同一语言内,例如,他们的英语模型是一个全球模型,全面覆盖美式、英式、印度、澳大利亚、非洲等口音,无需单独模型。

技术基础:

  • 自监督学习: 他们采用了类似 Facebook wav2vec 2.0 的技术(很可能有自家变体),利用大量无标注音频(如 YouTube、播客)进行声学表征的预训练,然后在转录数据上微调。据 2021 年报道,这极大提升了口音/方言的覆盖能力 [207]
  • 神经网络架构: 可能结合了 CNN 用于特征提取和 Transformer 用于序列建模(目前大多数现代 ASR 都采用 Conformer 或类似架构)。他们在发布说明中将主要模型更新称为“Ursa” [208],带来了跨语言的整体准确率提升——很可能是新的大型模型架构(Conformer 或 Transducer)。
  • 模型规模: 未公开详细信息,但对于本地部署,他们有多种选项(如“标准版”与“增强版”模型)。他们总是强调“低延迟”,因此很可能采用了适合流式处理的架构(如用于增量输出的Transducer或CTC模型)。
  • 偏见与公平性方法: 通过在未标注的多样化数据上训练,模型本身学会了多种语音变体。他们也很可能做了仔细的平衡——他们在减少偏见方面的公开成果表明,进行了有针对性的努力,以确保对不同说话人群体的准确率相等。
  • 持续学习: 他们可能将客户的纠正作为可选的反馈环用于改进(不确定是否对客户开放,但很可能在内部使用)。
  • 硬件与效率: 可以在标准CPU上运行(许多本地部署的客户可能使用CPU集群)。但如有需要,也很可能针对GPU做了优化。在某些场景下提到“低资源占用”。
  • Flow API技术: 将他们的ASR与任意LLM结合(可以是OpenAI的,也可以是其他的)以及他们的TTS合作伙伴——这种架构很可能是先用他们的STT获取文本,然后调用选定的LLM,再用TTS引擎(可能底层用的是Amazon Polly或Azure,除非他们有自有产品,但官网建议可与“首选LLM”和“首选TTS”结合) [209]

应用场景:

  • 广播与媒体: 英国许多电视直播在没有人工速记员时,或作为补充时,使用Speechmatics进行实时字幕。同时,后期制作公司也用它生成转录文本以便编辑或合规。
  • 市场调研与分析: 全球分析客户访谈或小组讨论的公司,使用Speechmatics准确转录多口音内容(例如分析跨国焦点小组的情感)。
  • 政府/公共部门: 市议会会议或议会会议的转录(尤其是在多语言或强烈地方口音的国家——Speechmatics在这方面表现突出)。
  • 呼叫中心分析: 与其他产品类似,但Speechmatics在呼叫中心坐席或客户口音较重、其他引擎可能转录错误的场景更受欢迎。此外,他们支持本地部署(欧洲一些电信或银行更偏好此方式)。
  • 教育: 转录讲座录音或为大学内容提供字幕(尤其是讲师或学生口音多样时)。
  • 语音技术提供商: 一些公司将Speechmatics引擎集成到他们的解决方案中(白标),因为其在口音鲁棒性方面表现突出,为全球用户群体带来优势。
  • 用户生成内容的字幕: 一些允许用户为视频添加字幕的平台,可能在后台使用Speechmatics来处理各种声音。

定价模式:

  • 他们通常为企业定制报价(尤其是本地部署许可——很可能是按年许可,取决于使用量或通道数量)。
  • 对于云API,他们曾经公布过价格,大约为每小时1.25美元或类似水平,与其他厂商具有竞争力。可能约为每分钟0.02美元。对于直接企业客户,可能有最低月度承诺。
  • 他们也曾在SaaS上提供免费试用或600分钟免费额度。
  • 他们强调本地部署可无限使用,收取固定费用,对于重度用户来说,相比按分钟计费更具吸引力。
  • 由于他们面向企业客户,如果你只有极少量使用,他们并不是最便宜的选择(有人可能会为兴趣选择OpenAI Whisper)。但对于专业用途,当使用量大时,他们的定价与Google/Microsoft持平或略低,尤其强调高质量下的性价比。
  • 他们的Flow API可能有不同的定价方式(也许按交互计费,目前还不清楚,因为是新产品)。
  • 目前没有公开可见的定价(很可能转向销售驱动模式),但以价格合理和许可方式简单著称(对于需要可预测成本的24/7广播场景尤其重要)。

优势:

  • 口音/方言准确性: 在全球英语和多语言准确性方面处于行业领先,偏见极小 [210] [211]。他们“理解每一个声音”的理念有数据支撑,并获得行业认可——这是一个巨大差异化优势,尤其是在多样性和包容性成为关键的当下。
  • 本地部署和私有云友好: 许多竞争对手只支持云端;Speechmatics在需要时为客户提供完全控制权,在敏感和带宽受限场景中赢得订单。
  • 企业聚焦: 高合规性(他们很可能拥有ISO认证 [212]),强大的支持,愿意满足定制需求(如按需添加新语言或调优)。
  • 实时字幕:在需要低延迟和高准确率的现场活动和电视中已被验证。
  • 创新与理念: 他们在减少AI偏见方面有强烈叙事——这对关注公平性的公司很有吸引力。他们的技术直接回应了ASR常见的批评(即对某些群体效果较差)。
  • 单一模型多语言支持: 支持代码切换,在某些情况下无需手动选择口音或语言——模型会自动识别——这对用户来说很友好。
  • 稳定性与业绩记录: 自2010年代中期以来在业界应用,被主要品牌(TED演讲等)采用,因此经过了充分验证。
  • 扩展超越STT: Flow语音交互平台表明他们正在发展以满足未来需求(因此不仅仅投资于转录,还在实现全双工语音AI)。

劣势:

  • 在开发者社区中的知名度不如一些美国公司或开源模型,因此社区支持较小。
  • 支持的语言数量少于Whisper或Google——如果有人需要斯瓦希里语或泰米尔语等低资源语言,Speechmatics可能没有,除非专门开发。
  • 价格透明度: 作为面向企业的公司,小型开发者可能觉得其自助性不如OpenAI的$0.006/分钟等便宜或方便。他们的重点是质量和企业级,而不一定是最便宜的选择。
  • 没有内置语言理解(直到Flow)——原始转录可能需要额外的NLP来获得洞察;他们历史上并不做情感分析或摘要(这些留给客户或合作伙伴解决)。
  • 来自大厂的竞争: 随着Google、Azure改进口音处理(以及Whisper免费),Speechmatics必须不断保持领先,才能让用户选择他们而不是更普及的选项。
  • 没有TTS或其他模态(目前为止)——希望一站式服务的公司可能会倾向于Azure,因为其有STT、TTS、翻译等,除非Speechmatics通过合作来补足这些(Flow表明他们倾向于与TTS/LLM合作而不是自建)。
  • 业务扩展能力:作为较小的公司,规模可能是个问题——他们能否在全球范围内处理Google级别的流量?鉴于其广播客户,他们很可能能处理大量需求,但有些人可能会担心长期支持或作为独立公司能否跟上模型训练成本等。

近期更新(2024–2025):

  • Speechmatics于2024年中推出了Flow API [213] [214],标志着其通过将STT+LLM+TTS整合到一条流水线,战略性扩展到语音交互式AI。他们开放了候补名单,目标是企业语音助手的创建,显示出其迈向对话式AI集成。
  • 他们引入了新语言(2024年8月新增爱尔兰盖尔语和马耳他语) [215],并持续改进模型(Ursa2模型已推出,2024年8月在多种语言上带来准确率提升 [216])。
  • 他们增强了说话人分离和多语言检测能力(例如,2024年初提升了西英双语转录)。
  • 他们强调了批量容器的更新,并提升了多种语言的准确率(发布说明显示2024年普通话提升约5%,阿拉伯语、瑞典语等也有改进) [217]
  • 关于偏见和包容性:自2021年取得突破后,他们很可能再次用更多数据更新了模型(可能与2023年研究保持一致)。也许推出了升级版的“Autonomous Speech Recognition 2.0”,进一步提升性能。
  • 他们参与或被引用于斯坦福、麻省理工等关于ASR公平性的研究,突出其表现。
  • 他们表现出对嵌入更大平台的兴趣——可能增加了合作伙伴关系(如集成到Nvidia的Riva或Zoom的转录服务——假设如此,但他们可能低调达成了这些合作)。
  • 在商业方面,Speechmatics可能正在美国市场扩展,开设新办公室或建立新合作伙伴关系,毕竟他们历史上在欧洲较为强势。
  • 到2025年,他们依然保持独立并持续创新,经常被视为在无偏见准确率至关重要时的顶级ASR。

官方网站: Speechmatics 语音转文字 API [218] [219](Speechmatics官方产品页面及资源)。

9. ElevenLabs(语音生成与克隆平台)– ElevenLabs

概述: ElevenLabs 是一款前沿的AI语音生成与克隆平台,因其极为逼真且多样化的合成语音在2023年声名鹊起。它专注于文本转语音(TTS),能够生成带有细腻情感的语音,并支持语音克隆,允许用户通过一小段音频样本创建自定义语音(甚至可在获得同意的情况下克隆特定个人的声音)。ElevenLabs 提供了易用的网页界面和API,使内容创作者、出版商和开发者能够用多种声音和语言生成高质量语音。到2025年,ElevenLabs 被认为是超逼真TTS的顶级平台之一,在许多应用场景下,其语音输出常常与真人难以区分 [220] [221]。它被广泛用于有声书旁白、YouTube视频配音、游戏角色配音以及无障碍工具等。其核心优势在于表现力和自定义程度:用户可调整稳定性和相似度设置,以获得所需的情感语调 [222],平台还提供大量预制声音库及用户自建克隆声音。

类型:文本转语音与语音克隆(包含部分辅助语音转文本功能以辅助克隆过程,但主要为语音输出平台)。

公司/开发者:ElevenLabs(初创公司,成立于2022年,总部位于美国/波兰,2023年估值约10亿美元 [223])。

能力与目标用户:

  • 超逼真TTS: ElevenLabs 能生成带有自然语调、节奏和情感的语音。它听起来不像机器人,能捕捉到诸如轻笑、低语、犹豫等细微之处。目标用户包括内容创作者(视频旁白、播客、有声书)、游戏开发者(NPC配音)、电影制作人(原型配音),甚至个人用户用于娱乐或无障碍(用所选声音朗读文章)。
  • 语音库: 截至2024年,平台公共库中提供300多种预制声音,包括部分以知名演员或风格为模型(经授权或用户贡献) [224]。用户可按风格(叙述、愉快、恐怖等)和语言浏览。
  • 语音克隆(自定义声音): 具有相应权限的用户可以通过提供几分钟的音频来创建一个声音的数字副本。该平台将创建一个以该音色和风格说话的自定义TTS语音 [225] [226]。这在希望拥有独特旁白声音的创作者或为公司本地化语音品牌时非常受欢迎。
  • 多语言与跨语言: ElevenLabs支持使用30多种语言生成语音,并可使用任意声音,这意味着你可以克隆一位说英语的人的声音,并让它以西班牙语或日语说话,同时保持声音特征 [227] [228]。这对于用同一声音身份为多语言内容配音非常强大。
  • 情感控制: 界面/API允许调整如稳定性(表达的一致性与多样性)、相似度(对原始声音特征的保持程度) [229],甚至可以通过声音选择调整风格口音。这使得可以对表现进行精细调整——例如,让朗读更具表现力或更单调。
  • 实时与低延迟: 到2025年,ElevenLabs已提升生成速度——可以足够快地生成音频,适用于某些实时应用(尽管主要还是异步)。他们甚至有一个用于交互场景的低延迟模型(测试版)。
  • 平台与API: 他们提供了一个网页工作室,非技术用户可以输入文本、选择或微调声音并生成音频。对于开发者,则有API和SDK可用。他们还拥有如Eleven Multilingual v2模型,用于提升非英语合成效果。
  • 出版工具: 特别面向有声书制作者——例如,允许输入长文本、在章节间保持一致的声音身份等。目标用户包括自出版作者、本地化有声书的出版商、视频创作者以及需要旁白的社交媒体内容制作者。

主要功能:

  • 语音实验室与库: 一个用户友好的“语音实验室”,你可以管理自定义声音,还有一个语音库,你可以按类别发现声音(如“旁白”、“英雄”、“新闻主播”风格) [230]。许多声音是社区共享的(有权利)。
  • 高表现力模型: ElevenLabs 发布了一个新模型(截至 2023 年底为 v3,处于 alpha 阶段),能够更自然地捕捉笑声、在句中变换语调、低声耳语等。 [231] [232]。他们演示中的示例包含了动态情感,甚至还有一定程度的歌唱。
  • 稳定性与变化控制: “Stability” 滑块——更高的稳定性会产生一致的语调(适合长篇旁白),更低则更具动态/情感(适合角色对话) [233]
  • 克隆需同意与安全保障: 他们要求明确同意或验证才能克隆外部声音(以防止滥用)。例如,要克隆你自己的声音,必须朗读提供的短语,包括同意声明(他们会进行验证)。
  • 多声音与对话: 他们的界面允许轻松创建多说话人音频(例如,不同段落/对话行用不同声音)。非常适合音频剧或对话模拟。
  • 语言: 截至 2025 年,涵盖欧洲主要语言及部分亚洲语言;他们提到 30 多种(很可能包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、印地语、日语、韩语、中文等)。这些语言持续改进——v3 提升了多语言自然度。
  • 音频质量: 输出为高质量(44.1 kHz),适用于专业媒体。提供多种格式(MP3、WAV)。
  • API 功能: 你可以通过 ID 指定声音、每次请求调整设置,甚至可以进行可选的声音变形(在两种声音之间风格变换)。
  • ElevenLabs 也有少量 STT(他们推出了基于 Whisper 的转录工具,可能用于辅助对齐配音),但这不是重点。

支持的语言:32+ 种语言用于 TTS 生成 [234]。重要的是,跨语言能力意味着你不需要为每种语言单独配音——一个声音可以说所有语言,如果原始声音有口音则会带有口音。他们强调可以进行同语种(例如,克隆一位波兰语说话者,让其说日语)。并非所有声音在所有语言中表现都一样好(有些微调声音可能主要以英语训练,但 v3 模型解决了多语言训练)。语言包括所有主要语言及部分小语种(他们可能覆盖内容市场所需的语言,如荷兰语、瑞典语,或许还有阿拉伯语等)。社区经常报告各种语言的质量——到 2025 年,ElevenLabs 在非英语方面有了显著提升。

技术基础:

  • ElevenLabs 使用专有的深度学习模型,可能是基于 Transformer 的文本编码器和生成式音频解码器(vocoder)的集成体,类似于 VITS 或 Grad-TTS 等模型,但经过大量优化。他们在表达力研究上投入了大量精力——可能采用了预训练语音编码器(如 Wav2Vec2)等技术,从样本中捕捉声音特征,并通过多说话人混合或基于提示的方式实现风格迁移。
  • v3 模型中提到的“Eleven v3”表明他们构建了一个新架构,可能结合了多语言训练和用于情感的风格 token [235]
  • 他们提到“突破性的 AI 算法” [236]——很可能他们使用了大量训练数据(据称训练了数千小时,包括许多公有领域有声书等),并专注于多说话人训练,使一个模型可以生成多种声音。
  • 这在某种程度上类似于 OpenAI 的 TTS(用于 ChatGPT 语音功能)的工作方式:单一多说话人模型。ElevenLabs 在这方面处于前沿。
  • 他们引入了零样本克隆:只需一小段样本,他们的模型就能适应该声音。可能采用了说话人嵌入提取(如 d-vector 或类似方法),然后将其输入 TTS 模型以实现声音条件化。这就是克隆能瞬间完成的原因。
  • 他们在情感条件化方面也有研究——可能使用风格 token 或多段参考音频(如用情感标签标注的训练语音)。
  • 还注重快速合成:可能利用 GPU 加速和高效的 vocoder,实现近乎实时的输出。(他们可能使用并行 vocoder 提升速度)。
  • 一个挑战是跨语言对齐——他们很可能使用 IPA 或某种统一音素空间,使模型能用同一声音说其他语言且发音准确(有用户反馈显示其表现不错)。
  • 他们在前端文本处理上也做了大量工作:正确发音人名、多义词、上下文感知(高质量表现说明有很好的文本规范化流程,可能还有内部语言模型辅助上下文发音选择)。
  • ElevenLabs 很可能也采用了反馈循环:他们有大量用户,可能会收集模型发音错误的数据并持续微调/改进(尤其是针对用户频繁纠正的内容等)。

应用场景:

  • 有声书旁白:独立作者使用 ElevenLabs 制作有声书版本,无需雇佣配音演员,可从库中选择合适的旁白声音或克隆自己的声音。出版商通过克隆旁白声音实现图书本地化到其他语言。
  • 视频配音(YouTube、在线学习):创作者可快速为讲解视频或课程生成旁白。有些人用它来 A/B 测试不同的声音风格。
  • 游戏开发:独立游戏开发者用它为NPC角色配音,为每个角色选择不同的声音并生成对话,大大节省录音成本。
  • 配音和本地化:工作室可以用原演员的声音克隆体为电影或剧集配多国语言——保持原有的声音个性。ElevenLabs 已被用于一些粉丝项目,让原演员“说”新台词。
  • 无障碍和朗读:人们用它来用自己喜欢的悦耳声音朗读文章、邮件或PDF。视障用户受益于更自然的TTS,让长时间聆听更舒适。
  • 语音原型制作:广告公司或电影制作人用AI语音为配音和广告做原型,先让客户批准再决定是否真人录制。有时AI语音效果太好,小项目直接用作最终成品。
  • 个人语音克隆:有些人(经允许)克隆年长亲属的声音以保存,或克隆自己的声音来分担一些任务(比如让“自己的声音”朗读自己的写作)。
  • 互动叙事:动态生成内容的应用或游戏用ElevenLabs来朗读动态台词(需考虑一定延迟)。
  • 呼叫中心或虚拟助手语音:公司可以通过克隆或定制在ElevenLabs上创建独特品牌声音,并用于IVR或虚拟助手,使其独特且符合品牌形象。
  • 内容创作效率:写作者将角色对话生成音频,听听实际效果,辅助剧本写作。

定价模式:ElevenLabs 提供免费增值和订阅模式:

  • 免费档:每月约10分钟生成音频用于测试 [237]
  • 入门计划:$5/月(或$50/年),每月约30分钟,并可使用语音克隆和基础商业使用权 [238]
  • 更高档位(如Creator、Independent Publisher等)月费更高,提供更多用量(生成小时数)和额外功能,如更高质量、更多自定义声音、优先级,部分档位可能有API访问 [239] [240]
  • 企业版:大用量定制价格(可协商无限计划等)。
  • 与通常按字符计费的云TTS相比,ElevenLabs按输出时长计费。例如,30分钟5美元,实际每分钟约0.17美元,考虑到其质量和包含的权利,这一价格具有竞争力。
  • 通常可以购买额外用量(超额或一次性套餐)。
  • 定价包含预制声音和声音克隆的使用。如果你使用他们的声音库克隆他人声音,可能需要提供权利证明等,但推测该服务会确保合法性。
  • 他们为订阅用户提供API(很可能从5美元套餐起,但配额有限)。
  • 总体而言,对个人创作者非常友好(这也是其流行的原因),并可扩展以满足更大需求。

优势:

  • 无与伦比的音质与真实感: 用户普遍反馈ElevenLabs的声音是目前公开可用中最接近真人的之一 [241] [242]。其能传达情感和自然节奏,在表现力上超越许多大型科技公司的TTS产品。
  • 用户友好与创作自由: 平台设计让非专业人士也能轻松克隆声音或调整风格参数,降低了AI语音创作的门槛。
  • 海量声音选择: 数百种声音及自定义能力,几乎可实现任何风格或人设——远超一般TTS服务(通常只有20-50种声音)。
  • 多语言与跨语言: 能够在多语言间保持声音的口音/情感,是其独特卖点,便于多语种内容创作。
  • 快速迭代: 作为专注的初创公司,ElevenLabs快速推出新功能(如一年内从v1到v3模型,新增语言、笑声/耳语等能力)。他们也能迅速采纳社区反馈。
  • 活跃的社区: 许多创作者聚集于此,分享技巧和声音,扩大了影响力,也让产品覆盖更多场景,提升了产品的健壮性。
  • 灵活的API集成: 开发者可将其集成到应用中(如部分旁白工具或Discord机器人已开始用ElevenLabs生成语音输出)。
  • 性价比高: 对于中小规模使用,比雇佣配音演员和录音棚便宜得多,且效果接近专业水准。这对独立创作者来说极具吸引力。
  • 伦理控制: 他们已设置部分安全措施(声音克隆需验证或高阶套餐才能用,以防滥用,并有声音检测机制防止误用)。这有助于与IP持有者建立信任。
  • 资金与增长: 资金充足且被广泛采用,因此很可能会持续存在并不断改进。

劣势:

  • 被滥用的可能性: 其优势(逼真的克隆)也有阴暗面——事实上早期就曾发生过用其制作深度伪造语音的事件。这迫使他们实施了更严格的使用政策和检测措施。不过,只要这项技术存在,如果防护不严,冒充风险依然存在。
  • 长文本一致性: 在非常长的叙述中,有时保持完全一致的情感表达会有难度。模型在章节之间可能会略微改变语调或节奏(不过稳定性设置和即将推出的v3会更好地解决这个问题)。
  • 不常见词汇的发音: 虽然表现不错,但有时会把名字或罕见术语发音错误。他们提供手动修正(你可以用音标拼写单词),但对于每个专有名词来说,开箱即用并不完美。其他云TTS也有类似问题,但这是需要管理的地方。
  • API速率限制/扩展性: 对于极大规模(比如自动生成数千小时内容),可能会遇到吞吐量限制,尽管他们很可能会通过扩展后端来满足企业需求。目前,大型云服务商可能能更无缝地处理大规模并发请求。
  • 无内置语音识别或对话管理: 它本身不是完整的对话式AI平台——你需要将其与STT和逻辑配合使用(有些人可能认为这比不上Amazon Polly+Lex等端到端方案。不过,ElevenLabs可以很容易地与其他服务集成)。
  • 激烈的竞争正在出现: 大公司和新创企业都注意到了ElevenLabs的成功;OpenAI自己也可能推出先进的TTS,或者其他公司(如微软的新VALL-E研究)最终可能成为其对手。因此,ElevenLabs必须不断创新,才能在质量和功能上保持领先。
  • 授权与权益: 用户在使用听起来像真人或克隆的声音时需要注意。即使获得同意,在某些司法管辖区也可能存在法律灰色地带(肖像权)。这种复杂性可能会让一些商业用途望而却步,直到法律/伦理更为明晰。
  • 口音和语言限制: 虽然支持多语言,但声音可能带有其来源的口音。某些场景下,可能需要每种语言都拥有本地化的声音(ElevenLabs未来可能通过每种语言的声音适配或提供本地语音库来解决)。
  • 依赖云端: 它是封闭的云服务,没有离线本地解决方案。有些用户可能更喜欢本地部署以处理敏感内容(有些公司不愿将机密脚本上传到云端)。没有自托管版本(与某些开源TTS引擎不同)。

近期更新(2024–2025):

  • ElevenLabs于2023年末推出了Eleven Multilingual v2,大幅提升了非英语输出(口音更少,发音更好)。
  • 他们发布了Voice Generation v3 的 alpha 版本,可以处理诸如笑声、句中切换风格以及整体更具动态范围的表现 [243] [244]。这很可能在 2024 年全面推出,使得语音更加逼真(例如,演示中有完整的表演场景)。
  • 他们扩展了语音克隆功能,允许仅用约 3 秒音频即可实现即时语音克隆,目前处于有限测试阶段(如果属实,可能采用类似微软 VALL-E 的技术,他们肯定知晓此类技术)。这将极大简化用户的语音克隆流程。
  • 随着推出语音分享功能,语音库迅速扩展:到 2025 年,已有数千种用户创建的语音(部分为公有领域或原创)可供使用——类似于“语音市场”。
  • 他们获得了更多合作伙伴;例如,一些出版商公开使用 ElevenLabs 制作有声书,或与流行视频软件集成(也许为 Adobe Premiere 或 After Effects 推出插件,可在应用内生成旁白)。
  • 他们以高估值获得了更多融资 [245],表明公司正在扩张(可能进入语音对话或韵律研究等相关领域)。
  • 在安全方面,他们实施了语音指纹系统——任何由 ElevenLabs 生成的音频都可以通过隐藏水印或检测 AI 被识别出来,他们一直在开发此功能以防止滥用。
  • 他们新增了Voice Design工具(测试版),允许用户“混合”语音或调整部分特征,以无需真人样本即可创建新的 AI 语音。这为生成不依赖真实人物的独特语音打开了创意空间。
  • 还改进了开发者 API 的使用——新增了异步生成、通过 API 进行更精细控制,以及可能为企业客户提供本地部署选项(未确认,但对于大型客户可能会有)。
  • 总之,ElevenLabs 在 2025 年继续引领 AI 语音生成领域,迫使其他公司迎头赶上。

官方网站: ElevenLabs Voice AI Platform [246] [247](ElevenLabs 官方文本转语音及语音克隆网站)。

10. Resemble AI(语音克隆与定制 TTS 平台)– Resemble AI

概述: Resemble AI 是一个知名的AI语音克隆和自定义文本转语音平台,使用户能够创建高度逼真的语音模型,并用这些声音生成语音。Resemble成立于2019年,专注于为创意和商业用途提供快速且可扩展的语音克隆。它的突出特点是提供多种语音克隆方式:基于文本(可自定义的现有TTS声音)、基于音频数据,甚至实时语音转换。到2025年,Resemble AI被用于为电影、游戏、广告和虚拟助手制作逼真的AI语音,通常用于需要特定声音(无论是复制真实人物还是独特品牌声音)的场景。它还具有“Localize”功能,使一种声音可以说多种语言(类似ElevenLabs) [248] [249]。Resemble提供API和网页工作室,尤其吸引希望将自定义声音集成到产品中的企业用户(如有需要,还可提供更面向企业的本地部署控制)。

类型:文本转语音与语音克隆,以及实时语音转换

公司/开发者:Resemble AI(加拿大初创公司)。

能力与目标用户:

  • 语音克隆: 用户只需几分钟的录音即可创建语音克隆。Resemble的克隆质量很高,能捕捉源声音的音色和口音。目标用户包括希望获得合成配音的内容工作室、打造品牌专属声音形象的企业,以及希望为应用开发独特声音的开发者。
  • 自定义TTS生成: 一旦语音被克隆或设计好,用户可以通过其网页应用或API输入文本,用该声音生成语音。生成的语音可以表达丰富的情感(Resemble可通过数据集或额外控制捕捉情感)。
  • 实时语音转换: 一大亮点——Resemble可以进行语音到语音转换,即你说话时,它几乎可以实时输出为目标克隆声音 [250] [251]。这对于配音或实时应用非常有用(例如,一个人说话,声音以不同角色的声音输出)。
  • Localize(跨语言): 他们的Localize工具可以将语音翻译并转换为60多种语言 [252]。本质上,他们可以让一个英文语音模型说其他语言,同时保持声音特征。这用于全球化本地化对话或内容。
  • 情感与风格:Resemble 强调不仅复制声音,还复制情感与风格。他们的系统可以将参考录音中的情感色彩注入到生成的输出中 [253] [254]
  • 灵活的输入与输出:他们不仅支持纯文本输入,还提供一个API,可以传递情感参数,并有一个“对话”系统来管理会话。他们以标准音频格式输出,并允许精细控制,如调整语速等。
  • 集成与部署:Resemble 提供云 API,也可以为企业部署在本地或私有云(数据不会外泄)。例如,他们有 Unity 插件,方便游戏开发者将语音集成到游戏中。也很可能支持电话集成。
  • 应用场景与用户:游戏开发者(Resemble 曾用于游戏角色配音)、影视后期制作(如修复对白或为 CGI 角色创造声音)、广告(经授权的名人声音克隆用于代言)、呼叫中心(创建拥有自定义声音的虚拟座席)、无障碍(如为失声者提供与原声相似的数字声音)。

主要功能:

  • 四种克隆方式:Resemble 宣传可通过在其网页录音(朗读 50 句等)、上传现有数据、混合多种声音生成新声音,或一键合并多种声音获得新风格来进行克隆。
  • 语音转语音流程:提供输入音频(可以是你用自己的声音说新台词),Resemble 会将其转换为目标声音,并保留输入中的语调等细微差别。几乎是实时(有短暂延迟)。
  • API 和图形界面:非技术用户可以使用流畅的网页界面生成音频片段,通过选择单词并调整它们来调整语调(有手动调整语速或重音的功能,类似于音频编辑)——可与 Descript Overdub 的编辑能力媲美。
  • 情感捕捉:他们宣传“全谱系情感捕捉”——如果训练数据中的源声音包含多种情感状态,模型就能生成这些情感。此外,他们允许按情感标注训练数据,以便在合成时启用“愤怒”或“快乐”模式。
  • 大规模生成与个性化:Resemble 的 API 可实现大规模动态生成(如自动批量生成数千条个性化消息——他们有用例是为音频广告批量生成带有独特姓名的个性化内容)。
  • 音质与提升:他们使用神经网络高质量声码器,确保输出清晰自然。他们提到在转录前分析并修正弱音频信号 [255]——这可能指 Watson 的语音转文本场景。对于 Resemble,不确定,但推测他们会根据需要对音频进行预处理。
  • 项目与协作:他们的网页工作室中有项目管理功能,因此团队可以协作进行语音项目、收听录音等。
  • 伦理/验证:他们同样有措施来确认语音所有权——例如,要求特定的同意短语。如果需要检测,他们还可以在输出中添加水印。
  • Resemble Fill——一个显著的功能:你可以上传真实的语音录音,如果有缺失或错误的词语,你可以输入新文本,它会用克隆的声音无缝地将其与原始音频融合——本质上是AI语音“修补”。在电影后期中用于修复台词而无需重新录音非常有用。
  • 分析与调优:对于企业用户,他们提供使用分析、调优词汇表(用于自定义发音)等功能。

支持的语言:超过50种语言支持语音输出 [256],他们还特别指出在其Localize配音工具中支持62种语言 [257]。因此,覆盖面非常广(与ElevenLabs类似)。涵盖的语言包括英语、西班牙语、法语、德语、意大利语、波兰语、葡萄牙语、俄语、中文、日语、韩语、可能还有多种印度语言、阿拉伯语等。他们经常提到,你可以让语音说原始数据中没有的语言,这意味着他们底层有多语种TTS引擎。
他们还提到如果需要可以处理语码转换,但那更属于STT领域。对于TTS,多语言语音是一个关键特性。

技术基础:

  • Resemble的引擎很可能涉及多说话人神经TTS模型(如Glow-TTS或FastSpeech变体)以及高保真声码器(可能类似HiFi-GAN)。他们集成了语音编码器(类似说话人嵌入技术),以便能通过样本快速克隆。
  • 他们提到使用大规模机器学习——推测是在大量语音数据上训练(可能来自工作室授权、公开数据集等)。
  • 实时语音转换表明该模型可以在近乎实时的情况下获取源语音的音频特征并映射到目标语音特征。他们可能结合了自动语音识别(用于获取音素/时间对齐)然后用目标音色重新合成,或者采用端到端的语音转换模型以提升速度,无需显式转录。
  • 情感控制:他们可能采用风格标记的方法,或为每种情感单独建模,或用情感标签进行微调。
  • Localize:他们可能采用流程:语音转文本(带翻译)再文本转语音。或者有直接的跨语言语音模型(可能性较小)。他们很可能集成了翻译步骤。但他们强调在新语言中保留声音的个性,这意味着用同一个语音模型处理非英语输入。
  • 可扩展性与速度: 他们声称可以实现实时转换,延迟极低。对于普通文本的TTS生成速度可能比ElevenLabs稍慢(如果后端更多),但他们很可能一直在优化。他们提到只需录制50句话就能生成15分钟音频(快速克隆)。
  • 他们可能专注于精细的声学细节还原,以确保克隆声音无法区分。可能使用高级损失函数或GAN来捕捉声音特征。
  • 他们确实提到会对S2S的音频输入进行分析和修正——很可能包括降噪或房间音色匹配。
  • 该技术涵盖语音增强器功能(如提升输入信号的音频质量)。

应用场景:

  • 影视: Resemble已被用于克隆演员的声音以进行后期制作(例如修复台词或在演员无法到场时生成台词)。也用于为CG角色创建AI配音,或让年长演员的声音“返老还童”。
  • 游戏: 游戏工作室在克隆少数配音演员后,使用Resemble生成数小时NPC对白(节省成本并能快速迭代剧本)。
  • 广告与营销: 品牌方(经许可)克隆名人声音,大规模生成广告变体或个性化推广内容。也可创建虚构品牌声音,在全球市场保持一致,仅调整语言但保留相同声线。
  • 对话式AI代理: 一些公司为IVR或虚拟助手定制Resemble专属声音,以匹配品牌形象,而非使用通用TTS声音。(如银行的语音助手用独特声音说话)。
  • 个人语音丧失用途: 患病导致失声的人使用Resemble克隆并保存自己的声音,之后用作“文本转语音”进行交流。(这类似于Lyrebird(已被Descript收购)等公司做的,Resemble也提供此服务)。
  • 媒体本地化: 配音工作室用Resemble Localize快速配音——输入原始语音,输出目标语言的相似声音。大幅缩短时间,但通常需要人工润色。
  • 互动叙事: Resemble可集成到互动故事应用或AI讲故事工具中,需要即时生成声音(由于延迟,可能不如预生成常见,但可行)。
  • 企业培训/在线学习: 使用专业播音员的克隆声音为培训视频或课程生成旁白,可多语种生成,无需重新录制,实现语调一致。

定价模式: Resemble的定价更偏向企业级,但他们确实列出了一些:

  • 他们有免费试用(可能允许有限的语音克隆和几分钟带水印的生成)。
  • 定价通常基于用量或订阅制。对于个人创作者,他们有类似每月30美元的套餐,包含一定用量和语音,超出部分则按用量收费。
  • 企业用户则很可能是定制价格。他们也有API按需付费选项。
  • 例如,有消息称标准音频生成的费用为每秒0.006美元(约每分钟0.36美元),大批量有折扣。
  • 他们可能会对语音创建单独收费(比如如果需要高质量并由他们协助,则按每个语音收取费用)。
  • 鉴于ElevenLabs更便宜,Resemble可能不会在低端价格上竞争,而是靠功能和企业级准备度取胜(例如,他们强调自定义方案下的无限用量,或可协商站点授权)。
  • 他们有一个选项可以直接授权模型用于本地部署,这通常价格较高,但可获得完全控制权。
  • 总体来看,相同用量下可能比ElevenLabs更贵,但提供了一些竞争对手没有的功能(如实时、直接集成管道等,对特定客户来说有其价值)。

优势:

  • 全面的语音AI工具包:Resemble涵盖了所有需求——TTS、克隆、实时语音转换、多语言配音、音频编辑(补全空白)。是语音合成需求的一站式解决方案。
  • 企业聚焦与定制化:他们提供高度灵活性(部署选项、高度支持、定制集成),便于企业采用。
  • 高质量克隆与情感还原:他们的语音克隆保真度很高,多项案例显示其对风格和情感的捕捉能力很强 [258] [259]。例如,母亲节活动中实现了35.4万条个性化消息,语音准确率达90% [260],是规模和质量的有力证明。
  • 实时能力:能够实时进行语音转换是其独特优势——很少有其他产品能做到。这为现场表演或直播等场景带来新用例(例如,可以将演讲者的声音实时转换为另一种声音)。
  • 本地化/多语言:支持60多种语言,并专注于在多语言间保持同一声音 [261],对全球内容制作来说是巨大优势。
  • 伦理与控制:他们自称注重伦理(需获得同意等),并在市场宣传中大力强调这一点,对有知识产权顾虑的客户很有吸引力。他们也有防滥用技术(如要求朗读特定验证句,与其他厂商类似)。
  • 案例研究与经验:Resemble 已被用于高端项目(包括一些好莱坞项目等),这为他们带来了可信度。例如,他们网站上关于 Apple 设计奖获奖游戏使用他们的案例, [262] 展示了创意的可能性(如 Crayola Adventures 的动态配音)。可扩展性与投资回报率:部分客户提到内容产出大幅提升(Truefan 案例:内容创作提升 70 倍,收入影响提升 7 倍 [263])。这表明他们能够有效应对大规模输出。单输出多声音与情感:他们展示了如何轻松创建对话或互动语音(如 ABC Mouse 应用使用其进行与儿童的问答 [264])。语音质量控制:他们具备确保输出质量的功能(如混入背景音频或进行录音室级别母带处理),而一些普通 TTS API 并不关注这些。持续成长:他们不断发布改进(如最近推出新的“情境 AI 语音”或算法更新)。劣势:对业余爱好者不够友好/便宜:与 ElevenLabs 相比,Resemble 更面向企业/公司用户。界面功能强大,但对新手来说可能没有 Eleven 那种极简易用。定价对小用户来说也可能是门槛(他们可能会选择 ElevenLabs)。主流热度略低:虽然在某些圈子里广受认可,但在 2023 年并没有像 ElevenLabs 那样在大众创作者中形成病毒式传播。他们更像是幕后专业人士的服务。与 ElevenLabs 的质量对比:差距不大,但有些语音爱好者认为 ElevenLabs 在英文超真实情感表达上略有优势,而 Resemble 在其他方面(如实时性)非常接近甚至更好。竞争激烈,但感知很重要。聚焦权衡:同时提供 TTS 和实时语音,意味着他们需要在两者之间进行优化权衡,而 ElevenLabs 则专注于离线 TTS 质量。如果管理不当,某一方面可能会略有滞后(不过目前他们处理得还不错)。对训练数据质量的依赖:要获得最佳的 Resemble 克隆效果,理想情况下需提供干净、高质量的录音。如果输入数据嘈杂或有限,输出效果会受影响。他们有增强措施来缓解,但物理规律仍然适用。法律使用顾虑:同类问题——克隆的伦理问题。他们在缓解方面做得不错,但潜在客户仍可能因未来法规或公众对克隆语音(担心被贴上“深度伪造”标签)的看法而犹豫。Resemble 作为企业服务商,通常通过 NDA 和审批流程应对,但这是整个市场的普遍挑战。
  • 竞争与重叠:许多新服务出现(有些基于开源模型),提供更便宜的克隆。Resemble 必须在质量和功能上实现差异化。同时,大型云服务(如微软的 Custom Neural Voice)也在企业订单上直接竞争(尤其是微软现在拥有 Nuance)。
  • 用户控制:虽然他们有一些编辑工具,但调整语音的细微元素可能还不如人类操作得那么细致——创作者可能需要生成多个版本,或者仍需进行一些音频后期处理才能达到理想效果(不过这对所有 AI 语音都适用)。

近期更新(2024–2025):

  • Resemble 于 2024 年左右推出了“Resemble AI 3.0”,模型有重大提升,重点在于更丰富的情感表达和更好的多语言输出。可能引入了类似 VALL-E 或改进的零样本能力,以减少克隆所需的数据量。
  • 他们将Localize 支持的语言数量从大约 40 种扩展到 62 种,并提升了翻译准确性,使原始语调得以保留(可能通过将文本翻译与语音风格提示对齐实现)。
  • 实时语音转换的延迟进一步降低——现在响应时间可能低于 1 秒。
  • 他们推出了以示例控制风格的功能——例如,你提供目标情感或语境的样本,TTS 就会模仿这种风格。这在你希望某句台词听起来兴奋或悲伤时很有用;你可以提供带有该语气的参考片段(可能来自原说话者的数据,甚至是其他声音),以指导合成。
  • 可能集成了小型LLM,用于语调预测(比如自动判断句子内容应如何重读或情感朗读)。
  • 改进了开发者平台:例如,更简化的 API 可并行生成大量语音片段,支持实时流式 TTS 的 websockets 等。
  • 在安全方面:他们推出了语音认证 API,可检测某段音频是否由 Resemble 生成,或有人试图克隆非本人拥有的声音(通过某种内部水印或语音签名检测)。
  • 获得了一些大型合作伙伴——例如,可能与主要配音工作室或媒体公司合作进行内容本地化。Age of Learning(ABC Mouse)案例就是一个例子,未来可能会有更多。
  • 他们的语音人才市场可能已扩展:或许与配音演员建立合作关系,创建可供他人付费使用的授权语音皮肤(实现语音的道德变现)。
  • Resemble 持续的研发让他们在 2025 年依然是顶级语音克隆服务商之一,拥有强大的企业客户群。

官方网站: Resemble AI 语音克隆平台 [265] [266](官方站点,介绍其定制语音和实时语音转语音功能)。

来源:

  1. Google Cloud Text-to-Speech – “380+ 种声音,支持 50+ 种语言和变体。”(Google Cloud 文档 [267]
  2. Google Cloud Speech-to-Text – 高准确率,支持 120+ 种语言,实时转录。(Krisp 博客 [268]
  3. Microsoft Azure Neural TTS – “支持 140 种语言/变体,400 种声音。”(Microsoft TechCommunity [269]
  4. Microsoft Azure STT – 企业级 STT,支持 75+ 种语言的定制和安全性。(Telnyx 博客 [270] [271]
  5. Amazon Polly – “Amazon Polly 提供 40+ 种语言的 100+ 种声音……具有情感表达的生成式语音。”(AWS What’s New [272] [273]
  6. Amazon Transcribe – 新一代 ASR 模型,支持 100+ 种语言,发言人分离,支持实时和批量处理。(AWS 概览 [274] [275]
  7. IBM Watson STT – “可针对行业专有术语定制模型,数据安全性强;应用于医疗/法律领域。”(Krisp 博客 [276] [277]
  8. Nuance Dragon – “Dragon Medical 可高度准确地转录复杂医学术语;支持本地或云端灵活部署。”(Krisp 博客 [278] [279]
  9. OpenAI Whisper – 开源模型,训练数据达68万小时,“支持99种语言”,在多种语言中接近最先进的准确率。(Zilliz 词汇表 [280] [281]
  10. OpenAI Whisper API – “Whisper-large 每分钟$0.006”,通过 OpenAI 提供,为开发者带来低成本高质量转录 [282]】。
  11. Deepgram Nova-2 – “比竞争对手低30%的词错误率(WER);最准确的英文语音转文字(中位WER 8.4%,Whisper为13.2%)。”(Deepgram 基准测试 [283] [284]
  12. Deepgram 定制化 – 允许针对特定术语进行自定义模型训练,准确率比前一代模型提升18%以上。(Gladia 博客 via Deepgram [285] [286]
  13. Speechmatics 准确率与偏差 – “儿童语音识别准确率达91.8%,谷歌为83.4%;对非裔美国人语音错误率降低45%。”(Speechmatics 新闻 [287] [288]
  14. Speechmatics Flow (2024) – 实时ASR + LLM + TTS,用于语音助手;支持50种语言,涵盖多样口音。 (audioXpress [289] [290]
  15. ElevenLabs Voice AI – “300多种声音,超逼真且具备情感变化;支持语音克隆(5分钟音频→新声音)。” (Zapier Review [291] [292]
  16. ElevenLabs 价格 – 每月免费10分钟,付费方案每月$5起,含30分钟、语音克隆及商业用途。 (Zapier [293] [294]
  17. ElevenLabs 多语言 – 一套声音可说30多种语言;expressive v3模型可低语、喊叫,甚至唱歌。 (ElevenLabs Blog [295] [296]
  18. Resemble AI 语音克隆 – “用你的克隆声音生成62种语言的语音;支持实时语音到语音转换。” (Resemble AI [297] [298]
  19. Resemble 案例研究 – Truefan活动:用AI克隆名人声音生成35.4万条个性化视频消息,相似度达90%,投资回报率7倍 [299]】, *ABC Mouse使用Resemble为儿童互动应用实现实时问答语音 [300]】。
  20. Resemble AI 功能 – 克隆语音中的情感捕捉与风格迁移;可对现有音频进行修补(“Resemble Fill”功能)。(Resemble AI 文档 [301] [302]

References

1. cloud.google.com, 2. id.cloud-ace.com, 3. cloud.google.com, 4. krisp.ai, 5. cloud.google.com, 6. techcommunity.microsoft.com, 7. telnyx.com, 8. krisp.ai, 9. telnyx.com, 10. krisp.ai, 11. krisp.ai, 12. aws.amazon.com, 13. aws.amazon.com, 14. aws.amazon.com, 15. telnyx.com, 16. aws.amazon.com, 17. krisp.ai, 18. telnyx.com, 19. krisp.ai, 20. krisp.ai, 21. zilliz.com, 22. zilliz.com, 23. zilliz.com, 24. deepgram.com, 25. deepgram.com, 26. telnyx.com, 27. deepgram.com, 28. audioxpress.com, 29. audioxpress.com, 30. audioxpress.com, 31. www.speechmatics.com, 32. www.speechmatics.com, 33. elevenlabs.io, 34. www.resemble.ai, 35. zapier.com, 36. zapier.com, 37. zapier.com, 38. zapier.com, 39. www.resemble.ai, 40. www.resemble.ai, 41. www.resemble.ai, 42. www.videosdk.live, 43. krisp.ai, 44. id.cloud-ace.com, 45. cloud.google.com, 46. www.videosdk.live, 47. www.videosdk.live, 48. krisp.ai, 49. krisp.ai, 50. krisp.ai, 51. krisp.ai, 52. id.cloud-ace.com, 53. id.cloud-ace.com, 54. cloud.google.com, 55. krisp.ai, 56. www.googlecloudcommunity.com, 57. www.googlecloudcommunity.com, 58. cloud.google.com, 59. cloud.google.com, 60. cloud.google.com, 61. cloud.google.com, 62. cloud.google.com, 63. telnyx.com, 64. telnyx.com, 65. www.googlecloudcommunity.com, 66. www.googlecloudcommunity.com, 67. cloud.google.com, 68. cloud.google.com, 69. www.gcpweekly.com, 70. telnyx.com, 71. id.cloud-ace.com, 72. id.cloud-ace.com, 73. cloud.google.com, 74. krisp.ai, 75. techcommunity.microsoft.com, 76. telnyx.com, 77. krisp.ai, 78. techcommunity.microsoft.com, 79. telnyx.com, 80. krisp.ai, 81. krisp.ai, 82. techcommunity.microsoft.com, 83. techcommunity.microsoft.com, 84. techcommunity.microsoft.com, 85. krisp.ai, 86. krisp.ai, 87. krisp.ai, 88. krisp.ai, 89. techcommunity.microsoft.com, 90. telnyx.com, 91. techcommunity.microsoft.com, 92. learn.microsoft.com, 93. aws.amazon.com, 94. aws.amazon.com, 95. techcommunity.microsoft.com, 96. aws.amazon.com, 97. aws.amazon.com, 98. aws.amazon.com, 99. aws.amazon.com, 100. aws.amazon.com, 101. krisp.ai, 102. telnyx.com, 103. krisp.ai, 104. aws.amazon.com, 105. aws.amazon.com, 106. venturebeat.com, 107. aws.amazon.com, 108. docs.aws.amazon.com, 109. aws.amazon.com, 110. aws.amazon.com, 111. aws.amazon.com, 112. aws.amazon.com, 113. aws.amazon.com, 114. aws.amazon.com, 115. aws.amazon.com, 116. aws.amazon.com, 117. aws.amazon.com, 118. aws.amazon.com, 119. aws.amazon.com, 120. aws.amazon.com, 121. aws.amazon.com, 122. aws.amazon.com, 123. docs.aws.amazon.com, 124. aws.amazon.com, 125. aws.amazon.com, 126. aws.amazon.com, 127. aws.amazon.com, 128. aws.amazon.com, 129. aws.amazon.com, 130. cloud.ibm.com, 131. krisp.ai, 132. krisp.ai, 133. krisp.ai, 134. voximplant.com, 135. krisp.ai, 136. krisp.ai, 137. cloud.ibm.com, 138. cloud.ibm.com, 139. telnyx.com, 140. telnyx.com, 141. krisp.ai, 142. krisp.ai, 143. krisp.ai, 144. krisp.ai, 145. krisp.ai, 146. zilliz.com, 147. zilliz.com, 148. zilliz.com, 149. deepgram.com, 150. deepgram.com, 151. deepgram.com, 152. zilliz.com, 153. zilliz.com, 154. community.openai.com, 155. zilliz.com, 156. zilliz.com, 157. zilliz.com, 158. zilliz.com, 159. deepgram.com, 160. deepgram.com, 161. zilliz.com, 162. deepgram.com, 163. zilliz.com, 164. zilliz.com, 165. zilliz.com, 166. deepgram.com, 167. deepgram.com, 168. deepgram.com, 169. deepgram.com, 170. deepgram.com, 171. deepgram.com, 172. deepgram.com, 173. deepgram.com, 174. deepgram.com, 175. deepgram.com, 176. deepgram.com, 177. deepgram.com, 178. deepgram.com, 179. deepgram.com, 180. deepgram.com, 181. deepgram.com, 182. deepgram.com, 183. deepgram.com, 184. deepgram.com, 185. telnyx.com, 186. deepgram.com, 187. www.speechmatics.com, 188. www.speechmatics.com, 189. audioxpress.com, 190. audioxpress.com, 191. www.speechmatics.com, 192. www.speechmatics.com, 193. docs.speechmatics.com, 194. audioxpress.com, 195. audioxpress.com, 196. www.speechmatics.com, 197. www.speechmatics.com, 198. www.speechmatics.com, 199. www.speechmatics.com, 200. www.speechmatics.com, 201. docs.speechmatics.com, 202. audioxpress.com, 203. audioxpress.com, 204. docs.speechmatics.com, 205. docs.speechmatics.com, 206. docs.speechmatics.com, 207. www.speechmatics.com, 208. docs.speechmatics.com, 209. audioxpress.com, 210. www.speechmatics.com, 211. www.speechmatics.com, 212. www.speechmatics.com, 213. audioxpress.com, 214. audioxpress.com, 215. docs.speechmatics.com, 216. docs.speechmatics.com, 217. docs.speechmatics.com, 218. audioxpress.com, 219. www.speechmatics.com, 220. zapier.com, 221. zapier.com, 222. zapier.com, 223. zapier.com, 224. zapier.com, 225. elevenlabs.io, 226. elevenlabs.io, 227. elevenlabs.io, 228. elevenlabs.io, 229. zapier.com, 230. zapier.com, 231. elevenlabs.io, 232. elevenlabs.io, 233. zapier.com, 234. elevenlabs.io, 235. elevenlabs.io, 236. elevenlabs.io, 237. zapier.com, 238. zapier.com, 239. zapier.com, 240. zapier.com, 241. zapier.com, 242. zapier.com, 243. elevenlabs.io, 244. elevenlabs.io, 245. zapier.com, 246. zapier.com, 247. zapier.com, 248. www.resemble.ai, 249. www.resemble.ai, 250. www.resemble.ai, 251. www.resemble.ai, 252. www.resemble.ai, 253. www.resemble.ai, 254. www.resemble.ai, 255. telnyx.com, 256. www.aibase.com, 257. www.resemble.ai, 258. www.resemble.ai, 259. www.resemble.ai, 260. www.resemble.ai, 261. www.resemble.ai, 262. www.resemble.ai, 263. www.resemble.ai, 264. www.resemble.ai, 265. www.aibase.com, 266. www.resemble.ai, 267. cloud.google.com, 268. krisp.ai, 269. techcommunity.microsoft.com, 270. telnyx.com, 271. telnyx.com, 272. aws.amazon.com, 273. aws.amazon.com, 274. aws.amazon.com, 275. aws.amazon.com, 276. krisp.ai, 277. krisp.ai, 278. krisp.ai, 279. krisp.ai, 280. zilliz.com, 281. zilliz.com, 282. deepgram.com, 283. deepgram.com, 284. deepgram.com, 285. www.gladia.io, 286. deepgram.com, 287. www.speechmatics.com, 288. www.speechmatics.com, 289. audioxpress.com, 290. audioxpress.com, 291. zapier.com, 292. zapier.com, 293. zapier.com, 294. zapier.com, 295. elevenlabs.io, 296. elevenlabs.io, 297. www.resemble.ai, 298. www.resemble.ai, 299. www.resemble.ai, 300. www.resemble.ai, 301. www.resemble.ai, 302. www.resemble.ai

From Skies to Sidewalks: Inside the 2025 Drone Delivery Revolution
Previous Story

从天空到人行道:揭秘2025年无人机送货革命

Interstellar Comet 3I/ATLAS: A Visitor from Beyond the Solar System
Next Story

罕见的星际彗星飞驰穿越太阳系,或为迄今观测到的最古老彗星

Go toTop