10 najlepszych technologii głosu i mowy AI dominujących w 2025 roku (TTS, STT, klonowanie głosu)
Google Cloud Speech AI oferuje syntezę mowy (Text-to-Speech) z ponad 380 głosami w ponad 50 językach, wykorzystując WaveNet/Neural2, rozpoznawanie mowy (Speech-to-Text) w ponad 125 językach oraz Custom Voice dostępny ogólnie w 2024 roku. Azure Speech Service oferuje Neural Text-to-Speech z 446 głosami w 144 językach (stan na połowę 2024 roku), rozpoznawanie mowy (Speech-to-Text) w ponad 75 językach oraz Custom Neural Voice z wdrożeniem w chmurze lub lokalnie. Amazon Polly oferuje ponad 100 głosów w ponad 40 językach, obejmuje Neural Generative TTS z 13 ultrawyrazistymi głosami do końca 2024 roku, a Amazon Transcribe obsługuje ponad 100 języków. IBM Watson Speech Services