Top 10 AI Voice and Speech Technologies Dominating 2025 (TTS, STT, Voice Cloning)
17 سبتمبر 2025
442 mins read

أفضل 10 تقنيات صوتية وكلامية بالذكاء الاصطناعي تهيمن على عام 2025 (تحويل النص إلى كلام، تحويل الكلام إلى نص، استنساخ الصوت)

  • تقدم Google Cloud Speech AI تحويل النص إلى كلام مع أكثر من 380 صوتًا في أكثر من 50 لغة باستخدام WaveNet/Neural2، وتحويل الكلام إلى نص في أكثر من 125 لغة، وصوت مخصص متاح بشكل عام في 2024.
  • تقدم Azure Speech Service تحويل النص إلى كلام العصبي مع 446 صوتًا في 144 لغة (حتى منتصف 2024)، وتحويل الكلام إلى نص في أكثر من 75 لغة، وصوت عصبي مخصص مع إمكانية النشر السحابي أو المحلي.
  • تقدم Amazon Polly أكثر من 100 صوت في أكثر من 40 لغة، وتشمل TTS العصبي التوليدي مع 13 صوتًا فائق التعبير بحلول نهاية 2024، ويدعم Amazon Transcribe أكثر من 100 لغة.
  • توفر IBM Watson Speech Services تحويل النص إلى كلام في أكثر من 13 لغة وتحويل الكلام إلى نص في 8–10 لغات، مع نماذج كلام كبيرة لعام 2024 وإمكانية النشر المحلي عبر Cloud Pak.
  • يقدم Nuance Dragon Medical One دقة تقارب 100% في الإملاء الطبي بعد تكيّف المستخدم، ويدعم التشغيل دون اتصال على الكمبيوتر، ويتكامل مع Microsoft 365 Dictate وDragon Ambient Experience.
  • OpenAI Whisper هو نموذج تحويل الكلام إلى نص مفتوح المصدر تم تدريبه على 680,000 ساعة من الصوت، يدعم حوالي 99 لغة، يمكنه ترجمة الكلام، وWhisper-large عبر API يكلف 0.006 دولار للدقيقة.
  • أصدرت Deepgram نموذج Nova-2 في 2024، محققًا انخفاضًا بنحو 30% في معدل الخطأ في الكلمات ومتوسط معدل خطأ 8.4% عبر بيانات متنوعة، مع بث مباشر في الوقت الفعلي وإمكانية النشر المحلي.
  • Speechmatics Flow، الذي أُطلق في 2024، يجمع بين تحويل الكلام إلى نص ونموذج لغوي كبير وتحويل النص إلى كلام، ويدعم أكثر من 30 لغة، ويحقق دقة 91.8% في أصوات الأطفال مع تحسن 45% لأصوات الأمريكيين من أصل أفريقي؛ تمت إضافة الأيرلندية والمالطية في أغسطس 2024.
  • تقدم ElevenLabs أكثر من 300 صوت جاهز، ومع نموذج v3 لعام 2024، تدعم أكثر من 30 لغة واستنساخ الصوت من بضع دقائق من الصوت.
  • تمكن Resemble AI من تحويل واستنساخ الصوت في الوقت الفعلي عبر 62 لغة مع Localize، وحملة Truefan أنتجت 354,000 رسالة مخصصة بنسبة تشابه صوتي تقارب 90%.

مقدمة

تتميز تكنولوجيا الذكاء الاصطناعي الصوتي في عام 2025 بتطورات مذهلة في تحويل النص إلى كلام (TTS)، تحويل الكلام إلى نص (STT)، واستنساخ الصوت. توفر المنصات الرائدة في الصناعة توليفًا صوتيًا طبيعيًا بشكل متزايد وبدقة عالية في التعرف على الكلام، مما يمكّن من حالات استخدام مثل المساعدين الافتراضيين، والنسخ الفوري، والتعليق الصوتي الواقعي، والدبلجة متعددة اللغات. يستعرض هذا التقرير أفضل 10 منصات ذكاء اصطناعي صوتي تهيمن على عام 2025، متفوقة في واحد أو أكثر من هذه المجالات. يتضمن كل إدخال نظرة عامة على القدرات، والميزات الرئيسية، واللغات المدعومة، والتقنية الأساسية، وحالات الاستخدام، والتسعير، ونقاط القوة/الضعف، والابتكارات الحديثة (2024–2025)، ورابط إلى الصفحة الرسمية للمنتج. كما تم توفير جدول مقارنة ملخص لمراجعة سريعة لأبرز ميزاتها.

جدول مقارنة ملخص

المنصةالقدرات (تحويل النص إلى كلام/تحويل الكلام إلى نص/الاستنساخ)نموذج التسعيرالمستخدمون المستهدفون وحالات الاستخدام
Google Cloud Speech AIتحويل النص إلى كلام (أصوات WaveNet/Neural2)؛ تحويل الكلام إلى نص (أكثر من 120 لغة)؛ خيار الصوت المخصصcloud.google.com id.cloud-ace.comالدفع حسب الاستخدام (لكل حرف في تحويل النص إلى كلام؛ لكل دقيقة في تحويل الكلام إلى نص)؛ رصيد مجاني متاحcloud.google.comالمؤسسات والمطورون الذين يبنون تطبيقات صوتية على نطاق عالمي (مراكز الاتصال، نسخ الوسائط، الرد الصوتي التفاعلي، إلخ)krisp.ai cloud.google.com
Microsoft Azure Speech Serviceتحويل النص إلى كلام (أصوات عصبية – أكثر من 400 صوت، أكثر من 140 لغةtechcommunity.microsoft.com)؛ تحويل الكلام إلى نص (أكثر من 75 لغة، ترجمة)telnyx.com krisp.ai؛ صوت عصبي مخصص (استنساخ)الدفع حسب الاستخدام (لكل حرف/ساعة)؛ طبقة مجانية وائتمانات Azure للتجربةtelnyx.comالمؤسسات التي تحتاج إلى ذكاء صوتي آمن وقابل للتخصيص (تطبيقات متعددة اللغات، مساعدين صوتيين، نسخ طبي/قانوني)krisp.ai krisp.ai
Amazon AWS Voice AI (Polly & Transcribe)تحويل النص إلى كلام (أكثر من 100 صوت، أكثر من 40 لغةaws.amazon.com، أصوات عصبية وتوليدية)؛ تحويل الكلام إلى نص (فوري ودفعات، أكثر من 100 لغةaws.amazon.com)الدفع حسب الاستخدام (لكل مليون حرف في تحويل النص إلى كلام؛ لكل ثانية في تحويل الكلام إلى نص)؛ طبقة مجانية لمدة 12 شهرًا <a href=”https://aws.amazon.com/polly/#:~:text=Yes,details%2C%20see%20Amazon%20Polly%الشركات على AWS التي تحتاج إلى ميزات صوتية قابلة للتوسع (سرد الوسائط، نسخ مكالمات خدمة العملاء، تطبيقات تفاعلية صوتياً) telnyx.com aws.amazon.com
خدمات IBM Watson الصوتيةتحويل النص إلى كلام (أصوات عصبية بعدة لغات)؛ تحويل الكلام إلى نص (لحظي ودفعات، نماذج مخصصة حسب المجال)الدفع حسب الاستخدام (طبقة مجانية محدودة؛ تسعير متدرج حسب الاستخدام)المؤسسات في المجالات المتخصصة (المالية، الرعاية الصحية، القانونية) التي تحتاج إلى حلول صوتية قابلة للتخصيص بدرجة عالية وآمنةkrisp.ai telnyx.com
Nuance Dragon (مايكروسوفت)تحويل الكلام إلى نص (إملاء عالي الدقة؛ نسخ مخصصة للمجالات مثل الطب والقانون)؛ أوامر صوتيةترخيص لكل مستخدم أو اشتراك (برنامج Dragon)؛ تراخيص مؤسسية للخدمات السحابيةالمحترفون (الأطباء، المحامون) والمؤسسات التي تتطلب نسخاً عالي الدقة وتوثيقاً قائماً على الصوتkrisp.ai krisp.ai
OpenAI Whisper (مفتوح المصدر)تحويل الكلام إلى نص (أفضل تقنيات التعرف على الكلام بعدة لغات – حوالي 99 لغة zilliz.com؛ مع الترجمة أيضاً)مفتوح المصدر (رخصة MIT)؛ استخدام OpenAI API بحوالي 0.006 دولار/دقيقةالمطورون والباحثون الذين يحتاجون إلى أعلى دقة في التعرف على الكلام (مثل خدمات النسخ، الترجمة اللغوية، تحليل بيانات الصوت)zilliz.com zilliz.com
Deepgramتحويل الكلام إلى نص (نماذج مؤسسية قائمة على المحولات مع خطأ أقل بنسبة 30% مقارنة بالمنافسين deepgram.com)؛ بعض قدرات تحويل النص إلى كلام بدأت بالظهوراشتراك أو API حسب الاستخدام (أرصدة مجانية في الطبقة الأولى، ثم تسعير متدرج؛ حوالي 0.004–0.005 دولار/دقيقة لأحدث نموذج)deepgram.comشركات التقنية ومراكز الاتصال التي تحتاج إلى reنسخ فوري وعالي الحجم مع ضبط مخصص للنموذج telnyx.com deepgram.com
Speechmaticsتحويل الكلام إلى نص (ASR ذاتي الإشراف، أكثر من 50 لغة مع أي لهجة audioxpress.com)؛ بعض حلول الصوت المدمجة مع LLM (واجهة Flow API لتحويل الكلام إلى نص + تحويل النص إلى كلام) audioxpress.com audioxpress.comاشتراك أو ترخيص مؤسسي (واجهة برمجة تطبيقات سحابية أو في الموقع)؛ عروض أسعار مخصصة للحجمالوسائط والشركات العالمية التي تتطلب نسخًا شاملاً وغير متحيز للهجات (تسميات توضيحية مباشرة، تحليلات صوتية) مع خيارات في الموقع للخصوصية speechmatics.com speechmatics.com
ElevenLabsتحويل النص إلى كلام (أصوات واقعية للغاية ومعبرة)؛ استنساخ الصوت (أصوات مخصصة من عينات)؛ توليد صوت متعدد اللغات (أكثر من 30 لغة بنفس الصوت الأصلي) elevenlabs.io resemble.aiخطة مجانية (~10 دقائق/شهر)؛ خطط مدفوعة تبدأ من 5 دولارات/شهر (30 دقيقة+) zapier.com zapier.comصناع المحتوى، الناشرون، والمطورون الذين يحتاجون إلى تعليق صوتي عالي الجودة، سرد كتب صوتية، أصوات شخصيات، أو استنساخ صوتي للوسائط zapier.com zapier.com
Resemble AIتحويل النص إلى كلام واستنساخ الصوت (استنساخ صوتي فوري مع عاطفة؛ تحويل الكلام إلى كلام)؛ دبلجة بأكثر من 50 لغة بنفس الصوت <a href=”https://www.aibase.com/news/554#:~:text=The%20data%20to%20be%20translateaibase.com resemble.aiتسعير للمؤسسات وعلى أساس الاستخدام (خطط مخصصة؛ تجربة مجانية متاحة)فرق الإعلام والألعاب والتسويق التي تنشئ أصوات علامات تجارية مخصصة، أو محتوى صوتي محلي، أو تحويل صوتي في الوقت الفعلي في التطبيقات التفاعليةresemble.ai resemble.ai

1. الذكاء الاصطناعي الصوتي من Google Cloud (تحويل النص إلى كلام وتحويل الكلام إلى نص) – Google

نظرة عامة: تقدم Google Cloud للذكاء الاصطناعي الصوتي تشمل خدمة تحويل النص إلى كلام السحابية وتحويل الكلام إلى نص APIs، والتي تشتهر بالدقة العالية وقابلية التوسع. تنتج خدمة تحويل النص إلى كلام من Google صوتًا طبيعيًا يشبه الإنسان باستخدام نماذج التعلم العميق المتقدمة (مثل WaveNet وNeural2) videosdk.live، بينما تحقق خدمة تحويل الكلام إلى نص دقة عالية في النسخ الفوري بأكثر من 120 لغة/لهجة krisp.ai. تتراوح الفئة المستهدفة من الشركات التي تحتاج إلى تطبيقات صوتية متعددة اللغات على مستوى العالم إلى المطورين الذين يدمجون الصوت في التطبيقات أو الأجهزة. كما تقدم Google خيار الصوت المخصص الذي يسمح للعملاء بإنشاء صوت ذكاء اصطناعي فريد باستخدام تسجيلاتهم الخاصة id.cloud-ace.com (مع ضمانات أخلاقية).

الميزات الرئيسية:

  • تحويل النص إلى كلام: أكثر من 380 صوتًا عبر أكثر من 50 لغة/لهجة cloud.google.com، بما في ذلك WaveNet وأحدث أصوات Neural2 لمحاكاة النبرة البشرية الواقعية. يوفر أنماطًا صوتية (مثل أصوات “الاستوديو” التي تحاكي المعلقين المحترفين) وتحكمًا دقيقًا عبر SSML لضبط النغمة، والسرعة، والوقفات videosdk.live videosdk.live.
  • تحويل الكلام إلى نص: نسخ فوري (بث مباشر) ونسخ دفعات مع دعم لأكثر من 125 لغة، وعلامات ترقيم تلقائية، وطوابع زمنية على مستوى الكلمة، وتحديد المتحدثين krisp.ai krisp.ai. يتيح تكييف الكلام (مفردات مخصصة) لتحسين التعرف على المصطلحات المتخصصة في المجالات المختلفة krisp.ai krisp.ai.
  • النماذج المخصصة: يتيح Cloud STT للمستخدمين ضبط النماذج باستخدام مصطلحات محددة، ويقدم Cloud TTS Custom Voice (استنساخ صوت عصبي) لهوية صوتية خاصة بالعلامة التجارية id.cloud-ace.com id.cloud-ace.com.
  • التكامل والأدوات: يندمج بسلاسة مع منظومة Google Cloud (مثل Dialogflow CX للروبوتات الصوتية). يوفر SDKs/REST APIs، ويدعم النشر على منصات متعددة.

اللغات المدعومة: أكثر من 50 لغة لـ TTS (تشمل جميع لغات العالم الرئيسية والعديد من اللهجات الإقليمية) cloud.google.com، وأكثر من 120 لغة لـ STT krisp.ai. هذا الدعم الواسع للغات يجعله مناسبًا للتطبيقات العالمية واحتياجات التوطين. كلا الـ APIs يدعمان العديد من اللهجات واللكنات الإنجليزية؛ يمكن لـ STT اكتشاف اللغات تلقائيًا في الصوت متعدد اللغات وحتى نسخ التبديل بين اللغات (حتى 4 لغات في جملة واحدة) googlecloudcommunity.com googlecloudcommunity.com.

الأسس التقنية: تم بناء TTS من Google على أبحاث DeepMind – مثل WaveNet vocoders العصبية والتطورات اللاحقة AudioLM/Chirp لإنتاج صوت معبر بزمن استجابة منخفض cloud.google.com cloud.google.com. يتم توليد الأصوات باستخدام شبكات عصبية عميقة تحقق تقريبًا مستوى الإنسان في التنغيم. يستخدم STT نماذج تعلم عميق شاملة (مدعومة ببيانات صوتية ضخمة من Google)؛ وقد استفادت التحديثات من بنى Transformer والتدريب واسع النطاق لتحسين الدقة باستمرار. كما تضمن Google أن النماذج مُحسّنة للنشر على نطاق واسع في السحابة، مع ميزات مثل التعرف المتدفق بزمن استجابة منخفض، والقدرة على معالجة الصوت المليء بالضوضاء عبر تدريب مقاوم للضوضاء.

حالات الاستخدام: تعدد استخدامات واجهات Google الصوتية يدفع حالات استخدام مثل:

  • أتمتة مراكز الاتصال: أنظمة IVR وروبوتات صوتية تتحدث بشكل طبيعي مع العملاء (مثل وكيل صوتي Dialogflow يقدم معلومات الحساب) cloud.google.com.
  • نسخ الوسائط والترجمة النصية: نسخ البودكاست أو الفيديوهات أو البثوث المباشرة (ترجمة فورية للنصوص) بعدة لغات لزيادة إمكانية الوصول أو الفهرسة.
  • المساعدات الصوتية وإنترنت الأشياء: تشغيل المساعدات الافتراضية على الهواتف الذكية أو أجهزة المنزل الذكي (مثل Google Assistant الذي يستخدم هذه التقنية) وتمكين التحكم الصوتي في تطبيقات إنترنت الأشياء.
  • التعلم الإلكتروني وصناعة المحتوى: إنشاء روايات للكتب الصوتية أو تعليق صوتي للفيديوهات بأصوات طبيعية، ونسخ المحاضرات أو الاجتماعات لمراجعتها لاحقًا.
  • إمكانية الوصول: تمكين تحويل النص إلى كلام لقارئات الشاشة والأجهزة المساعدة، وتحويل الكلام إلى نص ليتمكن المستخدمون من الإملاء بدلًا من الكتابة.

التسعير: تستخدم Google Cloud نموذج الدفع حسب الاستخدام. بالنسبة لتحويل النص إلى كلام (TTS)، يتم التسعير لكل مليون حرف (مثلاً حوالي 16 دولارًا لكل مليون حرف للأصوات WaveNet/Neural2، وأقل للأصوات القياسية). أما تحويل الكلام إلى نص (STT) فيتم احتسابه لكل 15 ثانية أو لكل دقيقة صوت (~0.006 دولار لكل 15 ثانية للنماذج القياسية) حسب فئة النموذج وما إذا كان في الوقت الفعلي أو دفعة واحدة. تقدم Google طبقة مجانية سخية – يحصل العملاء الجدد على رصيد بقيمة 300 دولار وحصص استخدام مجانية شهرية (مثلاً ساعة واحدة من STT وعدة ملايين من الحروف في TTS) cloud.google.com. هذا يجعل التجربة الأولية منخفضة التكلفة. تتوفر خصومات على الحجم وعقود الاستخدام الملتزم به للكميات الكبيرة.

نقاط القوة: تتميز منصة Google بـجودة ودقة صوتية عالية (بفضل أبحاث الذكاء الاصطناعي لدى Google). كما توفر دعمًا لغويًا واسعًا (تغطية عالمية حقيقية) وقابلية التوسع على بنية Google التحتية (يمكنها التعامل مع أحمال العمل الكبيرة في الوقت الفعلي). الخدمات مناسبة للمطورين مع واجهات برمجة تطبيقات REST/gRPC بسيطة ومكتبات عملاء. الابتكار المستمر من Google (مثل أصوات جديدة وتحسينات النماذج) يضمن أداءً متقدمًا cloud.google.com. بالإضافة إلى ذلك، كونها مجموعة سحابية متكاملة، فهي تتكامل جيدًا مع خدمات Google الأخرى (التخزين، الترجمة، Dialogflow) لبناء تطبيقات صوتية متكاملة.

نقاط الضعف: قد تصبح التكلفة مرتفعة عند التوسع، خاصةً في إنشاء TTS طويل أو النسخ المستمر على مدار الساعة – أشار المستخدمون إلى أن تسعير Google قد يكون مكلفًا للاستخدام واسع النطاق بدون خصومات الحجم telnyx.com. أبلغ بعض المستخدمين أن دقة STT قد تختلف مع اللهجات الثقيلة أو الصوت المليء بالضوضاء، مما يتطلب تكييف النموذج. قد يحدث بعض التأخير في STT الفوري تحت الحمل العالي telnyx.com. هناك اعتبار آخر يتعلق بحوكمة البيانات لدى Google – رغم أن الخدمة توفر خيارات خصوصية البيانات، إلا أن بعض المؤسسات ذات البيانات الحساسة قد تفضل الحلول المحلية (والتي لا توفرها Google بشكل مباشر بسبب تركيزها على السحابة، على عكس بعض المنافسين).

التحديثات الأخيرة (2024–2025): واصلت Google تحسين عروضها الصوتية. في أواخر عام 2024، بدأت ترقية العديد من أصوات TTS باللغات الأوروبية إلى نسخ جديدة وأكثر طبيعية googlecloudcommunity.com googlecloudcommunity.com. يدعم Cloud TTS الآن أصوات Chirp v3 (التي تستفيد من أبحاث AudioLM للمحادثة العفوية) وتوليف الحوار متعدد المتحدثين cloud.google.com cloud.google.com. من ناحية STT، أطلقت Google نماذج محسنة بدقة أفضل وتغطية لغوية موسعة تتجاوز 125 لغة gcpweekly.com telnyx.com. ومن الجدير بالذكر أن Google جعلت الصوت المخصص متاحًا بشكل عام، مما يسمح للعملاء بتدريب ونشر أصوات TTS مخصصة باستخدام بياناتهم الصوتية الخاصة (مع عملية مراجعة أخلاقية من Google) id.cloud-ace.com id.cloud-ace.com. هذه الابتكارات، إلى جانب الإضافات التدريجية للغات واللهجات، تبقي Google في طليعة الذكاء الاصطناعي الصوتي في عام 2025.

الموقع الرسمي: Google Cloud Text-to-Speech cloud.google.com (لـ TTS) وSpeech-to-Text krisp.ai صفحات المنتجات.

2. خدمة Microsoft Azure Speech (TTS، STT، استنساخ الصوت) – مايكروسوفت

نظرة عامة: خدمة Microsoft’s Azure AI Speech هي منصة على مستوى المؤسسات تقدم Neural Text-to-Speech، Speech-to-Text، بالإضافة إلى إمكانيات مثل Speech Translation وCustom Neural Voice. يوفر تحويل النص إلى كلام من Azure مجموعة ضخمة من الأصوات (أكثر من 400 صوت في 140 لغة/منطقة) بجودة شبيهة بالبشر techcommunity.microsoft.com، بما في ذلك الأنماط والمشاعر. أما تحويل الكلام إلى نص (التعرف على الكلام) فهو دقيق للغاية، ويدعم أكثر من 70 لغة للنقل الفوري أو التفريغ الدفعي telnyx.com، ويمكنه حتى ترجمة الصوت المنطوق مباشرة إلى لغات أخرى krisp.ai. من أبرز ميزاته التخصيص على مستوى المؤسسات: يمكن للعملاء تدريب نماذج صوتية/لغوية مخصصة أو إنشاء صوت مستنسخ لعلامتهم التجارية. خدمة Azure Speech متكاملة بشكل وثيق مع منظومة سحابة Azure (مع SDKs وREST APIs) ومدعومة بعقود من أبحاث وتطوير مايكروسوفت في مجال الكلام (بما في ذلك تقنيات Nuance التي استحوذت عليها مايكروسوفت).

الميزات الرئيسية:

  • تحويل النص إلى كلام العصبي: مكتبة ضخمة من الأصوات العصبية الجاهزة في 144 لغة/متغير (446 صوتًا حتى منتصف 2024) techcommunity.microsoft.com، تتراوح من نبرات المحادثة العادية إلى أنماط السرد الرسمية. تم تصميم الأصوات باستخدام نماذج التعلم العميق من مايكروسوفت للجرس الصوتي (مثل متغيرات Transformer وTacotron). تقدم Azure أنماط صوت فريدة (مبتهج، متعاطف، خدمة عملاء، نشرة أخبار، إلخ) وتحكمات دقيقة (عبر SSML) في النغمة والسرعة والنطق. من الميزات البارزة دعم متعدد اللغات ومتعدد المتحدثين: بعض الأصوات يمكنها التعامل مع التبديل بين اللغات، وتدعم الخدمة أدوار متحدثين متعددة لإنتاج الحوارات.
  • تحويل الكلام إلى نص: التعرف التلقائي على الكلام بدقة عالية مع أوضاع البث الفوري والتفريغ الدفعي. يدعم 75+ لغة/لهجة telnyx.com ويوفر ميزات مثل الترقيم التلقائي، تصفية الألفاظ النابية، تمييز المتحدثين، المفردات المخصصة، وترجمة الكلام (تفريغ وترجمة الكلام في خطوة واحدة) krisp.ai. يمكن استخدام تحويل الكلام إلى نص من Azure للأوامر القصيرة أو النصوص الطويلة، مع خيارات لنماذج محسنة لحالات استخدام محددة (مثل مراكز الاتصال).
  • الصوت العصبي المخصص: خدمة استنساخ الصوت التي تتيح للمؤسسات إنشاء صوت ذكاء اصطناعي فريد يتم تصميمه بناءً على متحدث مستهدف (يتطلب حوالي 30 دقيقة من تسجيلات التدريب الصوتي ومراجعة صارمة للموافقة). ينتج عن ذلك صوت اصطناعي يمثل علامة تجارية أو شخصية، ويُستخدم في منتجات مثل الألعاب الغامرة أو الوكلاء الحواريين. الصوت العصبي المخصص من مايكروسوفت معروف بجودته، كما هو الحال مع صوت Flo الخاص بعلامة Progressive أو روبوتات الدردشة الخاصة بـ AT&T.
  • الأمان والنشر: تركز خدمة Azure Speech على أمان المؤسسات – تشفير البيانات، الامتثال لمعايير الخصوصية، وخيارات استخدام نقاط النهاية المعبأة في حاويات (حتى تتمكن الشركات من نشر نماذج الكلام في مقراتها أو على الحافة في السيناريوهات الحساسة) krisp.ai. هذه المرونة (سحابي أو محلي عبر الحاويات) ذات قيمة في قطاعات مثل الرعاية الصحية.
  • التكامل: تم تصميمها للتكامل مع نظام Azure البيئي – على سبيل المثال، للاستخدام مع الخدمات المعرفية (الترجمة، البحث المعرفي)، إطار عمل الروبوتات (لإنشاء روبوتات مدعومة بالصوت)، أو منصة Power. كما تدعم التعرف على المتحدث (المصادقة الصوتية) كجزء من خدمة الكلام.

اللغات المدعومة: الذكاء الاصطناعي الصوتي في Azure متعدد اللغات بشكل ملحوظ. تغطي تقنية تحويل النص إلى كلام أكثر من 140 لغة ولهجة (مع أصوات في جميع اللغات الرئيسية تقريبًا والعديد من اللهجات الإقليمية – مثل عدة لهجات إنجليزية، لهجات صينية، لغات هندية، لغات أفريقية) techcommunity.microsoft.com. تدعم تقنية تحويل الكلام إلى نص أكثر من 100 لغة للنسخ (ويمكنها اكتشاف اللغات تلقائيًا في الصوت أو التعامل مع الكلام متعدد اللغات) techcommunity.microsoft.com. تدعم ميزة الترجمة الصوتية العشرات من أزواج اللغات. تضيف مايكروسوفت باستمرار لغات قليلة الموارد أيضًا، بهدف الشمولية. هذا الاتساع يجعل Azure خيارًا رائدًا للتطبيقات التي تتطلب وصولًا دوليًا أو دعمًا للغات المحلية.

الأسس التقنية: تعتمد تقنية الكلام من مايكروسوفت على الشبكات العصبية العميقة وأبحاث واسعة النطاق (بعضها من أبحاث مايكروسوفت والخوارزميات التي تم الاستحواذ عليها من Nuance). يستخدم Neural TTS نماذج مثل Transformer وFastSpeech لتوليد الموجة الصوتية، بالإضافة إلى vocoders مشابهة لـ WaveNet. كان آخر إنجازات مايكروسوفت تحقيق التكافؤ البشري في بعض مهام تحويل النص إلى كلام – بفضل التدريب واسع النطاق والضبط الدقيق لمحاكاة الفروق الدقيقة في الأداء البشري techcommunity.microsoft.com. بالنسبة لتحويل الكلام إلى نص، تستخدم Azure مزيجًا من النماذج الصوتية ونماذج اللغة؛ ومنذ عام 2023، قدمت نماذج صوتية قائمة على Transformer (مما يحسن الدقة ومقاومة الضوضاء) ونماذج “Conformer” الموحدة. كما تستفيد Azure من تجميع النماذج والتعلم المعزز للتحسين المستمر. علاوة على ذلك، توفر التعلم التكيفي – القدرة على تحسين التعرف على المصطلحات المتخصصة من خلال تزويد النظام ببيانات نصية (نماذج لغوية مخصصة). من ناحية البنية التحتية، يمكن لـ Azure Speech الاستفادة من تسريع GPU في السحابة لبث منخفض الكمون ويتوسع تلقائيًا للتعامل مع الزيادات المفاجئة (مثل الترجمة الفورية للأحداث الكبيرة).

حالات الاستخدام: تُستخدم Azure Speech عبر الصناعات:

  • خدمة العملاء وأنظمة الرد الآلي: تستخدم العديد من المؤسسات تحويل الكلام إلى نص وتحويل النص إلى كلام من Azure لتشغيل أنظمة الرد الآلي في مراكز الاتصال وروبوتات المحادثة الصوتية. على سبيل المثال، قد تستخدم شركة طيران تحويل الكلام إلى نص لنسخ طلبات العملاء الهاتفية والرد بصوت Neural TTS، بل وحتى الترجمة بين اللغات عند الحاجة krisp.ai.
  • المساعدات الافتراضية: تدعم الصوت للوكلاء الافتراضيين مثل Cortana والمساعدين من جهات خارجية المدمجين في السيارات أو الأجهزة المنزلية. تتيح ميزة الصوت المخصص لهذه المساعدات الحصول على شخصية فريدة.
  • إنشاء المحتوى والإعلام: تستخدم استوديوهات ألعاب الفيديو وشركات الرسوم المتحركة Custom Neural Voice لمنح الشخصيات أصواتًا مميزة دون الحاجة لتسجيلات صوتية مطولة (مثلاً، قراءة النصوص بصوت ممثل مستنسخ). وتستخدم شركات الإعلام Azure TTS لقراءة الأخبار، الكتب الصوتية، أو دبلجة المحتوى بلغات متعددة.
  • إمكانية الوصول والتعليم: يساعد تحويل الكلام إلى نص الدقيق من Azure في إنشاء تسميات توضيحية فورية للاجتماعات (مثلاً، في Microsoft Teams) والمحاضرات الصفية، مما يساعد ذوي الإعاقات السمعية أو الحواجز اللغوية. ويُستخدم تحويل النص إلى كلام في ميزات القراءة الصوتية في ويندوز، والكتب الإلكترونية، وتطبيقات التعلم.
  • إنتاجية المؤسسات: النسخ النصي للاجتماعات، أو الرسائل الصوتية، أو الإملاء لإنشاء المستندات هو استخدام شائع. تم دمج تقنية Nuance Dragon (التي أصبحت الآن تحت إدارة مايكروسوفت) لخدمة المهن مثل الأطباء (على سبيل المثال، تحويل الكلام إلى نص للملاحظات السريرية) والمحامين لإملاء المذكرات بدقة عالية في المصطلحات المتخصصة krisp.ai krisp.ai.

الأسعار: تستخدم خدمة Azure Speech تسعيراً يعتمد على الاستهلاك. بالنسبة لـSTT، يتم احتساب التكلفة لكل ساعة صوت تتم معالجتها (مع وجود أسعار مختلفة للنماذج القياسية مقابل النماذج المخصصة أو المحسنة). على سبيل المثال، قد يكون النسخ النصي القياسي في الوقت الفعلي حوالي 1 دولار لكل ساعة صوتية. TTS يتم احتساب تكلفته لكل حرف أو لكل مليون حرف (حوالي 16 دولاراً لكل مليون حرف للأصوات العصبية، وهو مشابه للمنافسين). يتطلب الصوت العصبي المخصص رسوماً إضافية للإعداد/التدريب ورسوم استخدام. تقدم Azure خططاً مجانية: مثل عدد معين من ساعات STT مجاناً في أول 12 شهراً وعدد من الأحرف المجانية لتحويل النص إلى كلام. كما تتضمن Azure خدمات الكلام ضمن حزمة الخدمات المعرفية التي يمكن للعملاء من المؤسسات شراؤها مع خصومات على الحجم. بشكل عام، الأسعار تنافسية، لكن يجب على المستخدمين ملاحظة أن الميزات المتقدمة (مثل النماذج المخصصة أو الأنماط عالية الدقة) قد تكلف أكثر.

نقاط القوة: خدمة الكلام من مايكروسوفت جاهزة للمؤسسات – معروفة بالأمان القوي، والخصوصية، والامتثال (وهو أمر مهم للصناعات المنظمة) krisp.ai. توفر تخصيصاً لا مثيل له: الأصوات المخصصة ونماذج STT المخصصة تمنح المؤسسات تحكماً دقيقاً. اتساع دعم اللغات والأصوات هو الأفضل في الصناعة techcommunity.microsoft.com، مما يجعلها حلاً شاملاً للاحتياجات العالمية. التكامل مع نظام Azure الأوسع وأدوات المطورين (حزم تطوير برمجيات ممتازة لـ .NET، بايثون، جافا، إلخ) هو نقطة قوة، حيث يبسط تطوير الحلول الشاملة. أصوات مايكروسوفت طبيعية للغاية، وغالباً ما تُشيد بتعبيرها وتنوع الأنماط المتاحة. نقطة قوة أخرى هي مرونة النشر – إذ تتيح القدرة على تشغيل الحاويات إمكانية الاستخدام دون اتصال أو على الحافة، وهو ما يقدمه عدد قليل من مزودي الخدمات السحابية. وأخيراً، التحديثات المستمرة من مايكروسوفت (غالباً بناءً على منتجاتها الخاصة مثل ويندوز، أوفيس، وإكس بوكس التي تستخدم تقنية الكلام) تعني أن خدمة Azure Speech تستفيد من أحدث الأبحاث والاختبارات الواقعية واسعة النطاق.

نقاط الضعف: رغم أن جودة Azure عالية، إلا أن التكلفة قد تتراكم مع الاستخدام الكثيف، خاصة لخدمة الصوت العصبي المخصص (التي تتطلب استثمارًا كبيرًا وعملية موافقة من مايكروسوفت) وللنسخ النصي الطويل إذا لم يكن لديك اتفاقية مؤسسية telnyx.com. كثرة ميزات وخيارات الخدمة تعني منحنى تعلم أعلى – قد يجد المستخدمون الجدد صعوبة في التنقل بين جميع الإعدادات (على سبيل المثال، اختيار صوت من بين العديد أو ضبط النماذج المخصصة يتطلب بعض الخبرة). من حيث الدقة، Azure STT من بين القادة، لكن بعض الاختبارات المستقلة تظهر أن Google أو Speechmatics تتفوقان قليلاً في بعض المعايير (الدقة قد تعتمد على اللغة أو اللهجة). أيضًا، الاستفادة الكاملة من إمكانيات Azure Speech غالبًا ما تفترض أنك ضمن نظام Azure البيئي – حيث يعمل بشكل أفضل عند دمجه مع تخزين Azure وما إلى ذلك، وهذا قد لا يروق لمن يستخدمون بيئة سحابية متعددة أو يبحثون عن خدمة مستقلة أبسط. أخيرًا، كما هو الحال مع أي خدمة سحابية، استخدام Azure Speech يعني إرسال البيانات إلى السحابة – المؤسسات التي لديها بيانات شديدة الحساسية قد تفضل حلاً محليًا فقط (حاوية Azure تساعد ولكنها ليست مجانية).

التحديثات الأخيرة (2024–2025): قامت مايكروسوفت بتوسيع عروض اللغات والأصوات بشكل كبير. في عام 2024، أضافت Azure Neural TTS 46 صوتًا جديدًا ولغتين جديدتين، ليصبح المجموع 446 صوتًا في 144 لغة techcommunity.microsoft.com. كما أوقفت استخدام الأصوات “القياسية” القديمة لصالح الأصوات العصبية فقط (اعتبارًا من سبتمبر 2024) لضمان جودة أعلى learn.microsoft.com. قدمت مايكروسوفت ميزة مبتكرة تسمى Voice Flex Neural (معاينة) والتي يمكنها ضبط أنماط الحديث بشكل أكثر ديناميكية. في STT، دمجت مايكروسوفت بعض قدرات Dragon من Nuance في Azure – على سبيل المثال، أصبح نموذج Dragon Legal وMedical متاحين على Azure للنسخ النصي المتخصص بدقة عالية جدًا في المصطلحات التقنية. كما أطلقت تحديثات Speech Studio، وهي أداة بواجهة رسومية لإنشاء نماذج وأصوات مخصصة بسهولة. تطور رئيسي آخر: حصل Speech to Text في Azure على دفعة من نموذج أساس جديد (أفاد بأنه نموذج بعدة مليارات من المعاملات) مما حسن الدقة بنسبة ~15%، وسمح بنسخ لغات مختلطة دفعة واحدة aws.amazon.com aws.amazon.com. بالإضافة إلى ذلك، أعلنت مايكروسوفت عن دمج الصوت مع خدمات Azure OpenAI – مما يتيح حالات استخدام مثل تحويل الكلام في الاجتماعات إلى نص ثم تشغيل GPT-4 للتلخيص (كل ذلك ضمن Azure). استمرار دمج الذكاء الاصطناعي التوليدي (مثل GPT) مع الصوت، والتحسينات في التعامل مع اللهجات والتحيز (بعضها نتيجة شراكة مايكروسوفت مع منظمات لتقليل معدلات الخطأ للمتحدثين المتنوعين)، يبقي Azure Speech في الصدارة في 2025.

الموقع الرسمي: Azure AI Speech Service techcommunity.microsoft.com (صفحة منتج Microsoft Azure الرسمية لخدمة الكلام). 3. Amazon AWS Voice AI – Amazon Polly (TTS) & Amazon Transcribe (STT) نظرة عامة: تقدم Amazon Web Services (AWS) تقنيات ذكاء اصطناعي صوتية قوية قائمة على السحابة من خلال Amazon Polly لتحويل النص إلى كلام وAmazon Transcribe لتحويل الكلام إلى نص. تقوم Polly بتحويل النص إلى كلام طبيعي يشبه الإنسان بعدة أصوات ولغات، بينما تستخدم Transcribe تقنية التعرف التلقائي على الكلام (ASR) لإنتاج نصوص دقيقة جداً من الصوت. هذه الخدمات جزء من مجموعة حلول الذكاء الاصطناعي الواسعة لدى AWS وتستفيد من قابلية التوسع والتكامل في AWS. تتفوق تقنيات الصوت من أمازون في الموثوقية وقد تم اعتمادها في مختلف الصناعات لمهام مثل أنظمة الرد الآلي (IVR)، ترجمة الوسائط، المساعدات الصوتية، وغيرها. رغم أن Polly وTranscribe خدمتان منفصلتان، إلا أنهما معاً تغطيان جميع احتياجات الإدخال والإخراج الصوتي. كما تقدم أمازون خدمات ذات صلة: Amazon Lex (للبوتات الحوارية)، Transcribe Call Analytics (لذكاء مراكز الاتصال)، وبرنامج Brand Voice المخصص (حيث تبني أمازون صوت TTS مخصص لعلامة تجارية معينة). ذكاء AWS الصوتي موجه للمطورين والمؤسسات الموجودة بالفعل ضمن نظام AWS، ويوفر لهم سهولة التكامل مع موارد AWS الأخرى. الميزات الرئيسية: Amazon Polly (TTS): تقدم Polly أكثر من 100 صوت في أكثر من 40 لغة ولهجة aws.amazon.com، بما في ذلك أصوات ذكورية وأنثوية وخيارات معيارية وعصبية. الأصوات “تشبه الإنسان”، مبنية بتقنيات التعلم العميق لالتقاط التنغيم والإيقاع الطبيعي. تدعم Polly تقنية TTS العصبية لجودة صوت عالية، وقد قدمت مؤخراً محرك TTS توليدي عصبي – وهو نموذج متطور (يضم 13 صوتاً معبراً للغاية حتى أواخر 2024) ينتج كلاماً أكثر عاطفية وحوارية aws.amazon.com aws.amazon.com. توفر Polly ميزات مثل دعم لغة ترميز تركيب الكلام (SSML) لضبط إخراج الصوت (النطق، التشديد، التوقفات) aws.amazon.com. كما تتضمن أنماط صوتية خاصة؛ مثل أسلوب قراءة المذيع Newscaster، أو أسلوب Conversational لنبرة أكثر استرخاءً. ومن الميزات الفريدة قدرة Polly على ضبط سرعة الكلام تلقائياً للنصوص الطويلة (التنفس، علامات الترقيم) باستخدام محرك التركيب الطويل long-form، لضمان قراءة طبيعية أكثر للكتب الصوتية أو الأخبار (حتى أن لديهم أصوات مخصصة للنصوص الطويلة).
  • Amazon Transcribe (تحويل الكلام إلى نص): يمكن لـ Transcribe التعامل مع كل من النسخ الدفعي لملفات الصوت المسجلة مسبقًا والنسخ اللحظي المباشر. يدعم أكثر من 100 لغة ولهجة للنسخ aws.amazon.com، ويمكنه التعرف تلقائيًا على اللغة المنطوقة. تشمل الميزات الرئيسية تمييز المتحدثين (تمييز المتحدثين في الصوت متعدد المتحدثين) krisp.ai، والمفردات المخصصة (لتعليم النظام المصطلحات أو الأسماء الخاصة بمجال معين) telnyx.com، وإدراج علامات الترقيم والحروف الكبيرة (إدراج علامات الترقيم والحروف الكبيرة تلقائيًا لسهولة القراءة) krisp.ai، وتوليد الطوابع الزمنية لكل كلمة. كما يحتوي Transcribe على تصفية المحتوى (لإخفاء أو وضع علامة على الألفاظ النابية/المعلومات الشخصية) وإمكانيات الحجب – مفيد في تسجيلات مراكز الاتصال لحجب المعلومات الحساسة. بالنسبة للاتصالات الهاتفية والاجتماعات، هناك تحسينات متخصصة: مثل Transcribe Medical لخطاب الرعاية الصحية (متوافق مع HIPAA) وCall Analytics الذي لا يكتفي بالنسخ بل يوفر أيضًا تحليل المشاعر، وتصنيف المكالمات، وتوليد الملخصات مع دمج تعلم الآلة aws.amazon.com aws.amazon.com.
  • التكامل والأدوات: كل من Polly وTranscribe يتكاملان مع خدمات AWS الأخرى. على سبيل المثال، يمكن أن ينتقل ناتج Transcribe مباشرة إلى Amazon Comprehend (خدمة معالجة اللغة الطبيعية) لتحليل نص أعمق أو إلى Translate للحصول على نصوص مترجمة. يمكن لـ Polly العمل مع AWS Translate لإنشاء إخراج صوتي بلغات متعددة. توفر AWS حزم تطوير البرمجيات (SDKs) بلغات عديدة (مثل Python boto3، Java، JavaScript، وغيرها) لاستدعاء هذه الخدمات بسهولة. هناك أيضًا ميزات مريحة مثل إمكانية استخدام MediaConvert من أمازون مع Transcribe لإنشاء ترجمات نصية تلقائيًا لملفات الفيديو. بالإضافة إلى ذلك، توفر AWS واجهات برمجة التطبيقات المسبقة التوقيع التي تتيح رفع الملفات بشكل آمن ومباشر من العميل للنسخ أو البث.
  • التخصيص: بينما أصوات Polly جاهزة مسبقًا، تقدم AWS Brand Voice، وهو برنامج يقوم فيه خبراء أمازون ببناء صوت تحويل نص إلى كلام مخصص للعميل (هذه الخدمة ليست ذاتية الخدمة؛ بل هي تعاون – على سبيل المثال، عملت KFC كندا مع AWS لإنشاء صوت الكولونيل ساندرز عبر Polly’s Brand Voice venturebeat.com). بالنسبة لـ Transcribe، يكون التخصيص عبر المفردات المخصصة أو نماذج اللغة المخصصة (لبعض اللغات تتيح AWS تدريب نموذج مخصص صغير إذا كان لديك نصوص، وهي حاليًا في معاينة محدودة).
  • الأداء وقابلية التوسع: خدمات أمازون معروفة بأنها مجربة في بيئات الإنتاج وعلى نطاق واسع (من المحتمل أن أمازون نفسها تستخدم Polly وTranscribe داخليًا في Alexa وخدمات AWS). كلاهما يمكنه التعامل مع أحجام كبيرة: يمكن لـ Transcribe البثي التعامل مع العديد من التدفقات في نفس الوقت (يتوسع أفقيًا)، ويمكن للمهام الدفعية معالجة العديد من ساعات الصوت المخزنة على S3. يمكن لـ Polly توليد الكلام بسرعة، ويدعم حتى تخزين النتائج مؤقتًا، كما يوفر تخزينًا عصبيًا مؤقتًا للجمل المتكررة. زمن الاستجابة منخفض، خاصة عند استخدام مناطق AWS القريبة من المستخدمين. بالنسبة لإنترنت الأشياء أو الاستخدام على الحافة، لا تقدم AWS حاويات غير متصلة لهذه الخدمات (على عكس Azure)، لكنها توفر موصلات حافة عبر AWS IoT للبث إلى السحابة.

    اللغات المدعومة:

    • Amazon Polly: يدعم عشرات اللغات (حاليًا حوالي 40+). يشمل ذلك معظم اللغات الرئيسية: الإنجليزية (الولايات المتحدة، المملكة المتحدة، أستراليا، الهند، إلخ)، الإسبانية (أوروبا، الولايات المتحدة، أمريكا اللاتينية)، الفرنسية، الألمانية، الإيطالية، البرتغالية (البرازيل وأوروبا)، الهندية، العربية، الصينية، اليابانية، الكورية، الروسية، التركية، والمزيد aws.amazon.com. العديد من اللغات لديها عدة أصوات (مثلاً الإنجليزية الأمريكية لديها أكثر من 15 صوتًا). تواصل AWS إضافة لغات جديدة – على سبيل المثال، في أواخر 2024 أضافوا أصوات التشيكية والألمانية السويسرية docs.aws.amazon.com. ليست كل لغات العالم مدعومة، لكن التشكيلة واسعة وتنمو باستمرار.
    • Amazon Transcribe: اعتبارًا من 2025، يدعم أكثر من 100 لغة ولهجات مختلفة للنسخ aws.amazon.com. في البداية، كان يغطي حوالي 31 لغة (معظمها لغات غربية)، لكن أمازون وسعته بشكل كبير، مستفيدة من نموذج الجيل التالي ليشمل العديد من اللغات الأخرى (بما في ذلك لغات مثل الفيتنامية، الفارسية، السواحيلية، إلخ). كما يدعم النسخ متعدد اللغات – يمكنه اكتشاف ونسخ المحادثات ثنائية اللغة (مثلاً مزيج من الإنجليزية والإسبانية في مكالمة واحدة). خاص بالمجال: يدعم Transcribe Medical حاليًا الإملاء الطبي بعدة لهجات من الإنجليزية والإسبانية.

    الأسس التقنية: الصوت التوليدي من أمازون (Polly) يستخدم نماذج الشبكات العصبية المتقدمة، بما في ذلك نموذج Transformer بعدد مليارات المعاملات لأحدث الأصوات aws.amazon.com. يتيح هذا الهيكل للنموذج لـ Polly توليد الكلام بشكل متدفق مع الحفاظ على جودة عالية – حيث ينتج كلامًا “منخرطًا عاطفيًا وعاميًا للغاية” aws.amazon.com. الأصوات الأقدم تستخدم طرق التجميع أو الشبكات العصبية القديمة للأصوات القياسية، لكن التركيز الآن بالكامل على تحويل النص إلى كلام العصبي. في جانب تحويل الكلام إلى نص، يتم تشغيل Amazon Transcribe بواسطة نموذج ASR أساسي من الجيل التالي (بعدة مليارات من المعاملات) قامت أمازون ببنائه وتدريبه على كميات هائلة من الصوت (يقال إنها ملايين الساعات) aws.amazon.com. من المرجح أن يستخدم النموذج بنية Transformer أو Conformer لتحقيق دقة عالية. تم تحسينه للتعامل مع ظروف صوتية ولهجات متنوعة (وهو أمر تذكره أمازون صراحة، حيث تأخذ في الاعتبار اللهجات المختلفة والضوضاء) aws.amazon.com. من الجدير بالذكر أن تطور Transcribe تأثر بتقدمات التعرف على الكلام في Amazon Alexa – غالبًا ما تنتقل التحسينات من نماذج Alexa إلى Transcribe للاستخدام الأوسع. تستخدم AWS تقنيات التعلم الذاتي الإشراف للغات ذات الموارد المحدودة (مشابهة لطريقة SpeechMix أو wav2vec) لتوسيع تغطية اللغات. من حيث النشر، تعمل هذه النماذج على بنية AWS المدارة؛ لدى AWS شرائح استدلال متخصصة (مثل AWS Inferentia) قد تُستخدم لتشغيل هذه النماذج بكفاءة من حيث التكلفة.

    حالات الاستخدام:

    • الاستجابة الصوتية التفاعلية (IVR): تستخدم العديد من الشركات Polly لنطق التعليمات وTranscribe لالتقاط ما يقوله المتصلون في قوائم الهاتف. على سبيل المثال، قد ينطق نظام IVR في بنك معلومات الحساب عبر Polly ويستخدم Transcribe لفهم الطلبات المنطوقة.
    • تحليلات مراكز الاتصال: استخدام Transcribe لتحويل مكالمات خدمة العملاء إلى نص (عبر Amazon Connect أو منصات مراكز الاتصال الأخرى) ثم تحليلها لمشاعر العملاء أو أداء الوكلاء. تساعد ميزات تحليلات المكالمات (مع اكتشاف المشاعر والتلخيص) في أتمتة ضمان الجودة على المكالمات aws.amazon.com aws.amazon.com.
    • الإعلام والترفيه: يُستخدم Polly لتوليد السرد للمقالات الإخبارية أو منشورات المدونات (بعض المواقع الإخبارية تقدم “استمع إلى هذا المقال” باستخدام أصوات Polly). يُستخدم Transcribe من قبل المذيعين لإضافة تسميات توضيحية للبث التلفزيوني المباشر أو من قبل منصات الفيديو لإنشاء ترجمات تلقائيًا لمقاطع الفيديو التي يرفعها المستخدمون. قد تستخدم استوديوهات الإنتاج Transcribe للحصول على نصوص للقطات من أجل أغراض التحرير (البحث داخل الفيديوهات بالنص).
    • التعلم الإلكتروني وإمكانية الوصول: تستخدم منصات التعلم الإلكتروني Polly لتحويل المحتوى المكتوب إلى صوت بعدة لغات، مما يجعل المواد التعليمية أكثر سهولة في الوصول. يمكن أن تساعد خدمة Transcribe في إنشاء نصوص الدروس أو تمكين الطلاب من البحث في تسجيلات المحاضرات.
    • ميزات الصوت في الأجهزة والتطبيقات: تعتمد العديد من تطبيقات الجوال أو أجهزة إنترنت الأشياء على AWS من أجل الصوت. على سبيل المثال، قد يستخدم تطبيق جوال Transcribe لميزة البحث الصوتي (سجّل سؤالك، أرسله إلى Transcribe، واحصل على النص). يمكن تضمين أصوات Polly في أجهزة مثل المرايا الذكية أو أنظمة الإعلانات لقراءة التنبيهات أو الإشعارات.
    • الدبلجة متعددة اللغات: باستخدام مجموعة من خدمات AWS (Transcribe + Translate + Polly)، يمكن للمطورين إنشاء حلول دبلجة آلية. على سبيل المثال، خذ فيديو باللغة الإنجليزية، وقم بتحويله إلى نص، ثم ترجم النص إلى الإسبانية، ثم استخدم صوت Polly الإسباني لإنتاج مسار صوتي مدبلج بالإسبانية.
    • الألعاب والوسائط التفاعلية: قد يستخدم مطورو الألعاب Polly للحوار الديناميكي مع الشخصيات غير القابلة للعب (بحيث يمكن نطق نص الحوار دون الحاجة لتسجيل ممثلين صوتيين لكل جملة). حتى أن Polly لديها صوت NTTS (جاستن) تم تصميمه للغناء، وقد استخدمه البعض في مشاريع إبداعية.

    التسعير: تسعير AWS يعتمد على الاستهلاك:

    • Amazon Polly: يتم احتساب التكلفة لكل مليون حرف من النص المدخل. أول 5 ملايين حرف شهريًا مجانية لمدة 12 شهرًا (للحسابات الجديدة) aws.amazon.com. بعد ذلك، تكلف الأصوات القياسية حوالي 4 دولارات لكل مليون حرف، والأصوات العصبية حوالي 16 دولارًا لكل مليون حرف (قد تختلف هذه الأسعار قليلاً حسب المنطقة). قد يكون للأصوات “التوليدية” الجديدة تسعير مميز (أي تكلفة أعلى قليلاً لكل حرف بسبب زيادة الحوسبة). تكلفة Polly تقريبًا مماثلة لجوجل/مايكروسوفت في فئة الأصوات العصبية. لا توجد رسوم إضافية لتخزين أو بث الصوت (باستثناء رسوم S3 أو نقل البيانات إذا قمت بالتخزين/التسليم).
    • Amazon Transcribe: يتم احتساب التكلفة لكل ثانية من الصوت. على سبيل المثال، التسعير القياسي للتحويل إلى نص هو 0.0004 دولار لكل ثانية (أي 0.024 دولار لكل دقيقة). لذا، ساعة واحدة تكلف حوالي 1.44 دولار. هناك أسعار مختلفة قليلاً للميزات الإضافية: مثل استخدام Transcribe Call Analytics أو Medical قد يكلف أكثر قليلاً (~0.0008 دولار/ثانية). البث المباشر في الوقت الفعلي يتم تسعيره أيضًا بالثانية. تقدم AWS 60 دقيقة تحويل إلى نص مجانًا شهريًا لمدة 12 شهرًا للمستخدمين الجدد aws.amazon.com. أيضًا، غالبًا ما تقدم AWS خصومات متدرجة للحجم الكبير أو العقود المؤسسية من خلال AWS Enterprise Support.
    • نهج AWS هو نهج معياري: إذا استخدمت Translate أو خدمات أخرى معًا، يتم احتسابها بشكل منفصل. ومع ذلك، فإن الفائدة هي أنك تدفع فقط مقابل ما تستخدمه، ويمكنك تقليل الاستخدام إلى الصفر عند عدم الحاجة. هذا فعال من حيث التكلفة للاستخدام المتقطع، ولكن للأحمال الكبيرة المستمرة، قد تحتاج إلى التفاوض على خصومات أو استخدام خطط التوفير من AWS.

    نقاط القوة: أكبر نقاط قوة خدمات الصوت من AWS هي قابليتها المثبتة للتوسع والموثوقية – فهي مصممة للتعامل مع أعباء العمل الإنتاجية (اتفاقية مستوى الخدمة 99.9% من AWS، التكرار عبر مناطق متعددة، إلخ). التكامل العميق مع نظام AWS البيئي يُعد ميزة إضافية لأولئك الذين يستخدمون AWS بالفعل (IAM للتحكم في الوصول، S3 للإدخال/الإخراج، إلخ، جميعها تعمل معًا بسلاسة). تُعتبر أصوات Polly طبيعية جدًا، وإضافة الأصوات التوليدية الجديدة قد قللت الفجوة أكثر مع الكلام البشري، بالإضافة إلى تخصصها في التعبير العاطفي aws.amazon.com. تشتهر Transcribe بقوتها في التعامل مع الصوتيات الصعبة (كانت من أوائل الخدمات التي ركزت على التعامل الجيد مع اللهجات المختلفة والضوضاء الخلفية aws.amazon.com). الخدمات سهلة الاستخدام نسبيًا عبر واجهة برمجة التطبيقات، وAWS لديها توثيق جيد وأمثلة على الشيفرة. كما تقدم AWS أسعارًا تنافسية، وتساعد الطبقة المجانية المستخدمين الجدد. ميزة أخرى هي سرعة وتيرة التحسينات – تضيف أمازون ميزات بانتظام (مثل اكتشاف السمية في Transcribe لأغراض الإشراف) ودعم المزيد من اللغات، وغالبًا ما يكون ذلك استجابة لاحتياجات عملاء AWS الفعليين. من ناحية الأمان، AWS قوية: يتم تشفير المحتوى، ويمكنك اختيار عدم تخزين البيانات أو حذفها تلقائيًا بعد المعالجة. للعملاء من المؤسسات، توفر AWS أيضًا دعمًا بشريًا ومهندسي حلول للمساعدة في نشر هذه الخدمات بفعالية.

    نقاط الضعف: بالنسبة لبعض المطورين، قد يكون من السلبيات أن AWS تتطلب إعداد حساب وفهم IAM ولوحة تحكم AWS، وهو أمر قد يكون مبالغًا فيه إذا كان المطلوب مجرد اختبار صوتي سريع (مقارنة ببعض المنافسين الذين يقدمون نقاط نهاية عامة أو أدوات بواجهة رسومية أبسط). على عكس بعض المنافسين (جوجل، مايكروسوفت)، لا توفر AWS استنساخ صوت مخصص ذاتي الخدمة للجميع؛ خدمة Brand Voice مقتصرة على المشاريع الكبيرة. هذا يعني أن المستخدمين الصغار لا يمكنهم تدريب أصواتهم الخاصة على AWS باستثناء ميزة القاموس. كما أن AWS تفتقر حاليًا إلى خيار النشر المحلي/دون اتصال لخدمات Polly أو Transcribe – فهي سحابية فقط (رغم أنه يمكن استخدام Outposts أو المناطق المحلية من أمازون، لكنها ليست مثل الحاوية غير المتصلة). من حيث الدقة، رغم قوة Transcribe، إلا أن بعض الاختبارات المستقلة صنفت أحيانًا دقة مايكروسوفت أو جوجل أعلى قليلاً لبعض اللغات أو الحالات (قد يختلف الأمر؛ النموذج الجديد من AWS قلل الفجوة كثيرًا). جانب آخر: تغطية اللغات في تحويل النص إلى كلام – أكثر من 40 لغة أمر جيد، لكن جوجل ومايكروسوفت يدعمان المزيد؛ قد تتأخر AWS قليلاً في بعض الخيارات الصوتية المحلية (مثلاً، لدى جوجل لغات هندية أكثر في TTS من Polly حاليًا). أخيرًا، قد تربك كثرة الخدمات ذات الصلة من AWS بعض المستخدمين (مثلاً، الاختيار بين Transcribe وLex لبعض المهام)، مما يتطلب بعض المعرفة بهندسة السحابة.

    التحديثات الأخيرة (2024–2025): أجرت AWS تحديثات كبيرة على كل من Polly وTranscribe:

    • Polly: في نوفمبر 2024، أطلقت AWS ستة أصوات “توليدية” جديدة بعدة لغات (الفرنسية، الإسبانية، الألمانية، وأنواع من الإنجليزية)، موسعة من 7 إلى 13 صوتًا في هذه الفئة aws.amazon.com. تعتمد هذه الأصوات على محرك تحويل النص إلى كلام توليدي جديد وهي معبرة للغاية، وتهدف إلى استخدامات الذكاء الاصطناعي للمحادثة. كما أضافوا أصوات NTTS للنصوص الطويلة للإسبانية والإنجليزية التي تحافظ على الوضوح عبر مقاطع طويلة جدًا aws.amazon.com aws.amazon.com. في وقت سابق من عام 2024، قدمت AWS صوت أسلوب المذيع الإخباري بالبرتغالية البرازيلية وغيرها. في مارس 2025، تُظهر وثائق Amazon Polly أن الخدمة تدعم الآن لغات التشيكية والألمانية السويسرية، مما يعكس التوسع المستمر في اللغات docs.aws.amazon.com. تحديث آخر: حسّنت AWS جودة الصوت العصبي في Polly (من المحتمل أنه ترقية للنموذج الأساسي) – لاحظ بعض المستخدمين سلاسة أكبر في الإيقاع في الأصوات المحدثة.
    • Transcribe: في منتصف 2024، أعلنت أمازون عن نموذج ASR من الجيل التالي (Nova) الذي يشغل Transcribe، مما حسّن الدقة بشكل كبير وزاد عدد اللغات إلى أكثر من 100 aws.amazon.com. كما أطلقوا تحليلات المكالمات في Transcribe عالميًا، مع إمكانية الحصول على ملخصات المحادثة باستخدام الذكاء الاصطناعي التوليدي (مُدمج مع Bedrock من AWS أو نماذج OpenAI) – أي تلخيص تلقائي لأهم نقاط المكالمة بعد نسخها. ميزة جديدة أخرى هي الكشف عن السمية في الوقت الفعلي (أُطلقت أواخر 2024) والتي تتيح للمطورين اكتشاف خطاب الكراهية أو التحرش في الصوت المباشر عبر Transcribe، وهو أمر مهم لمراقبة الدردشات الصوتية الحية aws.amazon.com. في 2025، تتيح AWS في المعاينة نماذج اللغة المخصصة (CLM) لـ Transcribe، مما يسمح للشركات بضبط ASR على بياناتها الخاصة (وهذا ينافس خدمة STT المخصصة من Azure). من ناحية التسعير، جعلت AWS Transcribe أكثر فعالية من حيث التكلفة للعملاء ذوي الحجم الكبير من خلال تقديم تسعير متدرج تلقائيًا بمجرد تجاوز الاستخدام عتبات ساعات معينة شهريًا. تُظهر كل هذه التحديثات التزام AWS بالبقاء في طليعة الذكاء الاصطناعي الصوتي، مع تحسين الجودة والميزات باستمرار.
    المواقع الرسمية: Amazon Polly – خدمة تحويل النص إلى كلام aws.amazon.com ؛ Amazon Transcribe – خدمة تحويل الكلام إلى نص aws.amazon.com . 4. خدمات IBM Watson الصوتية (TTS & STT) – IBM نظرة عامة: تقدم IBM Watson كلاً من تحويل النص إلى كلام وتحويل الكلام إلى نص كجزء من خدمات الذكاء الاصطناعي Watson. لدى IBM تاريخ طويل في تكنولوجيا الصوت، وتعكس خدماتها السحابية تركيزاً على التخصيص، الخبرة في المجالات، وخصوصية البيانات. يمكن لـ Watson Text-to-Speech توليد كلام طبيعي بعدة لغات، ويوفر Watson Speech-to-Text نسخاً دقيقاً للغاية مع القدرة على التكيف مع المفردات المتخصصة. تحظى خدمات الصوت من IBM بشعبية خاصة في صناعات مثل الرعاية الصحية، المالية، والقانونية، حيث يمكن أن تكون المفردات معقدة وأمن البيانات بالغ الأهمية. تتيح IBM خيارات نشر محلية لنماذجها (عبر IBM Cloud Pak)، مما يجذب المؤسسات التي لا يمكنها استخدام السحابة العامة لبيانات الصوت. رغم أن حصة IBM في سوق الصوت السحابي أصغر مقارنة بالكبار الثلاثة (Google، MS، AWS)، إلا أنها تظل مزوداً موثوقاً على مستوى المؤسسات لحلول الصوت التي تحتاج إلى ضبط لمصطلحات محددة أو تكامل مع منظومة Watson الأكبر من IBM (والتي تشمل مترجمي اللغات، إطار المساعد، إلخ). الميزات الرئيسية: Watson Text-to-Speech (TTS): يدعم عدة أصوات عبر أكثر من 13 لغة (بما في ذلك الإنجليزية الأمريكية/البريطانية، الإسبانية، الفرنسية، الألمانية، الإيطالية، اليابانية، العربية، البرتغالية البرازيلية، الكورية، الصينية، إلخ). الأصوات “عصبية” وتقوم IBM بتحديثها باستمرار – على سبيل المثال، تمت إضافة أصوات عصبية معبرة جديدة لبعض اللغات (مثل صوت إنجليزي أسترالي معبر) cloud.ibm.com . يسمح IBM TTS بضبط معايير مثل النغمة، السرعة، والتأكيد باستخدام امتدادات IBM لـ SSML. بعض الأصوات لديها قدرة “قراءة معبرة” (مثل صوت يمكن أن يبدو متعاطفاً أو متحمساً). أضافت IBM أيضاً ميزة “الصوت المخصص” حيث يمكن للعملاء العمل مع IBM لإنشاء صوت اصطناعي فريد (مشابه لصوت العلامة التجارية، وعادة ما يكون ذلك ضمن تعاقدات المؤسسات). من الميزات البارزة “البث منخفض الكمون” – يمكن لـ TTS من IBM إعادة الصوت في أجزاء في الوقت الفعلي، وهو مفيد للمساعدين الصوتيين التفاعليين.واتسون لتحويل الكلام إلى نص (STT): يقدم تحويلًا فوريًا أو دفعيًا للنص مع ميزات مثل تمييز المتحدثين (تمييز المتحدثين) krisp.ai، واكتشاف الكلمات المفتاحية (إمكانية إخراج الطوابع الزمنية لكلمات مفتاحية محددة)، وبدائل الكلمات (بدائل مرتبة حسب الثقة للنصوص غير المؤكدة). يشتهر نظام تحويل الكلام إلى نص من IBM بدعمه القوي لـنماذج اللغة المخصصة: يمكن للمستخدمين رفع آلاف المصطلحات المتخصصة في مجال معين أو حتى ملفات صوتية مع نصوصها لتكييف النموذج مع مصطلحات طبية أو قانونية مثلاً krisp.ai krisp.ai. هذا يحسن الدقة بشكل كبير في تلك المجالات. كما تدعم IBM نماذج النطاق العريض والضيق المتعددة والمُحسّنة للصوت الهاتفي مقابل الصوت عالي الجودة. تغطي الخدمة حوالي 10 لغات للتحويل (الإنجليزية، الإسبانية، الألمانية، اليابانية، الماندرين، إلخ) بدقة عالية، ولديها نماذج هاتفية منفصلة لبعض اللغات (تتعامل مع ضوضاء الهاتف وترميزاته). من الميزات المثيرة للاهتمام التنسيق الذكي التلقائي – على سبيل المثال، يمكنها تنسيق التواريخ والعملات والأرقام في النص الناتج لسهولة القراءة.
  • تحسين المجال: تقدم IBM نماذج صناعية مدربة مسبقًا، مثل خدمات واتسون الصوتية للرعاية الصحية والمُهيأة مسبقًا للإملاء الطبي، وتحويل الكلام إلى نص للإعلام والترفيه مع مكتبات الأسماء الخاصة بمجال الإعلام. تعكس هذه الخيارات نهج IBM الاستشاري، حيث يمكن تخصيص الحل حسب مجال العميل.
  • الأمان والنشر: من أهم نقاط القوة أن IBM تتيح تشغيل خدمات واتسون الصوتية في بيئة العميل الخاصة (خارج سحابة IBM) عبر IBM Cloud Pak for Data. هذا العرض الحاوي يعني أن الصوت الحساس لا يغادر خوادم الشركة أبدًا، مما يعالج مخاوف الخصوصية ومكان البيانات. حتى على سحابة IBM، توفر الشركة ميزات مثل عدم تخزين البيانات افتراضيًا وتشفير جميع الاتصالات. تلتزم IBM بمعايير الامتثال الصارمة (جاهز لـ HIPAA وGDPR).
  • التكامل: يتكامل واتسون الصوتي مع مساعد واتسون من IBM (لإضافة تحويل الكلام إلى نص/النص إلى كلام إلى روبوتات الدردشة بسهولة). كما يرتبط بمحفظة الذكاء الاصطناعي الأوسع من IBM – على سبيل المثال، يمكن إرسال نتائج تحويل الكلام إلى نص إلى Watson Natural Language Understanding لاستخراج المشاعر أو إلى Watson Translate للمعالجة متعددة اللغات. توفر IBM واجهات ويب سوكيت وREST للبث المباشر والدُفعات على التوالي.
  • اللغات المدعومة:

      TTS: تغطي خدمة تحويل النص إلى كلام (TTS) من IBM حوالي 13 لغة بشكل أصلي (وبعض اللهجات). يشمل ذلك اللغات الرئيسية للأعمال. وعلى الرغم من أن هذا أقل من جوجل أو أمازون، إلا أن IBM تركز على جودة الأصوات في تلك اللغات المدعومة. من اللغات البارزة: الإنجليزية (الأمريكية، البريطانية، الأسترالية)، الفرنسية، الألمانية، الإيطالية، الإسبانية (الأوروبية وأمريكا اللاتينية)، البرتغالية (البرازيلية)، اليابانية، الكورية، الماندرين (الصينية المبسطة)، العربية، وربما الروسية. التحديثات الأخيرة أضافت المزيد من الأصوات للغات الموجودة بدلاً من إضافة لغات جديدة كثيرة. على سبيل المثال، قدمت IBM 27 صوتًا جديدًا عبر 11 لغة في تحديث واحد voximplant.com (مثل إضافة أصوات للأطفال ولهجات جديدة). STT: تدعم خدمة تحويل الكلام إلى نص (STT) من IBM حوالي 8-10 لغات بشكل موثوق (الإنجليزية، الإسبانية، الفرنسية، الألمانية، اليابانية، الكورية، البرتغالية البرازيلية، العربية الفصحى الحديثة، الصينية الماندرين، والإيطالية). وتعتبر الإنجليزية (الأمريكية والبريطانية) الأكثر غنى بالميزات (مع إمكانيات التخصيص ونماذج النطاق الضيق). بعض اللغات لديها خيارات الترجمة إلى الإنجليزية في Watson (مع العلم أن ذلك يستخدم خدمة Watson منفصلة). مقارنة بالمنافسين، نطاق اللغات لدى IBM أصغر، لكنه يغطي اللغات التي عليها أعلى طلب في قطاع الأعمال، ويوفر التخصيص لتلك اللغات. الأسس التقنية: تطورت تقنيات الكلام لدى IBM من أبحاثها (كانت IBM رائدة في تقنيات مثل نموذج ماركوف المخفي ViaVoice في التسعينات، ولاحقًا في تقنيات التعلم العميق). يستخدم Watson STT الحديث الشبكات العصبية العميقة (من المحتمل أن تكون مشابهة لنماذج LSTM ثنائية الاتجاه أو نماذج المحولات الصوتية) بالإضافة إلى نموذج لغوي n-gram أو عصبي. ركزت IBM على تكييف النطاق: من المرجح أنها تستخدم التعلم بالنقل لضبط النماذج الأساسية على بيانات المجال عند إنشاء نموذج مخصص. كما تستخدم IBM ما يسمى “التدريب التكيفي للمتحدث” في بعض الأبحاث – مما قد يسمح للنموذج بالتكيف إذا تعرف على متحدث ثابت (مفيد للإملاء). يستخدم Watson TTS نموذج تسلسل إلى تسلسل عصبي لتوليد الكلام؛ لدى IBM تقنية الضبط التعبيري – تدريب الأصوات على تسجيلات معبرة لتمكينها من إنتاج كلام أكثر عاطفية. أبحاث IBM حول تحويل النص إلى كلام العاطفي (مثل ورقة “توليد الكلام التعبيري”) تؤثر على أصوات Watson TTS، مما يجعلها قادرة على تغييرات دقيقة في النبرة. عنصر آخر: قدمت IBM آلية الانتباه في TTS لتحسين التعامل مع الاختصارات والكلمات غير المعروفة. من ناحية البنية التحتية، خدمات IBM عبارة عن خدمات مصغرة في حاويات؛ الأداء جيد، رغم أن بعض المستخدمين أشاروا تاريخيًا إلى أن Watson STT قد يكون أبطأ قليلاً من خدمة جوجل في إرجاع النتائج (حيث تعطي الأولوية للدقة على السرعة، لكن ربما تم تحسين ذلك). من المرجح أن IBM تستخدم تسريع GPU أيضًا في توليد TTS. حالات الاستخدام: الرعاية الصحية: تستخدم المستشفيات Watson STT (غالبًا عبر شركاء) لنسخ ملاحظات الأطباء المملاة (Dragon Medical شائع، لكن IBM تقدم بديلًا للبعض). وأيضًا، التفاعل الصوتي في تطبيقات الرعاية الصحية (مثلاً، ممرضة تسأل نظام معلومات المستشفى سؤالًا بصوت عالٍ وتحصل على إجابة عبر Watson Assistant مع STT/TTS). خدمة العملاء: Watson Assistant من IBM (الوكيل الافتراضي) مع Watson TTS/STT يشغل روبوتات صوتية لخطوط دعم العملاء. على سبيل المثال، قد يكون لدى شركة اتصالات وكيل صوتي يعتمد على Watson يتعامل مع المكالمات الروتينية (يستخدم Watson STT لسماع طلب المتصل وWatson TTS للرد).
    • الامتثال والإعلام: قد تستخدم شركات التداول المالي Watson STT لتحويل مكالمات المتداولين الهاتفية إلى نصوص من أجل مراقبة الامتثال، مستفيدة من أمان Watson وإمكانية نشره محليًا. قد تستخدم المؤسسات الإعلامية Watson لتحويل مقاطع الفيديو إلى نصوص أو أرشفة البث (خاصة إذا كانت بحاجة إلى حل محلي للأرشيفات الكبيرة).
    • التعليم وإمكانية الوصول: استخدمت الجامعات Watson لتحويل المحاضرات إلى نصوص أو توفير ترجمات، خاصة عندما تكون خصوصية المحتوى مصدر قلق ويرغبون في تشغيله داخليًا. تم استخدام Watson TTS لتوليد الصوت للمحتوى الرقمي وقارئات الشاشة (على سبيل المثال، موقع تجارة إلكترونية يستخدم Watson TTS لقراءة أوصاف المنتجات للمستخدمين ذوي الإعاقات البصرية).
    • الحكومة: يتيح النشر الآمن لـ Watson إمكانية استخدامه من قبل الوكالات الحكومية التي تحتاج إلى تقنيات الصوت، مثل تحويل الاجتماعات العامة إلى نصوص (مع مفردات مخصصة للأسماء/المصطلحات المحلية) أو توفير أنظمة استجابة صوتية متعددة اللغات لخدمات المواطنين.
    • قطاع السيارات: كان لدى IBM شراكات لاستخدام Watson في أنظمة المعلومات والترفيه في السيارات – باستخدام STT للأوامر الصوتية في السيارة وTTS للردود المنطوقة (الخرائط، معلومات السيارة). ميزة المفردات المخصصة مفيدة لمصطلحات السيارات (أسماء الطرازات، إلخ).

    التسعير: تقدم IBM خطة Lite مع بعض الاستخدام المجاني (مثلاً، 500 دقيقة STT شهريًا، وعدد معين من آلاف الأحرف لـ TTS) – وهذا جيد للتطوير. بعد ذلك، يكون التسعير حسب الاستخدام:

    • STT: حوالي 0.02 دولار لكل دقيقة للنماذج القياسية (أي 1.20 دولار لكل ساعة) على IBM Cloud. النماذج المخصصة تتطلب تكلفة إضافية (ربما ~0.03 دولار/دقيقة). ومع ذلك، قد تختلف هذه الأرقام؛ غالبًا ما تتفاوض IBM على صفقات مؤسسية. تسعير IBM تنافسي بشكل عام، وأحيانًا أقل قليلاً لكل دقيقة من المنافسين الكبار في السحابة لـ STT لجذب العملاء. لكن عدد اللغات أقل.
    • TTS: التسعير لكل مليون حرف، تقريبًا 20 دولارًا لكل مليون حرف للأصوات العصبية (الأصوات القياسية أرخص). كان لدى IBM تسعير سابق 0.02 دولار لكل ~1000 حرف، وهو ما يعادل 20 دولارًا لكل مليون. قد تكون الأصوات التعبيرية بنفس التكلفة. أعطت فئة Lite مثلاً 10,000 حرف مجانًا.
    • الميزة الفريدة لـ IBM هي ترخيص النشر المحلي – إذا قمت بالنشر عبر Cloud Pak، قد تدفع مقابل ترخيص سنوي أو تستخدم أرصدة، ما قد يكون تكلفة كبيرة لكنه يشمل تشغيل استخدام غير محدود حتى السعة. هذا يجذب المستخدمين الكثيفين الذين يفضلون نموذج التكلفة الثابتة أو الذين يجب عليهم الاحتفاظ بالبيانات داخليًا.

    نقاط القوة: تكمن القوة الأساسية لشركة IBM في التخصيص والخبرة في المجالات المتخصصة. يمكن ضبط Watson STT بدقة للتعامل مع المصطلحات المعقدة بدقة عالية krisp.ai krisp.ai، متفوقًا على النماذج العامة في سياقات مثل الإملاء الطبي أو تفريغ النصوص القانونية. غالبًا ما يشير العملاء إلى استعداد IBM للعمل على حلول مخصصة – فقد تقوم IBM بمرافقتك في إنشاء نموذج أو صوت مخصص إذا لزم الأمر (كخدمة مدفوعة). الخصوصية وإمكانية التشغيل على الخوادم المحلية تعتبر ميزة كبيرة؛ قلة من المنافسين يقدمون هذا المستوى من التحكم. وهذا يجعل IBM خيارًا مفضلًا لبعض العملاء من الجهات الحكومية والمؤسسات الكبرى. دقة خدمة تحويل الكلام إلى نص من IBM على الصوت الواضح مع التخصيص المناسب ممتازة – في بعض المقارنات، كانت Watson STT في القمة في مجالات مثل الكلام الهاتفي عند ضبطها. أصوات تحويل النص إلى كلام من IBM، رغم أنها أقل عددًا، إلا أنها عالية الجودة (خاصة الأصوات العصبية التي تم تقديمها في السنوات الأخيرة). ميزة أخرى هي التكامل مع مجموعة الذكاء الاصطناعي الكاملة من IBM – بالنسبة للشركات التي تستخدم بالفعل Watson NLP أو Knowledge Studio أو منصات بيانات IBM، فإن إضافة ميزة الكلام أمر سهل. لدى IBM أيضًا شبكة دعم قوية؛ غالبًا ما يحصل العملاء على مهندسي دعم مباشر لخدمات Watson إذا كانوا على خطط المؤسسات. أخيرًا، علامة IBM التجارية في الذكاء الاصطناعي (خاصة بعد شهرة فوز DeepQA/Watson في برنامج Jeopardy) تعطي طمأنينة – بعض صناع القرار يثقون في IBM للأنظمة الحساسة بسبب هذا الإرث.

    نقاط الضعف: خدمات الكلام من IBM لديها نطاق أقل في اللغات والأصوات مقارنة بالمنافسين – على سبيل المثال، إذا كنت بحاجة إلى تحويل النص إلى كلام باللغة السويدية أو تحويل الكلام إلى نص باللغة الفيتنامية، قد لا توفرها IBM بينما قد يوفرها الآخرون. هذا يحد من الاستخدام في التطبيقات الاستهلاكية العالمية. واجهة IBM Cloud والوثائق، رغم أنها جيدة، إلا أنها أحيانًا أقل سهولة للمستخدم مقارنة بوثائق AWS الموجهة للمطورين أو الاستوديوهات المتكاملة لـ Azure. زخم IBM في سوق الذكاء الاصطناعي تباطأ مقارنة بالوافدين الجدد؛ وبالتالي، فإن دعم المجتمع أو الأمثلة مفتوحة المصدر لخدمات Watson speech أقل انتشارًا. نقطة ضعف أخرى هي قابلية التوسع لأحمال العمل الكبيرة والفورية – رغم أن IBM يمكنها التوسع، إلا أن لديها عددًا أقل من مراكز البيانات العالمية لـ Watson مقارنةً بجوجل مثلاً، لذا قد تكون فترات الانتظار أعلى إذا كنت بعيدًا عن منطقة سحابية لـ IBM. من ناحية التكلفة، إذا كنت بحاجة إلى مجموعة واسعة من اللغات أو الأصوات، قد تكون IBM أكثر تكلفة لأنك قد تحتاج إلى عدة مزودين. بالإضافة إلى ذلك، تركيز IBM على المؤسسات يعني أن بعض الجوانب “ذاتية الخدمة” أقل تطورًا – على سبيل المثال، تخصيص نموذج قد يتطلب بعض الخطوات اليدوية أو التواصل مع IBM، بينما تتيح لك Google/AWS رفع البيانات للتخصيص بشكل شبه تلقائي. كما أن IBM لا تعلن عن تحسينات دقة النماذج بشكل متكرر – لذا هناك انطباع بأن نماذجهم لا يتم تحديثها كثيرًا (رغم أنهم يقومون بالتحديث، لكن بهدوء). أخيرًا، نظام IBM البيئي ليس معتمدًا على نطاق واسع من قبل المطورين، مما قد يكون عيبًا إذا كنت تبحث عن دعم مجتمعي واسع أو تكامل مع أدوات الطرف الثالث.

    التحديثات الأخيرة (2024–2025): واصلت IBM تحديث عروضها في مجال الكلام. في عام 2024، قدمت IBM نماذج الكلام الكبيرة (كميزة وصول مبكر) للغات الإنجليزية واليابانية والفرنسية، والتي حسّنت الدقة بشكل كبير من خلال الاستفادة من الشبكات العصبية الأكبر (وقد تم ذكر ذلك في ملاحظات إصدار Watson STT) cloud.ibm.com. شهد Watson TTS أصواتًا جديدة: أضافت IBM أصواتًا عصبية محسّنة للإنجليزية الأسترالية والكورية والهولندية في منتصف 2024 cloud.ibm.com. كما حسّنوا الأساليب التعبيرية لبعض الأصوات (على سبيل المثال، حصل الصوت الأمريكي الإنجليزي “أليسون” على تحديث جديد ليبدو أكثر حوارية لاستخدامات Watson Assistant). من ناحية الأدوات، أصدرت IBM تكامل Watson Orchestrate – مما يعني أن تنظيم الذكاء الاصطناعي منخفض الكود لديهم يمكنه الآن توصيل STT/TTS بسهولة، مثل نسخ اجتماع ثم تلخيصه باستخدام Watson NLP. كما عملت IBM على تقليل التحيز في التعرف على الكلام، معترفة بأن النماذج القديمة كانت لديها معدلات خطأ أعلى لبعض اللهجات؛ ويقال إن نموذجهم الإنجليزي الكبير الجديد حسّن التعرف للمتحدثين المتنوعين من خلال التدريب على بيانات أكثر تنوعًا. تطور ملحوظ في 2025: بدأت IBM في الاستفادة من نماذج الأساس من huggingface لبعض المهام، وهناك تكهنات بأن IBM قد تدمج/تفتح نماذج المصدر المفتوح (مثل Whisper) في عروضها للغات التي لا تغطيها؛ ومع ذلك، لا يوجد إعلان رسمي حتى الآن. باختصار، كانت تحديثات IBM تدور حول تحسين الجودة والحفاظ على الصلة (على الرغم من أنها كانت أقل إثارة من إعلانات المنافسين). التزام IBM بالذكاء الاصطناعي السحابي الهجين يعني أننا قد نشهد مزيدًا من السهولة في نشر Watson Speech على Kubernetes ودمجه مع استراتيجيات السحابة المتعددة.

    الموقع الرسمي: IBM Watson Speech-to-Text telnyx.com telnyx.com وصفحات منتجات Text-to-Speech على IBM Cloud.

    5. Nuance Dragon (التعرف على الكلام والإملاء الصوتي) – Nuance (Microsoft)

    نظرة عامة: Nuance Dragon هي تقنية رائدة في التعرف على الكلام لطالما كانت المعيار الذهبي لـإملاء الصوت وتحويله إلى نص، خاصة في المجالات المهنية. طورت شركة Nuance Communications (التي أصبحت الآن تابعة لمايكروسوفت منذ عام 2022) Dragon كمجموعة من المنتجات لمختلف الصناعات: Dragon Professional للإملاء العام، Dragon Legal، Dragon Medical، وغيرها، كل منها مضبوط على مفردات مجاله. يشتهر Dragon بدقته العالية جدًا في تحويل الكلام إلى نص، خاصة بعد تدريب المستخدم لفترة قصيرة. كما يدعم أوامر الصوت (التحكم في البرامج عبر الصوت). على عكس واجهات برمجة التطبيقات السحابية، كان Dragon تاريخيًا يعمل كبرنامج على أجهزة الكمبيوتر أو خوادم المؤسسات، مما جعله الخيار المفضل للمستخدمين الذين يحتاجون إلى إملاء فوري بدون إنترنت أو مع ضمان الخصوصية. بعد الاستحواذ، تم دمج التقنية الأساسية لـ Nuance أيضًا في سحابة مايكروسوفت (كجزء من ميزات Azure Speech وOffice 365)، لكن Dragon نفسه لا يزال خط إنتاج مستقل. في عام 2025، يبرز Dragon في هذه القائمة كمتخصص: بينما المنصات الأخرى أوسع، يركز Dragon على إنتاجية الأفراد والدقة المتخصصة في المجالات.

    النوع: في الأساس تحويل الكلام إلى نص (STT). (لدى Nuance أيضًا منتجات تحويل النص إلى كلام ومنتجات القياسات الحيوية الصوتية، لكن علامة “Dragon” التجارية هي STT. هنا نركز على Dragon NaturallySpeaking والعروض ذات الصلة).

    الشركة/المطور: Nuance (تم الاستحواذ عليها من قبل مايكروسوفت). لدى Nuance خبرة عقود في مجال الصوت؛ فقد كانت رائدة في العديد من ابتكارات الصوت (حتى أنها كانت تدعم أنظمة الرد الصوتي التفاعلي القديمة وخلفية Siri المبكرة). الآن تحت مظلة مايكروسوفت، يغذي بحثهم تحسينات Azure.

    القدرات والفئة المستهدفة: تدور قدرات Dragon حول التعرف المستمر على الكلام مع الحد الأدنى من الأخطاء، والحوسبة الصوتية. تشمل الفئة المستهدفة:

    • المهنيون الطبيون: يستخدم Dragon Medical One على نطاق واسع من قبل الأطباء لإملاء الملاحظات السريرية مباشرة في السجلات الطبية الإلكترونية، ويتعامل مع المصطلحات الطبية المعقدة وأسماء الأدوية بدقة تقارب 99% krisp.ai.
    • المهنيون القانونيون: تم تدريب Dragon Legal على المصطلحات القانونية والتنسيق (يعرف الاستشهادات والصياغة القانونية). يستخدمه المحامون لصياغة المستندات بالصوت.
    • الأعمال العامة والأفراد: يتيح Dragon Professional لأي شخص إملاء رسائل البريد الإلكتروني والتقارير أو التحكم في جهاز الكمبيوتر (فتح البرامج، إرسال الأوامر) بالصوت، مما يعزز الإنتاجية.
    • إمكانية الوصول: غالبًا ما يعتمد الأشخاص ذوو الإعاقة (مثل محدودي الحركة) على Dragon لاستخدام الكمبيوتر بدون استخدام اليدين.
    • تطبيقات إنفاذ القانون/السلامة العامة: تستخدم بعض أقسام الشرطة Dragon لإملاء تقارير الحوادث في سيارات الدورية.

    الميزات الرئيسية:

    • إملاء عالي الدقة: يتعلم Dragon صوت المستخدم ويمكنه تحقيق دقة عالية جدًا بعد تدريب قصير (قراءة مقطع) واستمرار التعلم. يستخدم السياق لاختيار الكلمات المتشابهة صوتيًا بشكل صحيح ويتكيف مع تصحيحات المستخدم.
    • المفردات المخصصة والماكروز: يمكن للمستخدمين إضافة كلمات مخصصة (مثل الأسماء الصحيحة، أو مصطلحات الصناعة) وأوامر صوتية مخصصة (ماكروز). على سبيل المثال، يمكن للطبيب إضافة قالب يتم تشغيله عندما يقول “أدرج فقرة الفحص البدني الطبيعي”.
    • التعلم المستمر: عندما يصحح المستخدم الأخطاء، يقوم Dragon بتحديث ملفه الشخصي. يمكنه تحليل بريد المستخدم الإلكتروني ومستنداته لتعلم أسلوب الكتابة والمفردات.
    • التشغيل دون اتصال: يعمل Dragon محليًا (لإصدارات الكمبيوتر)، ولا يتطلب الاتصال بالسحابة، وهو أمر بالغ الأهمية للخصوصية وانخفاض زمن الاستجابة.
    • تكامل أوامر الصوت: إلى جانب الإملاء، يسمح Dragon بالتحكم الكامل في الكمبيوتر عبر الصوت. يمكنك أن تقول “افتح مايكروسوفت وورد” أو “انقر قائمة ملف” أو حتى التنقل بالصوت. يشمل ذلك أيضًا تنسيق النص (“اجعل الجملة الأخيرة عريضة”) وعمليات أخرى.
    • دعم تعدد المتحدثين عبر التخصصات: بينما يوجد ملف تعريف واحد لكل مستخدم في Dragon، في سيناريوهات مثل نسخ تسجيل، تقدم Nuance حلولاً مثل Dragon Legal Transcription التي يمكنها التعرف على المتحدثين في الإملاءات المسجلة متعددة المتحدثين (لكن هذه ليست ميزة أساسية بل حل محدد).
    • إدارة السحابة/المؤسسات: للمؤسسات، يقدم Dragon إدارة مركزية للمستخدمين ونشرًا مركزيًا (Dragon Medical One هو خدمة اشتراك مستضافة على السحابة، على سبيل المثال، بحيث يمكن للأطباء استخدامه عبر الأجهزة). يتضمن تشفير حركة المرور بين العميل والخادم لتلك العروض السحابية.

    اللغات المدعومة: بشكل أساسي الإنجليزية (عدة لهجات). لدى Nuance إصدارات للغات رئيسية أخرى، لكن المنتج الرئيسي هو الإنجليزية الأمريكية. هناك منتجات Dragon للإنجليزية البريطانية، الفرنسية، الإيطالية، الألمانية، الإسبانية، الهولندية، إلخ. عادةً ما تُباع كل واحدة بشكل منفصل لأنها مضبوطة لتلك اللغة. الإصدارات المتخصصة (الطبية، القانونية) تركز بشكل أساسي على الإنجليزية (مع أن Nuance قدمت الطبية لبعض اللغات الأخرى). حتى عام 2025، أقوى حضور لـ Dragon في الأسواق الناطقة بالإنجليزية. دقته في الإملاء الإنجليزي لا تضاهى، لكنه قد لا يدعم، مثلاً، الصينية أو العربية بجودة مستوى Dragon (لدى Nuance محركات أخرى للغات مختلفة تُستخدم في منتجات مراكز الاتصال، لكن ليس كإصدار Dragon للمستهلكين).

    الأسس التقنية: بدأت Dragon بنماذج ماركوف المخفية ونماذج اللغة n-gram المتقدمة. على مر السنين، دمجت Nuance التعلم العميق (الشبكات العصبية) في النماذج الصوتية. تستخدم أحدث إصدارات Dragon نموذج صوتي قائم على الشبكة العصبية العميقة (DNN) يتكيف مع صوت المستخدم وبيئته، مما يحسن الدقة، خاصة بالنسبة للهجات أو الضوضاء الخلفية الطفيفة. كما يستخدم محرك تعرف على الكلام المستمر ذو المفردات الكبيرة جداً مع فك تشفير قائم على السياق (أي ينظر إلى العبارات الكاملة لتحديد الكلمات). إحدى التقنيات الرئيسية هي تكيّف المتحدث: حيث يتكيف النموذج تدريجياً مع صوت المستخدم المحدد. بالإضافة إلى ذلك، تضمن نماذج اللغة المتخصصة في المجالات (للقانون/الطب) أن يكون هناك تحيز نحو المصطلحات التقنية الخاصة بتلك المجالات (مثلاً، في النسخة الطبية، سيتم فهم كلمة “عضو” غالباً كعضو في الجسم وليس كآلة موسيقية حسب السياق). لدى Nuance أيضاً تقنيات حاصلة على براءة اختراع للتعامل مع التلعثم في الكلام والتنسيق التلقائي (مثل معرفة متى يتم إدراج فاصلة أو نقطة عند التوقف المؤقت). بعد استحواذ Microsoft، من المحتمل أن بعض أبحاث بنية المحولات بدأت تدخل في الخلفية، لكن Dragon 16 التجاري (أحدث إصدار للكمبيوتر) لا يزال يستخدم مزيجاً من النماذج العصبية والتقليدية المحسنة لأداء الكمبيوتر المحلي. جانب آخر: تستفيد Dragon من التعرف متعدد المراحل – قد تقوم بتمرير أولي، ثم تمرير ثانٍ مع سياق لغوي أعلى لتحسين النتائج. كما تحتوي على خوارزميات لإلغاء الضوضاء لتصفية مدخلات الميكروفون (تبيع Nuance ميكروفونات معتمدة للحصول على أفضل النتائج).

    حالات الاستخدام (موسعة):

    • التوثيق الطبي: الأطباء يمليون تفاصيل مقابلات المرضى – مثلاً: “المريض يعاني من حمى وسعال منذ 5 أيام…” تقوم Dragon بتحويل هذا فورياً إلى السجل الصحي الإلكتروني، مما يتيح التواصل البصري مع المرضى بدلاً من الكتابة. يستخدم بعض الأطباء Dragon في الوقت الفعلي أثناء زيارة المريض لصياغة الملاحظات.
    • صياغة المستندات: المحامون يستخدمون Dragon لصياغة العقود أو المذكرات القانونية بمجرد التحدث، وهو غالباً أسرع من الكتابة للمستندات الطويلة.
    • البريد الإلكتروني وتدوين الملاحظات: المهنيون المشغولون الذين يرغبون في إنجاز البريد الإلكتروني بالصوت أو تدوين الملاحظات أثناء الاجتماعات عن طريق الإملاء بدلاً من الكتابة.
    • الحوسبة بدون استخدام اليدين: المستخدمون الذين يعانون من إصابات الإجهاد المتكرر أو الإعاقات يستخدمون Dragon لتشغيل الكمبيوتر (فتح التطبيقات، تصفح الإنترنت، إملاء النصوص) بالكامل بالصوت.
    • خدمات النسخ: تقدم Nuance منتجاً يسمى Dragon Legal Transcription يمكنه تحويل الملفات الصوتية (مثل المقابلات المسجلة أو جلسات المحكمة) إلى نص مكتوب. يستخدم هذا من قبل مكاتب المحاماة أو الشرطة لنسخ تسجيلات الكاميرات الجسدية أو المقابلات، إلخ.

    نموذج التسعير: عادة ما يتم بيع Nuance Dragon كبرنامج مرخص:

    • Dragon Professional Individual (PC) – ترخيص لمرة واحدة (مثلاً 500 دولار) أو اشتراك. الاتجاهات الحديثة نحو الاشتراك (مثلاً، Dragon Professional Anywhere قائم على الاشتراك).
    • Dragon Medical One – اشتراك SaaS، غالباً حوالي 99 دولار/للمستخدم/شهرياً (وهو مرتفع بسبب المفردات والدعم المتخصص).
    • Dragon Legal – ترخيص لمرة واحدة أو اشتراك، وغالباً أغلى من النسخة المهنية.
    • المنظمات الكبيرة يمكنها الحصول على تراخيص جماعية. مع التكامل مع مايكروسوفت، قد تبدأ بعض الميزات بالظهور في عروض Microsoft 365 (على سبيل المثال، الإملاء الجديد في Office يحصل على تحسينات من Nuance).
    • في Azure، تقدم مايكروسوفت الآن “خدمات Azure Cognitive – الكلام المخصص” والتي تعتمد جزئياً على تقنيات Nuance. لكن Dragon نفسه لا يزال منفصلاً في الوقت الحالي.

    نقاط القوة:

    • دقة لا مثيل لها في الإملاء المتخصص في المجالات، خاصة بعد التكيّف krisp.ai krisp.ai. تميز Dragon في التعرف على المصطلحات المعقدة مع الحد الأدنى من الأخطاء – على سبيل المثال، نسخ تقرير طبي معقد بأسماء أدوية وقياسات بدقة شبه كاملة.
    • تخصيص المستخدم: ينشئ ملف تعريف للمستخدم يتعلم – مما يحسن الدقة كلما استخدمته أكثر، وهو ما لا تفعله واجهات برمجة التطبيقات السحابية العامة لكل فرد بهذا المستوى.
    • في الوقت الحقيقي وبدون إنترنت: لا يوجد تأخير ملحوظ؛ تظهر الكلمات تقريباً بنفس سرعة النطق (على جهاز كمبيوتر جيد). ولا تحتاج إلى الإنترنت، مما يعني أيضاً أن بياناتك لا تغادر جهازك (ميزة كبيرة للسرية).
    • أوامر صوتية وتكامل مع سير العمل: يمكنك الإملاء والتنسيق في نفس الوقت (“افتح Outlook ورد على هذا البريد: عزيزي جون فاصلة سطر جديد شكراً على رسالتك…”) – فهو بارع في المزج بين الإملاء والأوامر.
    • منتجات متخصصة: توفر نسخ مخصصة (طبية، قانونية) يعني جاهزية فورية لهذه المجالات دون الحاجة لتخصيص يدوي.
    • الثبات والثقة: العديد من المحترفين يستخدمون Dragon منذ سنوات ويثقون في نتائجه – حل ناضج ومجرب. وبدعم مايكروسوفت، من المرجح أن يستمر ويتحسن (تكامل مع الذكاء الاصطناعي السحابي لمزيد من الضبط، إلخ).
    • متعدد المنصات: يتوفر Dragon بشكل أساسي على ويندوز؛ Dragon Anywhere (تطبيق جوال) يوفر الإملاء على iOS/أندرويد أثناء التنقل (مزامنة سحابية للمفردات المخصصة). ومن خلال السحابة (Medical One)، يمكن الوصول إليه أيضاً على الأجهزة الخفيفة.
    • أيضاً، التعرف على المتحدث: هو مصمم فعلياً لمستخدم واحد في كل مرة، مما يحسن الدقة (مقارنة بنموذج عام يحاول التعامل مع أي صوت، Dragon يتم ضبطه على صوتك).

    نقاط الضعف:

    • التكلفة وسهولة الوصول: Dragon مكلف وليس مجانياً للتجربة إلا ربما لفترة تجريبية قصيرة. على عكس واجهات برمجة التطبيقات السحابية التي تدفع فقط مقابل ما تستخدمه (وقد تكون أرخص للاستخدام العرضي)، يتطلب Dragon استثماراً مقدماً أو اشتراكاً مستمراً.
    • منحنى التعلم: غالباً ما يحتاج المستخدمون لقضاء وقت في تدريب Dragon وتعلم أوامر الصوت وتقنيات التصحيح للحصول على أفضل النتائج. إنه قوي، لكنه ليس سهلاً مثل الإملاء الصوتي على الهاتف الذكي.
    • حساسية للبيئة: رغم أن Dragon جيد في التعامل مع الضوضاء، إلا أنه يعمل بشكل أفضل في بيئة هادئة مع ميكروفون عالي الجودة. الضوضاء الخلفية أو الميكروفونات منخفضة الجودة يمكن أن تؤثر بشكل كبير على الأداء.
    • التركيز على متحدث واحد: لم يُصمم Dragon لنسخ المحادثات متعددة المتحدثين بشكل مباشر (يمكن استخدام وضع النسخ على التسجيلات، لكن في الوضع المباشر هو لمتحدث واحد فقط). بالنسبة لنسخ الاجتماعات، قد تكون الخدمات السحابية التي تدعم عدة متحدثين أكثر سهولة.
    • يستهلك الكثير من الموارد: تشغيل Dragon يمكن أن يكون عبئًا على وحدة المعالجة المركزية/الذاكرة في الحاسوب، خاصة أثناء المعالجة الأولية. بعض المستخدمين يجدون أنه يبطئ المهام الأخرى أو قد يتعطل إذا كانت موارد النظام منخفضة. الإصدارات السحابية تتجاوز ذلك، لكنها تتطلب اتصال إنترنت مستقر.
    • دعم أجهزة ماك: أوقفت Nuance دعم Dragon لأجهزة ماك منذ عدة سنوات (هناك حلول بديلة باستخدام Dragon Medical على المحاكاة الافتراضية للماك، إلخ، لكن لا يوجد منتج أصلي للماك الآن)، وهذا يعتبر سلبية لمستخدمي ماك.
    • المنافسة من ASR العام: مع تحسن خدمات تحويل الكلام إلى نص السحابية العامة (مثل OpenAI Whisper الذي وصل لدقة عالية مجانًا)، قد يختار بعض المستخدمين الأفراد هذه البدائل إذا لم يكونوا بحاجة لكل ميزات Dragon. مع ذلك، لا تزال هذه البدائل متأخرة في واجهة الإملاء والتكيف الشخصي.

    التحديثات الأخيرة (2024–2025): منذ استحواذ مايكروسوفت على Nuance، كانت الشركة هادئة نوعًا ما علنًا، لكن التكامل جارٍ:

    • قامت مايكروسوفت بدمج تقنية Dragon في ميزة الإملاء في Microsoft 365، مما حسّن دقتها لمستخدمي Office باستخدام نظام Nuance الخلفي (هذا لم يُعلن عنه بشكل صريح كعلامة تجارية لكنه أُعلن كجزء من “مايكروسوفت وNuance تقدمان حلول ذكاء اصطناعي سحابية أصلية”).
    • في عام 2023، Dragon Professional Anywhere (الإصدار السحابي من Dragon) شهد تحسنًا في الدقة وتم تقديمه عبر Azure لعملاء المؤسسات، مما يظهر التكامل مع سحابة مايكروسوفت.
    • أطلقت Nuance أيضًا منتجًا جديدًا يسمى Dragon Ambient eXperience (DAX) للرعاية الصحية، والذي يتجاوز الإملاء: حيث يستمع لمحادثات الطبيب والمريض ويولد ملاحظات مسودة تلقائيًا. يستخدم هذا مزيجًا من ASR الخاص بـ Dragon وتلخيص الذكاء الاصطناعي (مما يُظهر كيف تستفيد Nuance من الذكاء الاصطناعي التوليدي) – وهو ابتكار كبير في 2024 في مجال الرعاية الصحية.
    • يواصل Dragon Medical One توسيع اللغات: أعلنت مايكروسوفت في أواخر 2024 عن توسيع الإملاء الطبي من Nuance ليشمل الإنجليزية البريطانية، الإنجليزية الأسترالية، وغيرها، بالإضافة إلى تكامل أعمق مع نظام Epic EHR.
    • بالنسبة للقطاع القانوني، قامت Nuance بالاندماج مع برامج إدارة القضايا لتسهيل إدراج الإملاء.
    • قد نرى قريبًا أجزاء من Dragon تُقدم كخدمة “الكلام المخصص للمؤسسات” على Azure، بالاندماج مع خدمات Azure Speech. في أوائل 2025، أشارت المعاينات إلى أن خدمة Custom Speech من Azure يمكنها استخدام قاعدة بيانات Dragon أو التكيف مع تخصيص شبيه بـ Nuance، مما يشير إلى تقارب التكنولوجيا.
    • على جانب المنتج الأساسي، تم إصدار Dragon NaturallySpeaking 16 (أول إصدار رئيسي تحت إدارة مايكروسوفت) في أوائل عام 2023، مع دعم محسّن لنظام ويندوز 11 وتحسينات طفيفة في الدقة. لذلك بحلول عام 2025، ربما يكون الإصدار 17 أو إصدار موحد من مايكروسوفت في الأفق.
    • خلاصة القول، تواصل Nuance Dragon تحسين الدقة (ليس قفزة دراماتيكية، حيث كانت الدقة مرتفعة بالفعل، ولكن بشكل تدريجي)، أما التغييرات الأكبر فهي في طريقة تقديمها (السحابة، حلول الذكاء المحيطي، التكامل مع منظومة الذكاء الاصطناعي لمايكروسوفت).

    الموقع الرسمي: صفحات Nuance Dragon (الاحترافي، القانوني، الطبي) krisp.ai krisp.ai على موقع Nuance أو عبر موقع قسم Nuance التابع لمايكروسوفت.

    6. OpenAI Whisper (نموذج التعرف على الكلام وواجهة برمجة التطبيقات) – OpenAI

    نظرة عامة: OpenAI Whisper هو نموذج مفتوح المصدر للتعرف التلقائي على الكلام (STT) وقد اجتاح مجتمع الذكاء الاصطناعي بدقته الممتازة وقدراته متعددة اللغات. تم إصداره من قبل OpenAI في أواخر 2022، وWhisper ليس خدمة سحابية بواجهة أمامية مثل غيره، بل هو نموذج قوي (والآن واجهة برمجة تطبيقات) يمكن للمطورين استخدامه في نسخ وترجمة الصوت. بحلول 2025، أصبح Whisper تقنية مهيمنة للتعرف على الكلام في العديد من التطبيقات، وغالبًا ما يعمل في الخلفية. يشتهر بقدرته على التعامل مع مجموعة واسعة من اللغات (ما يقرب من 100 لغة) ومرونته مع اللهجات والضوضاء الخلفية بفضل تدريبه على 680,000 ساعة من الصوت المأخوذ من الإنترنت zilliz.com. تقدم OpenAI Whisper عبر واجهة برمجة التطبيقات الخاصة بها (مقابل الدفع حسب الاستخدام) كما أن أوزان النموذج متاحة مجانًا، بحيث يمكن لأي شخص لديه موارد حوسبة كافية تشغيله أو تحسينه دون اتصال بالإنترنت. أدى تقديم Whisper إلى تحسين كبير في الوصول إلى التعرف على الكلام عالي الجودة، خاصة للمطورين والباحثين الذين أرادوا بديلاً عن واجهات برمجة التطبيقات السحابية من شركات التقنية الكبرى أو احتاجوا إلى نموذج مفتوح وقابل للتخصيص.

    النوع:تحويل الكلام إلى نص (نسخ وترجمة). (Whisper لا يولد صوتًا؛ بل يحول الصوت المنطوق إلى نص ويمكنه أيضًا ترجمة اللغة المنطوقة إلى نص إنجليزي.)

    الشركة/المطور:OpenAI (وبما أنه مفتوح المصدر، هناك مساهمات من المجتمع أيضًا).

    القدرات والفئة المستهدفة:

    • التعرف على الكلام متعدد اللغات: يمكن لـ Whisper نسخ الكلام في 99 لغة بدقة رائعة zilliz.com. ويشمل ذلك العديد من اللغات التي لا تخدمها واجهات برمجة التطبيقات التجارية بشكل جيد.
    • ترجمة الكلام: يمكنه ترجمة العديد من اللغات مباشرة إلى نص إنجليزي (مثال: عند إعطائه صوت فرنسي، ينتج ترجمة نصية إنجليزية) zilliz.com.
    • الصلابة: يتعامل مع مجموعة متنوعة من المدخلات – لهجات مختلفة، وطرق نطق، وضوضاء خلفية – بشكل أفضل من العديد من النماذج، وذلك بفضل بيانات التدريب المتنوعة. كما يمكنه التقاط أشياء مثل كلمات الحشو، والضحك (“[ضحك]”)، وما إلى ذلك، مما يجعل النصوص أكثر ثراءً.
    • تحديد الطوابع الزمنية: يوفر طوابع زمنية على مستوى الكلمة أو الجملة، مما يمكّن من إنشاء ترجمات نصية ومزامنة النص مع الصوت.
    • واجهة برمجة تطبيقات سهلة الاستخدام: من خلال واجهة Whisper API من OpenAI (التي تستخدم نموذج large-v2)، يمكن للمطورين إرسال ملف صوتي والحصول على النص المفرغ بسهولة عبر طلب HTTP بسيط. هذا يستهدف المطورين الذين يحتاجون إلى تكامل سريع.
    • للباحثين والهواة: بما أن النموذج مفتوح المصدر، يمكن للباحثين في الذكاء الاصطناعي أو الهواة التجربة، أو التخصيص لمجالات محددة، أو تشغيله محلياً مجاناً. هذا جعل تقنية التعرف التلقائي على الكلام متاحة على نطاق واسع.

    الميزات الرئيسية:

    • دقة عالية: في التقييمات، يحقق أكبر نموذج لـ Whisper (~1.6 مليار معامل) معدلات خطأ في الكلمات مماثلة أو أفضل من خدمات السحابة الرائدة للعديد من اللغات deepgram.com deepgram.com. على سبيل المثال، فإن تفريغ النصوص الإنجليزية دقيق للغاية، والأهم من ذلك أن دقته في اللغات غير الإنجليزية تُعد نقطة تحول (حيث تنخفض دقة بعض النماذج الأخرى، يحافظ Whisper على أداء قوي).
    • لا حاجة للتدريب للاستخدام: يمكن استخدامه مباشرة بكفاءة عالية. ولا حاجة لتدريب لكل مستخدم مثل Dragon – فهو عام (وإن لم يكن متخصصاً في مجال معين).
    • طوابع زمنية على مستوى المقطع: يتم تقسيم مخرجات Whisper إلى مقاطع مع طوابع زمنية للبداية/النهاية، وهو أمر مفيد للترجمة النصية. بل إنه يحاول تقسيم المقاطع بذكاء عند التوقفات.
    • أحجام نماذج مختلفة: يتوفر Whisper بأحجام متعددة (صغير جداً، أساسي، صغير، متوسط، كبير). النماذج الأصغر تعمل بسرعة أكبر ويمكن تشغيلها حتى على الأجهزة المحمولة (مع بعض التنازل عن الدقة). النماذج الأكبر (large-v2 هو الأدق) تتطلب وحدة معالجة رسومات وموارد حسابية أكبر لكنها تعطي أفضل النتائج deepgram.com.
    • تحديد اللغة: يمكن لـ Whisper اكتشاف اللغة المنطوقة في الصوت تلقائياً ثم استخدام فك التشفير المناسب لتلك اللغة zilliz.com.
    • مفتوح المصدر والمجتمع: الطبيعة المفتوحة تعني وجود العديد من مساهمات المجتمع: مثل نسخ Whisper أسرع، Whisper مع خيارات فك تشفير مخصصة، وغيرها.
    • إضافات API: يمكن لواجهة برمجة التطبيقات المقدمة من OpenAI أن تُرجع إما نصًا عاديًا أو JSON يحتوي على معلومات مفصلة (بما في ذلك احتمالية الكلمات، إلخ) وتدعم معلمات مثل prompt (لتوجيه النسخ ببعض السياق).
    • النشر على الحافة (Edge deployment): نظرًا لإمكانية تشغيله محليًا (إذا كان العتاد يسمح بذلك)، يُستخدم في السيناريوهات المحلية أو داخل المؤسسة حيث لا يمكن استخدام السحابة (مثلاً، صحفي ينسخ مقابلات حساسة دون اتصال بالإنترنت باستخدام Whisper، أو تطبيق يقدم نسخ الملاحظات الصوتية على الجهاز من أجل الخصوصية).

    اللغات المدعومة: يدعم Whisper رسميًا حوالي 99 لغة في النسخ zilliz.com. يشمل ذلك نطاقًا واسعًا – من اللغات المنتشرة (الإنجليزية، الإسبانية، الماندرين، الهندية، العربية، إلخ) إلى اللغات الأقل انتشارًا (الويلزية، المنغولية، السواحيلية، إلخ). كانت بيانات تدريبه منحازة بشكل كبير ولكن غير حصري للإنجليزية (حوالي 65% من التدريب كان بالإنجليزية)، لذا فالإنجليزية هي الأكثر دقة، لكنه لا يزال يقدم أداءً جيدًا جدًا في العديد من اللغات الأخرى (خاصة اللغات الرومانسية والهندو-أوروبية الموجودة في مجموعة التدريب). يمكنه أيضًا نسخ الصوت الممزوج بين لغتين (code-switched audio). ميزة الترجمة إلى الإنجليزية تعمل مع حوالي 57 لغة غير إنجليزية تم تدريبه صراحة على ترجمتها community.openai.com.

    الأسس التقنية: Whisper هو نموذج Transformer تسلسلي إلى تسلسلي (بنية التشفير-فك التشفير) مشابه لتلك المستخدمة في الترجمة الآلية العصبية zilliz.com zilliz.com. يتم تقسيم الصوت وتحويله إلى مخططات طيفية log-Mel التي تُغذى إلى المشفر؛ ويقوم المفكك بتوليد رموز نصية. بشكل فريد، قامت OpenAI بتدريبه على مجموعة بيانات كبيرة ومتنوعة تتكون من 680 ألف ساعة من الصوت من الإنترنت، بما في ذلك العديد من خطابات متعددة اللغات ونصوصها المقابلة (بعضها تم جمعه أو استخلاصه من مجموعات ترجمات الأفلام، إلخ) zilliz.com. تم التدريب بطريقة “إشراف ضعيف” – أحيانًا باستخدام نصوص غير مثالية – مما جعل Whisper مثيرًا للاهتمام من حيث مقاومته للضوضاء والأخطاء. يحتوي النموذج على رموز خاصة للتعامل مع المهام: على سبيل المثال، لديه رمز <|translate|> لتفعيل وضع الترجمة، أو <|laugh|> للدلالة على الضحك، إلخ، مما يسمح له بتنفيذ مهام متعددة (وهكذا يمكنه القيام إما بالنسخ أو الترجمة) zilliz.com. النموذج الكبير (Whisper large-v2) يحتوي على حوالي 1.55 مليار معامل وتم تدريبه على وحدات معالجة رسومات قوية لأسابيع؛ وهو في الأساس في طليعة ما هو متاح للعامة. كما يستخدم طوابع زمنية على مستوى الكلمة عن طريق التنبؤ برموز التوقيت (يقوم بتقسيم الصوت من خلال التنبؤ بمتى يجب التوقف). تصميم Whisper لا يتضمن نموذج لغة خارجي؛ إنه شامل من البداية للنهاية، أي أنه تعلم النمذجة اللغوية والصوتية معًا. وبسبب تدريبه على الكثير من الضوضاء الخلفية وظروف صوتية متنوعة، تعلم المشفر ميزات قوية، وتعلم المفكك إنتاج نص مترابط حتى من صوت غير مثالي. يتيح الكود مفتوح المصدر تشغيل النموذج على أطر عمل مثل PyTorch؛ وظهرت العديد من التحسينات (مثل OpenVINO، ONNX runtime، إلخ) لتسريعه. إنه ثقيل نسبيًا – النسخ اللحظي باستخدام النموذج الكبير يتطلب عادة وحدة معالجة رسومات جيدة، رغم أن النموذج المتوسط المضغوط يمكنه تقريبًا العمل في الوقت الحقيقي على معالج حديث.

    حالات الاستخدام:

    • خدمات وتطبيقات النسخ: العديد من الشركات الناشئة أو المشاريع في مجال النسخ تعتمد الآن على Whisper بدلاً من تدريب نموذجها الخاص. على سبيل المثال، أدوات نسخ البودكاست، تطبيقات نسخ الاجتماعات (بعض روبوتات Zoom تستخدم Whisper)، سير عمل النسخ في الصحافة، إلخ، غالبًا ما تعتمد على Whisper لدقته العالية دون رسوم لكل دقيقة.
    • ترجمات يوتيوب/الفيديو: يستخدم صناع المحتوى Whisper لإنشاء ترجمات للفيديوهات (خاصة للغات متعددة). هناك أدوات يمكنك من خلالها إدخال فيديو ويقوم Whisper بإنشاء ترجمات srt.
    • تعلم اللغات والترجمة: يُستخدم وضع الترجمة في Whisper للحصول على نص إنجليزي من خطاب بلغة أجنبية، مما يمكن أن يساعد في إنشاء ترجمات مترجمة أو مساعدة متعلمي اللغات على نسخ وترجمة محتوى أجنبي.
    • إمكانية الوصول: يقوم المطورون بدمج Whisper في التطبيقات لإجراء نسخ فوري للمحادثات لمستخدمي الصم أو ضعاف السمع (على سبيل المثال، تطبيق جوال يستمع إلى المحادثة ويعرض ترجمات مباشرة باستخدام Whisper محليًا).
    • واجهات الصوت والتحليلات: تستخدم بعض مشاريع المساعد الصوتي للهواة Whisper لتحويل الكلام إلى نص دون اتصال بالإنترنت كجزء من سلسلة العمليات (للمساعدات الصوتية التي تركز على الخصوصية). أيضًا، قد تستخدم الشركات التي تحلل تسجيلات مراكز الاتصال Whisper لنسخ المكالمات (مع أن الشركات قد تفضل واجهات برمجة التطبيقات التجارية للدعم).
    • البحث الأكاديمي واللغوي: نظرًا لأنه مفتوح المصدر، يستخدم الباحثون Whisper لنسخ التسجيلات الميدانية بلغات مختلفة ودراستها. دعمه الواسع للغات مفيد في توثيق اللغات قليلة الموارد.
    • الإنتاجية الشخصية: قد يستخدم المستخدمون المتمكنون تقنيًا Whisper محليًا لإملاء الملاحظات (ليس مصقولًا مثل Dragon لهذا النوع من الإملاء التفاعلي، لكن البعض يفعل ذلك)، أو لنسخ مذكراتهم الصوتية تلقائيًا.

    نموذج التسعير: Whisper مجاني للاستخدام إذا استضفته بنفسك (فقط تكلفة الحوسبة). واجهة برمجة تطبيقات Whisper من OpenAI (لمن لا يريد تشغيله بنفسه) رخيصة جدًا: 0.006 دولار لكل دقيقة من الصوت المعالج deepgram.com. هذا تقريبًا 1/10 أو أقل من سعر واجهات برمجة التطبيقات السحابية المعتادة لتحويل الكلام إلى نص، مما يجعله جذابًا جدًا من الناحية المالية. هذا السعر المنخفض ممكن لأن نموذج OpenAI ثابت ومن المرجح أنهم يشغلونه بكفاءة على نطاق واسع. لذا العملاء المستهدفون إما يستخدمون النموذج المفتوح على أجهزتهم الخاصة (بدون تكلفة ترخيص)، أو يستخدمون واجهة برمجة تطبيقات OpenAI بسعر 0.006 دولار/دقيقة، وهو أقل من الجميع تقريبًا (جوجل 0.024 دولار/دقيقة، إلخ). ومع ذلك، خدمة OpenAI لا تقدم تخصيصًا أو أي شيء يتجاوز Whisper الخام.

    نقاط القوة:

    • دقة متقدمة وحديثة في مجموعة واسعة من المهام واللغات مباشرة deepgram.com zilliz.com. قوية بشكل خاص في فهم الإنجليزية بلهجات مختلفة والعديد من اللغات غير الإنجليزية التي كان يجب سابقًا استخدام خدمات أقل كفاءة لها.
    • متعدد اللغات والمهام: نموذج واحد لجميع اللغات وحتى الترجمة – مرن جدًا.
    • مفتوح المصدر ويعتمد على المجتمع: يعزز الابتكار؛ على سبيل المثال، هناك نسخ معدلة تعمل بشكل أسرع، أو بطرق فك تشفير بديلة للحفاظ على علامات الترقيم بشكل أفضل، إلخ.
    • فعال من حيث التكلفة: مجاني عمليًا إذا كان لديك العتاد، وواجهة برمجة التطبيقات رخيصة جدًا، مما يجعل مشاريع النسخ الصوتي الضخمة ممكنة من حيث التكلفة.
    • الخصوصية والعمل دون اتصال: يمكن للمستخدمين تشغيل Whisper محليًا في الموقع للبيانات الحساسة (على سبيل المثال، يمكن للمستشفيات نشره داخليًا لنسخ التسجيلات دون إرسالها إلى السحابة). هذه ميزة كبيرة في بعض السياقات، مماثلة لامتلاك نموذج غير متصل مثل هذا ينافس ما يمكن أن تفعله فقط IBM أو Nuance في الموقع.
    • التكامل: العديد من أدوات الصوت الحالية دمجت Whisper بسرعة (ffmpeg لديه الآن فلتر لتشغيل whisper، على سبيل المثال). شعبيته تعني وجود العديد من الأغلفة البرمجية (WebWhisper، Whisper.cpp للنشر بلغة C++، إلخ)، لذا من السهل توصيله.
    • تحسينات مستمرة من المجتمع: بينما إصدار OpenAI ثابت، قام آخرون بضبطه أو توسيعه. أيضًا، قد تصدر OpenAI نسخًا محسنة (هناك شائعات عن Whisper v3 أو دمجه مع أعمالهم الجديدة متعددة الوسائط).

    نقاط الضعف:

    • لا يوجد تخصيص مدمج للمصطلحات الخاصة: على عكس بعض خدمات السحابة أو Dragon، لا يمكنك تزويد Whisper بمفردات مخصصة لتوجيهه. لذا، بالنسبة للمصطلحات المتخصصة جدًا (مثل أسماء المواد الكيميائية)، قد يخطئ Whisper إلا إذا شاهد شيئًا مشابهًا أثناء التدريب. ومع ذلك، يمكن ضبطه إذا كان لديك البيانات والخبرة.
    • يستهلك موارد كبيرة: تشغيل النموذج الكبير في الوقت الفعلي يتطلب وحدة معالجة رسومات جيدة. على المعالج المركزي، يكون بطيئًا (رغم أن النماذج الأصغر يمكن أن تعمل في الوقت الفعلي على المعالج المركزي مع بعض التنازل في الجودة). واجهة برمجة تطبيقات OpenAI تحل هذه المشكلة من خلال معالجة العمل الثقيل في السحابة، ولكن إذا كنت تستضيفه ذاتيًا على نطاق واسع، ستحتاج إلى وحدات معالجة رسومات.
    • الكمون: يعالج Whisper الصوت على شكل أجزاء وغالبًا مع تأخير بسيط لإنهاء المقاطع. في التطبيقات الفورية (مثل الترجمة الفورية)، قد يكون هناك تأخير بحوالي ثانيتين لظهور النص الأول لأنه ينتظر جزءًا من الصوت. هذا مقبول في كثير من الحالات لكنه ليس منخفض الكمون مثل بعض الأنظمة المحسنة للبث مثل نظام Google الذي يمكن أن يبدأ الإخراج في أقل من 300 مللي ثانية. هناك جهود في المجتمع لجعل “Whisper للبث المباشر” لكن الأمر ليس سهلاً.
    • انحياز للغة الإنجليزية في التدريب: رغم أنه متعدد اللغات، حوالي ثلثي بيانات تدريبه كانت بالإنجليزية. لا يزال يقدم أداءً مذهلاً في العديد من اللغات (خاصة الإسبانية، الفرنسية، إلخ)، لكن بعض اللغات التي لديها بيانات أقل في التدريب قد تكون أقل دقة أو تفضل إخراج الإنجليزية إذا لم يكن متأكدًا. على سبيل المثال، في اللغات النادرة جدًا أو الخلط بين اللغات، قد يخطئ في التعرف أو ينتج نصًا إنجليزيًا عن طريق الخطأ (لاحظ بعض المستخدمين أن Whisper أحيانًا يدرج ترجمة أو كتابة صوتية بالإنجليزية إذا لم يكن متأكدًا من الكلمة).
    • لا يوجد تمييز بين المتحدثين: يقوم Whisper بنسخ جميع الكلام لكنه لا يميز بين المتحدثين. إذا كنت بحاجة إلى “المتحدث 1 / المتحدث 2″، عليك تطبيق طريقة خارجية لتحديد المتحدث بعد ذلك. العديد من خدمات تحويل الكلام إلى نص السحابية توفر ذلك مدمجًا.
    • لا يوجد دعم رسمي: كنموذج مفتوح، إذا حدث خطأ ما، لا يوجد خط دعم رسمي (رغم أن واجهة برمجة تطبيقات OpenAI لديها دعم كمنتج، لكن النموذج المفتوح لا يملك ذلك).
    • غرائب في تنسيق المخرجات: قد يتضمن Whisper رموزًا غير كلامية مثل “[Music]” أو يحاول إضافة علامات ترقيم وأحيانًا قد لا يلتزم دائمًا بالتنسيق المطلوب (رغم أنه غالبًا جيد). على سبيل المثال، قد لا يضيف علامة استفهام حتى لو كانت الجملة سؤالاً لأنه لم يتم تدريبه صراحة على إدراجها دائمًا، إلخ. هناك حاجة لبعض المعالجة اللاحقة أو التوجيه لتحسين النتائج.
    • أيضًا، لدى واجهة برمجة تطبيقات OpenAI حاليًا حد أقصى لحجم الملف يبلغ حوالي 25 ميغابايت، مما يعني أنه يجب تقسيم الملفات الصوتية الأطول لإرسالها.

    آخر التحديثات (2024–2025):

    • بينما لم يتم تحديث نموذج Whisper نفسه (v2 large) علنًا من قبل OpenAI منذ 2022، تم إطلاق OpenAI Whisper API في أوائل 2023، مما جعله سهلًا ورخيصًا للاستخدام عبر deepgram.com. وقد جلب هذا قوة Whisper إلى المزيد من المطورين.
    • قدمت المجتمع Whisper.cpp، وهو تحويل إلى لغة C++ يمكن تشغيله على وحدة المعالجة المركزية (حتى على الأجهزة المحمولة) عن طريق تقليل حجم النموذج. وبحلول عام 2024، أصبح هذا متطورًا، مما أتاح للنماذج الصغيرة العمل في الوقت الفعلي على الهواتف الذكية – مما يدعم بعض تطبيقات النسخ الصوتي على الهواتف بشكل كامل دون اتصال بالإنترنت.
    • كانت هناك جهود بحثية تعتمد على Whisper: على سبيل المثال، تحسين Whisper لأغراض متخصصة (مثل النسخ الطبي) من قبل مجموعات مختلفة (على الرغم من عدم نشرها على نطاق واسع، إلا أن بعض الشركات الناشئة ربما فعلت ذلك).
    • يُفترض أن OpenAI تعمل على نموذج صوتي من الجيل التالي، ربما يدمج تقنيات من GPT (هناك بعض التلميحات في أوراقهم البحثية حول نموذج متعدد الوسائط محتمل يتعامل مع الكلام والنص). إذا تم إطلاق مثل هذا النموذج، فقد يتفوق على Whisper، ولكن حتى منتصف 2025، يظل Whisper هو عرض ASR الرئيسي لديهم.
    • من حيث التبني، بحلول عام 2025، انتقلت العديد من المشاريع مفتوحة المصدر (مثل أدوات Mozilla، مجتمع Kaldi، إلخ) إلى استخدام Whisper كأساس بسبب دقته العالية. وقد جعله هذا فعليًا معيارًا.
    • تطور ملحوظ: بحث Meta’s MMS (Massive Multilingual Speech) (منتصف 2023) وسّع الفكرة من خلال إطلاق نماذج تغطي أكثر من 1100 لغة للتعرف التلقائي على الكلام (على الرغم من أنها ليست بدقة Whisper للغات الرئيسية). وقد حفز هذا التنافس المزيد من الاهتمام بالكلام متعدد اللغات – لا يزال Whisper مهيمنًا من حيث الجودة، لكن قد نرى OpenAI ترد بإصدار Whisper v3 يغطي المزيد من اللغات أو يتماشى مع مثل هذه التطورات.
    • خلاصة القول، “التحديث” هو أن Whisper أصبح واسع الانتشار للغاية، مع تحسينات حوله في السرعة والنشر بدلاً من تغييرات جوهرية في النموذج. ولا يزال خيارًا رائدًا في 2025 لأي شخص يريد دمج النسخ الصوتي في منتجه بسبب الجمع بين الجودة، ودعم اللغات، والتكلفة.

    المصادر الرسمية: OpenAI Whisper GitHub zilliz.com zilliz.com؛ وثائق OpenAI Whisper API (موقع OpenAI) zilliz.com. (لا توجد “صفحة منتج” واحدة لأنه نموذج، لكن مراجع GitHub/Glossary أعلاه تعطي السياق الرسمي).

    7. Deepgram (واجهة برمجة تطبيقات ومنصة تحويل الكلام إلى نص) – Deepgram

    نظرة عامة: Deepgram هي منصة تحويل الكلام إلى نص تركز على المطورين وتقدم نسخًا سريعًا ودقيقًا للغاية من خلال مجموعة من نماذج الذكاء الاصطناعي وواجهات برمجة التطبيقات القوية. تميز Deepgram نفسها بالتركيز على التخصيص، السرعة، وكفاءة التكلفة لتطبيقات المؤسسات. تأسست في عام 2015، وبنت نماذجها الخاصة للتعلم العميق في مجال الكلام (بدلاً من استخدام تقنيات الشركات الكبرى) ووجدت لنفسها مكانة خاصة، خاصة بين مراكز الاتصال، وشركات تحليلات الصوت، وشركات التكنولوجيا التي تحتاج إلى نسخ واسع النطاق أو في الوقت الفعلي. في 2024–2025، غالبًا ما يُشار إلى Deepgram كبديل رئيسي لمزودي الخدمات السحابية الكبار في مجال تحويل الكلام إلى نص، خاصة بعد أن أظهرت دقة رائدة عالميًا مع أحدث نموذج لها “Nova-2” deepgram.com. المنصة لا توفر فقط نماذج جاهزة للاستخدام، بل أيضًا أدوات لتدريب نماذج كلام مخصصة على بيانات الشركة الخاصة (وهو أمر نادر في واجهات برمجة التطبيقات السحابية ذاتية الخدمة). يمكن نشر Deepgram في السحابة أو في مقر الشركة، مما يجذب الشركات التي تحتاج إلى مرونة.

    النوع: بشكل أساسي تحويل الكلام إلى نص (النسخ). (بدأت Deepgram في تقديم خدمات تجريبية في تحويل النص إلى كلام وأدوات خط أنابيب الذكاء الاصطناعي الصوتي في الوقت الفعلي اعتبارًا من 2025 deepgram.com deepgram.com، لكن تحويل الكلام إلى نص هو مجالها الأساسي.)

    الشركة/المطور:Deepgram, Inc. (شركة ناشئة مستقلة، ويشاع بحلول 2025 أنها هدف للاستحواذ بسبب تقدمها التقني في مجال تحويل الكلام إلى نص).

    القدرات والفئة المستهدفة:

    • النسخ في الوقت الفعلي وعلى دفعات: تتيح واجهة برمجة تطبيقات Deepgram نسخ الصوت المتدفق مع حد أدنى من التأخير ومعالجة دفعات من الملفات الصوتية. وهي قادرة على التعامل مع أحجام كبيرة (يسوقون لقدرتهم على معالجة آلاف الساعات الصوتية بسرعة).
    • دقة عالية واختيار النماذج: يقدمون عدة مستويات من النماذج (مثل “Nova” لأعلى دقة، و”Base” للاستخدام الأسرع/الأخف، وأحيانًا نماذج مخصصة للمجالات). أحدث نموذج Nova-2 (صدر في 2024) يتميز بنسبة خطأ في الكلمات أقل بنسبة 30% من المنافسين ويتفوق في الدقة في الوقت الفعلي deepgram.com deepgram.com.
    • التخصيص: من أهم الميزات – يمكن للعملاء رفع بيانات معنونة لتدريب نماذج Deepgram مخصصة لمفرداتهم الخاصة (مثل أسماء المنتجات، العبارات الفريدة). هذا التخصيص يمكن أن يحسن الدقة بشكل كبير في مجال العميل.
    • دعم متعدد اللغات: تدعم Deepgram النسخ بعدة لغات (أكثر من 30 لغة حتى عام 2025، بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، اليابانية، الماندرين، وغيرها). قوتها الأساسية في الإنجليزية، لكنها توسع دعمها للغات الأخرى.
    • التحمل ضد الضوضاء وصيغ الصوت: كانت Deepgram في الأصل تعالج الصوت عبر خط معالجة مسبقة يمكنه التعامل مع جودات صوتية مختلفة (مكالمات هاتفية، إلخ). تقبل مجموعة واسعة من الصيغ (بما في ذلك برامج الترميز الشائعة مثل MP3، WAV، وحتى تدفقات RTP في الوقت الفعلي).
    • الميزات: توفر تمييز المتحدثين (تسمية المتحدث) عند الطلب، الترقيم، الكتابة بالحروف الكبيرة، تصفية الألفاظ النابية، وحتى اكتشاف الكيانات (مثل تحديد الأرقام والعملات المنطوقة). لديهم أيضًا ميزة لاكتشاف الكلمات المفتاحية أو تنفيذ بعض مهام معالجة اللغة الطبيعية على النصوص عبر واجهة برمجة التطبيقات الخاصة بهم.
    • السرعة: تشتهر Deepgram بسرعة المعالجة العالية جدًا – بفضل بنائها من البداية باستخدام CUDA (في البداية استخدموا وحدات معالجة الرسومات). يدّعون أنهم يعالجون الصوت أسرع من الوقت الحقيقي على وحدات معالجة الرسومات، حتى مع النماذج الكبيرة.
    • القابلية للتوسع والنشر: متوفرة كواجهة برمجة تطبيقات سحابية (مع اتفاقيات مستوى خدمة للمؤسسات) وأيضًا كنشر داخلي أو على سحابة خاصة (لديهم إصدار حاويات). يركزون على التوسع لأحجام المؤسسات ويوفرون لوحات تحكم وتحليلات استخدام للعملاء.
    • حالات الاستخدام: المستخدمون المستهدفون يشملون مراكز الاتصال (لنسخ وتحليل المكالمات)، شركات البرمجيات التي تضيف ميزات صوتية، شركات الإعلام التي تنسخ أرشيفات الصوت، وشركات الذكاء الاصطناعي التي تحتاج إلى تحويل الكلام إلى نص كأساس لبناء منتجات صوتية. على سبيل المثال، قد يستخدم مركز اتصال Deepgram لنسخ آلاف المكالمات في وقت واحد ثم تحليلها لمشاعر العملاء أو الامتثال. يقدّر المطورون واجهة البرمجة المباشرة والوثائق التفصيلية.

    الميزات الرئيسية:

    • سهولة استخدام واجهة البرمجة: يمكن لنقطة نهاية واحدة في واجهة البرمجة التعامل مع ملف صوتي أو تدفق مع معلمات متنوعة (اللغة، النموذج، الترقيم، تمييز المتحدث، إلخ). تتوفر حزم تطوير البرمجيات للغات الشائعة (بايثون، نود، جافا، إلخ).
    • تعزيز الكلمات المفتاحية المخصصة: يمكنك تزويد النظام بكلمات مفتاحية محددة لتعزيز احتمالية التعرف عليها (إذا لم تقم بتدريب نموذج مخصص، فهذه طريقة سريعة لتحسين الدقة لبعض المصطلحات).
    • توحيد الدفعات مقابل البث المباشر: نفس واجهة البرمجة تقريبًا؛ لديهم أيضًا مفهوم مسجل مسبقًا مقابل مباشر مع نقاط نهاية محسّنة وفقًا لذلك.
    • الأمان: تقدم Deepgram ميزات مثل النشر الداخلي ولا تحتفظ بالصوت افتراضيًا بعد المعالجة (إلا إذا تم اختيار ذلك). بالنسبة للعملاء الماليين/الطبيين، هذا أمر بالغ الأهمية.
    • ميزات المساعدة الفورية للوكلاء: من خلال واجهة البرمجة أو “واجهة برمجة مساعد الصوت” القادمة deepgram.com، يسمحون بحالات استخدام مثل النسخ الفوري + الملخص لمكالمات الوكلاء (يبرزون فعليًا الاستخدام في مراكز الاتصال مع خط معالجة تحويل الكلام إلى نص ← التحليل ← حتى إرسال الردود).
    • ادعاءات الدقة: قاموا بمقارنة Nova-2 علنًا حيث حققت مثلاً 8.4% متوسط معدل الخطأ في الكلمات (WER) عبر مجالات متنوعة، متفوقة على مزودين آخرين حيث الأقرب قد يكون حوالي 12% deepgram.com، وتحديدًا أفضل بنسبة 36% نسبيًا من Whisper-large deepgram.com – أي أن الشركات التي تهتم بكل نقطة دقة، Deepgram تتصدر.
    • الكفاءة من حيث التكلفة: غالبًا ما يبرزون أن التشغيل على وحدات معالجة الرسومات (GPU) مع نموذجهم أكثر فعالية من حيث التكلفة، وتسعيرهم (انظر أدناه) قد يكون أقل بالجملة من بعض المنافسين.
    • الدعم والمراقبة: ميزات المؤسسات مثل التسجيل التفصيلي، البحث في النصوص، والمراقبة عبر وحدة التحكم الخاصة بهم.

    اللغات المدعومة: التركيز الأساسي لـ Deepgram هو الإنجليزية (الأمريكية واللهجات)، ولكن اعتبارًا من 2025 تدعم 20-30+ لغة بشكل أصلي، بما في ذلك اللغات الأوروبية الرئيسية، اليابانية، الكورية، الماندرين، الهندية، وغيرها. لقد توسعوا، لكن ربما ليس بعد إلى 100 لغة (أقل من Whisper من حيث العدد). ومع ذلك، يسمحون بنماذج مخصصة للغات التي يدعمونها (إذا كانت اللغة غير مدعومة، قد تحتاج لطلبها أو استخدام نموذج متعدد اللغات أساسي إذا كان متوفرًا). قد يكون نموذج Nova حاليًا للإنجليزية فقط (أعلى دقة لديهم غالبًا للإنجليزية وأحيانًا الإسبانية). كما يدعمون لهجات الإنجليزية (يمكنك تحديد الإنجليزية البريطانية مقابل الأمريكية لاختلافات التهجئة الطفيفة).

    الأسس التقنية: تستخدم Deepgram نموذج تعلم عميق شامل، تاريخيًا كان مبنيًا على بحث مستقل – على الأرجح نسخة متقدمة من الشبكات الالتفافية والمتكررة أو Transformers. تم وصف Nova-2 تحديدًا بأنه “بنية قائمة على Transformer مع تحسينات خاصة بالصوت” deepgram.com. يذكرون أن Nova-2 تم تدريبه على 47 مليار رمز و6 ملايين مصدر deepgram.com، وهو رقم ضخم ويدل على تنوع كبير في البيانات. يدعون أن Nova-2 هو “أعمق نموذج ASR تم تدريبه في السوق” deepgram.com. الإنجازات التقنية الرئيسية:

    • حسنوا التعرف على الكيانات، والتعامل مع السياق، وغيرها، من خلال تعديلات في البنية deepgram.com.
    • يركزون على البث المباشر – يمكن لنماذجهم إخراج نتائج جزئية بسرعة، مما يشير ربما إلى بنية فك ترميز متزامنة على شكل كتل.
    • هم يقومون بتحسين الأداء من أجل GPU: منذ البداية استخدموا وحدات معالجة الرسومات وكتبوا الكثير من الشيفرات بلغة CUDA C++ لعملية الاستدلال، وحققوا إنتاجية عالية. من المرجح أن النماذج المخصصة تستخدم التعلم بالنقل – أي إعادة ضبط النماذج الأساسية لديهم على بيانات العميل. هم يوفرون أدوات أو يقومون هم أنفسهم بتدريب النموذج لك حسب الخطة. كما أنهم يدمجون موازنة بين السرعة والدقة من خلال عدة أحجام للنماذج: على سبيل المثال، كان لديهم سابقًا “النموذج المحسن” مقابل “النموذج القياسي”. قد يكون Nova-2 قد وحد ذلك أو أصبح هو النموذج الأعلى مع وجود نماذج أخرى أصغر وأسرع. نقطة مثيرة للاهتمام: استحوذت Deepgram أو أنشأت مجموعة بيانات صوتية في العديد من المجالات (بعض مدوناتهم تذكر التدريب على “جميع أنواع المكالمات، الاجتماعات، الفيديوهات، إلخ.”). كما يؤكدون على نتائج التكيف مع المجال مثل النماذج المتخصصة لمراكز الاتصال (ربما تم إعادة ضبطها على بيانات المكالمات). لديهم أيضًا إشارة إلى نموذج من مرحلتين في البنية القديمة، لكن يبدو أن Nova-2 نموذج موحد كبير. من المحتمل أيضًا أنهم يستخدمون تقطير المعرفة لضغط النماذج (بما أن لديهم نماذج أصغر متاحة). كما يذكرون استخدام التحيزات السياقية (مثل تلميح النموذج بالكلمات المتوقعة، وهو مشابه لتقديم تلميحات). مع إصدار Nova-2، نشروا مقارنات: Nova-2 لديه متوسط WER بنسبة 8.4% مقابل Whisper large بنسبة 13.2%، إلخ، تم تحقيق ذلك من خلال التدريب وتحسينات البنية deepgram.com deepgram.com.
    حالات الاستخدام (بعض الأمثلة الإضافية عما ذُكر): النسخ الحي لمراكز الاتصال: تستخدم إحدى الشركات Deepgram لنسخ مكالمات العملاء في الوقت الفعلي، ثم تستخدم النص لإظهار معلومات ذات صلة للوكلاء أو لتحليلها بعد المكالمة من أجل الامتثال. خدمة نسخ الاجتماعات SaaS: أدوات مثل Fireflies.ai أو بدائل Otter.ai قد تستخدم Deepgram في الخلفية لتوفير ملاحظات الاجتماعات الحية والملخصات. البحث الصوتي في التطبيقات: إذا أضاف تطبيق ميزة البحث أو الأوامر الصوتية، فقد يستخدمون STT من Deepgram لتحويل الاستفسار إلى نص (بعضهم اختاره للسرعة أو الخصوصية). الإعلام والترفيه: قد تقوم شركة إنتاج ما بعد التصوير بإدخال كميات كبيرة من الصوت الخام إلى Deepgram للحصول على نصوص لإنشاء ترجمات أو لجعل المحتوى قابلاً للبحث. أجهزة إنترنت الأشياء: بعض الأجهزة الذكية قد تستخدم Deepgram على الجهاز نفسه (مع نشر على الحافة) أو عبر السحابة منخفضة الكمون لنسخ الأوامر. أدوات المطورين: تم دمج Deepgram في منصات بدون كود أو أدوات بيانات للمساعدة في معالجة البيانات الصوتية بسهولة؛ على سبيل المثال، خط أنابيب تحليلات البيانات الذي يعالج تسجيلات المكالمات يستخدم Deepgram لتحويلها إلى نص لمزيد من التحليل.نموذج التسعير: يعتمد تسعير Deepgram على الاستخدام، مع أرصدة مجانية للبدء (مثل رصيد بقيمة 200 دولار للحسابات الجديدة). بعد ذلك: لديهم مستويات: على سبيل المثال، قد يسمح المستوى المجاني بعدد معين من الدقائق شهريًا، ثم مستوى مدفوع بحوالي 1.25 دولار في الساعة للنموذج القياسي (أي 0.0208 دولار في الدقيقة) وربما 2.50 دولار/ساعة لـ Nova (الأرقام توضيحية؛ في الواقع، مدونة Telnyx تُظهر أن Deepgram يبدأ مجانًا ويصل حتى 10 آلاف دولار/سنة للمؤسسات، مما يعني وجود صفقات مخصصة). كما يقدمون خطط التزام: على سبيل المثال، تدفع مبلغًا معينًا مقدمًا مقابل سعر أقل لكل دقيقة. أو ترخيص سنوي ثابت للمؤسسات. مقارنةً بالمزودين الكبار، فهم عمومًا منافسون أو أرخص عند التوسع؛ بالإضافة إلى أن زيادة الدقة تعني تقليل التصحيح اليدوي، وهو عامل تكلفة في شركات التعهيد. قد يكون تدريب النماذج المخصصة بتكلفة إضافية أو يتطلب خطة مؤسسات. يعلنون أنه لا توجد رسوم على علامات الترقيم، أو تقسيم المتحدثين، وما إلى ذلك، فهذه ميزات مشمولة. نقاط القوة: دقة من الطراز الأول مع Nova-2 – يتصدر المجال في التعرف على الكلام الإنجليزي deepgram.com deepgram.com. ذكاء اصطناعي قابل للتخصيص – ليس صندوقًا أسود فقط؛ يمكنك تخصيصه لمجالك، وهو أمر مهم جدًا للمؤسسات (تحويل الدقة “الجيدة” إلى “ممتازة” لحالتك الخاصة). أداء في الوقت الحقيقي – البث المباشر في Deepgram منخفض التأخير وفعّال، مما يجعله مناسبًا للتطبيقات الحية (بعض واجهات برمجة التطبيقات السحابية تواجه صعوبة مع الحجم في الوقت الحقيقي؛ تم بناء Deepgram لهذا الغرض). نشر مرن – سحابي، محلي، هجين؛ يلبون احتياجات الشركات أينما كانت، بما في ذلك متطلبات خصوصية البيانات. التكلفة والتوسع – غالبًا ما يكونون أرخص عند الأحجام الكبيرة، ويمكنهم التوسع لأحمال عمل ضخمة (يبرزون حالات تحويل عشرات آلاف الساعات شهريًا). تجربة المطور – واجهة برمجة التطبيقات والوثائق لديهم تحظى بالثناء؛ تركيزهم فقط على الكلام لذا يقدمون دعمًا وخبرة جيدة في هذا المجال. ميزات مثل تعزيز الكلمات الرئيسية المخصصة، ودعم لغات متعددة في واجهة واحدة، وما إلى ذلك، كلها ملائمة. التركيز على احتياجات المؤسسات – ميزات مثل اكتشاف المشاعر، والتلخيص (يضيفون بعض قدرات الذكاء الصوتي إلى جانب التحويل النصي الخام)، وتحليلات مفصلة هي جزء من منصتهم الموجهة لرؤى الأعمال من الصوت. الدعم والشراكات – يندمجون مع منصات مثل Zoom، ولديهم شراكات تقنية (على سبيل المثال، بعض مزودي الاتصالات يتيحون لك توصيل Deepgram مباشرة لبث صوت المكالمات). الأمان – Deepgram متوافق مع SOC2، وما إلى ذلك، ولمن يريد مزيدًا من التحكم، يمكنك الاستضافة الذاتية.نقاط الضعف:
    • التعرف على العلامة التجارية أقل مقارنةً بجوجل/AWS؛ بعض المؤسسات المحافظة قد تتردد في التعامل مع بائع أصغر (مع أن حصة مايكروسوفت في Nuance سيناريو مشابه، لكن Deepgram مستقلة فقط).
    • تغطية اللغات أضيق من شركات التقنية العالمية الكبرى – إذا كنت بحاجة إلى نسخ للغة لا يدعمها Deepgram بعد، قد تضطر لطلب ذلك منهم أو استخدام خدمات أخرى.
    • اتساع الميزات – يركزون فقط على تحويل الكلام إلى نص (مع بعض الإضافات في تعلم الآلة). لا يقدمون تحويل النص إلى كلام أو حل محادثة كامل (رغم أن لديهم الآن واجهة برمجة تطبيقات لروبوت صوتي، إلا أنهم يفتقرون إلى منصة كاملة مثل Contact Center AI من جوجل أو Watson Assistant). لذا إذا كان العميل يريد حلاً شاملاً للصوت والمحادثة، Deepgram يتعامل فقط مع جزء النسخ.
    • التخصيص الذاتي – رغم أن التخصيص نقطة قوة، إلا أنه يتطلب من العميل وجود بيانات وربما معرفة بتعلم الآلة (مع أن Deepgram يحاولون تبسيط ذلك). ليس بنفس سهولة الاستخدام الفوري مثل النماذج العامة – لكن هذا هو ثمن التحسين.
    • التحديثات – قد تقوم الشركة الأصغر بتحديث النماذج بوتيرة أقل من جوجل مثلاً (مع أنهم قاموا بذلك مؤخراً مع Nova-2). أيضاً، أي توقف محتمل أو حدود للخدمة قد يكون لديه تكرار عالمي أقل من السحابة الكبرى (مع أن Deepgram حتى الآن موثوق).
    • إذا تم استخدامه محلياً، على العميل إدارة النشر على وحدات معالجة الرسومات، مما قد يكون معقداً (لكن كثيرين يفضلون هذا التحكم).
    • المقارنة مع المصدر المفتوح – قد يختار البعض Whisper (مجاني) إذا كان حساساً جداً للتكلفة وقادر على قبول دقة أقل قليلاً؛ على Deepgram أن يبرر القيمة دائماً مقارنة بالنماذج المفتوحة من خلال التفوق في الدقة وتقديم دعم للمؤسسات.
    التحديثات الأخيرة (2024–2025):
    • الأهم: إصدار نموذج Nova-2 في أواخر 2024، مع تحسين كبير في الدقة (أفضل بنسبة 18% من Nova السابقة، وأعلنوا عن تحسينات كبيرة مقارنة بالمنافسين) deepgram.com deepgram.com. هذا يبقي Deepgram في طليعة التقنية. شاركوا معايير تفصيلية وأوراقاً علمية لدعم ذلك.
    • أطلقت Deepgram واجهة برمجة تطبيقات وكيل صوتي (تجريبي) في 2025 deepgram.com لبناء وكلاء ذكاء اصطناعي في الوقت الحقيقي – أي إضافة القدرة ليس فقط على النسخ بل التحليل والاستجابة (من المحتمل دمج نموذج لغوي كبير للفهم، بالإضافة إلى تحويل النص إلى كلام للرد). هذا يشير إلى توسع يتجاوز تحويل الكلام إلى نص ليشمل حلول محادثة ذكاء اصطناعي (منافسة مباشرة في مجال مراكز الاتصال الذكية).
    • وسعت Deepgram دعم اللغات (أضافت المزيد من اللغات الأوروبية والآسيوية في 2024).لقد أضافوا ميزات مثل التلخيص: على سبيل المثال، في عام 2024 قدموا وحدة اختيارية حيث يمكن لـ Deepgram بعد نسخ المكالمة أن يوفر ملخصًا للمكالمة يتم إنشاؤه بواسطة الذكاء الاصطناعي. هذا يستفيد من نماذج اللغة الكبيرة (LLMs) فوق النصوص المنسوخة، على غرار خدمة تلخيص المكالمات من Azure.
  • ميزات أمان محسّنة: شهد عام 2024 تحقيق Deepgram لمعايير امتثال أعلى (تم الإعلان عن الامتثال لـ HIPAA، مما أتاح لمزيد من عملاء الرعاية الصحية استخدامهم).
  • لقد حسّنوا تجربة المطورين – مثل إصدار حزمة SDK جديدة لـ Node v2، وأداة CLI للنسخ، وموقع توثيق أفضل.
  • من ناحية الأداء، قاموا بتحسين زمن الاستجابة في الوقت الفعلي من خلال تحسين بروتوكولات البث، ويدّعون تحقيق زمن استجابة أقل من 300 مللي ثانية للنصوص الجزئية.
  • من المحتمل، تم إطلاق شراكة مع مزودي خدمات الاتصالات الهاتفية (مثل تكامل مع Twilio، إلخ) للسماح بسهولة نسخ مكالمات PSTN عبر واجهة برمجة تطبيقات Deepgram.
  • كما شاركوا في تقييمات مفتوحة؛ على سبيل المثال، إذا كان هناك تحدي ASR، غالبًا ما تشارك Deepgram فيه – مما يظهر الشفافية في النتائج.
  • على الجانب التجاري، جمعت Deepgram المزيد من التمويل (سلسلة C في 2023)، مما يدل على الاستقرار والقدرة على الاستثمار في البحث والتطوير.
  • الموقع الرسمي: Deepgram Speech-to-Text API telnyx.com deepgram.com (صفحات المنتج والتوثيق الرسمية لـ Deepgram).

    8. Speechmatics (محرك تحويل الكلام إلى نص لأي سياق) – Speechmatics Ltd.

    نظرة عامة: Speechmatics هو محرك تحويل الكلام إلى نص رائد معروف بتركيزه على فهم “كل صوت” – أي أنه يركز على الدقة عبر مجموعة متنوعة من اللهجات، واللكنات، وخصائص المتحدثين الديموغرافية. يقع مقره في المملكة المتحدة، وقد بنى Speechmatics سمعته في العقد الثاني من الألفية من خلال واجهة برمجة التطبيقات STT ذاتية الخدمة وحلول العمل في الموقع، وغالبًا ما يتفوق على اللاعبين الكبار في السيناريوهات التي تحتوي على لكنات ثقيلة أو صوت صعب. تعتمد تقنيتهم على التعلم الآلي المتقدم واختراق في مجال التعلم الذاتي الإشراف الذي أتاح التدريب على كميات هائلة من الصوت غير المسمى لتحسين العدالة في التعرف speechmatics.com speechmatics.com. بحلول عام 2025، تقدم Speechmatics STT بأشكال متعددة: واجهة برمجة تطبيقات سحابية، وحاويات قابلة للنشر، وحتى تكاملات OEM (محركهم داخل منتجات أخرى). يخدمون حالات استخدام من الترجمة الإعلامية (الترجمة الفورية للبث المباشر) إلى تحليلات المكالمات، وابتكارهم الأخير “Flow” API يجمع بين STT وتحويل النص إلى كلام ونماذج اللغة الكبيرة للتفاعل الصوتي audioxpress.com audioxpress.com. وهم معروفون بـنسخ دقيق بغض النظر عن اللكنة أو عمر المتحدث، ويدّعون أنهم يتفوقون على المنافسين خاصة في إزالة التحيز (على سبيل المثال، حقق نظامهم دقة أفضل بكثير مع أصوات الأمريكيين من أصل أفريقي وأصوات الأطفال مقارنة بالآخرين) speechmatics.com speechmatics.com.

    النوع:تحويل الكلام إلى نص (ASR) مع حلول تفاعل صوتي متعددة الوسائط ناشئة (Speechmatics Flow).

    الشركة/المطور:Speechmatics Ltd. (كامبريدج، المملكة المتحدة). مستقلة، مع شراكات عبر صناعات البث والذكاء الاصطناعي.

    القدرات والفئات المستهدفة:

    • محرك STT عالمي: من نقاط بيع Speechmatics وجود محرك واحد يعمل بشكل جيد مع “أي متحدث، أي لكنة، أي لهجة” في اللغات المدعومة. هذا يجذب الشركات العالمية والمذيعين الذين يتعاملون مع متحدثين من جميع أنحاء العالم (مثل BBC، التي استخدمت Speechmatics للترجمة).
    • النسخ اللحظي: يمكن لنظامهم نسخ البث المباشر بزمن تأخير منخفض، مما يجعله مناسبًا للتعليق النصي المباشر للأحداث، والبث، والمكالمات.
    • النسخ الدفعي: معالجة عالية الإنتاجية للصوت/الفيديو المسجل مسبقًا بدقة رائدة في الصناعة. غالبًا ما يُستخدم لأرشيفات الفيديو، أو إنشاء الترجمات أو النصوص المكتوبة.
    • دعم متعدد اللغات: يتعرف على أكثر من 30 لغة (بما في ذلك المتغيرات الإنجليزية، الإسبانية، الفرنسية، اليابانية، الماندرين، العربية، إلخ) ويمكنه حتى التعامل مع code-switching (يمكن لنظامهم اكتشاف متى يغيّر المتحدث اللغة أثناء المحادثة) docs.speechmatics.com. كما يدعمون الكشف التلقائي عن اللغة.
    • قاموس مخصص (كلمات مخصصة): يمكن للمستخدمين تقديم أسماء أو مصطلحات محددة لإعطائها أولوية (حتى يعرف المحرك كيفية تهجئة الأسماء الخاصة غير الشائعة، على سبيل المثال).
    • نشر مرن: يمكن تشغيل Speechmatics في السحابة (لديهم منصة SaaS) أو بالكامل في الموقع عبر حاوية Docker، مما يجذب البيئات الحساسة. العديد من المذيعين يشغلون Speechmatics في مراكز بياناتهم الخاصة للترجمة الفورية لتجنب الاعتماد على الإنترنت.
    • الدقة في البيئات الصاخبة: لديهم قوة تحمل عالية للضوضاء، بالإضافة إلى إمكانية إخراج تنسيقات الكيانات (تواريخ، أرقام) وميزات مثل speaker diarization لتمييز المتحدثين المتعددين.
    • المستخدمون المستهدفون: شركات الإعلام (شبكات التلفزيون، منصات الفيديو)، مراكز الاتصال (لنسخ المكالمات)، حلول النسخ المؤسسية، بائعو البرمجيات الذين يحتاجون إلى STT (غالبًا ما ترخص Speechmatics تقنيتها لمزودين آخرين—علاقات OEM)، الحكومة (نصوص اجتماعات البرلمان أو المجلس)، وبائعو الذكاء الاصطناعي الذين يركزون على ASR غير متحيز.
    • Speechmatics Flow (2024): يجمع بين STT الخاص بهم مع TTS وتكامل LLM لإنشاء مساعدين صوتيين يمكنهم الاستماع، والفهم (مع LLM)، والرد بصوت مركب audioxpress.com audioxpress.com. هذا يشير إلى استهداف حلول الذكاء الاصطناعي الصوتي التفاعلي (مثل روبوتات الصوت التي تفهم فعليًا مختلف اللهجات).

    الميزات الرئيسية:

    • لهجات دقيقة: وفقًا لاختبار التحيز لديهم، قللوا بشكل كبير من الفروقات في الأخطاء بين مجموعات اللهجات المختلفة من خلال التدريب على بيانات غير معنونة ضخمة speechmatics.com speechmatics.com. على سبيل المثال، تم تحسين معدل الخطأ للأصوات الأمريكية الأفريقية بنسبة ~45% مقارنة بالمنافسين speechmatics.com.
    • التعرف على كلام الأطفال: أشاروا تحديدًا إلى نتائج أفضل على أصوات الأطفال (التي عادةً ما تكون صعبة على أنظمة التعرف على الكلام) – دقة 91.8% مقابل ~83% لجوجل في اختبار speechmatics.com.
    • النموذج الذاتي الإشراف (AutoML): تقنية “التعرف التلقائي على الكلام” التي قدموها حوالي عام 2021 اعتمدت على تدريب 1.1 مليون ساعة من الصوت باستخدام التعلم الذاتي الإشراف speechmatics.com. هذا النهج الضخم في التدريب حسّن فهم الأصوات المتنوعة حيث كانت البيانات المعنونة نادرة.
    • نماذج عصبية: تعتمد بالكامل على الشبكات العصبية (انتقلوا من النماذج الهجينة القديمة إلى النماذج العصبية الشاملة بحلول أواخر 2010).
    • واجهة برمجة التطبيقات & SDK: يوفرون واجهات REST وwebsocket للبث المباشر والدُفعات. كما يقدمون SDKs لتسهيل التكامل. يخرجون JSON مفصل يتضمن الكلمات، التوقيت، الثقة، إلخ.
    • ميزات مثل الكيانات: يقومون بالتنسيق الذكي (مثلاً، إخراج “£50” عندما يقول أحدهم “خمسون جنيهاً”) ويمكنهم تمييز الكيانات.
    • تغطية لغوية: حوالي 34 لغة بجودة عالية حتى عام 2025، بما في ذلك بعض اللغات التي قد لا يغطيها الآخرون جيدًا (مثل الويلزية، حيث استخدمهم BBC Wales).
    • تحديثات مستمرة: ينشرون بانتظام ملاحظات الإصدارات مع التحسينات (كما هو موضح في وثائقهم: مثلاً، تحسين دقة الماندرين بنسبة 5% في أحد التحديثات docs.speechmatics.com، أو إضافة لغات جديدة مثل المالطية، إلخ).
    • مواصفات Flow: تتيح واجهة برمجة تطبيقات Flow للمطورين دمج مخرجات تحويل الكلام إلى نص مع استدلال النماذج اللغوية الكبيرة ومخرجات تحويل النص إلى كلام بسلاسة، مستهدفة مساعدي الصوت من الجيل القادم audioxpress.com audioxpress.com. على سبيل المثال، يمكن إرسال صوت والحصول على رد صوتي (إجابة مقدمة من النموذج اللغوي الكبير تُنطق عبر تحويل النص إلى كلام) – حيث توفر Speechmatics العنصر الرابط للتفاعل في الوقت الحقيقي. اللغات المدعومة: حوالي 30-35 لغة مدعومة بنشاط (الإنجليزية، الإسبانية، الفرنسية، الألمانية، البرتغالية، الإيطالية، الهولندية، الروسية، الصينية، اليابانية، الكورية، الهندية، العربية، التركية، البولندية، السويدية، إلخ). يبرزون تغطية اللغات “العالمية” ويقولون إنه يمكنهم إضافة المزيد عند الطلب docs.speechmatics.com. لديهم أيضًا وضع ثنائي اللغة للإسبانية/الإنجليزية يمكنه نسخ الكلام المختلط بين الإنجليزية والإسبانية بسلاسة docs.speechmatics.com. في ملاحظاتهم: تمت إضافة لغات جديدة مثل الأيرلندية والمالطية في عام 2024 docs.speechmatics.com، مما يشير إلى أنهم يلبون أيضًا اللغات الصغيرة إذا كان هناك طلب. يفتخرون بتغطية اللهجات داخل اللغات، على سبيل المثال، نموذجهم الإنجليزي هو نموذج عالمي واحد يغطي اللهجات الأمريكية، البريطانية، الهندية، الأسترالية، والأفريقية بشكل شامل دون الحاجة إلى نماذج منفصلة. الأسس التقنية: التعلم الذاتي الإشراف: استخدموا تقنيات مشابهة لـ wav2vec 2.0 من فيسبوك (من المحتمل أن لديهم نسختهم الخاصة) للاستفادة من كميات هائلة من الصوت غير المسمى (مثل يوتيوب، البودكاست) لتدريب التمثيلات الصوتية مبدئيًا، ثم تم تحسينها على بيانات منسوخة. منحهم هذا دفعة كبيرة في تغطية اللهجات/اللكنات كما ورد في 2021 speechmatics.com. البنية العصبية: من المحتمل أنها مزيج من الشبكات العصبية الالتفافية لاستخلاص الميزات والمحولات لنمذجة التسلسل (معظم أنظمة التعرف التلقائي على الكلام الحديثة تستخدم الآن Conformer أو هياكل مشابهة). أطلقوا على تحديث نموذجهم الرئيسي اسم “Ursa” في ملاحظات الإصدار docs.speechmatics.com والذي منح دقة واسعة عبر اللغات – من المرجح أنه بنية نموذج كبير جديد (Conformer أو Transducer).
    • أحجام النماذج: لم يتم توضيحها علنًا، ولكن بالنسبة للنشر المحلي، لديهم خيارات (مثل النماذج “القياسية” مقابل “المحسنة”). يذكرون دائمًا “زمن استجابة منخفض” لذا من المرجح أنهم يستخدمون بنية مناسبة للبث المباشر (مثل نموذج Transducer أو نموذج قائم على CTC للإخراج التدريجي).
    • التحيز ونهج الإنصاف: من خلال التدريب على بيانات متنوعة غير معنونة، تعلم النموذج بشكل تلقائي العديد من أنماط الكلام المختلفة. من المحتمل أيضًا أنهم قاموا بموازنة دقيقة – نتائجهم المنشورة في تقليل التحيز تشير إلى جهود مستهدفة لضمان دقة متساوية لمجموعات المتحدثين المختلفة.
    • التعلم المستمر: من المحتمل أنهم يدمجون تصحيحات العملاء كحلقة تغذية راجعة اختيارية للتحسين (غير متأكد إذا كانت متاحة للعملاء، ولكن من المرجح داخليًا).
    • الأجهزة والكفاءة: يمكنهم العمل على وحدات المعالجة المركزية القياسية (بالنسبة للعديد من العملاء الذين ينشرون محليًا، من المرجح أنهم يستخدمون مجموعات من وحدات المعالجة المركزية). ولكن من المحتمل أيضًا أنهم محسّنون لوحدات معالجة الرسومات إذا لزم الأمر. يذكرون “بصمة منخفضة” في بعض السياقات.
    • تقنية Flow API: تجمع بين ASR الخاصة بهم مع أي LLM (قد يكون من OpenAI أو غيره) وشريكهم في TTS – من المرجح أن هذه البنية تستخدم STT الخاصة بهم للحصول على النص، ثم تستدعي LLM من اختيارك، ثم تستخدم محرك TTS (ربما Amazon Polly أو Azure في الخلفية ما لم يكن لديهم محرك خاص، لكن الموقع يشير إلى إمكانية الدمج مع “LLM المفضل” و”TTS المفضل”) audioxpress.com.

    حالات الاستخدام:

    • البث والإعلام: العديد من البثوث التلفزيونية المباشرة في المملكة المتحدة تستخدم Speechmatics للترجمة الفورية عندما لا يتوفر كاتبو اختزال بشريون أو لدعمهم. كما تستخدمها شركات ما بعد الإنتاج لإنشاء نصوص مكتوبة للتحرير أو الامتثال.
    • أبحاث السوق والتحليلات: الشركات التي تحلل مقابلات العملاء أو المناقشات الجماعية عالميًا تستخدم Speechmatics لنسخ المحتوى متعدد اللهجات بدقة (مثلاً، تحليل المشاعر في مجموعات التركيز متعددة الجنسيات).
    • الحكومة/القطاع العام: اجتماعات المجالس البلدية أو جلسات البرلمانات يتم نسخها (خاصة في الدول التي لديها عدة لغات أو لهجات محلية قوية – تتفوق Speechmatics هناك).
    • تحليلات مراكز الاتصال: مشابه للآخرين، لكن Speechmatics تجذب العملاء حيث يكون لدى وكلاء مراكز الاتصال أو العملاء لهجات قوية قد تسيء المحركات الأخرى نسخها. وأيضًا، لأنهم يستطيعون النشر محليًا (بعض شركات الاتصالات أو البنوك في أوروبا تفضل ذلك).
    • التعليم: نسخ تسجيلات المحاضرات أو توفير ترجمات لمحتوى الجامعات (خاصة عندما يكون لدى المحاضرين أو الطلاب لهجات متنوعة).
    • مزودو تقنيات الصوت: بعض الشركات دمجت محرك Speechmatics في حلولها (بعلامتها التجارية الخاصة) بسبب قوته المعروفة في التعامل مع اللهجات، مما يمنحهم ميزة للمستخدمين العالميين.
    • الترجمة لمحتوى المستخدمين: بعض المنصات التي تتيح للمستخدمين ترجمة مقاطع الفيديو الخاصة بهم قد تستخدم Speechmatics في الخلفية للتعامل مع جميع أنواع الأصوات.

    نموذج التسعير:

    • عادةً ما يقدمون عروض أسعار مخصصة للمؤسسات (خاصةً ترخيص التشغيل المحلي – غالبًا ترخيص سنوي يعتمد على الاستخدام أو عدد القنوات).
    • بالنسبة لواجهة برمجة التطبيقات السحابية، كان لديهم تسعير منشور بحوالي 1.25 دولار في الساعة أو ما شابه، وهو منافس للآخرين. ربما حوالي 0.02 دولار/دقيقة. قد يكون هناك حد أدنى للالتزام الشهري للعملاء من المؤسسات المباشرة.
    • كما قدموا تجربة مجانية أو 600 دقيقة مجانية على برنامجهم كخدمة SaaS في وقت ما.
    • يؤكدون على الاستخدام غير المحدود على التشغيل المحلي مقابل رسوم ثابتة، وهو ما قد يكون جذابًا للمستخدمين الكثيفين مقارنةً برسوم الدقيقة الواحدة.
    • نظرًا لأنهم يستهدفون المؤسسات، فهم ليسوا الأرخص إذا كان لديك استخدام بسيط جدًا (قد يختار شخص ما OpenAI Whisper للهواية). ولكن للاستخدام الاحترافي، فإن أسعارهم متوافقة أو أقل قليلاً من Google/Microsoft عند ارتفاع الحجم، مع التركيز بشكل خاص على القيمة مقابل الجودة.
    • قد يتم تسعير واجهة Flow API الخاصة بهم بشكل مختلف (ربما لكل تفاعل أو شيء من هذا القبيل، غير واضح بعد لأنها جديدة).
    • لا توجد أسعار عامة متاحة الآن بسهولة (من المحتمل الانتقال إلى نموذج يعتمد على المبيعات)، لكنهم معروفون بأسعارهم المعقولة وترخيصهم الواضح (وهو أمر مهم بشكل خاص للبث حيث يتطلب الاستخدام على مدار الساعة تكاليف متوقعة).

    نقاط القوة:

    • دقة اللهجات/اللكنات: الأفضل في فئته للغة الإنجليزية العالمية والدقة متعددة اللغات مع تحيز ضئيل جدًا speechmatics.com speechmatics.com. هذا الشعار “يفهم كل صوت” مدعوم بالبيانات ومعترف به في الصناعة – وهو عامل تمييز كبير، خاصة مع تزايد أهمية التنوع والشمول.
    • ملائم للتشغيل المحلي والسحابة الخاصة: العديد من المنافسين يفرضون السحابة فقط؛ تمنح Speechmatics العملاء تحكمًا كاملاً إذا لزم الأمر، مما يكسبهم صفقات في السيناريوهات الحساسة أو ذات النطاق الترددي المحدود.
    • التركيز على المؤسسات: امتثال عالٍ (من المحتمل أن لديهم شهادات ISO speechmatics.com)، دعم قوي، واستعداد لتلبية الاحتياجات المخصصة (مثل إضافة لغة جديدة عند الطلب أو التخصيص).
    • الترجمة الفورية للنصوص: مثبتة في الأحداث المباشرة والتلفزيون حيث يتطلب الأمر زمن استجابة منخفض ودقة عالية معًا.
    • الابتكار والأخلاقيات: لديهم سرد قوي حول تقليل تحيز الذكاء الاصطناعي – وهو ما قد يكون جذابًا للشركات المهتمة بالعدالة. تقنيتهم تعالج بشكل مباشر انتقادًا شائعًا لتقنية التعرف التلقائي على الكلام (ASR) (وهو أنها تعمل بشكل أقل جودة لبعض الفئات السكانية).
    • تعدد اللغات في نموذج واحد: دعم التبديل بين اللغات وعدم الحاجة لاختيار اللهجات أو اللغات يدويًا في بعض الحالات – النموذج يكتشف ذلك تلقائيًا – وهذا سهل الاستخدام.
    • الاستقرار والسجل الحافل: موجود في الصناعة منذ منتصف العقد 2010، ويستخدمه علامات تجارية كبرى (مثل محادثات TED وغيرها)، لذا فهو مجرب وموثوق.
    • التوسع لما بعد تحويل الكلام إلى نص: منصة التفاعل الصوتي Flow تشير إلى أنهم يتطورون لتلبية احتياجات المستقبل (أي الاستثمار في أكثر من مجرد النسخ، بل تمكين الذكاء الاصطناعي الصوتي الثنائي الاتجاه بالكامل).

    نقاط الضعف:

    • غير معروف على نطاق واسع في مجتمع المطورين مثل بعض المنافسين الأمريكيين أو النماذج مفتوحة المصدر، مما يعني دعم مجتمعي أقل.
    • عدد اللغات أقل من Whisper أو Google – إذا كان هناك من يحتاج لغة قليلة الموارد مثل السواحيلية أو التاميلية، قد لا تتوفر في Speechmatics إلا إذا تم تطويرها خصيصًا.
    • شفافية التسعير: كشركة موجهة للمؤسسات، قد يجد المطورون الصغار أنها ليست بالخدمة الذاتية أو الرخيصة للتجربة مقارنةً مثلاً بـ OpenAI بسعر 0.006 دولار/دقيقة. تركيزهم على الجودة والمؤسسات، وليس بالضرورة أن يكونوا الخيار الأرخص.
    • لا يوجد فهم لغوي مدمج (حتى Flow) – النصوص الخام قد تحتاج معالجة لغوية إضافية لاستخلاص الرؤى؛ تاريخيًا لم يقدموا أشياء مثل تحليل المشاعر أو التلخيص (تركوا ذلك للعميل أو الشركاء).
    • منافسة من شركات التقنية الكبرى: مع تحسن Google وAzure في التعامل مع اللهجات (ومع كون Whisper مجاني)، يجب على Speechmatics أن تظل متقدمة لتبرير استخدامها بدلًا من الخيارات الأكثر انتشارًا.
    • لا يوجد تحويل نص إلى كلام أو أنماط أخرى (حتى الآن) – الشركات التي تريد كل شيء في مكان واحد قد تفضل Azure التي توفر تحويل الكلام إلى نص، وتحويل النص إلى كلام، والمترجم، وغيرها، إلا إذا تعاونت Speechmatics مع شركاء لتوفير ذلك (Flow تشير إلى الشراكة في TTS/LLM بدلًا من تطويرها داخليًا).
    • توسيع نطاق الأعمال: بصفتهم أصغر حجمًا، قد يكون هناك تساؤل حول القدرة على التوسع – هل يمكنهم التعامل مع أحجام Google عالميًا؟ من المرجح أنهم قادرون على التعامل مع الكثير نظرًا لعملائهم في البث، لكن التصور قد يقلق البعض بشأن الدعم طويل الأمد أو القدرة على مواكبة تكاليف تدريب النماذج، إلخ، كشركة مستقلة.

    التحديثات الأخيرة (2024–2025):

    • أطلقت Speechmatics واجهة Flow API في منتصف 2024 audioxpress.com audioxpress.com، مما يمثل توسعًا استراتيجيًا نحو الذكاء الاصطناعي التفاعلي الصوتي من خلال دمج تحويل الكلام إلى نص + النماذج اللغوية الكبيرة + تحويل النص إلى كلام في مسار واحد. فتحوا قائمة انتظار واستهدفوا إنشاء مساعدين صوتيين للمؤسسات، مما يظهر دخولهم مجال دمج الذكاء الاصطناعي في المحادثات.
    • لقد قدموا لغات جديدة (الغيلية الأيرلندية والمالطية في أغسطس 2024) docs.speechmatics.com وواصلوا تحسين النماذج (تم إطلاق نماذج Ursa2 مما أدى إلى رفع الدقة عبر العديد من اللغات في أغسطس 2024 docs.speechmatics.com). لقد عززوا قدرات تمييز المتحدثين واكتشاف اللغات المتعددة (على سبيل المثال، تحسين النسخ الإسباني-الإنجليزي في أوائل 2024). كان هناك تركيز على تحديثات حاوية الدُفعات مع تحسينات في الدقة لعدد من اللغات (ملاحظات الإصدار تظهر زيادة ~5% في الماندرين، وتحسينات في العربية، السويدية، وغيرها في 2024) docs.speechmatics.com. فيما يخص التحيز والشمول: بعد إنجازهم في 2021، من المحتمل أنهم حدثوا نماذجهم مرة أخرى مع المزيد من البيانات (ربما تماشياً مع أبحاث 2023). وربما أطلقوا نسخة محدثة من “التعرف التلقائي على الكلام 2.0” مع تحسينات إضافية. شاركوا أو تم الاستشهاد بهم في دراسات مثل دراسات ستانفورد أو MIT حول عدالة أنظمة التعرف على الكلام، مما يبرز أدائهم. أظهروا اهتماماً بـ الدمج في منصات أكبر – وربما زادوا من الشراكات (مثل التكامل مع Riva من Nvidia أو مع نسخ Zoom – افتراضي، لكن قد يكون لديهم مثل هذه الصفقات بهدوء). من الناحية التجارية، ربما كانت Speechmatics تنمو في السوق الأمريكية مع مكتب أو شراكات جديدة، حيث كانوا تاريخياً أقوياء في أوروبا. في عام 2025، يظلون مستقلين ومبتكرين، وغالباً ما يُنظر إليهم كواحد من أفضل أنظمة التعرف على الكلام عندما تكون الدقة غير المتحيزة ذات أهمية قصوى.

    الموقع الرسمي: Speechmatics Speech-to-Text API audioxpress.com speechmatics.com (صفحة المنتج الرسمية والموارد لـ Speechmatics).

    9. ElevenLabs (منصة توليد واستنساخ الصوت) – ElevenLabs

    نظرة عامة: ElevenLabs هو منصة متقدمة لتوليد الأصوات بالذكاء الاصطناعي واستنساخها التي برزت في عام 2023 بفضل أصواتها الاصطناعية الواقعية والمتنوعة بشكل مذهل. تتخصص في تحويل النص إلى كلام (TTS) الذي يمكنه إنتاج كلام يحمل مشاعر دقيقة، وفي استنساخ الصوت، مما يسمح للمستخدمين بإنشاء أصوات مخصصة (حتى استنساخ صوت شخص معين بموافقته) من عينة صوتية صغيرة. تقدم ElevenLabs واجهة ويب سهلة الاستخدام وواجهة برمجة تطبيقات (API)، مما يمكّن صناع المحتوى والناشرين والمطورين من توليد كلام عالي الجودة بعدة أصوات ولغات. بحلول عام 2025، تعتبر ElevenLabs واحدة من أفضل المنصات لتحويل النص إلى كلام فائق الواقعية، وغالبًا ما يصعب تمييزه عن الكلام البشري في العديد من الاستخدامات zapier.com zapier.com. تُستخدم في كل شيء من سرد الكتب الصوتية إلى التعليق الصوتي لمقاطع يوتيوب، وأصوات شخصيات الألعاب، وأدوات الوصول لذوي الاحتياجات الخاصة. ما يميزها هو مستوى التعبير والتخصيص: يمكن للمستخدمين ضبط الإعدادات لتحقيق الاستقرار والتشابه للحصول على النبرة العاطفية المطلوبة zapier.com، وتوفر المنصة مكتبة ضخمة من الأصوات الجاهزة بالإضافة إلى النسخ المستنسخة التي ينشئها المستخدمون.

    النوع:تحويل النص إلى كلام واستنساخ الصوت (مع بعض ميزات تحويل الكلام إلى نص فقط للمساعدة في عملية الاستنساخ، لكنها منصة لإنتاج الصوت بشكل أساسي).

    الشركة/المطور:ElevenLabs (شركة ناشئة تأسست عام 2022، مقرها في الولايات المتحدة/بولندا، قُدرت قيمتها بحوالي مليار دولار بحلول 2023 zapier.com).

    القدرات والفئة المستهدفة:

    • تحويل نص إلى كلام فائق الواقعية: يمكن لـ ElevenLabs توليد كلام يحمل تنغيمًا طبيعيًا، وسرعة، ومشاعر. لا يبدو آليًا؛ بل يلتقط التفاصيل الدقيقة مثل الضحكات، والهمسات، والترددات إذا لزم الأمر. الفئة المستهدفة هم صناع المحتوى (سرد الفيديو، البودكاست، الكتب الصوتية)، مطورو الألعاب (أصوات الشخصيات غير القابلة للعب)، صناع الأفلام (دبلجة أولية)، وحتى الأفراد للمتعة أو لأغراض الوصول (قراءة المقالات بصوت مختار).
    • مكتبة الأصوات: توفر أكثر من 300 صوت جاهز في مكتبتها العامة بحلول 2024، بما في ذلك بعض الأصوات المستوحاة من ممثلين مشهورين أو أنماط معينة (مرخصة أو مساهم بها من المستخدمين) zapier.com. يمكن للمستخدمين التصفح حسب النمط (سردي، مرح، مخيف، إلخ) واللغات.
    • استنساخ الصوت (الأصوات المخصصة): يمكن للمستخدمين (الذين لديهم الصلاحيات المناسبة) إنشاء نسخة رقمية من صوت ما من خلال تقديم بضع دقائق من التسجيل الصوتي. ستقوم المنصة بإنشاء صوت تحويل نص إلى كلام مخصص يتحدث بنفس النبرة والأسلوب elevenlabs.io elevenlabs.io. هذا شائع بين المبدعين الذين يرغبون في صوت راوي فريد أو الشركات التي تقوم بتوطين هوية صوتية للعلامة التجارية.
    • متعدد اللغات وعبر اللغات: تدعم ElevenLabs توليد الكلام بأكثر من 30 لغة باستخدام أي صوت، مما يعني أنه يمكنك استنساخ صوت متحدث إنجليزي وجعله يتحدث الإسبانية أو اليابانية مع الحفاظ على الخصائص الصوتية elevenlabs.io elevenlabs.io. هذا قوي لدبلجة المحتوى إلى لغات متعددة بنفس هوية الصوت.
    • ضوابط العاطفة: تتيح الواجهة/API ضبط إعدادات مثل الثبات (الاتساق مقابل التغير في الأداء)، التشابه (مدى الالتزام بخصائص الصوت الأصلي) zapier.com، وحتى الأسلوب واللهجة من خلال اختيار الصوت. هذا يمكّن من ضبط الأداء بدقة – مثلاً، جعل القراءة أكثر تعبيراً مقابل رتيبة.
    • الزمن الحقيقي وانخفاض التأخير: بحلول عام 2025، حسّنت ElevenLabs سرعة التوليد – يمكنها توليد الصوت بسرعة كافية لبعض التطبيقات الفورية (مع أنها في الأساس غير متزامنة). لديهم أيضاً نموذج منخفض التأخير لحالات الاستخدام التفاعلية (نسخة تجريبية).
    • المنصة وAPI: يقدمون استوديو ويب حيث يمكن للمستخدمين غير التقنيين كتابة النص، واختيار أو ضبط صوت، وتوليد الصوت. للمطورين، هناك API وSDKs متاحة. لديهم أيضاً ميزات مثل نموذج Eleven Multilingual v2 لتحسين التوليد بغير الإنجليزية.
    • أدوات النشر: تستهدف صانعي الكتب الصوتية بشكل خاص – مثلاً، يسمحون بإدخال نصوص طويلة، والحفاظ على هوية صوتية متسقة عبر الفصول، إلخ. المستخدمون المستهدفون يشملون المؤلفين المستقلين، والناشرين الذين يوطّنون الكتب الصوتية، وصانعي الفيديو، ومنتجي محتوى وسائل التواصل الاجتماعي الذين يحتاجون إلى تعليق صوتي.

    الميزات الرئيسية:

    • معمل الصوت والمكتبة: “معمل صوت” سهل الاستخدام حيث يمكنك إدارة الأصوات المخصصة ومكتبة الأصوات حيث يمكنك اكتشاف الأصوات حسب الفئة (مثلاً: “راوي”، “بطولي”، “مذيع أخبار”) zapier.com. العديد من الأصوات يشاركها المجتمع (مع الحقوق).
    • نماذج عالية التعبيرية: أطلقت ElevenLabs نموذجًا جديدًا (الإصدار 3 في أواخر 2023 في مرحلة ألفا) يمكنه التقاط الضحك، وتغيير النبرة أثناء الجملة، والهمس، وما إلى ذلك، بشكل أكثر طبيعية elevenlabs.io elevenlabs.io. تضمن المثال في العرض التوضيحي الخاص بهم عواطف ديناميكية وحتى الغناء (إلى حد ما).
    • التحكم في الثبات مقابل التنوع: شريط “الثبات” – زيادة الثبات تعطي نبرة متسقة (جيد للسرد الطويل)، بينما تقليلها يجعل الصوت أكثر ديناميكية/عاطفية (جيد لحوارات الشخصيات) zapier.com.
    • الاستنساخ بموافقة وضمانات: يتطلبون موافقة صريحة أو تحقق لاستنساخ صوت خارجي (لمنع سوء الاستخدام). على سبيل المثال، لاستنساخ صوتك، يجب عليك قراءة عبارات محددة تتضمن بيان موافقة (ويتم التحقق من ذلك).
    • أصوات متعددة وحوارات: تتيح واجهتهم إنشاء صوت متعدد المتحدثين بسهولة (مثلاً، أصوات مختلفة لفقرات/أسطر حوار مختلفة). ممتاز للدراما الصوتية أو محاكاة المحادثة.
    • اللغات: اعتبارًا من 2025، تغطي اللغات الرئيسية في أوروبا وبعض اللغات الآسيوية؛ يذكرون أكثر من 30 لغة (من المحتمل أن تشمل الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، البولندية، الهندية، اليابانية، الكورية، الصينية، إلخ). يتم تحسين هذه اللغات باستمرار – الإصدار 3 حسّن الطبيعية متعددة اللغات.
    • جودة الصوت: المخرجات بجودة عالية (44.1 كيلوهرتز)، مناسبة للإعلام الاحترافي. يقدمون عدة صيغ (MP3، WAV).
    • ميزات API: يمكنك تحديد الصوت عبر المعرف، وضبط الإعدادات لكل طلب، وحتى القيام بأشياء مثل تغيير نمط الصوت اختياريًا (تغيير النمط بين صوتين).
    • لدى ElevenLabs أيضًا تحويل كلام إلى نص بشكل محدود (قدموا أداة نسخ تعتمد على Whisper للمساعدة في محاذاة الدبلجة ربما) لكنها ليست محور التركيز.

    اللغات المدعومة:أكثر من 32 لغة لتوليد TTS elevenlabs.io. الأهم أن القدرة عبر اللغات تعني أنك لست بحاجة إلى صوت منفصل لكل لغة – صوت واحد يمكنه التحدث بجميعها، وإن كان بلكنة إذا كان الصوت الأصلي لديه لكنة. يبرزون القدرة على داخل اللغة (مثلاً، استنساخ متحدث بولندي وجعله يتحدث اليابانية). ليست كل الأصوات تعمل بنفس الجودة في جميع اللغات (بعض الأصوات المضبوطة قد تكون مدربة أساسًا على الإنجليزية لكن نموذج v3 يعالج التدريب متعدد اللغات). تشمل اللغات جميع اللغات الرئيسية وبعض اللغات الصغيرة (من المحتمل أنهم يغطون اللغات المطلوبة لأسواق المحتوى مثل الهولندية، السويدية، وربما العربية، إلخ). غالبًا ما يبلغ المجتمع عن الجودة في لغات مختلفة – بحلول 2025، حسّنت ElevenLabs اللغات غير الإنجليزية بشكل كبير.

    الأسس التقنية:

      يستخدم ElevenLabs نموذج تعلم عميق خاص، من المحتمل أن يكون مزيجًا من مشفر نصوص قائم على Transformer وديكودر صوتي توليدي (vocoder) ربما مشابه لنماذج مثل VITS أو Grad-TTS ولكن مع تحسينات كبيرة. لقد استثمروا في البحث عن التعبيرية – ربما باستخدام تقنيات مثل مشفرات الكلام المدربة مسبقًا (مثل Wav2Vec2) لالتقاط هوية الصوت من العينات، ونهج مزيج من المتحدثين أو قائم على التعليمات للأسلوب. يشير ذكر نموذج v3 و”Eleven v3″ إلى أنهم بنوا بنية جديدة ربما تجمع بين التدريب متعدد اللغات ورموز الأسلوب للمشاعر elevenlabs.io. يذكرون “خوارزميات الذكاء الاصطناعي الرائدة” elevenlabs.io – من المحتمل أنهم يستخدمون كمية كبيرة من بيانات التدريب (قالوا إنهم دربوا على آلاف الساعات بما في ذلك العديد من الكتب الصوتية في الملكية العامة، إلخ)، ويركزون على تدريب متعدد المتحدثين بحيث يمكن لنموذج واحد إنتاج العديد من الأصوات. يشبه ذلك إلى حد ما طريقة عمل TTS من OpenAI (لخاصية الصوت في ChatGPT): نموذج واحد متعدد الأصوات. ElevenLabs في طليعة هذا المجال. يدمجون الاستنساخ الفوري (zero-shot cloning): من عينة قصيرة، يمكن لنموذجهم التكيف مع ذلك الصوت. ربما باستخدام نهج مثل استخراج تضمين المتحدث (مثل d-vector أو ما شابه) ثم إدخاله في نموذج TTS ليتم تكييفه مع الصوت. هكذا يتم إنشاء النسخ فورًا. قاموا أيضًا بعمل على التهيئة العاطفية – ربما باستخدام رموز الأسلوب أو عدة عينات صوتية مرجعية (مثل تدريب أصوات معنونة بالمشاعر). يركزون أيضًا على التوليد السريع: ربما باستخدام تسريع GPU وvocoderات فعالة للإخراج في الوقت شبه الحقيقي. (قد يستخدمون vocoder متوازي للسرعة). أحد التحديات هو المحاذاة بين اللغات – من المحتمل أنهم يستخدمون IPA أو مساحة فونيم موحدة بحيث يمكن للنموذج التحدث بلغات أخرى بنفس الصوت مع النطق الصحيح (بعض تقارير المستخدمين تظهر أنه جيد في ذلك). يقومون بالتأكيد بالكثير في معالجة النصوص الأمامية: النطق الصحيح للأسماء، الكلمات المتشابهة، الوعي بالسياق (الجودة العالية تشير إلى وجود خط أنابيب جيد لتطبيع النص وربما نموذج لغوي داخلي للمساعدة في اختيار النطق حسب السياق). من المحتمل أن ElevenLabs يستخدم حلقة تغذية راجعة أيضًا: لديهم العديد من المستخدمين، لذا ربما يجمعون بيانات حول أماكن قد يخطئ فيها النموذج في النطق ويقومون بتحسينه باستمرار (خاصة لتصحيحات المستخدمين المتكررة، إلخ).

    حالات الاستخدام:

    • رواية الكتب الصوتية: يستخدم المؤلفون المستقلون ElevenLabs لإنشاء نسخ صوتية من كتبهم دون الحاجة لتوظيف ممثلين صوتيين، حيث يختارون صوت الراوي المناسب من المكتبة أو يستنسخون صوتهم الخاص. يقوم الناشرون بتوطين الكتب عن طريق استنساخ صوت الراوي إلى لغة أخرى.
    • التعليق الصوتي للفيديوهات (YouTube، التعليم الإلكتروني): ينشئ المبدعون بسرعة روايات للفيديوهات الشارحة أو الدورات. يستخدمه البعض لاختبار أنماط صوتية مختلفة لمحتواهم.
    • تطوير الألعاب: يستخدم مطورو الألعاب المستقلة هذه التقنية لإعطاء الشخصيات غير القابلة للعب (NPC) حوارات صوتية، حيث يختارون أصواتًا مختلفة لكل شخصية ويولّدون الحوارات، مما يوفر كثيرًا من تكاليف التسجيل.
    • الدبلجة والتعريب: يمكن لاستوديو أن يدبلج فيلماً أو عرضاً إلى عدة لغات باستخدام نسخة مستنسخة من صوت الممثل الأصلي وهو يتحدث تلك اللغات – مع الحفاظ على شخصية الصوت الأصلية. بالفعل، تم استخدام ElevenLabs في بعض المشاريع الجماهيرية لجعل الممثلين الأصليين “ينطقون” حوارات جديدة.
    • إمكانية الوصول والقراءة: يستخدمه الناس لقراءة المقالات أو رسائل البريد الإلكتروني أو ملفات PDF بصوت لطيف من اختيارهم. يستفيد المستخدمون ضعاف البصر من تحويل النص إلى كلام الطبيعي أكثر، مما يجعل الاستماع الطويل أكثر راحة.
    • نمذجة الصوت: تقوم وكالات الإعلان أو صناع الأفلام بنمذجة التعليقات الصوتية والإعلانات باستخدام أصوات الذكاء الاصطناعي للحصول على موافقة العميل قبل الالتزام بالتسجيل البشري. أحيانًا يكون صوت الذكاء الاصطناعي جيدًا لدرجة أنه يُستخدم في المشاريع الصغيرة كنسخة نهائية.
    • استنساخ الصوت الشخصي: يقوم بعض الأشخاص باستنساخ أصوات أقاربهم المسنين (بإذنهم) للحفاظ عليها، أو استنساخ أصواتهم الخاصة لتفويض بعض المهام (مثل جعل “صوتهم” يقرأ كتاباتهم).
    • سرد القصص التفاعلي: تستخدم التطبيقات أو الألعاب التي تولد محتوى بشكل فوري ElevenLabs لنطق الحوارات الديناميكية (مع بعض الاعتبارات المتعلقة بالزمن).
    • أصوات مراكز الاتصال أو المساعد الافتراضي: قد تنشئ الشركات صوتًا مميزًا للعلامة التجارية من خلال الاستنساخ أو الإنشاء المخصص باستخدام ElevenLabs وتستخدمه في أنظمة الرد الآلي أو المساعد الافتراضي ليكون فريدًا ومتوافقًا مع العلامة التجارية.
    • كفاءة إنشاء المحتوى: يقوم الكُتاب بتوليد حوارات الشخصيات بشكل صوتي لمعرفة كيف تبدو عند الأداء، مما يساعد في كتابة السيناريو.

    نموذج التسعير: تقدم ElevenLabs نموذج مجاني مع ميزات مدفوعة ونموذج اشتراك:

    • الخطة المجانية: حوالي 10 دقائق من الصوت المولّد شهريًا للاختبار zapier.com.
    • خطة المبتدئين: 5 دولارات/شهريًا (أو 50 دولارًا/سنة) تعطي حوالي 30 دقيقة شهريًا بالإضافة إلى إمكانية استنساخ الصوت وحقوق الاستخدام التجاري على مستوى أساسي zapier.com.
    • الخطط الأعلى (مثل: منشئ المحتوى، الناشر المستقل، إلخ) تكلف أكثر شهريًا وتمنح استخدامًا أكبر (ساعات توليد) وميزات إضافية مثل جودة أعلى، المزيد من الأصوات المخصصة، أولوية، وربما وصول إلى API حسب الفئة zapier.com zapier.com.
    • المؤسسات: تسعير مخصص للاستخدام الكبير (خطط غير محدودة قابلة للتفاوض، إلخ).
    • مقارنةً بخدمات تحويل النص إلى كلام السحابية التي غالبًا ما تفرض رسومًا حسب عدد الأحرف، فإن ElevenLabs تفرض رسومًا حسب مدة المخرجات الصوتية. على سبيل المثال، 5 دولارات مقابل 30 دقيقة، أي ما يعادل تقريبًا 0.17 دولار للدقيقة، وهو سعر تنافسي بالنظر إلى الجودة وحقوق الاستخدام المشمولة.
    • يمكن غالبًا شراء استخدام إضافي (تجاوزات أو حزم لمرة واحدة).
    • تتضمن الأسعار استخدام الأصوات الجاهزة واستنساخ الأصوات. لديهم شروط بأنه إذا قمت باستنساخ صوت شخص آخر باستخدام مكتبة الأصوات الخاصة بهم، قد تحتاج إلى إثبات حقوق الاستخدام، وما إلى ذلك، ولكن من المفترض أن الخدمة تضمن القانونية.
    • لديهم واجهة برمجة تطبيقات (API) للمشتركين (من المحتمل أن تبدأ من خطة 5 دولارات ولكن مع حصة محدودة).
    • بشكل عام، الخدمة متاحة جدًا للمبدعين الأفراد (مما ساهم في شعبيتها)، مع إمكانية التوسع لتلبية الاحتياجات الأكبر.

    نقاط القوة:

    • جودة وواقعية صوت لا مثيل لها: كثير من تعليقات المستخدمين تشير إلى أن أصوات ElevenLabs من أكثر الأصوات شبهًا بالبشر المتاحة للعامة zapier.com zapier.com. تنقل المشاعر والإيقاع الطبيعي، متفوقة على العديد من عروض تحويل النص إلى كلام من شركات التقنية الكبرى من حيث التعبير.
    • سهولة الاستخدام وحرية الإبداع: تم تصميم المنصة بحيث يمكن حتى لغير الخبراء استنساخ صوت أو تعديل معايير الأسلوب بسهولة. هذا يقلل من الحواجز أمام الاستخدام الإبداعي للصوت بالذكاء الاصطناعي.
    • تشكيلة ضخمة من الأصوات: مئات الأصوات وإمكانية إنشاء صوتك الخاص تعني أن أي أسلوب أو شخصية تقريبًا يمكن تحقيقها – تنوع أكبر بكثير من خدمات تحويل النص إلى كلام التقليدية (التي قد تحتوي على 20-50 صوتًا فقط).
    • متعدد اللغات وعبر اللغات: القدرة على نقل الصوت عبر لغات مختلفة مع الحفاظ على اللكنة/العاطفة هي نقطة بيع فريدة، مما يسهل إنشاء محتوى متعدد اللغات.
    • دورة تحسين سريعة: كشركة ناشئة مركزة، أطلقت ElevenLabs ميزات جديدة بسرعة (مثل الانتقال السريع من النموذج v1 إلى v3 خلال عام واحد، وإضافة لغات، وإضافة قدرات الضحك/الهمس). كما أنهم يدمجون ملاحظات المجتمع بسرعة.
    • مجتمع نشط: انضم العديد من المبدعين إليها، وشاركوا النصائح والأصوات، مما يزيد من انتشارها ويضمن استكشاف العديد من حالات الاستخدام، مما يجعل المنتج أكثر قوة.
    • تكامل API مرن: يمكن للمطورين دمجها في التطبيقات (بعض التطبيقات مثل أدوات السرد أو روبوتات Discord بدأت باستخدام ElevenLabs لإنتاج المخرجات الصوتية).
    • فعّالة من حيث التكلفة مقابل ما تقدمه: للاستخدام الصغير إلى المتوسط، فهي أرخص بكثير من توظيف موهبة صوتية ووقت استوديو، ومع ذلك تعطي نتائج شبه احترافية. هذه القيمة كبيرة للمبدعين المستقلين.
    • ضوابط أخلاقية: وضعوا بعض الضمانات (استنساخ الصوت يتطلب تحققًا أو يكون متاحًا فقط في باقات أعلى لمنع سوء الاستخدام، بالإضافة إلى أنهم يستخدمون كشف الأصوات لرصد سوء الاستخدام). هذه نقطة قوة في بناء الثقة مع أصحاب الحقوق الفكرية.
    • التمويل والنمو: ممول جيدًا ومعتمد على نطاق واسع، لذا من المرجح أن يستمر ويتحسن باستمرار.

    نقاط الضعف:

    • إمكانية سوء الاستخدام: إن نقاط القوة نفسها (الاستنساخ الواقعي) لها جانب مظلم – في الواقع، في البداية كانت هناك حوادث لاستخدامه في أصوات الديب فيك. هذا أجبرهم على تنفيذ سياسات استخدام أكثر صرامة وكشف الاستخدام. ومع ذلك، فإن وجود هذه التقنية يعني وجود خطر الانتحال إذا لم يتم حمايتها جيدًا.
    • الاتساق في السرد الطويل: أحيانًا يكون الحفاظ على نفس الاتساق العاطفي في السرد الطويل جدًا أمرًا صعبًا. قد يغير النموذج نبرة الصوت أو الإيقاع قليلاً بين الفصول (رغم أن إعدادات الاستقرار والإصدار الثالث القادم يعالجان هذا بشكل أفضل).
    • نطق الكلمات غير المعتادة: رغم أنه جيد جدًا، إلا أنه أحيانًا يخطئ في نطق الأسماء أو المصطلحات النادرة. يقدمون حلولًا يدوية (يمكنك تهجئة الكلمات صوتيًا)، لكنه ليس مثاليًا مباشرة لكل اسم علم. محركات TTS السحابية المنافسة لديها مشاكل مشابهة، لكنه أمر يجب التعامل معه.
    • حدود معدل واجهة البرمجة / التوسع: في حالات التوسع الضخم جدًا (مثل توليد آلاف الساعات تلقائيًا)، قد تواجه حدودًا في معدل الإنتاجية، رغم أنهم على الأرجح يستوعبون متطلبات المؤسسات من خلال توسيع البنية التحتية عند الحاجة. قد يتمكن مقدمو الخدمات السحابية الكبار من التعامل مع الطلبات المتوازية الضخمة بشكل أكثر سلاسة حاليًا.
    • لا يوجد تعرف على الكلام أو إدارة حوار مدمجة: ليست منصة ذكاء اصطناعي حوارية متكاملة بحد ذاتها – ستحتاج لدمجها مع تحويل الكلام إلى نص ومنطق (قد يعتبر البعض هذا عيبًا مقارنة بحلول شاملة مثل Amazon Polly + Lex، إلخ. ومع ذلك، يمكن دمج ElevenLabs بسهولة مع خدمات أخرى).
    • منافسة شرسة ناشئة: اللاعبون الكبار والشركات الناشئة الجديدة لاحظوا نجاح ElevenLabs؛ قد تدخل OpenAI نفسها مع TTS متقدم، أو قد تنافسها شركات أخرى (مثل بحث Microsoft الجديد VALL-E) في النهاية. لذا يجب على ElevenLabs الاستمرار في الابتكار للبقاء في الصدارة من حيث الجودة والميزات.
    • الترخيص والحقوق: يجب على المستخدمين الانتباه عند استخدام أصوات تشبه أشخاصًا حقيقيين أو مستنسخة. حتى مع الموافقة، قد تكون هناك مناطق قانونية رمادية (حقوق التشابه) في بعض الولايات القضائية. هذه التعقيدات قد تثني بعض الاستخدامات التجارية حتى تتضح القوانين/الأخلاقيات.
    • قيود اللهجات واللغات: رغم أنه متعدد اللغات، قد تحمل الأصوات لهجة من مصدرها. لبعض الاستخدامات، قد تكون هناك حاجة لصوت أصلي لكل لغة (قد تعالج ElevenLabs هذا لاحقًا عبر تكييف الصوت لكل لغة أو تقديم مكتبة أصوات أصلية).
    • الاعتماد على السحابة: هي خدمة سحابية مغلقة؛ لا يوجد حل محلي دون اتصال. قد يفضل بعض المستخدمين الحلول المحلية للمحتوى الحساس (بعض الشركات قد لا ترغب في رفع نصوص سرية إلى خدمة سحابية). لا يوجد إصدار ذاتي الاستضافة (على عكس بعض محركات TTS المفتوحة).

    التحديثات الأخيرة (2024–2025):

    • قدمت ElevenLabs Eleven Multilingual v2 في أواخر 2023 تقريبًا، مما حسّن بشكل كبير المخرجات غير الإنجليزية (لهجة أقل، ونطق أفضل).
    • لقد أصدروا نسخة ألفا من Voice Generation v3 والتي يمكنها التعامل مع أشياء مثل الضحك، وتغيير الأسلوب في منتصف الجملة، ونطاق ديناميكي أكثر بشكل عام elevenlabs.io elevenlabs.io. من المرجح أن هذا تم إطلاقه بالكامل في عام 2024، مما جعل الأصوات أكثر واقعية (على سبيل المثال، العروض التوضيحية تضمنت مشاهد تمثيلية كاملة).
    • قاموا بتوسيع استنساخ الصوت ليتيح استنساخ الصوت الفوري من حوالي 3 ثوانٍ فقط من الصوت في نسخة تجريبية محدودة (إذا كان هذا صحيحًا، فربما باستخدام تقنية مشابهة لـ VALL-E من مايكروسوفت، والتي كانوا على علم بها بالتأكيد). هذا من شأنه أن يبسط عملية الاستنساخ للمستخدمين بشكل كبير.
    • مكتبة الأصوات توسعت بشكل كبير عند إطلاقهم ميزة لمشاركة الأصوات: بحلول عام 2025، أصبح هناك آلاف الأصوات التي أنشأها المستخدمون (بعضها ضمن الملكية العامة أو أصلي) متاحة للاستخدام – نوع من “سوق” الأصوات.
    • حصلوا على المزيد من الشراكات؛ على سبيل المثال، بعض الناشرين يستخدمون ElevenLabs بشكل علني للكتب الصوتية، أو التكامل مع برامج الفيديو الشهيرة (ربما إضافة في Adobe Premiere أو After Effects لإنشاء السرد داخل التطبيق).
    • حصلوا على المزيد من التمويل بقيمة عالية zapier.com، مما يشير إلى التوسع (ربما في مجالات ذات صلة مثل حوار الصوت أو أبحاث التنغيم).
    • من ناحية الأمان، قاموا بتنفيذ نظام بصمة صوتية – أي صوت يتم إنشاؤه بواسطة ElevenLabs يمكن التعرف عليه على هذا النحو عبر علامة مائية مخفية أو ذكاء اصطناعي للكشف، والذي كانوا يطورونه للحد من سوء الاستخدام.
    • أضافوا أداة تصميم الصوت (في نسخة تجريبية) والتي تتيح للمستخدمين “مزج” الأصوات أو تعديل بعض الخصائص لإنشاء صوت ذكاء اصطناعي جديد دون الحاجة إلى عينة بشرية. هذا يفتح إمكانيات إبداعية لتوليد أصوات فريدة غير مرتبطة بأشخاص حقيقيين.
    • كما تم تحسين استخدام واجهة برمجة التطبيقات للمطورين – بإضافة ميزات مثل التوليد غير المتزامن، وتحكم أدق عبر الواجهة، وربما خيار محلي للمؤسسات (لم يتم التأكيد، لكن قد يكون متاحًا للعملاء الكبار جدًا).
    • باختصار، تواصل ElevenLabs وضع المعيار لتوليد الصوت بالذكاء الاصطناعي في عام 2025، مما يجبر الآخرين على اللحاق بها.

    الموقع الرسمي: منصة ElevenLabs Voice AI zapier.com zapier.com (الموقع الرسمي لتحويل النص إلى كلام واستنساخ الصوت من ElevenLabs).

    10. Resemble AI (منصة استنساخ الصوت وتحويل النص إلى كلام المخصصة) – Resemble AI

    نظرة عامة: Resemble AI هي منصة بارزة لاستنساخ الأصوات بالذكاء الاصطناعي وتحويل النص إلى كلام مخصص تتيح للمستخدمين إنشاء نماذج صوتية واقعية للغاية وتوليد الكلام بهذه الأصوات. تأسست في عام 2019، وتركز Resemble على استنساخ الأصوات بسرعة وقابلية التوسع للاستخدام الإبداعي والتجاري. وتتميز بتقديم عدة طرق لاستنساخ الأصوات: من النص (أصوات TTS موجودة يمكن تخصيصها)، من بيانات صوتية، وحتى تحويل الصوت في الوقت الفعلي. بحلول عام 2025، تُستخدم Resemble AI لإنتاج أصوات ذكاء اصطناعي واقعية للأفلام والألعاب والإعلانات والمساعدين الافتراضيين، غالبًا عندما تكون هناك حاجة لصوت محدد إما ليحاكي شخصًا حقيقيًا أو ليكون صوت علامة تجارية فريد. كما تتضمن ميزة “Localize”، التي تتيح لصوت واحد التحدث بعدة لغات (مشابه لـ ElevenLabs) resemble.ai resemble.ai. تقدم Resemble واجهة برمجة تطبيقات واستوديو ويب، وتجذب بشكل خاص المؤسسات التي ترغب في دمج أصوات مخصصة في منتجاتها (مع تحكم أكثر توجهاً للمؤسسات مثل النشر المحلي إذا لزم الأمر).

    النوع:تحويل النص إلى كلام واستنساخ الصوت، بالإضافة إلى تحويل الصوت في الوقت الفعلي.

    الشركة/المطور:Resemble AI (شركة ناشئة مقرها كندا).

    القدرات والفئات المستهدفة:

    • استنساخ الصوت: يمكن للمستخدمين إنشاء نسخة مستنسخة من صوت ما باستخدام بضع دقائق فقط من التسجيل الصوتي. استنساخ Resemble عالي الجودة، حيث يلتقط طابع الصوت الأصلي ولهجته. الفئات المستهدفة تشمل استوديوهات المحتوى التي ترغب في أصوات اصطناعية للمواهب، والعلامات التجارية التي تصنع شخصية صوتية مخصصة، والمطورين الذين يريدون أصواتًا فريدة لتطبيقاتهم.
    • توليد TTS مخصص: بمجرد استنساخ أو تصميم صوت، يمكنك إدخال نص لتوليد كلام بهذا الصوت عبر تطبيق الويب أو واجهة البرمجة. يمكن للكلام نقل مجموعة واسعة من التعبيرات (يمكن لـ Resemble التقاط العاطفة من مجموعة البيانات أو عبر تحكم إضافي).
    • تحويل الصوت في الوقت الفعلي: ميزة بارزة – يمكن لـ Resemble إجراء تحويل الكلام إلى كلام، أي أنك تتحدث ويخرج الصوت المستهدف المستنسخ تقريبًا في الوقت الفعلي resemble.ai resemble.ai. هذا مفيد للدبلجة أو التطبيقات الحية (مثلاً، يتحدث شخص ويخرج صوته كشخصية مختلفة).
    • Localize (عبر اللغات): يمكن لأداة Localize الخاصة بهم ترجمة وتحويل صوت إلى أكثر من 60 لغة resemble.ai. في الأساس، يمكنهم أخذ نموذج صوتي إنجليزي وجعله يتحدث لغات أخرى مع الحفاظ على هوية الصوت. يُستخدم ذلك لتعريب الحوارات أو المحتوى عالميًا.
    • العاطفة والأسلوب: تؤكد Resemble على تقليد ليس فقط الصوت بل أيضًا العاطفة والأسلوب. يمكن لنظامهم إدخال النبرة العاطفية الموجودة في التسجيلات المرجعية ضمن المخرجات المُولدة resemble.ai resemble.ai. إدخال وإخراج مرن: لا يدعمون النص العادي فقط، بل أيضًا API يمكنه أخذ معايير للعاطفة، ونظام “الحوار” لإدارة المحادثات. يخرجون بصيغ صوتية قياسية ويسمحون بتحكم دقيق مثل ضبط السرعة، إلخ. التكامل والنشر: تقدم Resemble واجهة برمجة سحابية، ويمكنها أيضًا النشر محليًا أو على سحابة خاصة للمؤسسات (حتى لا تخرج البيانات أبدًا). لديهم إضافة Unity لمطوري الألعاب، على سبيل المثال، مما يسهل دمج الأصوات في الألعاب. من المحتمل أيضًا دعم التكامل مع أنظمة الهاتف. حالات الاستخدام والمستخدمون: مطورو الألعاب (استُخدمت Resemble في الألعاب لأصوات الشخصيات)، ما بعد إنتاج الأفلام (مثلاً، لإصلاح الحوار أو إنشاء أصوات لشخصيات CGI)، الإعلان (استنساخ أصوات المشاهير للإعلانات بموافقة)، مراكز الاتصال (إنشاء وكيل افتراضي بصوت مخصص)، وإمكانية الوصول (مثلاً، منح الأشخاص الذين فقدوا أصواتهم صوتًا رقميًا مطابقًا لصوتهم القديم).
    الميزات الرئيسية:
      4 طرق للاستنساخ: تروج Resemble للاستنساخ عبر تسجيل صوتك على موقعهم (قراءة 50 جملة، إلخ)، رفع بيانات موجودة، توليد صوت جديد بمزج أصوات، أو دمج عدة أصوات بنقرة واحدة للحصول على أسلوب جديد. خط أنابيب من صوت إلى صوت: قدم صوتًا مدخلًا (قد يكون صوتك ينطق جملًا جديدة) وResemble تحولها إلى الصوت المستهدف، مع الحفاظ على الفروق الدقيقة مثل النبرة من المدخل. هذا يتم تقريبًا في الوقت الحقيقي (تأخير بسيط). API وواجهة رسومية: يمكن للمستخدمين غير التقنيين استخدام واجهة ويب أنيقة لتوليد المقاطع، وضبط التنغيم عبر اختيار الكلمات وتعديلها (لديهم ميزة لضبط الإيقاع أو التشديد يدويًا على الكلمات، مشابهة لتحرير الصوت) – مماثلة لقدرات التحرير في Descript Overdub. التقاط العواطف: يعلنون عن “التقاط العاطفة بكامل طيفها” – إذا كان الصوت الأصلي يحتوي على حالات عاطفية متعددة في بيانات التدريب، يمكن للنموذج إنتاجها. كما يسمحون بوضع تسميات عاطفية على بيانات التدريب لتمكين وضع “غاضب” أو “سعيد” عند التوليد. التوليد الجماعي والتخصيص: يمكن لواجهة Resemble البرمجية القيام بالتوليد الديناميكي على نطاق واسع (مثلاً، إنتاج تلقائي لآلاف الرسائل المخصصة – لديهم حالة استخدموا فيها إعلانات صوتية مخصصة بأسماء فريدة، إلخ). الجودة والتحسينات: يستخدمون vocoder عصبي عالي الجودة لضمان أن يكون الناتج واضحًا وطبيعيًا. يذكرون تحليل وتصحيح الإشارات الصوتية الضعيفة قبل بدء النسخ telnyx.com – قد يشير ذلك إلى سياق STT في Watson. بالنسبة لـ Resemble، لست متأكدًا، لكن من المفترض أنهم يقومون بمعالجة الصوت مسبقًا حسب الحاجة.
    • المشاريع والتعاون: لديهم ميزات إدارة المشاريع في استوديو الويب الخاص بهم، بحيث يمكن للفرق التعاون في مشاريع الصوت، الاستماع إلى التسجيلات، وما إلى ذلك.
    • الأخلاقيات/التحقق: لديهم أيضًا تدابير لتأكيد ملكية الصوت – مثل طلب عبارات موافقة محددة. كما يوفرون وضع علامات مائية على المخرجات إذا لزم الأمر للكشف.
    • ميزة Resemble Fill – ميزة ملحوظة: تتيح لك رفع تسجيل صوتي حقيقي وإذا كانت هناك كلمات ناقصة أو سيئة، يمكنك كتابة نص جديد وسيتم دمجه بسلاسة مع الأصل باستخدام الصوت المستنسخ – في الأساس تصحيح صوتي بالذكاء الاصطناعي “patching”. مفيد في مرحلة ما بعد الإنتاج السينمائي لإصلاح جملة دون إعادة التسجيل.
    • التحليلات والضبط: للمؤسسات، يقدمون تحليلات حول الاستخدام، وإمكانية ضبط القاموس (للنطق المخصص) وما إلى ذلك.

    اللغات المدعومة: أكثر من 50 لغة مدعومة لإخراج الصوت aibase.com، ويذكرون تحديدًا 62 لغة في أداة الدبلجة Localize الخاصة بهم resemble.ai. لذا، التغطية شاملة جدًا (مجموعة مشابهة لـ ElevenLabs). تشمل اللغات مثل الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البولندية، البرتغالية، الروسية، الصينية، اليابانية، الكورية، العديد من اللغات الهندية ربما، العربية، إلخ. غالبًا ما يذكرون أنه يمكنك جعل الصوت يتحدث لغات غير موجودة في البيانات الأصلية، ما يعني أن لديهم محرك تحويل نص إلى كلام متعدد اللغات في الخلفية.
    كما يذكرون القدرة على التعامل مع التبديل بين اللغات إذا لزم الأمر، لكن هذا يخص تحويل الكلام إلى نص أكثر. بالنسبة لتحويل النص إلى كلام، الأصوات متعددة اللغات هي ميزة رئيسية.

    الأسس التقنية:

    • محرك Resemble على الأرجح يعتمد على نموذج تحويل نص إلى كلام عصبي متعدد المتحدثين (مثل Glow-TTS أو إصدار FastSpeech) بالإضافة إلى مركب صوتي عالي الدقة (غالبًا شيء مثل HiFi-GAN). يدمجون مشفّر صوتي (مشابه لتقنيات تضمين المتحدث) للسماح بالاستنساخ السريع من أمثلة.
    • يذكرون استخدام تعلم الآلة على نطاق واسع – على الأرجح يتم التدريب على كميات هائلة من بيانات الصوت (ربما مرخصة من استوديوهات، مجموعات بيانات عامة، إلخ).
    • تشير التحويل الفوري للكلام إلى نموذج يمكنه أخذ ميزات الصوت المصدر وتحويلها إلى ميزات صوت الهدف في الوقت شبه الحقيقي. ربما يستخدمون مزيجًا من التعرف التلقائي على الكلام (للحصول على الفونيمات/محاذاة الوقت) ثم إعادة التوليف بنبرة صوت الهدف، أو نموذج تحويل صوتي شامل لا يحتاج إلى نسخ صريح من أجل السرعة.
    • التحكم في العاطفة: قد يستخدمون نهج رموز الأسلوب أو وجود نماذج منفصلة لكل عاطفة أو ضبط دقيق باستخدام تسميات العاطفة.
    • Localize: من المحتمل أنهم يستخدمون خط معالجة: تحويل الكلام إلى نص (مع الترجمة) ثم تحويل النص إلى كلام. أو لديهم نموذج صوتي مباشر عبر اللغات (أقل احتمالًا). من المرجح أنهم يدمجون خطوة الترجمة. لكنهم يؤكدون على التقاط شخصية الصوت في اللغات الجديدة، ما يعني استخدام نفس نموذج الصوت مع مدخلات غير إنجليزية.
    • القابلية للتوسع والسرعة: يدّعون التحويل في الوقت الفعلي مع حد أدنى من التأخير. قد يكون توليد النص إلى كلام لديهم أبطأ قليلاً من ElevenLabs إذا كان هناك المزيد من العمليات الخلفية، لكن من المرجح أنهم قاموا بتحسين ذلك. يذكرون توليد 15 دقيقة من الصوت من مجرد 50 جملة مسجلة (استنساخ سريع).
    • يركزون على الأرجح على إعادة إنتاج التفاصيل الصوتية الدقيقة لضمان أن يكون الاستنساخ غير قابل للتمييز. ربما يستخدمون دوال خسارة متقدمة أو شبكات GAN لالتقاط هوية الصوت.
    • يذكرون أنهم يحللون ويصححون مدخلات الصوت لـ S2S – على الأرجح تقليل الضوضاء أو مطابقة نغمة الغرفة.
    • تشمل التقنية ميزات Voice Enhancer (مثل تحسين جودة الصوت) إذا لزم الأمر لإشارات الإدخال.

    حالات الاستخدام:

    • الأفلام والتلفزيون: تم استخدام Resemble لاستنساخ أصوات الممثلين في مرحلة ما بعد الإنتاج (مثلاً، لإصلاح جملة أو توليد جمل إذا لم يكن الممثل متاحاً). كما يُستخدم لإنشاء أصوات ذكاء اصطناعي لشخصيات CG أو لإعادة شباب الصوت (جعل صوت الممثل الأكبر سناً يبدو شاباً مرة أخرى).
    • الألعاب: تستخدم استوديوهات الألعاب Resemble لتوليد ساعات من حوارات الشخصيات غير القابلة للعب بعد استنساخ عدد قليل من الممثلين الصوتيين (يوفر التكلفة ويسمح بتكرار سريع على النصوص).
    • الإعلانات والتسويق: تقوم العلامات التجارية باستنساخ صوت أحد المشاهير (بإذن) لتوليد إصدارات مختلفة من الإعلانات أو العروض الترويجية المخصصة على نطاق واسع. أو ينشئون صوت علامة تجارية خيالي ليكون متسقاً عبر الأسواق العالمية، مع تعديل اللغة مع الحفاظ على نفس هوية الصوت.
    • وكلاء الذكاء الاصطناعي للمحادثة: بعض الشركات تشغل أنظمة الرد الآلي أو المساعدين الافتراضيين بصوت مخصص من Resemble يتناسب مع شخصية علامتهم التجارية، بدلاً من صوت TTS عام. (مثلاً، مساعد صوتي لبنك يتحدث بصوت فريد).
    • الاستخدام الشخصي لفقدان الصوت: الأشخاص الذين يفقدون صوتهم بسبب المرض استخدموا Resemble لاستنساخه والحفاظ عليه، ثم استخدامه كصوت “نص إلى كلام” للتواصل. (هذا مشابه لما فعلته شركات مثل Lyrebird (التي اشترتها Descript)؛ وتقدمه Resemble أيضاً).
    • تعريب الوسائط: تستخدم استوديوهات الدبلجة Resemble Localize لدبلجة المحتوى بسرعة – إدخال الجمل الصوتية الأصلية، والحصول على المخرجات باللغة المستهدفة بصوت مشابه. يقلل الوقت بشكل كبير، رغم أنه غالباً يحتاج إلى تعديلات بشرية.
    • السرد التفاعلي: يمكن دمج Resemble في تطبيقات القصص التفاعلية أو رواة القصص بالذكاء الاصطناعي، حيث يجب توليد الأصوات فورياً (ربما أقل شيوعاً من التوليد المسبق بسبب التأخير، لكنه ممكن).
    • التدريب المؤسسي/التعليم الإلكتروني: توليد السرد لمقاطع الفيديو التدريبية أو الدورات باستخدام استنساخ لمذيعين محترفين، بعدة لغات دون الحاجة لإعادة التسجيل، مما يتيح نبرة متسقة.

    نموذج التسعير: Resemble أكثر توجهاً نحو المؤسسات في التسعير، لكنهم يذكرون بعض التفاصيل:

    • لديهم تجربة مجانية (ربما تتيح استنساخ صوت محدود وعدة دقائق من التوليد مع علامة مائية).
    • عادةً ما يكون التسعير قائمًا على الاستخدام أو الاشتراك. بالنسبة للمبدعين الأفراد، كان لديهم شيء مثل 30 دولارًا شهريًا مقابل بعض الاستخدام والأصوات، ثم رسوم استخدام إضافية بعد ذلك.
    • بالنسبة للمؤسسات، من المحتمل أن يكون مخصصًا. كما كان لديهم خيار الدفع حسب الاستخدام لواجهة برمجة التطبيقات.
    • على سبيل المثال، أشار أحد المصادر إلى تكلفة قدرها 0.006 دولار لكل ثانية من الصوت المُنتج (~0.36 دولار/دقيقة) للإنتاج القياسي، مع خصومات على الكميات الكبيرة.
    • قد يفرضون رسومًا منفصلة على إنشاء الصوت (مثل رسم لكل صوت إذا تم إنشاؤه بجودة عالية بمساعدتهم).
    • نظرًا لأن EleveLabs أرخص، قد لا تنافس Resemble على الأسعار المنخفضة بل على الميزات والاستعداد المؤسسي (مثلاً، يبرزون الاستخدام غير المحدود في الخطة المخصصة، أو التفاوض على ترخيص الموقع).
    • كان لديهم خيار ترخيص النموذج بالكامل للتشغيل المحلي، والذي من المحتمل أن يكون مكلفًا ولكنه يمنح تحكمًا كاملاً.
    • بشكل عام، من المرجح أن تكون أغلى من ElevenLabs لنفس الاستخدام تقريبًا، لكنها تقدم ميزات لا يقدمها بعض المنافسين (مثل العمل في الوقت الحقيقي، تكامل مباشر مع خطوط الإنتاج، إلخ، مما يبررها لبعض العملاء).

    نقاط القوة:

    • مجموعة أدوات شاملة للذكاء الاصطناعي الصوتي: تغطي Resemble جميع الجوانب – تحويل النص إلى كلام، الاستنساخ، تحويل الصوت في الوقت الحقيقي، الدبلجة متعددة اللغات، تحرير الصوت (سد الفجوات). إنها حل متكامل لجميع احتياجات تركيب الصوت.
    • التركيز المؤسسي والتخصيص: يقدمون الكثير من المرونة (خيارات النشر، دعم عالي المستوى، تكاملات مخصصة) مما يجعلها مريحة لتبني الأعمال.
    • استنساخ عالي الجودة وواقعية عاطفية: الاستنساخ لديهم عالي الدقة جدًا، والعديد من دراسات الحالة تظهر مدى قدرتهم على التقاط الأسلوب والعاطفة resemble.ai resemble.ai. على سبيل المثال، حملة عيد الأم التي قدمت 354 ألف رسالة مخصصة بدقة صوت 90% resemble.ai تُعد دليلاً قويًا على الجودة والقدرة على التوسع.
    • قدرات الوقت الحقيقي: القدرة على تحويل الصوت مباشرة تميزهم – قلة من الآخرين يقدمون ذلك. هذا يفتح حالات استخدام في العروض الحية أو البث المباشر (مثلاً، يمكن دبلجة صوت المتحدث إلى صوت آخر في الوقت شبه الحقيقي).
    • التعريب/اللغات: أكثر من 60 لغة مع التركيز على الحفاظ على نفس الصوت عبرها resemble.ai ميزة كبيرة لإنتاج المحتوى العالمي.
    • الأخلاقيات والضوابط: يضعون أنفسهم كجهة أخلاقية (يتطلب موافقة، إلخ). ويروجون لذلك بقوة في التسويق، وهو أمر جيد للعملاء الذين لديهم مخاوف تتعلق بحقوق الملكية الفكرية. لديهم أيضًا تقنيات لمنع سوء الاستخدام (مثل طلب قراءة جملة تحقق محددة، كما يفعل الآخرون).
    • دراسات الحالة والخبرة: تم استخدام Resemble في مشاريع بارزة (بعضها في هوليوود، إلخ)، مما يمنحهم المصداقية. على سبيل المثال، المثال الموجود في موقعهم حول لعبة فازت بجائزة Apple Design Award باستخدامهم يظهر الإبداع الممكن (مغامرات Crayola مع التعليق الصوتي الديناميكي). القابلية للتوسع والعائد على الاستثمار: بعض العملاء ذكروا تحقيق زيادات ضخمة في المحتوى (حالة Truefan: زيادة بمقدار 70 ضعف في إنشاء المحتوى، وتأثير على الإيرادات بمقدار 7 أضعاف). هذا يدل على قدرتهم على التعامل مع الإنتاج واسع النطاق بفعالية. تعدد الأصوات والمشاعر في إخراج واحد: يوضحون كيف يمكن للمرء إنشاء حوارات أو أصوات تفاعلية بسهولة (مثل تطبيق ABC Mouse الذي يستخدمه للأسئلة والأجوبة مع الأطفال). التحكم في جودة الصوت: لديهم ميزات لضمان جودة الإخراج (مثل مزج الصوت الخلفي أو الإتقان لجودة الاستوديو) والتي لا تهتم بها بعض واجهات برمجة التطبيقات TTS العادية. النمو المستمر: يطلقون تحسينات (مثل مؤخرًا أصوات الذكاء الاصطناعي السياقية الجديدة أو تحديثات الخوارزميات). نقاط الضعف: ليس سهلًا/رخيصًا للهواة: بالمقارنة مع ElevenLabs، فإن Resemble موجه أكثر نحو الشركات/المؤسسات. الواجهة قوية ولكنها قد تكون أقل بساطة من واجهة Eleven المبسطة جدًا للمبتدئين. كما أن التسعير قد يكون عائقًا للمستخدمين الصغار (قد يختارون ElevenLabs بدلًا منه). ضجة أقل انتشارًا: رغم احترامهم على نطاق واسع في بعض الدوائر، إلا أنهم لا يملكون نفس الشهرة الفيروسية التي حصلت عليها ElevenLabs بين المبدعين بشكل عام في 2023. قد يُنظر إليهم أكثر كخدمة للمحترفين خلف الكواليس. الجودة مقابل ElevenLabs: الفارق ليس كبيرًا، لكن بعض المهتمين بالصوت يلاحظون أن ElevenLabs قد تتفوق في العاطفة الواقعية للغاية للغة الإنجليزية، بينما Resemble قريبة جدًا وأحيانًا أفضل في جوانب أخرى (مثل الوقت الحقيقي). المنافسة قوية، لكن الانطباع مهم. مقايضات التركيز: تقديم كل من TTS والوقت الحقيقي قد يعني أنهم يوازنون بين تحسين كليهما، بينما تركز ElevenLabs كل جهدها على جودة TTS غير المتصل بالإنترنت. إذا لم تتم الإدارة بشكل جيد، قد يتأخر أحد الجوانب قليلًا (مع أنهم حتى الآن يديرون الأمر جيدًا). الاعتماد على جودة بيانات التدريب: للحصول على أفضل نتائج من استنساخ Resemble، من المثالي تقديم تسجيلات نظيفة وعالية الجودة. إذا كانت بيانات الإدخال مشوشة أو محدودة، يتأثر الإخراج. لديهم تحسينات للتخفيف، لكن الفيزياء لا تزال تنطبق. مخاوف قانونية حول الاستخدام: نفس المشكلة في الفئة – أخلاقيات الاستنساخ. هم جيدون في التخفيف، لكن العملاء المحتملين قد يترددون بسبب التفكير في اللوائح المستقبلية أو قضايا التصور العام لاستخدام الأصوات المستنسخة (الخوف من تصنيفها كـ”ديب فيك”). Resemble، كونها تركز على المؤسسات، من المرجح أن تتعامل مع ذلك من خلال اتفاقيات عدم الإفشاء والتصاريح، لكنه تحدٍ عام في السوق.
    • المنافسة والتداخل: ظهرت العديد من الخدمات الجديدة (بعضها يعتمد على نماذج مفتوحة) تقدم الاستنساخ الصوتي بسعر أرخص. يجب على Resemble التميز من خلال الجودة والميزات. كما أن شركات السحابة الكبرى (مثل خدمة Microsoft’s Custom Neural Voice) تنافس مباشرة على صفقات المؤسسات (خاصة مع امتلاك مايكروسوفت الآن لشركة Nuance).
    • تحكم المستخدم: رغم وجود بعض أدوات التحرير، قد لا يكون تعديل العناصر الدقيقة في الكلام بنفس دقة الإنسان – قد يجد المبدعون أنفسهم يضطرون لتوليد عدة نسخ أو القيام ببعض المعالجة الصوتية الإضافية للحصول على النتيجة المطلوبة بالضبط (وهذا ينطبق على جميع الأصوات الاصطناعية).

    التحديثات الأخيرة (2024–2025):

    • أطلقت Resemble “Resemble AI 3.0” حوالي عام 2024 مع تحسينات كبيرة في النموذج، مع التركيز على نطاق عاطفي أوسع وإخراج متعدد اللغات بشكل أفضل. وربما تم دمج تقنيات مثل VALL-E أو قدرات zero-shot محسنة لتقليل البيانات المطلوبة للاستنساخ.
    • قاموا بتوسيع عدد لغات Localize من حوالي 40 إلى 62، وحسنوا دقة الترجمة بحيث يتم الحفاظ على التنغيم الأصلي (ربما من خلال مواءمة الترجمة النصية مع إشارات أسلوب الصوت).
    • تم تقليل زمن الاستجابة في تحويل الصوت في الوقت الفعلي أكثر – ربما أصبح الآن أقل من ثانية للاستجابة.
    • قدموا ميزة التحكم في الأسلوب من خلال المثال – على سبيل المثال، يمكنك تقديم عينة من العاطفة أو السياق المستهدف وسيقوم النظام بمحاكاة ذلك الأسلوب. هذا مفيد عندما تريد أن يبدو الصوت متحمسًا أو حزينًا في جملة معينة؛ تقدم مقطعًا مرجعيًا بذلك النمط من أي مكان (ربما من بيانات المتحدث الأصلي أو حتى من صوت آخر) لتوجيه التوليد.
    • ربما تم دمج LLM صغير النطاق للمساعدة في أشياء مثل التنبؤ بالتنغيم (مثل تحديد أماكن التأكيد أو كيفية قراءة الجملة عاطفيًا تلقائيًا بناءً على المحتوى).
    • تم تحسين منصة المطورين: مثل واجهة برمجة تطبيقات أكثر سلاسة لتوليد العديد من المقاطع الصوتية بالتوازي، ودعم websockets للبث الصوتي في الوقت الفعلي، وما إلى ذلك.
    • في جانب الأمان: أطلقوا Voice Authentication API يمكنه التحقق مما إذا كان الصوت تم توليده بواسطة Resemble أو إذا حاول شخص ما استنساخ صوت لا يملكه (من خلال علامة مائية داخلية أو كشف توقيع صوتي).
    • حصلوا على بعض الشراكات الكبيرة – مثل استوديو دبلجة رئيسي أو شراكة مع شركات إعلامية لتوطين المحتوى. حالة Age of Learning (ABC Mouse) مثال على ذلك، وقد تظهر شراكات أخرى.
    • من المرجح أنهم وسعوا سوق مواهب الأصوات: ربما من خلال بناء علاقات مع ممثلي الأصوات لإنشاء أصوات مرخصة يمكن للآخرين الدفع لاستخدامها (تحقيق الدخل من الأصوات بشكل أخلاقي).
    • استمرار البحث والتطوير في Resemble يبقيها من بين أفضل خدمات استنساخ الأصوات في 2025 مع قاعدة عملاء مؤسسية قوية.

    الموقع الرسمي: منصة استنساخ الصوت Resemble AI aibase.com resemble.ai (الموقع الرسمي الذي يصف قدراتهم في إنشاء الأصوات المخصصة والتحويل الصوتي الفوري).

    المصادر:

    1. Google Cloud Text-to-Speech – “أكثر من 380 صوتًا عبر أكثر من 50 لغة ولهجة.” (توثيق Google Cloud cloud.google.com
    2. Google Cloud Speech-to-Text – دقة عالية، دعم لأكثر من 120 لغة، تحويل فوري للكلام إلى نص. (مدونة Krisp krisp.ai
    3. Microsoft Azure Neural TTS – “يدعم 140 لغة ولهجة مع 400 صوت.” (منتدى Microsoft TechCommunity techcommunity.microsoft.com
    4. Microsoft Azure STT – تحويل الكلام إلى نص مناسب للمؤسسات مع إمكانيات التخصيص والأمان لأكثر من 75 لغة. (مدونة Telnyx telnyx.com telnyx.com
    5. Amazon Polly – “تقدم Amazon Polly أكثر من 100 صوت في أكثر من 40 لغة… أصوات توليدية تفاعلية عاطفيًا.” (AWS What’s New aws.amazon.com aws.amazon.com
    6. Amazon Transcribe – نموذج ASR من الجيل الجديد مع دعم لأكثر من 100 لغة، تمييز المتحدثين، تحويل فوري ودفعي. (نظرة عامة من AWS aws.amazon.com aws.amazon.com
    7. آي بي إم واتسون STT – “نماذج قابلة للتخصيص للمصطلحات الخاصة بالصناعات، أمان بيانات قوي؛ يُستخدم في الرعاية الصحية/القانونية.” (مدونة كريسب krisp.ai krisp.ai
    8. نيوانس دراجون – “دراجون ميديكال يوفر نسخًا دقيقًا للغاية للمصطلحات الطبية المعقدة؛ مرن على الخوادم المحلية أو السحابة.” (مدونة كريسب krisp.ai krisp.ai
    9. أوبن إيه آي ويسبر – نموذج مفتوح المصدر تم تدريبه على 680 ألف ساعة، “يدعم 99 لغة”، مع دقة شبه رائدة في العديد من اللغات. (مسرد زيليز zilliz.com zilliz.com
    10. واجهة برمجة تطبيقات أوبن إيه آي ويسبر – “0.006 دولار لكل دقيقة” لـ Whisper-large عبر OpenAI، مما يتيح نسخًا منخفض التكلفة وعالي الجودة للمطورين deepgram.com】.
    11. ديبجرام نوفا-2 – “معدل خطأ في الكلمات أقل بنسبة 30% من المنافسين؛ أدق تحويل صوت إلى نص للإنجليزية (متوسط معدل الخطأ 8.4% مقابل 13.2% لويسبر).” (معايير ديبجرام deepgram.com deepgram.com
    12. تخصيص ديبجرام – يتيح تدريب النماذج المخصصة على المصطلحات الخاصة وزيادة الدقة بنسبة تزيد عن 18% مقارنة بالنموذج السابق. (مدونة غلاديا عبر ديبجرام gladia.io deepgram.com
    13. دقة وتحامل سبيتش ماتكس – “سجلت دقة 91.8% على أصوات الأطفال مقابل 83.4% لجوجل؛ تقليل الأخطاء بنسبة 45% على أصوات الأمريكيين من أصل أفريقي.” (بيان صحفي من سبيتش ماتكس speechmatics.com speechmatics.com
    14. Speechmatics Flow (2024) – التعرف التلقائي على الكلام في الوقت الفعلي + LLM + تحويل النص إلى كلام لمساعدي الصوت؛ يدعم 50 لغة مع لهجات متنوعة. (audioXpress audioxpress.com audioxpress.com
    15. ElevenLabs Voice AI – “أكثر من 300 صوت، واقعية عالية مع تنوع عاطفي؛ استنساخ الصوت متاح (5 دقائق من الصوت ← صوت جديد).” (مراجعة Zapier zapier.com zapier.com
    16. ElevenLabs Pricing – 10 دقائق مجانية شهريًا، خطط مدفوعة تبدأ من 5 دولارات شهريًا مقابل 30 دقيقة مع الاستنساخ والاستخدام التجاري. (Zapier zapier.com zapier.com
    17. ElevenLabs Multilingual – صوت واحد يتحدث أكثر من 30 لغة؛ نموذج v3 التعبيري يمكنه الهمس، الصراخ، وحتى الغناء. (مدونة ElevenLabs elevenlabs.io elevenlabs.io
    18. Resemble AI Voice Cloning – “إنشاء كلام بصوتك المستنسخ عبر 62 لغة؛ تحويل الصوت إلى صوت في الوقت الفعلي.” (Resemble AI resemble.ai resemble.ai
    19. دراسة حالة Resemble – حملة Truefan: 354 ألف رسالة فيديو مخصصة بأصوات المشاهير المستنسخة بالذكاء الاصطناعي بنسبة تشابه 90%، عائد استثمار 7× resemble.ai】، *استخدمت ABC Mouse Resemble في تطبيق تفاعلي للأطفال مع أسئلة وأجوبة صوتية في الوقت الفعلي resemble.ai】.
    20. ميزات Resemble AI – التقاط العواطف ونقل الأسلوب في الأصوات المستنسخة؛ القدرة على تصحيح الصوت الحالي (“Resemble Fill”). (توثيق Resemble AI resemble.ai resemble.ai】)
    From Skies to Sidewalks: Inside the 2025 Drone Delivery Revolution
    Previous Story

    من السماء إلى الأرصفة: داخل ثورة توصيل الطائرات بدون طيار في عام 2025

    Go toTop