مايكروسوفت تطلق تقنية “نسخ الصوت” في Azure AI
دقائق من التسجيل تكفي لصناعة نسخة صوتية واقعية مع Azure AI

مايكروسوفت تطلق تقنية “نسخ الصوت” في Azure AI: دقائق من التسجيل تكفي لصناعة نسخة صوتية واقعية
أعلنت شركة مايكروسوفت عن تحديث جديد لتقنية Azure AI Speech، يتيح للمستخدمين إنشاء نسخة صوتية دقيقة لأي شخص باستخدام ثوانٍ فقط من التسجيل الصوتي.
تقنية “الصوت الشخصي” تصبح أكثر تقدمًا
بدأت مايكروسوفت بطرح ميزة “الصوت الشخصي” (Personal Voice) في 21 مايو 2024، وكانت تتطلب تدريبًا مسبقًا للحصول على أفضل أداء. لكن مع التحديث الجديد، أصبحت الميزة تعتمد على نموذج متقدم يسمى DragonV2.1Neural، والذي يتميز بصوت طبيعي أكثر وتعبيرات صوتية محسنة.
وذكرت الشركة أن هذا النموذج الجديد يتيح توليد أصوات بأكثر من 100 لغة، مع تحسينات واضحة في طبيعية الصوت، ثبات النبرة (prosody)، ودقة النطق.
الاستخدامات الإيجابية… والمخاوف الكبيرة
تقول مايكروسوفت إن هذه التقنية يمكن استخدامها في:
- تخصيص أصوات روبوتات الدردشة (Chatbots)
- دبلجة الفيديوهات بصوت الممثل الأصلي بلغات مختلفة
- إنشاء تجارب صوتية شخصية ومميزة للمستخدمين
لكن من جهة أخرى، يثير هذا التقدم في الذكاء الاصطناعي الصوتي مخاوف كبيرة، خاصةً فيما يتعلق بإمكانية استغلال التقنية في التزييف العميق (Deepfake)، وانتحال الشخصيات الصوتية لأغراض خبيثة أو احتيالية.
تحذيرات أمنية وتحقيقات حول إساءة الاستخدام
وفقًا لتقارير سابقة:
- حذر مكتب التحقيقات الفيدرالي (FBI) من استخدام أصوات مقلدة لمسؤولين أمريكيين في حملات احتيال.
- أشار خبراء أمنيون إلى أن تقنيات استنساخ الصوت أصبحت واقعية لدرجة أنهم كادوا يسقطون ضحية لها.
- أطلقت شركات أخرى مثل Zyphra نماذج مفتوحة المصدر تتيح نفس التقنية بصوت مشابه باستخدام 30 ثانية فقط من التسجيل.
مايكروسوفت تضع قيودًا… لكن هل تكفي؟
مايكروسوفت أوضحت أنها تعتمد على:
- علامات مائية (Watermarks) غير مسموعة لتمييز الأصوات الاصطناعية
- سياسات استخدام صارمة تطلب موافقة صريحة من المتحدث الأصلي
- حظر انتحال الشخصيات أو الخداع الصوتي