أطلقت شركة ميتا نموذجها الجديد Spirit LM المفتوح المصدر، الذي يُعنى بمعالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في الذكاء الاصطناعي في توليد الأصوات، وتقليد الأصوات البشرية، بحسب وكالات.
ويعتمد نموذج "Spirit LM" على نموذج لُغوي مُدرَّب سابقًا يحتوي على 7 مليارات معلمة، ويتميز بقدرته على معالجة الصوت بنحو مختلف عن النماذج التقليدية التي تعتمد على تقنيات تعرف الكلام تلقائيًا (ASR).
ويهدف النموذج الجديد إلى تقديم تجربة صوتية طبيعية وأكثر تعبيرًا، ما يشكل خطوة متقدمة في تطوير الروبوتات الذكية القادرة على التواصل الصوتي بنحو أكثر تعقيدًا وواقعية.
وأشارت "ميتا" إلى أنّ النهج التقليدي يؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت، ولذلك، يعتمد "Spirit LM" على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، ما يمكنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل تعرف الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
ويتوفر النموذج الآن كمشروع مفتوح المصدر للمطورين والباحثين لاستخدامه وتطويره، ويُتوقع أن يُستخدَم مُستقبلًا ضمن تطبيقات ميتا، مثل واتسآب وإنستجرام وفيسبوك، ما يتيح للمستخدمين التفاعل مع الذكاء الاصطناعي عبر محادثات صوتية طبيعية مليئة بالتعبيرات على غرار الوضع الصوتي المتقدم الذي قدمته شركة OpenAI حديثًا.