ChatTTS: Text-to-Speech For Chat Overview
تشات تي تي إس هو نموذج تكوين صوتي مصمم لسيناريوهات الحوار، متوفر على GitHub على 2noise/chattts. إنه يخدم مهام الحوار لمساعدي النماذج اللغوية الكبيرة ومقدمات الصوت والفيديو الحوارية، ويدعم كل من اللغتين الإنجليزية والصينية. بفضل التدريب على ما يقرب من 100,000 ساعة من البيانات، يقدم تشات تي تي إس توليف صوتي عالي الجودة وطبيعي. يخطط فريق المشروع لتوفير نموذج أساسي تم تدريبه بـ 40,000 ساعة من البيانات كمصدر مفتوح للمساعدة في البحث والتطوير اللاحق.
إحدى ميزات تشات تي تي إس الرئيسية هي دعمها لعدة لغات، بما في ذلك الإنجليزية والصينية، تجاوزاً لحواجز اللغة. لقد تم تدريبها بشكل شامل بحوالي 10 ملايين ساعة من البيانات، مما أسفر عن توليف صوتي من الدرجة الأولى. مثالية لمهام الحوار، تعزز تشات تي تي إس تجارب التفاعل في التطبيقات والخدمات.