6 月 26 日,讯飞科大讯飞语音组成技能全新晋级 ,语音一句话声响复刻与超拟人组成两大中心才能完成打破。组成据专业测评显现,技能晋级科大讯飞一句话声响复刻技能在类似度、声响准确度等维度职业抢先。复刻
讯飞星火 App 的超拟成打“一句话声响复刻”功用自 2024 年 4 月上线以来,备受用户和职业认可。讯飞在智能语音范畴 ,语音声响复刻作用的组成中心目标一直环绕类似度与准确度两大维度打开 。类似度决议“榜首耳形象”,技能晋级包括音色特质及风格神韵;准确度则关乎声响复刻是声响否好用,保证发音规范 、复刻中止天然、超拟成打口气连接 。讯飞
此次讯飞技能打破的要害 ,除了星火语音大模型底座的根底和继续迭代,还构建了一套三阶段层次化语音建模结构。首要 ,经过星火底座大模型准确捕捉发音规则和韵律特征。其次 ,在音色康复阶段解耦并重构声学特征。最终,经过高精度声码器康复高保真波形 。
这套语音建模结构打破了语义表征,选用 mel VQ-AE 模型结合语音自监督预练习编码器,并引进音色最小互信息束缚 ,成功解耦出音色无关的离散语义 token。这种结构完成了发音内容与音色特征的可控别离,也明显提高了语义 LLM 的建模稳定性 。
在音色解耦表征才能的根底上,科大讯飞在声响复刻场景针对性进行两项要害技能的测验与打破:音色编码增强 —— 在声学模型中立异性地交融大局声纹嵌入与部分帧级音色编码,提取细粒度音色特征 ,并构建声纹空间语义一致性丢失函数 ,明显提高音色康复的类似度。强化学习 —— 经过语音鲁棒性点评模型和人工标示构建偏好数据集 ,选用根据 DPO 的强化学习战略 ,大幅提高组成语音的稳定性和天然流通度。只需一句话录音,AI 就能完好捕捉用户喉腔共识 、口音特色 、气味流通等发音特征,精准复原用户的中止习气、情感崎岖和呼吸节奏,到达真人难以区别的复刻作用 。
从从前要录上数十个小时的语音资料,到录入几段话 ,再到现在仅用一句话就能复刻声响,语音组成技能一直在向更快