Vall-e X可以通过仅使用以前从未见过的说话者的3秒录音来与高质量的个性化声音合成,即使是一种用另一种语言的母语人士,即使是一位母语者,也可以作为声音提示。该实现支持三种语言(英语,中文,日语)的零尝试,单语/跨语言文本对声音功能。 8 E&X/ E. KV4 FX
; 4 jb* e,x:s
用法教程
,Q; _4 J0 T:i&y/ {/ g&{5 p“ x1 p, :t7 w!yk
1。上传一个持续3到10秒的声音作为音频提示,然后键入要合成的文本。 0 DY2 L5 W2 P,C
5 F'l7 R7 R9 L- Z%N:H2 L8 T6 R:J
2。模型将使用音频提示与给定文本的语音合成语音。 ;英国! O0 B! m:c%?+`,j
6 c $ v $ p- b5 %q2 f)
3。该模型还倾向于保留给定语音的情感和声学环境。 6 R(F2 M8 P8 P- &C0 PE RO6 i
+ {'l。 w)c,q:x2 p6 a6 u
+ U)Z:G5 g。 z'v%e+ a,j:n7 a5 p+ l4 j
,_# ^%A9 L。 s
-v2 a $ x* ([8 Q9 Q4 A:{9 F)G2 [$ t
访客,如果您想查看此帖子的隐藏内容,请回复