DeepVoice AI – Text To Voice 中文文档

 DeepVoice- AiKodex

DeepVoice AI – Text To Voice 中文文档,文档由官方英文文档翻译而来。

DeepVoice AI – Text To Voice插件

DeepVoice AI – Text To Voice 中文文档
DeepVoice AI – Text To Voice:Unity下LAM架构下的多语种语音生成系统

DeepVoice AI是Unity平台专业级文本转语音解决方案,支持26种语言与95+语音模型。采用LAM大音频模型架构,每月提供8万字符生成配额,兼容SRP全系渲染管线。内置6段均衡器与波形修剪工具,支持500字符/次的实时语音生成(延迟8-15秒)。需配合Editor Coroutines包使用,提供多语种情感参数调节与跨平台音频输出功能。

推荐 2025-03-01

文档【Documentation】

DeepVoice 是一种超现实的文字转语音AI解决方案。这款Unity编辑器扩展工具可以从文本创建声音、修剪、合并和平滑音频文件。提供超过80种语音选择。此服务不包含订阅或重复支付。本指南将帮助您开始使用该扩展,并提供如何充分利用该资源的信息。

示例:
播放(Lily)生成的开场语音样本

暂停【Pause】

有几种方法可以在生成的文本中添加暂停。一个能提供最多控制和可预测性的技巧是简单地使用短划线(-)或破折号(—)。省略号(…)也可以用来在单词之间添加暂停,但通常也会给语音增加一些“犹豫”或“紧张”,这可能并不总是合适。

例如:

– 所以 – 我认为 – 这是我想要的东西 – 播放(Ethan)
– 或者
– 嗯… 那看起来有点奇怪 – 播放(Olivia)

我们AiKodex团队正在不断改进系统,并且目前正在致力于添加诸如能够添加暂停和改变生成配音速度等功能。

或者,您可以通过在希望暂停发生的位置插入换行符来实现暂停。AI通常会识别文本的变化并相应调整,从而产生自然的暂停效果。通过这些技术,您可以进一步定制您的旁白,并创建高度打磨的内容以满足特定需求。

 

情感【Emotion】

如果您希望AI表达特定的情感,最佳方法是像写书一样书写。为了找到合适的提示词,您可以翻阅一些书籍并识别出能够传达所需情感的词汇和短语。

例如,您可以使用对话标签来表达情感,如他说,困惑地,或者他愤怒地喊道。这类提示将帮助AI理解所需的语气,并尝试生成准确反映这种情感的旁白。通过这种方法,您可以创建高度定制的旁白,非常适合各种应用场合。

请注意,在引号前需要加反斜杠(\),否则可能会收到400错误。
示例:
\“你确定吗?\”他说,困惑地。播放(动漫女孩_Anime_Girl)

您还需要删除提示部分,因为AI会直接读取输入的内容。

标签移除【Tag Removal】

由于AI会精确地说出输入内容,因此需要修剪掉AI添加上下文的部分。为此,请使用音频修剪器(Audio Trimmer)。

DeepVoice AI – Text To Voice 中文文档

AI有时也可以从文本上下文中推断出预期的情感,即使没有使用标签。

示例:

\“那很有趣!\”播放(Sophia)
\“你真的这么认为吗?\”播放(Ruby)

这并不总是完美的,因为您依赖于AI的理解能力来判断某段文字是否讽刺、有趣或仅仅是平铺直叙。

速度【Pacing】

要控制说话者的速度,可以采用与处理情感相同的方法,即像写书一样书写。虽然这不是一个完美的解决方案,但它可以帮助改善节奏,并确保AI以正确的速度生成旁白。通过这种技术,您可以创建高质量且定制化的旁白,既易于聆听又能满足您的需求。

示例:

\“我希望你是对的,我真的希望如此,但你不是。\”他平静地说。播放(John)

再次提醒,录音并非完全符合对话标签,但是改变变异性(clarity)和清晰度(variability)可以产生有趣的结果,其中一些结果可能非常有用。对于上述示例,请使用音频修剪器去除“他缓慢地说”的标签。

依赖【Dependencies】

此资源需要外部包Editor Coroutines 1.0.0,可以在Window > Package Manager > Editor Coroutines中找到。

使用说明【Usage】

要使用编辑器扩展,请转到Window > DeepVoice。

DeepVoice AI – Text To Voice 中文文档

编辑器图形界面【Editor Graphical Interface】:

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

场景【Scene】

DeepVoice AI – Text To Voice 中文文档

请将纵横比设置为16:9以查看场景中的所有内容。按“Intro”按钮将介绍文件加载到预览播放器上。资产的具体功能将在文档中进一步解释,包括此场景的工作原理和其他音频操作。

发票号码【Invoice Number】

我们使用此号码每两周为您分配字符数量。您可以在Unity Asset Store的“我的订单”部分找到发票号码。

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档
输入号码后,可以点击验证以检查输入的号码是否正确。如果正确,则保存该号码,这样下次打开窗口时无需再次填写此字段。生成语音后,可以通过单击状态按钮来检查生成的状态,它会告诉您已使用的字符数。
对于场景,您可以在此处输入发票号码:

DeepVoice AI – Text To Voice 中文文档

编辑器窗口【Editor Window】

VoiceGenerator

  • 文本【Text】:允许您输入旁白文本。在“文本”字段中输入要转换为语音的文本。目前文本限制为200个字符以内,因为较长的处理时间会更长。支持的语言以双字母格式列出。

DeepVoice AI – Text To Voice 中文文档

  • 模型【Model】:指定用于生成语音的文本转语音(TTS)模型文件。DeepVoice当前提供4种模型:
    • 神经【Neural】
    • 单一【Mono】
    • 多样【Multi】
    •  标准【Standard】

单一和多样模型接受变异性(clarity)和清晰度(variability)参数,以便对输出进行改进定制。标准和神经语音提供不同的英语口音和语调。

  • 声音【Voice】:选择给定模型要使用的语音ID。从多种不同声音中选择,找到最适合您的角色的声音。

DeepVoice AI – Text To Voice 中文文档

单一和多样模型可用的声音有:

奥巴马【Obama】、拜登【Biden】、特朗普【Trump】、女王【Queen】、蝙蝠侠【Batman】、安德鲁【Andrew】、瓦伦蒂娜【Valentina】、韦恩【Wayne】、简【Jan】、动漫女孩【Anime_Girl】、诺亚【Noah】、莉莉【Lily】、伊桑【Ethan】、索菲亚【Sophia】、奥利维亚【Olivia】、露比【Ruby】、卢卡斯【Lucas】、约翰【John】、海莉【Hailey】、亚瑟【Arthur】。
这些声音中的奥巴马、拜登、特朗普和女王的声音是从公共领域的录音克隆而来。其他所有声音都是合成创建的,并不模仿任何公众人物。任何与实际人物的相似之处纯属巧合。这里列出的声音可能会发生变化,因此文档可能并不总是反映当前可用的声音。

 

标准模型可用的声音有:

洛特【Lotte】、马克西姆【Maxim】、萨莉【Salli】、杰兰特【Geraint】、米格尔【Miguel】、乔治奥【Giorgio】、玛丽琳【Marlene】、伊内斯【Ines】、志宇【Zhiyu】、泽娜【Zeina】、卡尔【Karl】、格温妮斯【Gwyneth】、露西亚【Lucia】、克里斯蒂亚诺【Cristiano】、阿斯特丽德【Astrid】、维姬【Vicki】、米娅【Mia】、维多利亚【Vitoria】、比安卡【Bianca】、香奈儿【Chantal】、拉维娜【Raveena】、拉塞尔【Russell】、阿迪提【Aditi】、多拉【Dora】、恩里克【Enrique】、汉斯【Hans】、卡门【Carmen】、尤娃【Ewa】、玛雅【Maja】、妮可【Nicole】、菲利兹【Filiz】、卡米拉【Camila】、雅采克【Jacek】、塞琳【Celine】、里卡多【Ricardo】、马德斯【Mads】、马修【Mathieu】、蕾雅【Lea】、塔蒂亚娜【Tatyana】、佩内洛普【Penelope】、纳贾【Naja】、鲁本【Ruben】、武田【Takumi】、水木【Mizuki】、卡拉【Carla】、康奇塔【Conchita】、简【Jan】、丽芙【Liv】、卢佩【Lupe】、世延【Seoyeon】

神经模型可用的声音有:

奥利维亚【Olivia】、艾玛【Emma】、艾米【Amy】、布莱恩【Brian】、亚瑟【Arthur】、卡佳尔【Kajal】、阿里亚【Aria】、阿央达【Ayanda】、萨莉【Salli】、金伯利【Kimberly】、肯德拉【Kendra】、乔安娜【Joanna】、艾薇【Ivy】、露丝【Ruth】、凯文【Kevin】、马修【Matthew】、贾斯汀【Justin】、乔伊【Joey】、斯蒂芬【Stephen】

  • 变异性【Variability】:设置语音的语调,允许进行实验。降低变异性可以使演讲更加生动,但在重新生成时输出可能会有所不同。然而,这也可能导致不稳定性。
  • 清晰度【Clarity】:高值提升整体语音清晰度和目标说话者的相似性。非常高的值可能会导致伪影,因此调整此设置以找到最佳值是被鼓励的。
  • 文件名【File Name】:根据所选声音自动分配。此外,在语音处理后增加“take”字段。如果用户修改了文件名字段,则会检查可用名称。
  • [覆盖名称]:该文件名已存在。点击生成将覆盖并替换当前文件。谨慎操作。
  • [可用名称]:该文件名可以使用
  • 声音文件夹【Voices Folder】:更改生成目录。我们建议保持默认目录。
  • 单击“生成语音【Generate Voice】”按钮发送输入进行处理。

DeepVoice AI – Text To Voice 中文文档

预览【Preview】

预览部分是一个便捷的功能,允许您直接在界面中预览声音文件,无需在不同窗口或应用程序之间切换。通过利用此功能,您可以快速评估音频文件的内容而不会中断工作流程。
要访问预览部分,只需在项目中单击一个文件即可。保持插件窗口在场景旁边激活。将光标悬停在此面板上,您会注意到预览部分已启用。
一旦预览部分被激活,您可以使用播放头(即当前播放位置的可视化表示)来浏览音频文件的不同部分。通过在时间线上来回拖动播放头,您可以轻松预览特定片段的音频,从而准确定位某些部分或完整聆听文件。

此功能特别适用于需要审查和评估多个旁白录音的情况。无需打开每个文件单独的应用程序或音频播放器,预览部分使您能够方便地直接在项目界面中收听音频文件。
通过提供一种无缝且高效的方式来预览声音文件,此功能帮助简化您的工作流程并提高生产力。它提供了一个集中平台,您不仅可以组织项目的音频资源,还可以评估并就每个文件的内容做出明智决策。无论您是音效设计师、音频编辑人员还是从事涉及Unity中的音频文件的任何项目,预览部分都提供了有价值的工具来促进您的创意过程,并确保工作的最佳结果。

DeepVoice AI – Text To Voice 中文文档

音频工具【Audio Utility】

音频修剪器【Audio Trimmer】

选择您想要修剪的音频文件。选择后,使用滑块剪切音频的部分。满意后,通过输入音频文件的有效名称来保存音频。单击“激活选择【Active Selection】”按钮以选择项目中的剪辑。要删除选择,只需单击剪辑选择字段右侧的x按钮。

DeepVoice AI – Text To Voice 中文文档

音频合并器【Audio Joiner】

选择两个或多个您希望合并的音频文件。从项目中选择音频文件并单击“设置选中项【Set Selected】”以自动填充队列中的选定文件。请注意,在此版本的资产中,您不能手动分配剪辑,只能使用“设置选中项【Set Selected】”按钮分配剪辑。您可以通过拖动剪辑来重新排列音频剪辑的顺序。一旦对剪辑的顺序感到满意,输入一个合适的名称并保存文件。可以使用设置选中项按钮右侧的x按钮清除队列。
只有当从项目中选择了两个文件时,“设置选中项【Set Selected】”按钮才会被启用。

DeepVoice AI – Text To Voice 中文文档

DeepVoice AI – Text To Voice 中文文档

音频均衡器【Audio Equalizer】

选择您想要均衡的音频文件。您可以调整滑块使声音变大、变小、增强低音或高音。满意更改后,输入一个合适的名称并保存文件。您可以使用重置按钮重置均衡器的设置。

DeepVoice AI – Text To Voice 中文文档

如果您在从文本生成语音、修剪音频剪辑、合并它们或均衡它们时有任何问题,请联系info@aikodex.com

保存文件【Saving Files】

文件将根据资源中提供的名称和目录进行保存。重要的是注意文件名不能为空,因为它作为每个资源的唯一标识符。如果尝试保存文件时没有输入名称,将会出现一个标有“[不能为空]”的红色标签,指示必须提供名称。

此外,在处理具有相同名称的文件时务必谨慎。在这种情况下,可能会意外覆盖现有文件。覆盖文件意味着用新文件的内容替换现有文件。

为帮助您避免意外覆盖,插件窗口包含警告机制。如果尝试保存与指定目录中已存在的文件同名的文件,将会出现一个标有“[覆盖]”的红色标签作为警告。这个视觉提示提醒您使用当前名称保存文

件将导致现有文件被替换。该警告帮助您做出知情决策,并在继续保存操作之前采取必要的预防措施。

另一方面,如果所选文件名在指定目录中是唯一的并且可用,则会看到标有“[可用名称]”的绿色标签。这个绿色标签确认所选名称可以使用而不会有任何覆盖现有文件的风险。
通过提供清晰的视觉提示和警告,系统旨在防止意外覆盖文件并确保您的音频资源的完整性。这有助于保持组织性并避免由于无意的覆盖而导致的数据丢失或混淆。

DeepVoice AI – Text To Voice 中文文档

 

故障排除【Troubleshooting】:

如果遇到网络错误:

500:内部服务器错误/无法连接到目标主机

可能的原因:

有时服务器可能处于维护状态。在这种不太可能发生的情况下,请检查论坛上的公告,或如果此问题持续超过一天,请联系info@aikodex.com。请检查您的互联网连接并在几小时后重试。

400:错误请求

可能的原因:

当传递的信息由于语法错误或其他原因不被识别时会发生这种情况。使用具有特定编码含义的特殊字符(如“”)可能会导致此错误。请发送一封包含Unity版本在内的电子邮件详细说明您的问题。附上问题的截图或视频将有助于我们更好地为您服务。

请求超时(408 请求超时响应状态码)

可能的原因:

语音模型可能遇到了生成错误。发生这种情况时,音频文件变得非常大,无法通过构建的API传输。请尝试减少单词数量,使用句子分块再次尝试。

隐私、法律条款及服务滥用【Privacy, legal terms and misuse of service】

在AiKodex,我们认为保护用户隐私至关重要。我们为用户提供了一个安全和私密的环境来利用我们的语音生成服务,而不损害他们的隐私。
我们的隐私政策旨在确保我们不会存储任何在用户和服务之间共享的数据或个人信息。我们不会存储输入文本、生成的语音、IP地址或其他数据,我们的远程服务器配置为自动删除系统上留下的任何数据。
我们理解隐私是一项基本权利,并致力于为我们的用户维护这一权利。我们将继续投资于最新的技术和安全措施,以确保我们的用户可以享受DeepVoice的安全和私密体验。

禁止活动和滥用【Prohibited Activities and Misuse】

您不得以非法、不道德或与服务预期用途不一致的方式使用由DeepVoice提供的服务、数据或内容。您不得通过大量请求来滥用服务器,或在Unity之外使用该服务。这可能导致服务终止。

祝您配音愉快!

——由AiKodex提供

创造趣味翻译

Leave a Reply

后才能评论