Audio 节点
Audio 节点用于生成语音、音效、配乐等音频内容,为你的创作添加听觉维度。
生成模式
Audio 节点支持多种音频生成类型:
| 模式 | 说明 | 输入 |
|---|---|---|
| Text to Speech | 文字转语音 | 文字内容(节点内输入) |
| Sound Effects | 生成音效 | 文字描述(节点内输入) |
| Music | 生成背景音乐 | 歌词/风格描述(节点内输入) |
| Voice Design | 定制声音 | 声音特征描述 |
| Video to Audio | 视频配音/音效 | 视频(需连接 Video 节点) |
⚠️ 重要:Audio 节点不接受来自 Text 节点的连接,文字内容直接在 Audio 节点内输入。
基本用法
🗣️ 文字转语音(Text to Speech)
将文字内容转换为自然流畅的语音。
步骤:
- 添加 Audio 节点
- 在节点顶部选择 Speech 类型
- 选择 TTS 模型(如 OpenAI TTS-1-HD、Minimax Speech 2.5)
- 选择音色(Voice)
- 在输入框中输入要朗读的文字
- 点击 Generate
文字示例:
欢迎来到 Martini,一个强大的 AI 创意工作流平台。 在这里,你可以用拖放节点的方式,轻松生成图片、视频和音频内容。
使用场景:
- 视频旁白
- 有声书
- 教学讲解
- 产品介绍
🎵 生成音效(Sound Effects)
根据描述生成逼真的音效。
步骤:
- 添加 Audio 节点
- 选择 Sound Effects 类型
- 选择模型(推荐 ElevenLabs Sound Effects v2)
- 输入音效描述(英文效果更好)
- 设置时长(Duration)
- 点击 Generate
音效描述示例:
| 场景 | Prompt |
|---|---|
| 自然环境 | Ocean waves crashing on a rocky shore |
| 城市场景 | Busy city street with car horns and chatter |
| 动作音效 | Sword swoosh and metal clang |
| 氛围音效 | Eerie wind blowing through abandoned building |
参数:
- Duration:0.5-22 秒
- Prompt Influence:描述对结果的影响程度
🎼 生成音乐(Music)
创作背景音乐或完整歌曲。
步骤:
- 添加 Audio 节点
- 选择 Music 类型
- 选择模型(Suno V5 或 Minimax Music v1.5)
- 输入歌词或风格描述
- 设置风格标签(Genre、Mood)
- 点击 Generate
音乐描述示例:
| 类型 | Prompt |
|---|---|
| 纯音乐 | Upbeat electronic dance music, energetic, modern synths |
| 带歌词 | 输入完整歌词,AI 会谱曲并演唱 |
| 电影配乐 | Epic orchestral score, dramatic strings, cinematic |
| 环境音乐 | Ambient meditation music, peaceful, soft piano |
Suno 高级参数:
- Style:音乐风格(Pop、Rock、Classical 等)
- Mood:情绪(Happy、Sad、Energetic)
- Instrumental:纯音乐(无人声)
- Vocal Gender:男声 / 女声
- Weirdness:创意度
🎨 定制声音(Voice Design)
创建独特的 AI 声音。
步骤:
- 添加 Audio 节点
- 选择 Voice Design 类型
- 选择 Minimax Voice Design 模型
- 描述想要的声音特征(性别、年龄、音色)
- 输入预览文本
- 点击 Generate
声音描述示例:
A young female voice, warm and friendly, slightly husky, British accent
用途:
- 创建品牌专属声音
- 角色配音设计
- 多样化的 TTS 音色
🎬 视频配音/音效(Video to Audio)
根据视频内容生成匹配的音效或背景音。
步骤:
- 准备一个 Video 节点
- 添加 Audio 节点
- 连接 Video → Audio
- 选择 Video to Audio 类型
- 选择 Mirelo SFX V1 模型
- 设置生成样本数(2-8 个)
- 点击 Generate
工作流:
Video → Audio (Mirelo SFX V1)
特点:
- AI 会分析视频内容
- 生成 2-8 个不同的音效变体
- 可以选择最合适的一个
使用场景:
- 为静音视频添加音效
- 生成配乐
- 音效库创建
模型选择指南
(待补充)
参数详解
Voice(音色)
TTS 模型提供多种预设音色。
OpenAI TTS-1-HD 音色:
- Alloy:中性、平衡
- Echo:男性、沉稳
- Fable:英音、叙事感
- Onyx:男性、低沉
- Nova:女性、活力
- Shimmer:女性、温柔
Minimax Speech 2.5 音色:
- 支持多种中文音色
- 支持情绪控制(开心、悲伤、愤怒等)
Speed(语速)
调整语音的播放速度(TTS 模式)。
| 速度 | 说明 |
|---|---|
| 0.5x | 非常慢,适合教学 |
| 1.0x | 正常速度(推荐) |
| 1.5x | 快速,适合快节奏内容 |
| 2.0x | 非常快 |
Duration(时长)
设置音效的长度(Sound Effects 模式)。
ElevenLabs Sound Effects:
- 最短:0.5 秒
- 最长:22 秒
- 建议:根据实际需求设置
Emotion(情绪)
Minimax Speech 2.5 支持情绪控制。
| 情绪 | 适用场景 |
|---|---|
| Neutral | 客观叙述、新闻播报 |
| Happy | 欢快内容、广告 |
| Sad | 悲伤场景、戏剧 |
| Angry | 冲突场景 |
| Surprised | 惊讶、惊喜 |
连接规则
Audio 节点可以接收来自:
| 上游节点 | 作用 | 模式 |
|---|---|---|
| Video | 提供视频内容 | Video to Audio |
| Image | 提供视觉参考(部分模型) | 描述生成 |
⚠️ Audio 节点不接受 Text 节点的连接。文字内容请直接在 Audio 节点内输入。
Audio 节点可以连接到:
| 下游节点 | 作用 |
|---|---|
| Video | 作为数字人的语音输入 |
工作流示例
🎙️ 视频配音
Video (静音视频) → Audio (Mirelo) → 生成多个音效选项
🗣️ 数字人配音
Audio (TTS) ──┐
├→ Video (Kling AI Avatar)
Image (人物) ─┘
先用 Audio 节点生成语音,再连接到 Video 节点制作数字人。
🎬 完整短视频制作
Text → Image → Video (无声视频) 分别生成: - Audio (TTS) → 旁白 - Audio (Sound Effects) → 背景音效 - Audio (Music) → 背景音乐 最后在剪辑软件中合成
上传音频(作为起点)
你可以上传本地音频文件到 Audio 节点:
方法:
- 拖放音频文件到画布
- 或在 Audio 节点内点击上传区域
支持格式: MP3、WAV、M4A
用途:
- 作为 Video 节点的输入(制作数字人)
- 音频编辑的素材
- 导出到其他工具
常见问题
❓ 为什么 Audio 节点不能连接 Text 节点?
这是设计决定。Audio 节点的文字输入直接在节点内完成,避免了额外的连线复杂度。
正确用法:
- ❌ Text → Audio(不支持)
- ✅ 直接在 Audio 节点内输入文字
❓ 如何选择合适的 TTS 音色?
建议流程:
- 先听一遍所有音色的预览
- 根据内容选择:
- 严肃内容:选择沉稳的音色(Onyx、Echo)
- 轻松内容:选择活泼的音色(Nova、Shimmer)
- 叙事内容:选择有故事感的音色(Fable、Ballad)
- 生成后不满意可以切换音色重新生成
❓ 音乐生成可以指定具体曲风吗?
可以!在 Suno 模型中:
方法一:使用风格标签
- 在 Style 下拉菜单选择(Pop、Rock、Jazz 等)
方法二:在 Prompt 中描述
80s synth-pop with retro drum machines, nostalgic melody, upbeat tempo
❓ 生成的音效太短/太长怎么办?
调整 Duration 参数:
- Sound Effects 模式支持 0.5-22 秒
- 直接在参数面板调整时长
如果需要更长的音效:
- 生成多段音效
- 在外部音频编辑软件中拼接
❓ Video to Audio 生成多个音效怎么选择?
- Mirelo 会生成 2-8 个音效变体
- 点击节点内的音频波形切换试听
- 选中最满意的那个
- 下载或连接到下游使用
❓ 生成的语音可以调整语速吗?
可以!在 TTS 参数中:
- 找到 Speed 滑块
- 调整到 0.5x-2.0x
- 重新生成即可
高级功能
Minimax 情绪控制
Minimax Speech 2.5 支持细粒度的情绪和语气控制。
可调参数:
- Emotion:Happy、Sad、Angry、Surprised 等
- Speed:语速
- Pitch:音调
- Volume:音量
适合:
- 有声书(需要丰富的情感表达)
- 戏剧配音
- 广告片
ElevenLabs 上下文感知
ElevenLabs TTS 支持上下文输入,提升自然度。
使用方法:
- 在 Previous Text 输入前文
- 在 Next Text 输入后文
- 当前文本会根据上下文调整语气
适合:
- 长篇朗读(章节间语气连贯)
- 对话场景
Suno 自定义模式
Suno V5 支持高度自定义的音乐生成。
参数控制:
- Style Weight:风格强度
- Weirdness Constraint:创意度
- Audio Weight:旋律权重
适合:
- 实验音乐
- 特定风格的精准控制
操作按钮与功能
Generate(生成)
点击后开始生成音频。
生成时间:
- TTS:5-15 秒
- Sound Effects:10-30 秒
- Music:30-120 秒
Play(播放)
点击播放按钮预览音频。
功能:
- 播放/暂停
- 音量调节
- 循环播放
Download(下载)
下载生成的音频文件。
格式:
- TTS:MP3
- Sound Effects:WAV/MP3
- Music:MP3
工作流示例
🎙️ 制作有声内容
1. Audio (TTS) → 生成旁白 2. Audio (Sound Effects) → 生成背景音效 3. Audio (Music) → 生成配乐 在外部音频软件(如 Audacity)中混音合成
🎬 视频配音完整流程
Text → Image → Video (静音视频) Audio (TTS) → 旁白语音 Audio (Video to Audio) ← Video → 生成环境音效 在剪辑软件中合成
🗣️ 数字人视频
Audio (TTS,生成语音) ──┐
├→ Video (Kling AI Avatar)
Image (人物照片) ──────┘
模型选择指南
(待补充)
常见使用技巧
📝 TTS 文本优化
标点符号影响停顿:
- 逗号
,= 短暂停顿 - 句号
.= 明显停顿 - 问号
?= 上扬语气 - 感叹号
!= 强调语气
数字和符号:
- 写
一百而不是100(除非希望读"一零零") - 写
第一而不是第1
🎵 音效生成技巧
具体化描述:
- ❌
水声 - ✅
Heavy rain pouring on a tin roof
加入环境和距离:
Close-up microphone of crackling fireplaceDistant thunder rolling across hills
🎼 音乐生成技巧
描述结构化:
- 曲风:Pop、Rock、Jazz、Classical
- 乐器:Piano、Guitar、Synth、Orchestra
- 情绪:Upbeat、Melancholic、Epic
- 节奏:Fast、Slow、Moderate tempo
示例:
Acoustic folk song with gentle guitar strumming, warm male vocals, introspective lyrics, slow tempo, indie style
常见问题
❓ TTS 支持哪些语言?
| 模型 | 支持语言 |
|---|---|
| OpenAI TTS | 中文、英文、多国语言 |
| Minimax Speech 2.5 | 中文、英文(中文效果更好) |
| LMNT | 英文 |
| Hume | 英文 |
❓ 生成的音乐有版权问题吗?
AI 生成的音乐通常属于你个人使用,但建议:
- 商业用途前查看平台使用条款
- 关键项目使用原创音乐更保险
❓ 音效生成效果不好怎么办?
优化方法:
- 用英文描述:AI 对英文理解更准确
- 增加细节:描述音效的质感、距离、环境
- 调整 Duration:音效时长要合理
- 多次生成:选择最佳结果
❓ 如何为视频添加多层音频?
Martini 生成单层音频,多层混音需要外部工具:
推荐流程:
- 在 Martini 分别生成:
- 旁白(TTS)
- 音效(Sound Effects)
- 配乐(Music)
- 导出所有音频
- 在 Audacity / Premiere / Final Cut 中混音
- 将最终音频与视频合成
性能优化建议
(待补充)
