Audio 节点

Audio 节点用于生成语音、音效、配乐等音频内容，为你的创作添加听觉维度。

生成模式

Audio 节点支持多种音频生成类型：

模式	说明	输入
Text to Speech	文字转语音	文字内容（节点内输入）
Sound Effects	生成音效	文字描述（节点内输入）
Music	生成背景音乐	歌词/风格描述（节点内输入）
Voice Design	定制声音	声音特征描述
Video to Audio	视频配音/音效	视频（需连接 Video 节点）

⚠️ 重要：Audio 节点不接受来自 Text 节点的连接，文字内容直接在 Audio 节点内输入。

基本用法

🗣️ 文字转语音（Text to Speech）

将文字内容转换为自然流畅的语音。

步骤：

添加 Audio 节点
在节点顶部选择 Speech 类型
选择 TTS 模型（如 OpenAI TTS-1-HD、Minimax Speech 2.5）
选择音色（Voice）
在输入框中输入要朗读的文字
点击 Generate

文字示例：

欢迎来到 Astorie，一个强大的 AI 创意工作流平台。
在这里，你可以用拖放节点的方式，轻松生成图片、视频和音频内容。

使用场景：

视频旁白
有声书
教学讲解
产品介绍

🎵 生成音效（Sound Effects）

根据描述生成逼真的音效。

步骤：

添加 Audio 节点
选择 Sound Effects 类型
选择模型（推荐 ElevenLabs Sound Effects v2）
输入音效描述（英文效果更好）
设置时长（Duration）
点击 Generate

音效描述示例：

场景	Prompt
自然环境	`Ocean waves crashing on a rocky shore`
城市场景	`Busy city street with car horns and chatter`
动作音效	`Sword swoosh and metal clang`
氛围音效	`Eerie wind blowing through abandoned building`

参数：

Duration：0.5-22 秒
Prompt Influence：描述对结果的影响程度

🎼 生成音乐（Music）

创作背景音乐或完整歌曲。

步骤：

添加 Audio 节点
选择 Music 类型
选择模型（Suno V5 或 Minimax Music v1.5）
输入歌词或风格描述
设置风格标签（Genre、Mood）
点击 Generate

音乐描述示例：

类型	Prompt
纯音乐	`Upbeat electronic dance music, energetic, modern synths`
带歌词	输入完整歌词，AI 会谱曲并演唱
电影配乐	`Epic orchestral score, dramatic strings, cinematic`
环境音乐	`Ambient meditation music, peaceful, soft piano`

Suno 高级参数：

Style：音乐风格（Pop、Rock、Classical 等）
Mood：情绪（Happy、Sad、Energetic）
Instrumental：纯音乐（无人声）
Vocal Gender：男声 / 女声
Weirdness：创意度

🎨 定制声音（Voice Design）

创建独特的 AI 声音。

步骤：

添加 Audio 节点
选择 Voice Design 类型
选择 Minimax Voice Design 模型
描述想要的声音特征（性别、年龄、音色）
输入预览文本
点击 Generate

声音描述示例：

A young female voice, warm and friendly, 
slightly husky, British accent

用途：

创建品牌专属声音
角色配音设计
多样化的 TTS 音色

🎬 视频配音/音效（Video to Audio）

根据视频内容生成匹配的音效或背景音。

步骤：

准备一个 Video 节点
添加 Audio 节点
连接 Video → Audio
选择 Video to Audio 类型
选择 Mirelo SFX V1 模型
设置生成样本数（2-8 个）
点击 Generate

工作流：

Video → Audio (Mirelo SFX V1)

特点：

AI 会分析视频内容
生成 2-8 个不同的音效变体
可以选择最合适的一个

使用场景：

为静音视频添加音效
生成配乐
音效库创建

模型选择指南

（待补充）

参数详解

Voice（音色）

TTS 模型提供多种预设音色。

OpenAI TTS-1-HD 音色：

Alloy：中性、平衡
Echo：男性、沉稳
Fable：英音、叙事感
Onyx：男性、低沉
Nova：女性、活力
Shimmer：女性、温柔

Minimax Speech 2.5 音色：

支持多种中文音色
支持情绪控制（开心、悲伤、愤怒等）

Speed（语速）

调整语音的播放速度（TTS 模式）。

速度	说明
0.5x	非常慢，适合教学
1.0x	正常速度（推荐）
1.5x	快速，适合快节奏内容
2.0x	非常快

Duration（时长）

设置音效的长度（Sound Effects 模式）。

ElevenLabs Sound Effects：

最短：0.5 秒
最长：22 秒
建议：根据实际需求设置

Emotion（情绪）

Minimax Speech 2.5 支持情绪控制。

情绪	适用场景
Neutral	客观叙述、新闻播报
Happy	欢快内容、广告
Sad	悲伤场景、戏剧
Angry	冲突场景
Surprised	惊讶、惊喜

连接规则

Audio 节点可以接收来自：

上游节点	作用	模式
Video	提供视频内容	Video to Audio
Image	提供视觉参考（部分模型）	描述生成

⚠️ Audio 节点不接受 Text 节点的连接。文字内容请直接在 Audio 节点内输入。

Audio 节点可以连接到：

下游节点	作用
Video	作为数字人的语音输入

工作流示例

🎙️ 视频配音

Video (静音视频) → Audio (Mirelo) → 生成多个音效选项

🗣️ 数字人配音

Audio (TTS) ──┐
              ├→ Video (Kling AI Avatar)
Image (人物) ─┘

先用 Audio 节点生成语音，再连接到 Video 节点制作数字人。

🎬 完整短视频制作

Text → Image → Video (无声视频)

分别生成：
- Audio (TTS) → 旁白
- Audio (Sound Effects) → 背景音效
- Audio (Music) → 背景音乐

最后在剪辑软件中合成

上传音频（作为起点）

你可以上传本地音频文件到 Audio 节点：

方法：

拖放音频文件到画布
或在 Audio 节点内点击上传区域

支持格式： MP3、WAV、M4A

用途：

作为 Video 节点的输入（制作数字人）
音频编辑的素材
导出到其他工具

常见问题

❓ 为什么 Audio 节点不能连接 Text 节点？

这是设计决定。Audio 节点的文字输入直接在节点内完成，避免了额外的连线复杂度。

正确用法：

❌ Text → Audio（不支持）
✅ 直接在 Audio 节点内输入文字

❓ 如何选择合适的 TTS 音色？

建议流程：

先听一遍所有音色的预览
根据内容选择：
- 严肃内容：选择沉稳的音色（Onyx、Echo）
- 轻松内容：选择活泼的音色（Nova、Shimmer）
- 叙事内容：选择有故事感的音色（Fable、Ballad）
生成后不满意可以切换音色重新生成

❓ 音乐生成可以指定具体曲风吗？

可以！在 Suno 模型中：

方法一：使用风格标签

在 Style 下拉菜单选择（Pop、Rock、Jazz 等）

方法二：在 Prompt 中描述

80s synth-pop with retro drum machines, 
nostalgic melody, upbeat tempo

❓ 生成的音效太短/太长怎么办？

调整 Duration 参数：

Sound Effects 模式支持 0.5-22 秒
直接在参数面板调整时长

如果需要更长的音效：

生成多段音效
在外部音频编辑软件中拼接

❓ Video to Audio 生成多个音效怎么选择？

Mirelo 会生成 2-8 个音效变体
点击节点内的音频波形切换试听
选中最满意的那个
下载或连接到下游使用

❓ 生成的语音可以调整语速吗？

可以！在 TTS 参数中：

找到 Speed 滑块
调整到 0.5x-2.0x
重新生成即可

高级功能

Minimax 情绪控制

Minimax Speech 2.5 支持细粒度的情绪和语气控制。

可调参数：

Emotion：Happy、Sad、Angry、Surprised 等
Speed：语速
Pitch：音调
Volume：音量

适合：

有声书（需要丰富的情感表达）
戏剧配音
广告片

ElevenLabs 上下文感知

ElevenLabs TTS 支持上下文输入，提升自然度。

使用方法：

在 Previous Text 输入前文
在 Next Text 输入后文
当前文本会根据上下文调整语气

适合：

长篇朗读（章节间语气连贯）
对话场景

Suno 自定义模式

Suno V5 支持高度自定义的音乐生成。

参数控制：

Style Weight：风格强度
Weirdness Constraint：创意度
Audio Weight：旋律权重

适合：

实验音乐
特定风格的精准控制

操作按钮与功能

Generate（生成）

点击后开始生成音频。

生成时间：

TTS：5-15 秒
Sound Effects：10-30 秒
Music：30-120 秒

Play（播放）

点击播放按钮预览音频。

功能：

播放/暂停
音量调节
循环播放

Download（下载）

下载生成的音频文件。

格式：

TTS：MP3
Sound Effects：WAV/MP3
Music：MP3

工作流示例

🎙️ 制作有声内容

1. Audio (TTS) → 生成旁白
2. Audio (Sound Effects) → 生成背景音效
3. Audio (Music) → 生成配乐

在外部音频软件（如 Audacity）中混音合成

🎬 视频配音完整流程

Text → Image → Video (静音视频)

Audio (TTS) → 旁白语音
Audio (Video to Audio) ← Video → 生成环境音效

在剪辑软件中合成

🗣️ 数字人视频

Audio (TTS，生成语音) ──┐
                       ├→ Video (Kling AI Avatar)
Image (人物照片) ──────┘

详见 Video 节点 - 数字人

模型选择指南

（待补充）

常见使用技巧

📝 TTS 文本优化

标点符号影响停顿：

逗号 , = 短暂停顿
句号 . = 明显停顿
问号 ? = 上扬语气
感叹号 ! = 强调语气

数字和符号：

写 一百 而不是 100（除非希望读"一零零"）
写 第一 而不是 第1

🎵 音效生成技巧

具体化描述：

❌ 水声
✅ Heavy rain pouring on a tin roof

加入环境和距离：

Close-up microphone of crackling fireplace
Distant thunder rolling across hills

🎼 音乐生成技巧

描述结构化：

曲风：Pop、Rock、Jazz、Classical
乐器：Piano、Guitar、Synth、Orchestra
情绪：Upbeat、Melancholic、Epic
节奏：Fast、Slow、Moderate tempo

示例：

Acoustic folk song with gentle guitar strumming, 
warm male vocals, introspective lyrics, 
slow tempo, indie style

常见问题

❓ TTS 支持哪些语言？

模型	支持语言
OpenAI TTS	中文、英文、多国语言
Minimax Speech 2.5	中文、英文（中文效果更好）
LMNT	英文
Hume	英文

❓ 生成的音乐有版权问题吗？

AI 生成的音乐通常属于你个人使用，但建议：

商业用途前查看平台使用条款
关键项目使用原创音乐更保险

❓ 音效生成效果不好怎么办？

优化方法：

用英文描述：AI 对英文理解更准确
增加细节：描述音效的质感、距离、环境
调整 Duration：音效时长要合理
多次生成：选择最佳结果

❓ 如何为视频添加多层音频？

Astorie 生成单层音频，多层混音需要外部工具：

推荐流程：

在 Astorie 分别生成：
- 旁白（TTS）
- 音效（Sound Effects）
- 配乐（Music）
导出所有音频
在 Audacity / Premiere / Final Cut 中混音
将最终音频与视频合成

性能优化建议

（待补充）

下一步

Video 节点 — 结合音频制作数字人视频
工作流示例 — 完整的音视频工作流

Audio 节点

Audio 节点用于生成语音、音效、配乐等音频内容，为你的创作添加听觉维度。

生成模式

Audio 节点支持多种音频生成类型：

模式	说明	输入
Text to Speech	文字转语音	文字内容（节点内输入）
Sound Effects	生成音效	文字描述（节点内输入）
Music	生成背景音乐	歌词/风格描述（节点内输入）
Voice Design	定制声音	声音特征描述
Video to Audio	视频配音/音效	视频（需连接 Video 节点）

⚠️ 重要：Audio 节点不接受来自 Text 节点的连接，文字内容直接在 Audio 节点内输入。

基本用法

🗣️ 文字转语音（Text to Speech）

将文字内容转换为自然流畅的语音。

步骤：

添加 Audio 节点
在节点顶部选择 Speech 类型
选择 TTS 模型（如 OpenAI TTS-1-HD、Minimax Speech 2.5）
选择音色（Voice）
在输入框中输入要朗读的文字
点击 Generate

文字示例：

欢迎来到 Astorie，一个强大的 AI 创意工作流平台。
在这里，你可以用拖放节点的方式，轻松生成图片、视频和音频内容。

使用场景：

视频旁白
有声书
教学讲解
产品介绍

🎵 生成音效（Sound Effects）

根据描述生成逼真的音效。

步骤：

添加 Audio 节点
选择 Sound Effects 类型
选择模型（推荐 ElevenLabs Sound Effects v2）
输入音效描述（英文效果更好）
设置时长（Duration）
点击 Generate

音效描述示例：

场景	Prompt
自然环境	`Ocean waves crashing on a rocky shore`
城市场景	`Busy city street with car horns and chatter`
动作音效	`Sword swoosh and metal clang`
氛围音效	`Eerie wind blowing through abandoned building`

参数：

Duration：0.5-22 秒
Prompt Influence：描述对结果的影响程度

🎼 生成音乐（Music）

创作背景音乐或完整歌曲。

步骤：

添加 Audio 节点
选择 Music 类型
选择模型（Suno V5 或 Minimax Music v1.5）
输入歌词或风格描述
设置风格标签（Genre、Mood）
点击 Generate

音乐描述示例：

类型	Prompt
纯音乐	`Upbeat electronic dance music, energetic, modern synths`
带歌词	输入完整歌词，AI 会谱曲并演唱
电影配乐	`Epic orchestral score, dramatic strings, cinematic`
环境音乐	`Ambient meditation music, peaceful, soft piano`

Suno 高级参数：

Style：音乐风格（Pop、Rock、Classical 等）
Mood：情绪（Happy、Sad、Energetic）
Instrumental：纯音乐（无人声）
Vocal Gender：男声 / 女声
Weirdness：创意度

🎨 定制声音（Voice Design）

创建独特的 AI 声音。

步骤：

添加 Audio 节点
选择 Voice Design 类型
选择 Minimax Voice Design 模型
描述想要的声音特征（性别、年龄、音色）
输入预览文本
点击 Generate

声音描述示例：

A young female voice, warm and friendly, 
slightly husky, British accent

用途：

创建品牌专属声音
角色配音设计
多样化的 TTS 音色

🎬 视频配音/音效（Video to Audio）

根据视频内容生成匹配的音效或背景音。

步骤：

准备一个 Video 节点
添加 Audio 节点
连接 Video → Audio
选择 Video to Audio 类型
选择 Mirelo SFX V1 模型
设置生成样本数（2-8 个）
点击 Generate

工作流：

Video → Audio (Mirelo SFX V1)

特点：

AI 会分析视频内容
生成 2-8 个不同的音效变体
可以选择最合适的一个

使用场景：

为静音视频添加音效
生成配乐
音效库创建

模型选择指南

（待补充）

参数详解

Voice（音色）

TTS 模型提供多种预设音色。

OpenAI TTS-1-HD 音色：

Alloy：中性、平衡
Echo：男性、沉稳
Fable：英音、叙事感
Onyx：男性、低沉
Nova：女性、活力
Shimmer：女性、温柔

Minimax Speech 2.5 音色：

支持多种中文音色
支持情绪控制（开心、悲伤、愤怒等）

Speed（语速）

调整语音的播放速度（TTS 模式）。

速度	说明
0.5x	非常慢，适合教学
1.0x	正常速度（推荐）
1.5x	快速，适合快节奏内容
2.0x	非常快

Duration（时长）

设置音效的长度（Sound Effects 模式）。

ElevenLabs Sound Effects：

最短：0.5 秒
最长：22 秒
建议：根据实际需求设置

Emotion（情绪）

Minimax Speech 2.5 支持情绪控制。

情绪	适用场景
Neutral	客观叙述、新闻播报
Happy	欢快内容、广告
Sad	悲伤场景、戏剧
Angry	冲突场景
Surprised	惊讶、惊喜

连接规则

Audio 节点可以接收来自：

上游节点	作用	模式
Video	提供视频内容	Video to Audio
Image	提供视觉参考（部分模型）	描述生成

⚠️ Audio 节点不接受 Text 节点的连接。文字内容请直接在 Audio 节点内输入。

Audio 节点可以连接到：

下游节点	作用
Video	作为数字人的语音输入

工作流示例

🎙️ 视频配音

Video (静音视频) → Audio (Mirelo) → 生成多个音效选项

🗣️ 数字人配音

Audio (TTS) ──┐
              ├→ Video (Kling AI Avatar)
Image (人物) ─┘

先用 Audio 节点生成语音，再连接到 Video 节点制作数字人。

🎬 完整短视频制作

Text → Image → Video (无声视频)

分别生成：
- Audio (TTS) → 旁白
- Audio (Sound Effects) → 背景音效
- Audio (Music) → 背景音乐

最后在剪辑软件中合成

上传音频（作为起点）

你可以上传本地音频文件到 Audio 节点：

方法：

拖放音频文件到画布
或在 Audio 节点内点击上传区域

支持格式： MP3、WAV、M4A

用途：

作为 Video 节点的输入（制作数字人）
音频编辑的素材
导出到其他工具

常见问题

❓ 为什么 Audio 节点不能连接 Text 节点？

这是设计决定。Audio 节点的文字输入直接在节点内完成，避免了额外的连线复杂度。

正确用法：

❌ Text → Audio（不支持）
✅ 直接在 Audio 节点内输入文字

❓ 如何选择合适的 TTS 音色？

建议流程：

先听一遍所有音色的预览
根据内容选择：
- 严肃内容：选择沉稳的音色（Onyx、Echo）
- 轻松内容：选择活泼的音色（Nova、Shimmer）
- 叙事内容：选择有故事感的音色（Fable、Ballad）
生成后不满意可以切换音色重新生成

❓ 音乐生成可以指定具体曲风吗？

可以！在 Suno 模型中：

方法一：使用风格标签

在 Style 下拉菜单选择（Pop、Rock、Jazz 等）

方法二：在 Prompt 中描述

80s synth-pop with retro drum machines, 
nostalgic melody, upbeat tempo

❓ 生成的音效太短/太长怎么办？

调整 Duration 参数：

Sound Effects 模式支持 0.5-22 秒
直接在参数面板调整时长

如果需要更长的音效：

生成多段音效
在外部音频编辑软件中拼接

❓ Video to Audio 生成多个音效怎么选择？

Mirelo 会生成 2-8 个音效变体
点击节点内的音频波形切换试听
选中最满意的那个
下载或连接到下游使用

❓ 生成的语音可以调整语速吗？

可以！在 TTS 参数中：

找到 Speed 滑块
调整到 0.5x-2.0x
重新生成即可

高级功能

Minimax 情绪控制

Minimax Speech 2.5 支持细粒度的情绪和语气控制。

可调参数：

Emotion：Happy、Sad、Angry、Surprised 等
Speed：语速
Pitch：音调
Volume：音量

适合：

有声书（需要丰富的情感表达）
戏剧配音
广告片

ElevenLabs 上下文感知

ElevenLabs TTS 支持上下文输入，提升自然度。

使用方法：

在 Previous Text 输入前文
在 Next Text 输入后文
当前文本会根据上下文调整语气

适合：

长篇朗读（章节间语气连贯）
对话场景

Suno 自定义模式

Suno V5 支持高度自定义的音乐生成。

参数控制：

Style Weight：风格强度
Weirdness Constraint：创意度
Audio Weight：旋律权重

适合：

实验音乐
特定风格的精准控制

操作按钮与功能

Generate（生成）

点击后开始生成音频。

生成时间：

TTS：5-15 秒
Sound Effects：10-30 秒
Music：30-120 秒

Play（播放）

点击播放按钮预览音频。

功能：

播放/暂停
音量调节
循环播放

Download（下载）

下载生成的音频文件。

格式：

TTS：MP3
Sound Effects：WAV/MP3
Music：MP3

工作流示例

🎙️ 制作有声内容

1. Audio (TTS) → 生成旁白
2. Audio (Sound Effects) → 生成背景音效
3. Audio (Music) → 生成配乐

在外部音频软件（如 Audacity）中混音合成

🎬 视频配音完整流程

Text → Image → Video (静音视频)

Audio (TTS) → 旁白语音
Audio (Video to Audio) ← Video → 生成环境音效

在剪辑软件中合成

🗣️ 数字人视频

Audio (TTS，生成语音) ──┐
                       ├→ Video (Kling AI Avatar)
Image (人物照片) ──────┘

详见 Video 节点 - 数字人

模型选择指南

（待补充）

常见使用技巧

📝 TTS 文本优化

标点符号影响停顿：

逗号 , = 短暂停顿
句号 . = 明显停顿
问号 ? = 上扬语气
感叹号 ! = 强调语气

数字和符号：

写 一百 而不是 100（除非希望读"一零零"）
写 第一 而不是 第1

🎵 音效生成技巧

具体化描述：

❌ 水声
✅ Heavy rain pouring on a tin roof

加入环境和距离：

Close-up microphone of crackling fireplace
Distant thunder rolling across hills

🎼 音乐生成技巧

描述结构化：

曲风：Pop、Rock、Jazz、Classical
乐器：Piano、Guitar、Synth、Orchestra
情绪：Upbeat、Melancholic、Epic
节奏：Fast、Slow、Moderate tempo

示例：

Acoustic folk song with gentle guitar strumming, 
warm male vocals, introspective lyrics, 
slow tempo, indie style

常见问题

❓ TTS 支持哪些语言？

模型	支持语言
OpenAI TTS	中文、英文、多国语言
Minimax Speech 2.5	中文、英文（中文效果更好）
LMNT	英文
Hume	英文

❓ 生成的音乐有版权问题吗？

AI 生成的音乐通常属于你个人使用，但建议：

商业用途前查看平台使用条款
关键项目使用原创音乐更保险

❓ 音效生成效果不好怎么办？

优化方法：

用英文描述：AI 对英文理解更准确
增加细节：描述音效的质感、距离、环境
调整 Duration：音效时长要合理
多次生成：选择最佳结果

❓ 如何为视频添加多层音频？

Astorie 生成单层音频，多层混音需要外部工具：

推荐流程：

在 Astorie 分别生成：
- 旁白（TTS）
- 音效（Sound Effects）
- 配乐（Music）
导出所有音频
在 Audacity / Premiere / Final Cut 中混音
将最终音频与视频合成

性能优化建议

（待补充）

下一步

Video 节点 — 结合音频制作数字人视频
工作流示例 — 完整的音视频工作流

Audio 节点

生成模式

基本用法

🗣️ 文字转语音（Text to Speech）

🎵 生成音效（Sound Effects）

🎼 生成音乐（Music）

🎨 定制声音（Voice Design）

🎬 视频配音/音效（Video to Audio）

模型选择指南

参数详解

Voice（音色）

Speed（语速）

Duration（时长）

Emotion（情绪）

连接规则

工作流示例

🎙️ 视频配音

🗣️ 数字人配音

🎬 完整短视频制作

上传音频（作为起点）

常见问题

❓ 为什么 Audio 节点不能连接 Text 节点？

❓ 如何选择合适的 TTS 音色？

❓ 音乐生成可以指定具体曲风吗？

❓ 生成的音效太短/太长怎么办？

❓ Video to Audio 生成多个音效怎么选择？

❓ 生成的语音可以调整语速吗？

高级功能

Minimax 情绪控制

ElevenLabs 上下文感知

Suno 自定义模式

操作按钮与功能

Generate（生成）

Play（播放）

Download（下载）

工作流示例

🎙️ 制作有声内容

🎬 视频配音完整流程

🗣️ 数字人视频

模型选择指南

常见使用技巧

📝 TTS 文本优化

🎵 音效生成技巧

🎼 音乐生成技巧

常见问题

❓ TTS 支持哪些语言？

❓ 生成的音乐有版权问题吗？

❓ 音效生成效果不好怎么办？

❓ 如何为视频添加多层音频？

性能优化建议

下一步

本网站使用 Cookie

Audio 节点

生成模式

基本用法

🗣️ 文字转语音（Text to Speech）

🎵 生成音效（Sound Effects）

🎼 生成音乐（Music）

🎨 定制声音（Voice Design）

🎬 视频配音/音效（Video to Audio）

模型选择指南

参数详解

Voice（音色）

Speed（语速）

Duration（时长）

Emotion（情绪）

连接规则

工作流示例

🎙️ 视频配音

🗣️ 数字人配音

🎬 完整短视频制作

上传音频（作为起点）

常见问题

❓ 为什么 Audio 节点不能连接 Text 节点？

❓ 如何选择合适的 TTS 音色？

❓ 音乐生成可以指定具体曲风吗？

❓ 生成的音效太短/太长怎么办？

❓ Video to Audio 生成多个音效怎么选择？

❓ 生成的语音可以调整语速吗？

高级功能