一念动，万事成。

最近又有一个重磅级的开源项目，微软的VibeVoice。功能是文字=>语音。有人说，这有什么了不起的，微软自己就有EdgeTTS，其他Google等也有成熟的项目免费使用。

还是很不一样的。让我来告诉你VibeVoice有哪些酷炫的特点。 1）超长上下文 2）多人语音实时轮替 3）LLM处理语境，让发声更自然，逼真。

当然，这个模型也不是随便一台家里的普通电脑，或者普通你的云服务器能够跑起来的。1.5b的模型需要24GB的显存。如果你想在家里自己独享，你需要这样一台电脑，

配件型号/说明价格（元）显卡 NVIDIA GeForce RTX 4090 24 GB（公版/华硕 TUF）<KIMI_REF /> 11,999 CPU Intel i5-14600KF（14 核 20 线程，足够喂饱 4090） 1,799 主板 MSI B760M Mortar DDR5 WiFi 999 内存 32 GB DDR5-6000（16 GB×2） 699 SSD 1 TB NVMe PCIe 4.0（系统+缓存） 399 电源 850 W 80+ Gold 全模组 599 机箱中塔 + 3 把风扇 299 散热器 240 mm 一体水冷 299 合计 —— ≈ 16,100 元

如果你觉得的太贵，你可以去腾讯云租一台GPU云服务器，大约19元一个小时。当然，第一个小时你基本上是在安装配置这个模型。但是接下去，你就可以以5块钱的代价生成一个小时的语音。甚至公绩云是0.4元生成一个小时的语音。

看到这你可能会问，这又怎么样？

我来告诉你这对现在的相关生态有什么影响。过去需要编剧 → 配音演员 → 录音师 → 剪辑师 → 混音师 → 发行运营，现在一个人搞定。 1）那些做早晚20分钟播报的主播，可以以极小的代价，创建自己的20分钟音频。 2）那些购买IP（小说，故事等）来自己录音的主播会受到很大的冲击，因为生产语音的代价大大降低，且大大加快。

短时间内，那些事实访谈节目，头部有特色的主播不受影响。但是依然会有三个连锁效应：

1）创意权重 > 执行权重谁能提出好选题、好脚本，谁就能立刻变现；执行细节被模型封装。 2）边际成本趋零 → 长尾爆发过去因为 ROI 太小没人做的方言评书、冷门教材、极客周报，现在都能以 2 元成本跑一条，长尾市场瞬间被填满。 3）个人即工作室你甚至都不需要自己有一台高配置电脑。一台普通PC➕云服务 = 一条完整生产线；今天想做科幻短篇宇宙，明天就能切到儿童睡前故事，换赛道只需要改提示词就行了

甚至，在商业化这条路上，对广告业也会产生冲击： 1）试错成本趋零：品牌可先让 AI 播客跑 A/B 测试脚本，ROI 合格后再请真人主播拍“正式版”。 2）长尾广告位：本地餐饮、区域房地产能用“方言 AI 播客”投放，过去他们可买不起真人制作。

当然，也不尽是我说的那么完美。之前阿里就已经开源了CozyVoices模型，我们依然可以看到很多真人主播在赛场上。我们还有时间去适应，适应这个一念动，万事成的时代。

还是很不一样的。让我来告诉你VibeVoice有哪些酷炫的特点。 1）超长上下文 2）多人语音实时轮替 3）LLM处理语境，让发声更自然，逼真。

看到这你可能会问，这又怎么样？

短时间内，那些事实访谈节目，头部有特色的主播不受影响。但是依然会有三个连锁效应：

还是很不一样的。让我来告诉你VibeVoice有哪些酷炫的特点。 1）超长上下文 2）多人语音实时轮替 3）LLM处理语境，让发声更自然，逼真。

看到这你可能会问，这又怎么样？

短时间内，那些事实访谈节目，头部有特色的主播不受影响。但是依然会有三个连锁效应：

另，待我有时间，我把blog里哪篇Deepseek生成的短篇小说用Stable Diffussion 做漫画，再转成语音，做个有声漫画，一定很有意思。