٩(•̤̀ᵕ•̤́๑)ᵒᵏᵎᵎᵎᵎ 我克隆了网红【峰哥亡命天涯】的声音和记忆,让 AI 用他的方式跟我实时对。
第一次听到"峰哥"的声音从电脑里怼我,愣了几秒。。
像跟直播连麦一样。
这个项目我叫它 Talk to Me,从 V1 到 V3.6 迭代了好几轮。它干的事:你说,AI 用克隆出来的声音回你,记得你们聊过什么,还带着那个人的性格和说方式。
怎么做到的——四个开源项目 + 云 GPU 拼出来的:
• 本地笔记蒸馏 → 352 条笔记压成人格和说风格
• LiveKit → 实时语音通的底层框架
• VoxCPM → 云 GPU 上跑中文音色克隆
• OpenViking → 长期记忆,聊过的内容能找回来
没用大厂现成方案,STT→LLM→TTS 每一环都自己拆过换过踩过坑。比如...
Cartesia 中文克隆翻车、GPU 迁移重配 SSH、粒子 UI 丑到没法看……全链路延迟从 8-20秒/句 压到 1 秒内。
其实一开始只是想跟自己对——蒸馏自己的知识库,克隆自己的声音---- 我太寂寞了,想着自己和自己对呢🤫
后来觉得不够有意思,就换成了网红的音色和人格,体验一下就完全不一样了。
这也让我意识到:不只是"我的分身",而是谁都可以有一个能实时对的 AI 版本。
代码还很粗糙,坑还很多。但如果大家觉得有意思,后面可以拆解技术细节做个系列。
附一条自测 demo 👇
AI探索 | Hermes/OpenClaw|优质资源|优质信息
第一次听到"峰哥"的声音从电脑里怼我,愣了几秒。。
像跟直播连麦一样。
这个项目我叫它 Talk to Me,从 V1 到 V3.6 迭代了好几轮。它干的事:你说,AI 用克隆出来的声音回你,记得你们聊过什么,还带着那个人的性格和说方式。
怎么做到的——四个开源项目 + 云 GPU 拼出来的:
• 本地笔记蒸馏 → 352 条笔记压成人格和说风格
• LiveKit → 实时语音通的底层框架
• VoxCPM → 云 GPU 上跑中文音色克隆
• OpenViking → 长期记忆,聊过的内容能找回来
没用大厂现成方案,STT→LLM→TTS 每一环都自己拆过换过踩过坑。比如...
Cartesia 中文克隆翻车、GPU 迁移重配 SSH、粒子 UI 丑到没法看……全链路延迟从 8-20秒/句 压到 1 秒内。
其实一开始只是想跟自己对——蒸馏自己的知识库,克隆自己的声音---- 我太寂寞了,想着自己和自己对呢🤫
后来觉得不够有意思,就换成了网红的音色和人格,体验一下就完全不一样了。
这也让我意识到:不只是"我的分身",而是谁都可以有一个能实时对的 AI 版本。
代码还很粗糙,坑还很多。但如果大家觉得有意思,后面可以拆解技术细节做个系列。
附一条自测 demo 👇
AI探索 | Hermes/OpenClaw|优质资源|优质信息