构建数字人的思路可以分为三步:
- 构铸血肉 —— 创建数字人形象
- 创造感官 —— 文本转音频,音频与形象结合让数字人“开口说话”
- 注入灵魂 —— 输入领域知识,实现智能对话
因此我们根据不同的领域整理了众多优秀项目,总有一款适合你!
领域 | 功能 | 名称 | 链接 | 备注 | 更新时间 |
---|---|---|---|---|---|
造型 | 输入真人照片,生成数字人照片 | MINISTER AI | https://mst.xyz/home | 免费stable | 23/08/07 |
造型 | 输入指令生产图片 | Midjourney | https://discord.com/invite/midjourney | 可以免费试用 | 23/08/07 |
音频 | 声音克隆,例如生成翻唱 | so-vits-svc | https://github.com/svc-develop-team/so-vits-svc | 开源 | 23/08/07 |
音频 | 文本转语音,并支持音乐和简单音效 | bark | https://huggingface.co/spaces/suno/bark | 开源 | 23/08/07 |
音频 | AI翻唱变声 | DDSP-SVC | https://github.com/yxlllc/DDSP-SVC | 开源,低配置电脑可用 | 23/08/07 |
视频 | 输入图片,文字/音频生成数字人说话视频 | DID | https://bittly.cc/studioDI | 可以免费试用。新手教程《MJ快速开始》 | 23/08/07 |
视频 | 1. 输入照片与文本,生成数字人视频;2. 输入真人视频,生产数字人视频 | HeyGen | https://app.heygen.com/ | 收费 | 23/08/07 |
视频 | 输入音频与色彩空间为SDR的视频,使原视频中的人说出目标内容 | Video Retalking | https://github.com/OpenTalker/video-retalking | 开源 | 23/08/07 |
视频 | 输入音频与色彩空间为SDR的视频,使原视频中的人说出目标内容 | Wav2Lip | https://github.com/Rudrabha/Wav2Lip | 开源 | 23/08/07 |
视频 | 输入音频与图片,生成数字人说话视频 | SadTalker | https://github.com/OpenTalker/SadTalker | 开源,同时支持直接安装Windows应用:SadTalker Windows安装 | 23/08/07 |
视频 | 输入文本,选择人物模板生成口播视频 | kreadoai | https://www.kreadoai.com | 免费。网站还支持AI抠图等功能 | 23/08/07 |
视频 | 一张图片换成视频换脸 | Roop | https://github.com/s0md3v/roop | 开源,colab | 23/08/07 |
数字人应用 | 可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her | Fay | https://github.com/TheRamU/Fay | 开源 | 23/08/07 |