数字人企划
[TOC]
虚拟人计划
注意,是数字人,不是皮套人
一张图生成,摄像头动补,也可以通过256 * 256大小的png图像生成可调整的形象
动补不过通过face detection计算出这些参数
VRoid Hub && VUP软件
- VRoid Hub捏脸和建模
- VUP如果可以二次开发,就可以很简单完成
Wav2Lip 声音-嘴唇同步论文
elai. 付费软件 不行,垃圾软件
MetaHuman Unreal Engine 5 免费软件3D建模软件
方案1
使用Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
sad talking方案。通过一张图像+一段音频生成一段说话的视频。视频时长等于音频时长
对该方案的二次开发
要能聊天
接入语音接口,就是之前trump的音色接口,把语音转换为trump,trump的接口为语音-语音(录制音频(长度小于45秒))
drien_audio = trump_api(driven_audio)
接入chart gpt接口,自动生成语音/文字(能聊天) 输入为文字-输出为文字-再转为语音
只使用inference.py接口
paddle 方案
不是很复杂的方案——paddle虚拟数字主播播新闻
https://aistudio.baidu.com/aistudio/projectdetail/6064213?forkThirdPart=1
使用FOM模型实现表情迁移,也就是复制某个MP4中的表情,看似和语音相关,实际上不相关。看起来
使用TTS实现文本转语音 (这个在codelab上面有些问题,包的版本问题)
使用wav2lip实现唇形合成
突然想到一件事情
- 可以外接虚拟语音助手
- 通过图片+声音-嘴唇转换完成
更换已有虚拟主播的皮套
https://github.com/cdfmlr/muvtuber
可能只需要改换public项目下的资源即可
- 现有虚拟形象
- 改变虚拟形象,看起来改变虚拟形象对我而言过于麻烦了
- 断网可用,已实验
实际上github似乎有现成的demo
【AI桌面精灵V1.0,支持用户高度自定义】 https://www.bilibili.com/video/BV1Lo4y147x3/?share_source=copy_web&vd_source=9052d46a90459e2586b46cdaff2721d8
现成的数字人项目,可惜需要openAI的aip key,https://github.com/Voine/ChatWaifu_Mobile,放在Andoid上面的,需要弄一个模拟器
更改gradio中的参数
- 比如upload和microphone改变直接上传语音或者录制语音