[TOC]

虚拟人计划

注意,是数字人,不是皮套人

https://github.com/pkhungurn/talking-head-anime-demo

  • 一张图生成,摄像头动补,也可以通过256 * 256大小的png图像生成可调整的形象

  • 动补不过通过face detection计算出这些参数

    waifu_00_256
image-20230427093922109

VRoid Hub && VUP软件

  • VRoid Hub捏脸和建模

img

  • VUP如果可以二次开发,就可以很简单完成

img

  • Wav2Lip 声音-嘴唇同步论文

  • elai. 付费软件 不行,垃圾软件

  • MetaHuman Unreal Engine 5 免费软件3D建模软件

方案1

使用Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

sad talking方案。通过一张图像+一段音频生成一段说话的视频。视频时长等于音频时长

image-20230427100809715
  • 对该方案的二次开发

  • 要能聊天

  • 接入语音接口,就是之前trump的音色接口,把语音转换为trump,trump的接口为语音-语音(录制音频(长度小于45秒))

  • drien_audio = trump_api(driven_audio)  
  • 接入chart gpt接口,自动生成语音/文字(能聊天) 输入为文字-输出为文字-再转为语音

  • 只使用inference.py接口

paddle 方案

image-20230428105654414

不是很复杂的方案——paddle虚拟数字主播播新闻

  • https://aistudio.baidu.com/aistudio/projectdetail/6064213?forkThirdPart=1

  • 使用FOM模型实现表情迁移,也就是复制某个MP4中的表情,看似和语音相关,实际上不相关。看起来

  • 使用TTS实现文本转语音 (这个在codelab上面有些问题,包的版本问题)

  • 使用wav2lip实现唇形合成

突然想到一件事情

  • 可以外接虚拟语音助手
  • 通过图片+声音-嘴唇转换完成

更换已有虚拟主播的皮套

https://github.com/cdfmlr/muvtuber

可能只需要改换public项目下的资源即可

  • 现有虚拟形象
image-20230526135648087
  • 改变虚拟形象,看起来改变虚拟形象对我而言过于麻烦了
  • 断网可用,已实验

实际上github似乎有现成的demo

  • 桌面精灵https://github.com/zenghongtu/PPet

  • 【AI桌面精灵V1.0,支持用户高度自定义】 https://www.bilibili.com/video/BV1Lo4y147x3/?share_source=copy_web&vd_source=9052d46a90459e2586b46cdaff2721d8

  • 现成的数字人项目,可惜需要openAI的aip key,https://github.com/Voine/ChatWaifu_Mobile,放在Andoid上面的,需要弄一个模拟器

更改gradio中的参数

  • 比如upload和microphone改变直接上传语音或者录制语音