[TOC]

虚拟人计划

注意,是数字人,不是皮套人

  • 一张图生成,摄像头动补,也可以通过256 * 256大小的png图像生成可调整的形象

  • 动补不过通过face detection计算出这些参数

    waifu_00_256

image-20230427093922109

VRoid Hub && VUP软件

  • VRoid Hub捏脸和建模
img
  • VUP如果可以二次开发,就可以很简单完成
img
  • Wav2Lip 声音-嘴唇同步论文

  • elai. 付费软件 不行,垃圾软件

  • MetaHuman Unreal Engine 5 免费软件3D建模软件

方案1

使用Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

sad talking方案。通过一张图像+一段音频生成一段说话的视频。视频时长等于音频时长

image-20230427100809715

  • 对该方案的二次开发

  • 要能聊天

  • 接入语音接口,就是之前trump的音色接口,把语音转换为trump,trump的接口为语音-语音(录制音频(长度小于45秒))

  • drien_audio = trump_api(driven_audio)  
    
  • 接入chart gpt接口,自动生成语音/文字(能聊天) 输入为文字-输出为文字-再转为语音

  • 只使用inference.py接口

paddle 方案

image-20230428105654414

不是很复杂的方案——paddle虚拟数字主播播新闻

突然想到一件事情

  • 可以外接虚拟语音助手
  • 通过图片+声音-嘴唇转换完成

更换已有虚拟主播的皮套

https://github.com/cdfmlr/muvtuber

可能只需要改换public项目下的资源即可

  • 现有虚拟形象

image-20230526135648087

  • 改变虚拟形象,看起来改变虚拟形象对我而言过于麻烦了
  • 断网可用,已实验

实际上github似乎有现成的demo

更改gradio中的参数

  • 比如upload和microphone改变直接上传语音或者录制语音