Skip to content

njhouse365/metahuman_overview

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 

Repository files navigation

数字人主要技术整理

中文 | English

目前数字人主要包括形象、声音和对话能力几方面。主要交互方式为直接与数字人进行对话。以下从多方面进行了收集和总结,以期提供快速入门帮助。

0. 实时感知交互能力

0.1 GPT4o

随着GPT-4o的一系列演示视频的发布,几乎解决了实时性的问题,通过实时对话、打断、主动提问,以及实时分析摄像头内容,结合本地知识库、Agent等能力,让数字人一下子达到了更高级别的可用性。

无需实体形象的可用场景(可穿戴设备:实时采集、云端处理、语音及图像反馈):

  • 个人实时助手
  • 盲人助手
  • 翻译助手
  • 学生学习辅导
  • 其他(欢迎提交补充)

需要实体形象的可用场景:

  • 数字人赋能,但是目前还未有技术能解决数字人的互动能力,比如实时往嘴上涂口红,自由镜头下的多角度运动等
  • 实体机器人赋能,如救援机器人的自主决策、和控制人员通过自然语言或特定语法进行交流等。
  • 其他

目前OpenAI还暂未提供演示中涉及的声音和视频的API,而只提供了GPT4o的文字对话和图片识别能力,相较于之前的GPT4-Vision-Preview等区别不大。

相应演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=1454557368&bvid=BV1Vi421X7Xf&cid=1544530003&p=1

0.2 其他实现

tbd

1. 形象驱动

1.1 真人录制+算法驱动

真人出镜录制素材视频,后期通过对AI驱动口型和姿态等方式实现数字人

  • 优点:难辨真假(因为是直接录制的真人素材),口型对得准,可实时直播也可录播。
  • 缺点:贵(可能)

本图片中右侧为数字人,左侧为真人 数字人1 数字人2

相应演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=701718909&bvid=BV1vm4y1x7nm&cid=1217022011&p=1


相关技术:

1.2 建模+算法驱动

建模有更高的自由度,有高精度建模和低精度建模等各种方式丰俭由人,也可以另辟蹊径建造卡通形象等。

代表技术:

Meta Human alt text

NVIDIA Omniverse Audio2Face alt text

Live2D alt text

Adobe Character Animator alt text

2. 声音模仿

一些非专业的背景知识补充:
数字人声音可使用现有模型的TTS,或使用自训练的声音模型。声学模型是声音合成系统的重要组成部分。 声学模型

主流声学模型包括VITSTacotronFastSpeech2等。VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。 vits process

之前流行的AI孙燕姿等,采用技术为so-vits-svc,全称SoftVC VITS Singing Voice Conversion。该技术是一个声音爱好者基于softVCVITS修改而来。

声音模仿相关热点项目(截止2024.6)

1. GPT-SoVITS 27.0K stars
声音模型训练项目,少量文本即可实现微调模型,提供WebUI。

项目地址: https://github.com/RVC-Boss/GPT-SoVITS

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=836354039&bvid=BV12g4y1m7Uw&cid=1406840960&p=1

2. so-vits-svc 24.4K stars
声音模型训练项目,代表:AI孙燕姿。

项目地址: https://github.com/svc-develop-team/so-vits-svc

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=572772327&bvid=BV1Mz4y1p7hY&cid=1178460068&p=1

3. ChatTTS 23.3K stars
非声音克隆。但是其文字转声音效果非常好,有停顿,有语气,有情绪。原生中文支持。网络提供了Windows、Linux等各种一键部署包、懒人包等。

项目地址: https://github.com/2noise/ChatTTS

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=1055092304&bvid=BV1zn4y1o7iV&cid=1561584918&p=1

其他:剪映capcut声音克隆睿声ReechoEmotional VITSBark

3. 互动技术

tbd
如多镜头多角度下的数字人、实时换装、化妆等。

4. 应用场景及综合代表项目

数字人在自媒体(知识科普等相关口播博主)、电商直播带货、教育教学领域有所应用。在数字生命(已故亲人)等领域(和AR、VR等结合)也有探索。此外,数字人技术和实体机器人的融合等也是题中应有之义。

代表项目:

  1. AI-Vtuber

【开源】AI Vtuber是一个由大模型驱动的、融合外观、声音的虚拟AI主播

  1. Fay
    【开源】Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。

  2. HeyGen
    【海外/华人创办】 alt text

  3. 特看科技
    【国产商用】基于真人视频的高质量数字人 alt text

  4. 腾讯智影
    【国产商用】融合多种AIGC能力的综合创作平台。 alt text

5. 法律法规、代表性新闻

6. 数字人的大脑 Large Langurage Model

目前支持图片识别和处理的多模态模型主要有

gpt-4o,gpt-4-vision-preview,gemini-pro-vision,智浦GLM-4V,零一科技yi-vl-plus,通义千问Qwen-VL-Max、LLaVA(开源)等。

各模型API申请地址

开源大模型集成前端

大模型API集成管理网关

本地知识库和智能体构建

大模型自动化测评工具

About

数字人资料整理

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published