形象类别介绍
形象类型 | 定义 | 使用场景 | 示例 |
2D精品 | 通过在专业影棚中录制动作素材,经过两周左右的训练可生成应用于播报、交互场景的数智人。精品形象可在文中随机插入指定动作,动作呈现多样性。 | 适用于金融、传媒类对数智人形象、动作有要求的客户。 | ![]() |
2D小样本-通用口型 | 适用于对数智人口型无要求、无良好拍摄条件的客户。 | ![]() | |
2D小样本-专属口型 | 适用于对数智人形象复刻有要求、有较好拍摄条件的客户。 | | |
2D小样本-高精版本 | 适用于大型会议、面对面对话、产品发布会、大屏场景。 | | |
2D小样本免训练(视频素材) | 通过一段真人视频素材,无需训练,即可通过输入文本或音频,生成人物说话口型与输入内容相匹配的新视频。 | 适合客户获客拉新、制作营销视频&口播视频场景。 | ![]() |
2D小样本-照片数字人 | 通过一张照片即可训练数智人;该版本主打低价快速,从素材提交后,一般情况下在10分钟后即可使用。照片数智人使用的是照片原始背景,不支持切换背景图片。 | 适用于泛互、娱乐场景。 | ![]() |
3D卡通 | 根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。 | 适用于已有2D吉祥物形象,期望升级为3D形象为用户提供服务的场景。 | ![]() |
3D半写实 | 根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。 | 适用于需要一定的写实感但精度要求不高的场景,如资讯播报、手机端智能客服场景。 | ![]() |
3D写实 | 根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。 | 适用于需要高写实感和高精度展现的场景,如品牌宣传、大屏交互场景。 | ![]() |
形象对比
表格中 ✓ 表示支持,X 表示不支持。
2D小样本系列 SKU 差异对比 | ||||||
项目 | 子项 | 通用口型 | 专属口型 | 高精版本 | 免训练版本 | 照片数字人 |
数智人能力项 | 音视频播报 | ✓ | ✓ | ✓ | ✓ | ✓ |
| 会话互动+直播 | ✓ | ✓ | ✓ | X | ✓ |
数据准备 | 录制要求 | 录制1~10分钟的真人视频,模特可全程闭嘴,也可开口说话;对视频声音无要求 | 录制3~10分钟的真人说话视频,录制环境需要保持安静,仅可录制拍摄主体的声音 | 录制标准同专属口型,视频分辨率需是4K | 录制5秒~20分钟的真人说话视频,对视频声音无要求 | 仅需要提供一张人物清晰正面照片 |
| 实景克隆 | ✓ | ✓ | ✓ | ✓ | ✓ |
| 走动克隆 | ✓ | ✓ | ✓ | ✓ | X |
| 绿幕扣图 | ✓ | ✓ | ✓ | X | X |
形象效果 | 口型效果 | 使用大模型生成的个性化唇齿和口型 | 深度学习本人的口型特征,与本人的唇齿特征相似度达99% | 在专属口型基础上,支持输出4K分辨率,更加高清 | 该模式会尽可能保留录制本人的口型特征,与本人的唇齿相似度接近90% | 使用大模型生成的个性化唇齿和口型 |
| 表情&动作自然度 | 取决于个人表现力 | 取决于个人表现力 | 取决于个人表现力 | 取决于个人表现力 | 身体姿态无法晃动 |
交付服务 | 交付周期 | 1天内出demo供客户效果确认,客户点击确认后即可使用 | 2天内出demo供客户确认效果,客户点击确认后即可使用 | 3天内出demo供客户确认效果,客户点击确认后即可使用 | 无需训练,分钟级即可看到成品视频效果 | 10分钟内即可使用 |
| 训练方式 | 全自动训练 | 全自动训练+人工介入调优 | 全自动训练+人工介入调优 | 全自动训练 | 全自动训练 |
通用vs免训练 | | ![]() | | | | |
专属vs免训练 | | ![]() | | | | |
通用vs专属 | | ![]() | | | | |
通用口型 vs 照片数字人 | | ![]() | | | | |
专属口型 vs 高精版本 | | ![]() | | | | |