00:01
好的,那么今天给大家分享的是我们千万一米集ID的一个更新,那么从这个他的名字啊,我们可以看到它是对图片可以进行编辑,那么这个编辑一直到这个图片编辑,我们会想到一些同类的一些产品。那么我们今天也对比了,我个人测试了这个China name image, 还有flax的contact,这是我们两个开源的,可以直接在本地啊,在线使用的一个,呃,工具,这两个是开源的,那么它各有各的强项,那么圈外image,那我们是今天的一个主题,同一个产品,包括我们的FOX contest VO edit, 还有I dream edit.那么我们可以从啊各方面去对比一下我们两几个模型的一个优缺点。首先呢,我们先说一下结论,就是千万image首先他对中文的一个理解是非常强的,首先我们的千万image可以实现中文的海报支出,那么所以他在训练的这个素材上面更偏向于中文字体或者是中文素材。
01:08
那我们看一下它整体的一个更新内容,然后我这边也测试了。大概是6组的一个实计图片,那我们从整体的一个更新内容以及测试效果,然后大家可以决定一下在什么场景下去用哪一个啊工作流或者是模型啊,OK, 好,我们看一下它的主要的一个特性啊,第一个是语义和外观的一个双重编辑。那么这里面他提到一个是人物的一个角色啊,然后视角以及文字,那么重点在于精准的一个文字,那么刚才也提到了它支持中英文的一个双文字编辑。但是我们的呃,Flax con可能在中文的理解能力上会稍差一点。那么毕竟是我们本土的一个大模型,所以说在东文的一个理解能力上面比较强,而且还呃支持了这个字体字号以及风格。
02:04
然后做我们这个图片的一个编辑,那既然提到编辑,就包含了增删改动操作。那么全的一个基准基准性能,那么它在20B与模型的一个基础上啊,做了一个sota的一个性能测试,那么是一个比较强大的图像编辑基础模型啊,OK, 那么目前呢啊,我们可以有开源的模型去直接去下载,然后可以直接在在线去体验啊,这是我们千万米子的一个啊一个体验渠道。然后在语义编辑能力下面啊,比如说我们在同一个IP下面啊,可以保持人物的一致性啊,这个是在动漫角色,当然我没有测试这个动漫角色,然后比如比如说他在这个背上一个书包啊,变成一个魔法师,变成一个战略家,这种实现这个多个IP的一个做一个这种动漫IP,动漫IP的这个原创IP创作。那么他在这个上面呢,表现了非常丰富的一个啊编译能力啊,这里面呃,创作模型成功创造了一个16型人格的一个表情包啊,这是它的一个应用场景,或者是来一个应用的一个啊,非常擅长的一个地方。
03:17
OK, 你一边的呢,你还包含了视角转换和风格迁移啊,比如我们原图是啊,正面的一个视角,可以让它转动这个视角。那么这这个场景下面呢,那就可以去制作我们的人物的一个三视图,那我们再稍微再扩展一下。它不仅可以完成90°一个酸的,还能进行180°的以旋的,那么其实头除了30°之外,我们可以在一个人物的一个或者是IP啊,一个娃娃这种非非这个人物的一个啊,物体形态可以进行一个罗尔力量也是一个不错一个素材取取材的一个啊好的一个音乐场景风格迁移,那么你可以把人物啊表扬吉普利风格啊,这个3D卡通。
04:03
啊,然后这个呃,这个动漫风格都可以去进行一个风格迁移,那么这种情况下呢,啊,也是我们可以去看测试一下contest。那在不使用啊,不使用lo的情况下,成果大模型去支出,那么省去了很多lo的一些效果啊,这是它的一个风格迁移能力。那么外观编辑的一个能力,包括元素的一个增删钙,比如原添加一个元素,在原有的企鹅的基础上添加了一个就是小的一个招牌啊,不仅仅能够成功的添加指示牌儿,还能精确的就能相应的一个倒影,对吧,它一个这个指示牌儿在听音的同时还增加了这个影子。元素消除啊,有remove,比如说我们那个元头有一些水印,阿尔爆括的一个,呃,细小的头发丝啊,都可以去消除原素的一个修改,这个个相对来说比较强大一点,它可以指定某一个字母啊,比如说我们的N,它原来图是一个黄色的,它变成了一个蓝色的字母。
05:06
啊,出现那个颜色的一个精确的一个修改,那么与此同时,比如说我们的一个汉字,那么它能够识别到一些啊基础的一些汉字啊,比方我们的古文啊繁体字,对,大家可以去测试一下。那么后边的案例当中呢,你是可以实现在图片当中的文字啊,直接去指定文字替换或者是编辑,比如说原图它出现的文字啊,不是很清晰或者错别字啊,我们可以直接去替换。那么背景奇换,刚才我们提到了人幕啊,艺术背景,那么可以通过这个保留主体,然后替换和美化背景,以及这个人物衣服的一个置换,那么服装精修啊,在保持人物这个不变的情况下,可以替换这个背景。那这个我们要留一个疑问啊,这个东西我个人认为这个方面还有待加强啊,在我们后面的测试用例当中呢啊,我们可以更直观的感受到这个场景。
06:08
OK, 精准的文字编辑能力,也如说我们刚才对于英文文字和中文海报的一个编辑啊,比如说我们把这个尼上哈佛社变成通译实验室,那么还是他能第一呢,它能够精准的定位到这个这个五个汉字啊,这个尼上的尼字还是比较复杂的,相当复杂的一个汉字,第一能够精准的定位到这几个汉字,另外是能够精准的定位到这个这几个汉字的一个位置。并且保持所有的风格,文字风格呢,是统一的啊,这是一个非常非常强大非常不错的一个啊,训练模型的一个基础能力啊,那么是中文和英文的一个双英啊,双语这个知识。那么除了这个文字编辑能力呢,得益于它在文字生产方面的一个深后积累,那么其实我们前的1米制啊,在前身。
07:01
啊,在我们的千维玉米这个图像出来之前啊,我们可以做到文字渲染啊,实际上它在有个很强的一个啊技术模型架构,以及我们现的锦书就是我们家人的A制的一个前身啊,能够精确识别并保留这个原有的一个字体特征。这是一个非常非常不错的一个功能。那么我们在这个也后面的案例呢,也做过测试啊,然后稍后我们可以去看一下,那么列式编辑啊,逐步优化图像啊,比如说这里面它会对书法的一个错别字进行这个识别,然后把某一个字换成某一个字,对吧?啊,这是一个非常非常强大的一个地方。好,那后下面是他的一个呃,验词编辑的一个案例,那我们就不去看具体的案例,那么场景我们刚才提到了,比如说海外的一个修改创作啊,以及这个如尔的训练啊,三视图等等等等是吧。那这个还不是很够直观,那我们从我们个人测试的一个案例,我们给大家看一下啊,来看一下我这里面测试了业务组管理,还是相对来说涉及的人物C,人物文字啊,然后以及编辑背景等等等等。
08:17
首先我们看一下啊,看一下这是它的一个啊人物,这是原图,那那么这张图是通过千万image来出的图,它把可以把生前的文字换成BABA啊,但是有一点他整体的人物都没有做成非常大的一个变化,但是勺子里面的冰淇淋。啊,是产生了一个变化,它的字母呢,是能够精确的,能够替换掉,这是它的优点啊,当然也有缺点什么,他的人物呢,色彩以及整体的人物是。达不到100%的香啊,这是它的一个缺点,那我们只看优点是能够提升,这个文字是能够精确去替换的。第二个点,我们做了这个文字里的编辑,这是一个原图,它是拆旧房子时的灰卡壳,是重建前的清理,那么这样一个文字,我想要的一个效果是在这个灰的后面加一个感叹号儿,那我觉得直观的去写择题示词,我说在灰字后面加一个感叹号,那么这出来的效果呢,就是这样一个效果。
09:20
啊,他把原有的文字去把它给,嗯,改变了原有的一个文字,那么我改变了一个提示词,就是保释所有的文字不变,在灰字后面加一个感叹号,哎,这个就是十分十分的完美,并且它一个感叹号的这个颜色我也没指,没有指定它的颜色,它能够跟我们原图是保持着高音高度的一个一致,并且它能识别到这个灰字,然后它的后面,啊,这个是非常非常完美的,那么大家注意一下这两个提示词的一个。啊,对比,然后怎么去书写句子。第二是他是一个非人物的一个形象啊,既然刚才我们提到一个能力,就是一个视角的一个转换啊,视角的一个转换,比如我们做这个IP做一个视角啊,视角的一个转换,所以说我测试了视角转换,这是原图,用我们千万于一纸我个人那个偶尔去出的一张图,那么我想要的是获得正面视角,诶OK,才能够把这个人物去得到一个正面的一个视角啊,还是非常不错的。
10:22
那么因为得得益于他没有这个就是像那种啊那个3D的,就如这种IP形象潮玩IP,那么可能会更好一点,因为这个是蔬菜类型啊,那个是非燃物。呃,第一个就是我们刚才测试的一个人物的一个编辑能力啊,这是我们刚才说的留保留的那个形象,第一点呢是原图啊,这原图,那么原图出完之后呢,我做了一个提示词啊,做了一个提示词就是人物所有的都保持不变,将红色的衬衫改为白色衬衫。这里面啊,我们做了一个提示词,OK, 那我们来到我们这里面看了一下。
11:02
第一呢,它第二张图和第一张图是都是同一个题,是自我写了两次。那么不管是它变成那个白色的衬衫,两个都能够实现的,这个功能是没有问题的。啊,唯一的我觉得啊,我觉得不太好的一点就是他的一个人物啊,不能够达到100%的一个还原啊,还是有一些色差呀,还有什么的。然后这就是我认为他在人物的序列上有一些欠缺,还需要提升,那么但是我们看一下flux contact的一个能力,好,那我们也是做了一个提示词啊,在提示词上方面的话,一没有过多的一个表现啊,我的提示词是这么写的啊,提示词就是人物保持边不变,然后将这个衬衫变为白色,然后通过我们的这一个工作流啊,工作流,简单的工作流去做了一个编辑啊,做了一个编辑。好,那么它实现的一个效果就是人物能够跟我的原始人物能够达到100%的像。
12:04
啊,他不会绝对不会替换人物以外,或者是人物的一个形象,这是我比较满意的,别另外的话,他由于没有中文字,所以说他在这个理解能力上面也是非常不错的,能够替换了那个白衬衫啊,这是我也比较满意的一个点。好,第二点,这是千分之image,做原图,做一个编辑,我希望它的一个背景呢,换成一个海滩。那这个功能是实现没有问题,但是缺点啊,就是人物他非常非常的不像。好,非常非常不限,让我们我看一下我们的con context的一个能力啊,Contact的,这是我们context的一个能力,那么在人物方面呢,它能够保持高度一致,并且换成了一个沙滩背景,但是那个沙滩背景没有详细的描述,我只是希望要一个沙滩背景,一个测试,对吧?那么OK,但是能够达实现我的要求就是。但是呢,人物能够保持高度一致啊,你可以认为他就是做了一个蒙版,然后把然后把蒙版的人物抠出来,然后做了一个人物的背景替换。
13:10
当然这个。你看哪一个人物更像呢?我还是觉得contest的人物更像一点啊,更像一点,所以说从这几组测试来说啊,第一它的文字里呢,确实非常强。啊,文字理解能力和中文的一个文字理解能力,还有视角转换非常不错,但是缺点可能在于他的人物的一个保持一致性上面。啊,可能不是能够达到你十分满意的一个标准啊,那么目前大家可以去怎么去体验的一个能力呢?啊,直接打开我们的网址啊,直接打开我们的网址。啊,我们记得把网址放在这里啊。把网址放到各里边。嗯。这是我们的这个千问的啊,千问的一个。
14:01
Image image.就是这样一个网址啊,Chart.先问点儿AI啊,然后打开这个网址,就能够直接去实现那个原图的一个对话啊,然后这样去测试的,那么大家可以去尝试体验一下,然后整体的一个能力啊,然后大家都都可以提到了,然后这些康复UI的一个支持,还有他的一个。啊,后续的一个优化更新,然后以及由此带来的一些啊柔软的一些训练啊,然后大家都都都可以去尝试一下,后边的生态可能会越来越完善。那么也在此呢,做一个啊,做一个推广,就是我这边个人有几个啊,非常不错的一个千万一利的一个laa,比如我们的毛绒玩具啊,毛绒玩具这个字体和毛绒玩具的一个结合啊,然后以及我们的这个大脚怪啊,大小怪,做这个新兴天然气啊,比如说这个第一人称的一个。
15:02
啊,探店貌似拍摄,然后去买东西,然后去吃面,然后加班儿这种类似的这种柔软,大家可以去尝试下载一下,OK, 那么整个的分享就就到这里,然后至于后面的提示词啊,有什么问题大家可以去评论。
我来说两句