|
Post by mdrafimia002 on Feb 12, 2024 4:36:32 GMT -5
也因此,这条介绍“Animate Anyone”的推文在发布不到一个月,就斩获了超过5000万的点击,也就不足为奇了。 二、让图片跳起“科目三” 在“Animate Anyone”出现之前,从静态图像到动态视频的合成,仍然有很多“坎”需要过, 首先是细节一致性。举个例子就是,现在市面上的AI图片或者文字生成视频,很多时候主体之外的图像会出现局部变形、细节模糊和帧数不可控的问题,这些都会影响视频生成的质量。 再比如动作控制和连贯性。因为视频如果要商用,可控性的。如果是AI生成,则主要通过预先输入的动作序列来控制角色动作。但在目前AI视频的角色动作,还无法完全靠prompt精准控制。 在图片生成文字的过程中,还需处理的是图像到视频的转换过程,并且需要保证这个过程中,图像的空间与时 间一致性。 在此之前,诸如stable Diffusion、等AIGC产品虽然已经初步具备了文生图和图生图、图生视频等跨模态生成能力,但在AI生成视频领域,前面提到的问题仍然没有得到解决。 产品经理到底该不该选择做B端? 近几年互联网经历了砸钱做市场的热潮后,越来越 墨西哥电报号码 意识到,仅靠C端发力是不行的,需要尽快补齐B端的短板。那产品经理到底该不该选择转型做B端呢? 查看详情 > “Animate Anyone”则在很大程度上,对前述相关问题作出了改进。首先团队通过名为“t”的辅助模型,用来捕捉参考图像的空间细节,这保证了角色每一帧外观细节的一致性; 其次,团队使用了一种高效的Pose Guider姿态引导器,这让角色的运动姿势得到了有效控制,体现在视频中,则是让视频角色按设定好的姿势进行运动,并具备稳定的过渡,保证连续性和流畅性; 此前AI生成的视频细节为何不可控,很大程度上是因为每一帧的时间关系不够紧密,很多细节没办法保留到下一帧。在“”的模型里,则通过一个时序生 成模块来保证多个视频帧之间的关系,很多高分辨率的细节得以全程保留。 通义千问跳科目三,关AI电商啥事? 通义千问跳科目三,关AI电商啥事? 即便是解决了这么多技术难题,单看目前“全能舞王”的生成效果,也与真人上镜有一定的差距。譬如生成的舞蹈节奏是平均的,但现实音乐大多数都是快慢分布。这让“科目三”的生成效果不可避免打了折扣。 但与一众大模型前辈相比,“Animate Anyone”已经把最重要的形象一致性和姿态稳定、多帧关系控制等关键问题搞定,在图生视频赛道上,已经完成10-60+分的突破。 三、AI电商的另一块拼图? 图生视频从10分到60分,意味着什么? 意味着它不仅可以完整保留人脸、身材比例、服装细节和背景信息,同时还能对生成的动作做精准控制,且在技术上生成的视频长度不受限制。与Pika等文本生成视频的产品比, 更聚焦人本身。
|
|