热门焦点

随手一拍，即成舞林高手！阿里神技让静态图片跳动起来

热门焦点
1月 7, 2024
12:17 下午

随着人工智能技术的飞速发展，各种令人惊喜的大模型应用层出不穷。这不，2024年伊始，社交媒体和各大论坛上火爆传播的话题便是——仅凭一张静态照片，你就能获得一段流畅的舞蹈视频。无论是古老的兵马俑，还是现代科技界的翘楚马斯克，亦或是大街小巷的普通人，皆可成为网络上一时的舞蹈达人。

这些大约10秒的舞蹈视频并非由真人出镜，而是由阿里巴巴集团下属的通义千问APP中的算法“Animate Anyone”生成。用户仅需上传一张照片，便能于短短几分钟内，获得一段具有高度还原度的舞蹈视频。视频不仅保留了原照片中人物的面部表情、身材和服装，甚至连背景也尽显真实质感。

具体操作非常简单，用户在通义千问APP内输入“通义舞王”或“全民舞王”等口令，即可进入这一体验界面。目前，APP提供了多达12种流行舞蹈模板供用户选择，包括科目三舞、蒙古舞、划桨步、鬼步舞等，满足不同用户的个性化需求。

实现这一神奇效果的背后是阿里通义实验室自主研发的Animate Anyone视频生成模型。这一模型早在2023年11月底就在Twitter和YouTube等海外社交平台上引发轰动，相关视频播放量超过亿次，GitHub上的关注度也飞快攀升，其研究项目星标数短短几日便突破万级。

Animate Anyone所引入的领先技术颇受业界瞩目：通过ReferenceNet来捕捉原图像信息，高度还原人物特征和服装细节；Pose Guider姿态引导器确保舞蹈动作精準可控；同时，时序生成模块有效保证了视频帧间的流畅连续。在相同数据集的测试中，Animate Anyone显著超越了国内外众多同类模型的表现。

通义千问不仅在技术上成就非凡，在应用层面也同样展现强大的实力。通义千问成为国内首批通过备案的大模型之一，自APP上线以来，功能不断升级，已经提供了文本对话、语音对话、翻译、PPT大纲助手、小红书文案以及视频生成等多项服务。

由于其便捷和娱乐性，这一功能迅速风靡全国，引起广泛讨论。网友们相互分享自己生成的舞蹈视频，有的调侃道：“AI治愈了我的两左脚”，有的惊叹道：“科目三的魅力终于飘进了考古界”，也有人开玩笑地说：“从此跳舞不怕扭到脚了。”

这一突破性进展不仅为普通人带来了娱乐的新玩法，也昭示着大模型技术在创意娱乐领域广阔的应用前景，激发了人们对人工智能未来可能性的无限遐想。随着技术的不断完善和应用的深入，未来智能互动的方式必将变得更加丰富多彩。