随着人工智能技术的飞速发展,各种令人惊喜的大模型应用层出不穷。这不,2024年伊始,社交媒体和各大论坛上火爆传播的话题便是——仅凭一张静态照片,你就能获得一段流畅的舞蹈视频。无论是古老的兵马俑,还是现代科技界的翘楚马斯克,亦或是大街小巷的普通人,皆可成为网络上一时的舞蹈达人。
这些大约10秒的舞蹈视频并非由真人出镜,而是由阿里巴巴集团下属的通义千问APP中的算法“Animate Anyone”生成。用户仅需上传一张照片,便能于短短几分钟内,获得一段具有高度还原度的舞蹈视频。视频不仅保留了原照片中人物的面部表情、身材和服装,甚至连背景也尽显真实质感。
具体操作非常简单,用户在通义千问APP内输入“通义舞王”或“全民舞王”等口令,即可进入这一体验界面。目前,APP提供了多达12种流行舞蹈模板供用户选择,包括科目三舞、蒙古舞、划桨步、鬼步舞等,满足不同用户的个性化需求。
实现这一神奇效果的背后是阿里通义实验室自主研发的Animate Anyone视频生成模型。这一模型早在2023年11月底就在Twitter和YouTube等海外社交平台上引发轰动,相关视频播放量超过亿次,GitHub上的关注度也飞快攀升,其研究项目星标数短短几日便突破万级。
Animate Anyone所引入的领先技术颇受业界瞩目:通过ReferenceNet来捕捉原图像信息,高度还原人物特征和服装细节;Pose Guider姿态引导器确保舞蹈动作精準可控;同时,时序生成模块有效保证了视频帧间的流畅连续。在相同数据集的测试中,Animate Anyone显著超越了国内外众多同类模型的表现。
通义千问不仅在技术上成就非凡,在应用层面也同样展现强大的实力。通义千问成为国内首批通过备案的大模型之一,自APP上线以来,功能不断升级,已经提供了文本对话、语音对话、翻译、PPT大纲助手、小红书文案以及视频生成等多项服务。
由于其便捷和娱乐性,这一功能迅速风靡全国,引起广泛讨论。网友们相互分享自己生成的舞蹈视频,有的调侃道:“AI治愈了我的两左脚”,有的惊叹道:“科目三的魅力终于飘进了考古界”,也有人开玩笑地说:“从此跳舞不怕扭到脚了。”
这一突破性进展不仅为普通人带来了娱乐的新玩法,也昭示着大模型技术在创意娱乐领域广阔的应用前景,激发了人们对人工智能未来可能性的无限遐想。随着技术的不断完善和应用的深入,未来智能互动的方式必将变得更加丰富多彩。