HILOVEYOUTU 发表于 2024-3-16 10:13:00

图片一键变影片 腾讯联合2大学推出Follow-Your-Click

https://pgw.worldjournal.com/gw/photo.php?u=https://uc.udn.com.tw/photo/wj/realtime/2024/03/16/29208238.jpg&x=0&y=0&sw=0&sh=0&sl=W&fw=800&exp=3600&q=75一只小狗的图片加上一个提示词Raise head,Follow-Your-Click就能生成这只小狗将头抬起再垂下的重复动作影片。 不同提示词可生成不同动作影片。 (取自Follow-Your-Click网站)证券时报官网创业板资讯网站券商中国报导,3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频大模型「Follow-Your-Click」,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成影片。
报道称,在目前的图生影片大模型中,一般的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,过程较为复杂。 另外,从产生的效果来看,现有影像产生视频技术在移动影像的指定部分上缺乏控制,产生的视频往往需要移动整个场景,而不是图像上的某一个区域,精准度和灵活性上有所欠缺。为了解决这些问题,腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click,带来更加便捷的交互,也让图片「一键点,万物动」成为现实。
不过,券商中国并未再深入报道更多细节。 实际探访其网站,Follow-Your-Click似只能将图片转换成2、3秒钟的影像,譬如将一只小狗的图片加上一个提示词Raise head,就能生成这只小狗重复将头抬起再垂下的重复动作影片。 网页上也注明这一技术的限制,这一技术路径仍在生成大型复杂的人类动作上,有所限制,这可能是与动作与复杂性以及相关的训练样本仍十分稀缺有关。
报道说,腾讯混元大模型团队,正在持续研究探索多模态技术,拥有业界领先的影片产生能力。 此前,腾讯混元大模型作为技术合作伙伴,支持人民日报打造原创视频「江山如此多娇」,生成中国大美河山的精美视频片段,展示出了较强的内容理解、逻辑推理和画面生成能力。
2月15日,OpenAI在全球AI生成影片领域丢出一枚爆炸性讯息。 当日,该公司发布了一款名为Sora的「文字生成视频」模型,并向部分研究人员和创作者开放Sora的存取权。 Sora除了可以根据文字描述生成视频外,还可以根据现有的图片生成视频,目前可生成的视频长度在1分钟左右。
紧跟着Sora,2月26日,GoogleDeep Mind团队发布了110亿参数的AI基础世界模型Genie。 仅用一张图片,便可产生一个交互式世界,生成的世界「动作可控」,用户可以其中逐帧行动。 谷歌表示,Genie开启了「图/文生成互动世界」的时代,也将成为实现通用AI Agent的催化剂。
平安证券表示,OpenAI、Google相继发布多模态大模型Sora、Genie,AGI浪潮或将加速到来。
报道说,2月28日,阿里巴巴智能计算研究所发表了一款全新的生成式AI模型EMO(Emote Portrait Alive)。 EMO只需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容「张嘴」唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。
报道指出,EMO为多模态领域的视频AI带来新玩法。 不同于文生视频模型Sora,EMO主攻图+音频生成视频的方向:输入单张照片+任意语速的人声音频,EMO即可自动产生具有丰富面部表情和头部姿势的声音肖像影片。点击下面文字可快速查看或发布对应的便民信息!纽约情报站让您的生活变的更简单
:hug:房屋出租 :hug:家庭旅馆:hug:电召车 :hug:顺风拼车:hug:汽车买卖 :hug:便捷搬家:hug:招聘求职 :hug:店铺转让:hug:房屋出售 :hug:商家黄页简介:纽约情报站是汇集全美75万粉丝的公众平台。除了实时新闻、找工招工信息发布、app社区互动,更有微信公众号推文探店等。如果你投稿、爆料、活动策划、商务合作,或者想邀请我们去探店,请联系主编微信: nyinfor


页: [1]
查看完整版本: 图片一键变影片 腾讯联合2大学推出Follow-Your-Click