横跨6种模态 Meta开源AI模型ImageBind 为虚拟世界打开大门 世界即时看
当地时间5月9日,Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind,包括视觉(图像和视频形式)、温度(红外图像)、文本、音频、深度信息、运动读数(由惯性测量单元或IMU产生)。目前,相关源代码已托管至GitHub。
【资料图】
何为横跨6种模态?
即以视觉为核心,ImageBind可做到6个模态之间任意的理解和转换。Meta展示了一些案例,如听到狗叫画出一只狗,同时给出对应的深度图和文字描述;如输入鸟的图像+海浪的声音,得到鸟在海边的图像。
而此前的多模态AI模型一般只支持一个或两个模态,且不同模态之间难以进行互动和检索。ImageBind无疑具有突破性意义,Meta称,ImageBind是第一个能够同时处理6种感官数据的AI模型,也是第一个在没有明确监督的情况下学习一个单一嵌入空间的AI模型。
ImageBind能做到这些,核心方法是把所有模态的数据放入统一的联合嵌入空间,无需使用每种不同模态组合对数据进行训练
先利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频 - 音频和图像 - 深度数据,来学习一个联合嵌入空间。
而以图像/视频为中心训练好AI后,对于原始数据中没有直接联系的模态,比如语音和热量,ImageBind表现出涌现能力,把他们自发联系起来。
有行业观察者已经迫不及待地将ImageBind于元宇宙联系在一起。
正如Meta的研究团队所说,ImageBind为设计和体验身临其境的虚拟世界打开了大门。该团队还表示,未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号,进一步探索多模态大模型的可能性,“人类可使用多种感官学习、了解世界,借助ImageBin,机器离人类又近了一步”。
值得注意的是,Meta还表示,ImageBind可以利用DINOv2强大的视觉功能进一步提高其能力。DINOv2是Meta开源的计算机视觉领域的预训练大模型,同样与Meta的元宇宙愿景密不可分,Meta CEO扎克伯格此前强调,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。
尽管ImageBind目前只是研究项目,没有直接的消费者用户或实际应用。但可以想象的是,随着ImageBind模型逐步完善,AI应用场景将进一步拓展,元宇宙建设也将更进一步。
比如当ImageBind融入虚拟现实设备,使用者能获得更沉浸式的体验,玩家进入游戏后不仅能感受游戏场景的温度,还能感知物理层面上运动。
国盛证券分析师刘高畅此前大胆预测,1-5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
(文章来源:科创板日报)
关键词:
相关阅读
-
横跨6种模态 Meta开源AI模型ImageBind...
当地时间5月9日,Meta宣布开源了一种可以将可以横跨6种不同模态的全... -
《寻巴觅賨——宣汉罗家坝出土文物选粹...
《寻巴觅賨——宣汉罗家坝出土文物选粹》出版 -
天天热消息:图片新闻丨共同扛起保护湿...
5月7日,河南省鹤壁市淇滨区检察院联合市公安局森林警察支队、淇滨区... -
每日头条!杭州富阳区小微企业工会经费返...
为贯彻落实《中华全国总工会办公厅关于继续实施小微企业工会经费支... -
2023北京市大兴区第一批事业单位招聘笔...
根据北京市大兴区2023年第一批事业单位公开招聘整体工作安排,目前... -
全市涉农产品注册商标2.2万余个!青岛抢...
5月8日,伴随青岛2023樱桃节暨第28届北宅樱桃节开幕,由崂山区推出...
精彩放送
-
横跨6种模态 Meta开源AI模型ImageBind...
当地时间5月9日,Meta宣布开源了一种可以将可以横跨6种不同模态的全... -
《寻巴觅賨——宣汉罗家坝出土文物选粹...
《寻巴觅賨——宣汉罗家坝出土文物选粹》出版 -
天天热消息:图片新闻丨共同扛起保护湿...
5月7日,河南省鹤壁市淇滨区检察院联合市公安局森林警察支队、淇滨区... -
每日头条!杭州富阳区小微企业工会经费返...
为贯彻落实《中华全国总工会办公厅关于继续实施小微企业工会经费支... -
2023北京市大兴区第一批事业单位招聘笔...
根据北京市大兴区2023年第一批事业单位公开招聘整体工作安排,目前... -
全市涉农产品注册商标2.2万余个!青岛抢...
5月8日,伴随青岛2023樱桃节暨第28届北宅樱桃节开幕,由崂山区推出... -
世界热消息:1至4月全国铁路完成固定资...
(记者佟明彪)中国国家铁路集团有限公司(以下简称国铁集团)发布... -
亿嘉和新设智能科技子公司 环球焦点
北京商报讯(记者陶凤王柱力)5月10日,北京商报记者获悉,亿嘉和(... -
简述什么是知识_知识是什么简介介绍
知识是符合文明方向的,人类对物质世界以及精神世界探索的结果总和... -
杭州西溪湿地景点介绍|环球速讯
杭州西溪湿地景点介绍西溪国家湿地公园位于杭州城市西部,离杭州主...