今日,来自纽约大学的团队在《科学》(Science)杂志发表论文,展示如何让AI模型从一个婴儿的角度去学习。研究团队在头戴摄像头视频上训练了一个神经网络CVCL,该网络捕获了来自澳大利亚的婴儿Sam从6个月到25个月大所看见的片段,他每周佩戴摄像机2小时,约占其清醒时间的1%左右。研究团队根据Sam的视频建立了SAYCam-S数据集,从中选取了61个小时的录像,包括60万张视频帧和3.75万段经过转写的录音,记录了大约25万个单词实例以及对应的图像。研究发现,即使数据有限,AI模型也能从数十个到数百个示例中获取单词到视觉之间的映射,而且能够将零样本泛化到新的视觉数据集,并实现多模态对齐。
论文地址:
https://www.science.org/doi/10.1126/science.adi1374
本文地址:https://www.163264.com/6336