空间智能版 ImageNet 来了,来自斯坦福李飞飞吴佳俊团队!
HourVideo,一个用于评估多模态模子对长达一小时视频调和才能的基准数据集,包含多种任务。
通过与现存模子对比,揭示面前模子在长视频调和上与东说念主类水平的差距。
2009 年,李飞飞团队在 CVPR 上初次对外展示了图像识别数据集ImageNet,它的出现极大激动筹办机视觉算法的发展——懂 CV 的都是知说念这内部的门说念有多深。
面前,跟着多模态迅猛发展,团队合计"现存的视频基准测试,大多蚁合在特定领域或短视频上",况兼"这些数据集的平均视频长度较短,阻挡了对长视频调和才能的全面评估"。
于是,空间智能版 ImageNet 应时而生。
HourVideo 包含 500 个来自 Ego4D 数据集的第一东说念主称视角视频,时长在 20 到 120 分钟之间,波及 77 种日常举止。
评测扫尾暗意,东说念主类内行水平显赫优于面前长高下文多模态模子中最利害的 Gemini Pro 1.5(85.0% 对 37.3%)。
在多模态才能上,大模子们还任重而说念远。
HourVideo 如何真金不怕火成?
之是以提倡 HourVideo,是因为征询东说念主员发现面前长视频调和越来越遑急,而现存评估 benchmark 存在不及。
多模态越来越卷,东说念主们期待 AI 被赋予 autonomous agents 的访佛才能;而从东说念主类角度来看,由于东说念主类具备措置万古辰视觉措置的才能,因此能在施行视觉中感知、打算和行动。
因此,长视频调和对竣事这一方向至关遑急。
而面前的多模态评估 benchmark,主要曾经蚁合在评测单张图像或短视频片段(几秒到三分钟),对长视频调和的探索还有待开导。
弗成否定的是,AI 评估长视频调和面对诸多挑战,比喻要设想任务、幸免通过先验常识或粗略片段修起等。
因此,团队提倡HourVideo。
这是一个为长视频调和而设想的基准数据集。
为了设想出需要长久调和的任务,团队最初提倡了一个新的任务对应套件,包含回顾、感知(回忆、追踪)、视觉推理(空间、时辰、瞻望、因果、反事实)和导航(房间到房间、对象检索)任务,共 18 个子任务。
其中,回顾任务要求模子对视频中的关节事件、主要交互等进行概述性描写,举例回顾出脖子上挂了个相机的东说念主在超市中有什么关节交互举止。
感知任务由两部分组成,
一个是回忆任务,包括事实回忆(比如脖子上挂了个相机的东说念主,在超市提起的乳成品)和序列回忆(比如阿谁东说念主在超市称完西红柿事后作念了什么),以及对时辰距离的判断(比如吃了多久的披萨才扔掉盒子)。
还有一个是追踪任务,主要用来识别脖子上挂了个相机的东说念主在特定场景(比如超市、药店)中互动的独到个体。
接下来是视觉推理任务,分为空间推理和时辰推理。
空间推理负责判断物体之间的空间干系、空迤逦近度(如微波炉与雪柜或水槽比较是否更近)以及空间布局(如取舍正确形容脖子上挂相机的东说念主的公寓的布局图)。
时辰推理则包括对举止抓续时辰的比较、事件发生频率的判断、举止的先决条款、瞻望(如洗完穿戴后最可能作念的举止)、因果干系(如第二次离开车库的原因)以及反事实推理(如用烤箱作念土豆泥会如何)。
导航任务包含了房间到房间的导航、对象检索导航。
以上每个任务有经心设想的问题原型,以确保正确修起问题需要对长视频中的多个时辰片段进行信息识别和综合,从而灵验测试模子的长久调和才能。
与此同期,征询东说念主员通过 pipeline 来生成了 HourVideo 数据集。
第一步,视频筛选。
团队从 Ego4D 数据蚁合手动审核 1470 个 20 到 120 分钟的视频,让 5 位东说念主类内行取舍了其中 500 个视频,
至于为啥要从 Ego4D 中选呢,一来是其以自我为中心的视角与 autonomous agents 和助手的典型视觉输入绝顶一致;二来是它具有世俗的视觉阐发,有助于创建各样化的题;三来 Ego4D 的拜谒许可绝顶友好。
第二步,候选 MCQ 生成。
这需要在长视频中跨多个时辰片段,进行信息分析和合成。
具体来说,征询东说念主员以 20 分钟为隔断分割了视频,索要信息转机为结构化体式供大模子措置。最终一共开导了 25 个特定任务的 prompts。
第三步,LLM 优化与东说念主工反映。
在这个阶段,团队竣事了一个东说念主工反映系统,7 名教养丰富的东说念主员东说念主工评估每个问题的灵验性、谜底准确性、颠倒选项合感性。最终采集了 400 多个小时的东说念主工反映,然后设想 prompt,自动优化 MCQ ₂获取 MCQ ₃。
第四步,盲选。
这一阶段的方向是摒除不错通过大模子先验常识的问题,或者摒除那些不错在无谓视频中任何信息就不错修起的问题。
团队用两个沉寂的大模子—— GPT-4-turbo 和 GPT-4,对 MCQ ₃进行盲筛,确保剩余 MCQ ₄高质地且有意测试长视频话语调和。
第五步亦然临了一步,内行优化。
这一步是用来晋升 MCQ ₄质地,将夙昔问题精准化,经此阶段获取高质地 MCQ ₅。
4 个内行干的事 be like,把 "挂着相机的东说念主把钥匙放在那儿了?" 精准成"挂着相机的东说念主购物回家后,把自行车钥匙放在那儿了?"
如上 pipeline 中,征询图纳队使用了 GPT-4 来受命复杂的多法子指示,同期还使用了 CoT 教导计谋。
此外,pipeline 中波及大模子的所有阶段的问题被设为 0.1。
据统计,HourVideo 涵盖 77 种日常生存场景,包含 500 个 Ego4D 视频,视频时长共 381 个小时、平均时长 45.7 分钟,其中 113 个视频时长卓著 1 小时。
每个视频有约 26 个高质地五选一题,揣摸 12976 个问题。
除因果、反事实和导航任务外,问题在职务套件中均匀散播。
最佳领会仍远低于东说念主类内行水平
在实验评估方面,HourVideo 聘用五选多任务问答(MCQ) 任务,以准确率行为评估目标,永别回报每个任务以及通盘数据集的准确率。
由于驻防信息透露是评估长视频中的 MCQ 时的一个遑急挑战——理念念情况下,每个 MCQ 应沉寂评估,但这种法子筹办老本巨高,且十分耗时。
因此,实质评估中按任务或子任务对问题进行分月旦估,关于瞻望任务,提供精准的时辰戳以便对视频进行有针对性的裁剪,从而均衡筹办老本和评估准确性。
征询团队比较了不同的多模态模子在零镜头建立下调和长视频的性能。
主要评估了三类模子,所有这些模子都在一个通用函数下起初:
盲 LLM:
指是指在评估经由中,不辩论视频内容,仅依靠本人事先稽查的常识来修起问题的大型话语模子。
实验中以 GPT-4 为代表。它的存在不错揭示模子在多猛进程上依赖于其预稽查常识,而不是对视频中实质视觉信息的调和。
苏格拉底模子:
关于大大都面前的多模态模子,平直措置绝顶长的视频存在坚苦。
因此,聘用 Socratic 模子法子,将视频(总时长为 t 分钟)分割成 1 分钟的隔断,每个隔断沉寂加字幕,然后将这些字幕团聚酿成一个全面的基于话语的视频暗意,并与通用任务无关的教导一皆行为输入进行长视频问答。
实验平永别使用 GPT-4 和 LLaVA- NEXT-34-DPO 为视频字幕生成器,并最终使用 GPT-4 进行实质问题修起。
原生多模态模子:
像 Gemini 1.5 Pro 这么的原生多模态模子,在多模态数据(包括音频、视频、图像和文本)上合伙稽查,省略措置绝顶长的高下文长度 *((2M +),适合平直对 HourVideo 进行端到端评估。
为了与模子性能进行对比,实验东说念主员从基准数据蚁合考取了 14 个视频,涵盖>18 种场景,包括手工制作 / 绘图、烹调、建筑 / 装修、园艺、清洁 / 洗衣和庭院职责等。
然后邀请了3 位东说念主类内行,对上述总时长 11.2 小时的视频内容进行进行评估,共波及 213 个 MCQ。
为确保评估的公说念性,参与评估的东说念主类内行未参与过这些视频的早期留心职责。
最终,东说念主类内行在评估中的准确率达到了 85.0% 。
而盲 LLM 的准确率为 19.6%,Socratic 模子准确率略高,原生多模态模子准确率最高,达到了 37.3%,仍然远低于东说念主类内行水平。
此外,沉寂评估每个 MCQ 与按任务级别评估比较,性能下落 2.1%,但老本增多 3 倍以上,评释了任务级评估法子的遵循和灵验性。
临了,团队暗意将来打算膨胀基准测试,包括更各样化的视频起头(如体育和 YouTube 视频),纳入音频模态相沿,并探索其他感官模态。
同期强调在开导模子时需辩论诡秘、伦理等问题。
团队成员
HourVideo 名目来自斯坦福李飞飞和吴佳俊团队。
论文共消除作是 Keshigeyan Chandrasegaran 和 Agrim Gupta。
Keshigeyan Chandrasegaran是斯坦福大学筹办机科学博士二年岁学生,从事筹办机视觉和机器学习征询,导师是李飞飞和斯坦福视觉与学习实验室(SVL)合伙主任胡安 · 卡洛斯 · 尼贝莱斯。
共消除作 Agrim Gupta是斯坦福大学筹办机科学专科的博士生,2019 年秋季入学,相似是李飞飞的学生。
此前,他曾在微软、DeepMind,有 Meta 的全职资历,也在 Google 作念过兼职。2018 年时,他就奴婢李飞飞一同在 CVPR 上发表了论文。
面前,Agrim 的 Google Scholar 论文被援用量接近 6400 次。
李飞飞是公共老到的 AI 教母,AI 领域内最具影响力的女性和华东说念主之一。
她 33 岁成为斯坦福筹办机系毕生教师,44 岁成为好意思国国度工程院院士,现任斯坦福以东说念主为本东说念主工智能征询院(HAI)院长。
筹办机视觉领域标杆扫尾 ImageNet 亦是由她一手激动。
此前,李飞飞曾经须臾参加工业界,出任谷歌副总裁即谷歌云 AI 首席科学家。她一手激动了谷歌 AI 中国中心厚爱成立,这是 Google 在亚洲缔造的第一个 AI 征询中心。并领导谷歌云推出了一系列有影响力的产物,包括 AutoML、Contact Center AI、Dialogflow Enterprise 等。
本年,李飞飞文书创办空间智能公司 World Labs,公司成立不到 4 个月时辰,估值破损 10 亿好意思元。
所谓空间智能,即"视觉化为洞悉;看见成为调和;调和导致行动"。
吴佳俊,现任斯坦福大学助理教师,隶属于斯坦福视觉与学习实验室(SVL)和斯坦福东说念主工智能实验室(SAIL)。
他在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为"清华十大学神"之一。
同期,他亦然李飞飞创业公司 World Labs 的照拂人。
参考纠合:
[ 1 ] https://arxiv.org/abs/2411.04998v1
[ 2 ] https://www.worldlabs.ai/team
[ 3 ] https://keshik6.github.io/九游会J9