GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题
新智元报道编辑:LRST【新智元导读】多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度 ......
AAAI 2025 | IML领域首个稀疏化视觉Transformer,代码已开源
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyun ......
斑马技术“押宝”三大技术:AI、视觉、机器人
IT时报记者 孙妍 8月7日,斑马技术在北京举办2024斑马技术华北区新品发布会暨代理商大会,发布了两款4英寸桌面入门级打印机ZD888TA热转打印机和ZD888DA热敏打印机,并聚焦讨论中国市场的技术发展趋势。斑马技术押宝的三大技术是AI、视觉、机器人,未来将逐步...
Meta发布Sapiens视觉模型,让 AI 分析和理解图片/视频中人类动作
IT之家 8 月 24 日消息,Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。 这些模型的参数数量各不相同,从 3 亿到 20 亿不等。它们采用视觉转换器架...