Where Do Vision-Language Models Fail? World Scale Analysis for Image Geolocalization
本研究系统评估了多种视觉语言模型在国家级图像地理定位中的表现,揭示了其在捕捉细粒度地理线索方面的局限性。
Siddhant Bharadwaj, Ashish Vashist, Fahimul Aleem 等
本研究系统评估了多种视觉语言模型在国家级图像地理定位中的表现,揭示了其在捕捉细粒度地理线索方面的局限性。
Siddhant Bharadwaj, Ashish Vashist, Fahimul Aleem 等
HILBERT框架通过双重对比学习和信息均衡正则化,在长序列音频-文本表示学习中实现了显著性能提升。
Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
使用梯度指纹检测和抑制奖励欺骗行为,在数学、代码和逻辑推理基准上表现优异。
Songtao Wang, Quang Hieu Pham, Fangcong Yin 等
BAGEL基准测试评估语言模型在动物知识上的表现,使用闭卷问答对动物分类、形态等进行测试。
Jiacheng Shen, Masato Hagiwara, Milad Alizadeh 等
CollideNet通过分解时序模式实现多尺度视频表示学习,显著提升碰撞时间预测精度。
Nishq Poorav Desai, Ali Etemad, Michael Greenspan
Kometo算法在多保真优化中无需已知平滑度和保真度假设,提升了学习速率。
Come Fiegel, Victor Gabillon, Michal Valko
提出了一种基于YOLOv8n和RexNet-150的两阶段深度学习框架,实现了95%的作弊检测准确率。
Van-Truong Le, Le-Khanh Nguyen, Trong-Doanh Nguyen
DENALI数据集利用低成本LiDAR实现非视距空间推理,涵盖72,000个场景。
Nikhil Behari, Diego Rivero, Luke Apostolides 等
原型锚定概念模型(PGCMs)通过视觉原型验证概念对齐,提升解释性。
Stefano Colamonaco, David Debot, Pietro Barbiero 等
结合卷积和延迟学习的递归脉冲神经网络在音频分类任务中实现了52倍推理加速和99%参数节省。
Lúcio Folly Sanches Zebendo, Eleonora Cicciarella, Michele Rossi
SENSE利用立体视觉和视觉语言模型提升开放词汇语义分割,在PhraseStereo上提高2.9%精度。
Thomas Campagnolo, Ezio Malis, Philippe Martinet 等
提出了一种多无人机检查任务的机队规模确定规则,确保任务成功率达99.8%,即使在最苛刻条件下也仅需增加四架无人机。
Vishal Ramesh, Antony Thomas
DTEA实现实时切换SEA和PEA拓扑,切换时间小于33.33毫秒。
Vishal Ramesh, Aman Singh, Shishir Kolathaya
提出环境自适应固态LiDAR惯性里程计,平均RMSE降低12.8%。
Zhi Zhang, Chalermchon Satirapod, Bingtao Ma 等
在模块化机器人中,拉马克进化在单一任务优化中优于达尔文进化,但在形态多样性压力下表现下降。
Jed R Muff, Karine Miras, A. E. Eiben
使用尖峰神经网络进行电源转换器健康监测的神经形态参数估计,能耗降低约270倍。
Hyeongmeen Baik, Hamed Poursiami, Maryam Parsa 等
自蒸馏方法减少微调导致的幻觉,将事实遗忘率从15%降至3%。
Guy Kaplan, Zorik Gekhman, Zhen Zhu 等
Bi-CMPStereo框架在事件-帧非对称立体匹配中显著提高了准确性和泛化性。
Ninghui Xu, Fabio Tosi, Lihui Wang 等
MM-WebAgent通过分层规划和自反思生成一致的多模态网页,提升了布局和风格一致性。
Yan Li, Zezi Zeng, Yifan Yang 等
RAD-2通过生成器-判别器框架将强化学习扩展到自动驾驶中,降低56%碰撞率。
Hao Gao, Shaoyu Chen, Yifan Zhu 等