Generalization in LLM Problem Solving: The Case of the Shortest Path
研究表明,语言模型在最短路径问题上表现出强大的空间迁移能力,但在长度扩展上由于递归不稳定性而失败。
Yao Tong, Jiayuan Ye, Anastasia Borovykh 等
研究表明,语言模型在最短路径问题上表现出强大的空间迁移能力,但在长度扩展上由于递归不稳定性而失败。
Yao Tong, Jiayuan Ye, Anastasia Borovykh 等
使用一致性分析和保形预测集诊断LLM评判可靠性,揭示33%-67%文档存在至少一个3-循环。
Manan Gupta, Dhruv Kumar
Muon优化器在MLP表格深度学习中表现优于AdamW,适合在可接受的训练效率下使用。
Yury Gorishniy, Ivan Rubachev, Dmitrii Feoktistov 等
研究揭示LLMs和VLMs在无视觉信息下理解视点旋转的困难,提出VRUBench数据集并通过选择性微调提升性能。
Zhen Yang, Ping Jian, Zhongbin Guo 等
ASTRA方法通过自预测抽象实现了在抽象模拟器中训练的策略成功转移到真实世界。
Yunfu Deng, Yuhao Li, Josiah P. Hanna
使用截断正交多项式核的SVM结构可解释性分析揭示模型复杂性。
Víctor Soto-Larrosa, Nuria Torrado, Edmundo J. Huertas
提出多阶段上下文丰富策略,改善视觉语言模型在人类情感识别中的表现。
Madhav Agarwal, Sotirios A. Tsaftaris, Laura Sevilla-Lara 等
Prism通过sGraph实现张量程序的符号超优化,提升性能达2.2倍。
Mengdi Wu, Xiaoyu Jiang, Oded Padon 等
SegWithU利用扰动能量进行单次前向传递的不确定性建模,实现医学图像分割的风险感知。
Tianhao Fu, Austin Wang, Charles Chen 等
通过固定点框架分析循环Transformer的稳定性和泛化能力,验证在国际象棋、数独和前缀和任务上的性能。
Asher Labovich
SpecGuard通过内部信号进行逐步验证,提高多步骤推理的效率和准确性。
Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal
提出了一种结合不确定性估计和OOD检测的视觉人机协作框架,显著提高了安全性。
Jakob Thumm, Marian Frei, Tianle Ni 等
HiST-AT通过层次化时空动作标记器在机器人模仿学习中实现59%的成功率。
Fawad Javed Fateh, Ali Shah Ali, Murad Popattia 等
引入IRS框架,通过不一致-解决监督提升多模态幽默理解,72B模型在NYCC上接近专家水平。
Hatice Merve Vural, Doga Kukul, Ege Erdem Ozlu 等
MADE基准测试通过不确定性量化提升多标签文本分类精度,特别是在医疗设备不良事件中。
Raunak Agarwal, Markus Wenzel, Simon Baur 等
通过政策引导的混合仿真框架,PGHS在美团上实现了8.80%的群体仿真误差。
Ziyang Chen, Renbing Chen, Daowei Li 等
提出双姿态图语义定位方法,在TII-RATM数据集上将ATE减少56%至74%。
David Perez-Saura, Miguel Fernandez-Cortizas, Alvaro J. Gaona 等
LLMs在翻译中生成过多内容,提出检测策略以提高翻译质量。
Lisa Vasileva, Karin Sim
通过模拟小鼠皮层神经发生过程,生成85个神经元的最小神经回路,经过一次训练在MNIST上准确率超90%。
Duan Zhou
通过切片势函数实现的摊销最优传输方法,提升了多对测度间的OT计划预测效率。
Minh-Phuc Truong, Khai Nguyen