Paper 解读 - Arxiv 论文中文解读平台

cs.AI 2604.15306

Generalization in LLM Problem Solving: The Case of the Shortest Path

研究表明，语言模型在最短路径问题上表现出强大的空间迁移能力，但在长度扩展上由于递归不稳定性而失败。

Yao Tong, Jiayuan Ye, Anastasia Borovykh 等

2026-04-17 60

cs.AI 2604.15302

Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations

使用一致性分析和保形预测集诊断LLM评判可靠性，揭示33%-67%文档存在至少一个3-循环。

Manan Gupta, Dhruv Kumar

2026-04-17 46

cs.LG 2604.15297

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Muon优化器在MLP表格深度学习中表现优于AdamW，适合在可接受的训练效率下使用。

Yury Gorishniy, Ivan Rubachev, Dmitrii Feoktistov 等

2026-04-17 42

cs.AI 2604.15294

How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study

研究揭示LLMs和VLMs在无视觉信息下理解视点旋转的困难，提出VRUBench数据集并通过选择性微调提升性能。

Zhen Yang, Ping Jian, Zhongbin Guo 等

2026-04-17 40

cs.RO 2604.15289

Abstract Sim2Real through Approximate Information States

ASTRA方法通过自预测抽象实现了在抽象模拟器中训练的策略成功转移到真实世界。

Yunfu Deng, Yuhao Li, Josiah P. Hanna

2026-04-17 44

stat.ML 2604.15285

Structural interpretability in SVMs with truncated orthogonal polynomial kernels

使用截断正交多项式核的SVM结构可解释性分析揭示模型复杂性。

Víctor Soto-Larrosa, Nuria Torrado, Edmundo J. Huertas

2026-04-17 43

cs.CV 2604.15280

Why Do Vision Language Models Struggle To Recognize Human Emotions?

提出多阶段上下文丰富策略，改善视觉语言模型在人类情感识别中的表现。

Madhav Agarwal, Sotirios A. Tsaftaris, Laura Sevilla-Lara 等

2026-04-17 40

cs.PL 2604.15272

Prism: Symbolic Superoptimization of Tensor Programs

Prism通过sGraph实现张量程序的符号超优化，提升性能达2.2倍。

Mengdi Wu, Xiaoyu Jiang, Oded Padon 等

2026-04-17 29

cs.CV 2604.15271

SegWithU: Uncertainty as Perturbation Energy for Single-Forward-Pass Risk-Aware Medical Image Segmentation

SegWithU利用扰动能量进行单次前向传递的不确定性建模，实现医学图像分割的风险感知。

Tianhao Fu, Austin Wang, Charles Chen 等

2026-04-17 37

cs.LG 2604.15259

Stability and Generalization in Looped Transformers

通过固定点框架分析循环Transformer的稳定性和泛化能力，验证在国际象棋、数独和前缀和任务上的性能。

Asher Labovich

2026-04-17 37

cs.CL 2604.15244

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

SpecGuard通过内部信号进行逐步验证，提高多步骤推理的效率和准确性。

Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal

2026-04-17 38

cs.RO 2604.15221

Vision-Based Safe Human-Robot Collaboration with Uncertainty Guarantees

提出了一种结合不确定性估计和OOD检测的视觉人机协作框架，显著提高了安全性。

Jakob Thumm, Marian Frei, Tianle Ni 等

2026-04-17 56

cs.RO 2604.15215

A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics

HiST-AT通过层次化时空动作标记器在机器人模仿学习中实现59%的成功率。

Fawad Javed Fateh, Ali Shah Ali, Murad Popattia 等

2026-04-17 42

cs.AI 2604.15210

Learning to Think Like a Cartoon Captionist: Incongruity-Resolution Supervision for Multimodal Humor Understanding

引入IRS框架，通过不一致-解决监督提升多模态幽默理解，72B模型在NYCC上接近专家水平。

Hatice Merve Vural, Doga Kukul, Ege Erdem Ozlu 等

2026-04-17 38

cs.CL 2604.15203

MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events

MADE基准测试通过不确定性量化提升多标签文本分类精度，特别是在医疗设备不良事件中。

Raunak Agarwal, Markus Wenzel, Simon Baur 等

2026-04-17 40

cs.AI 2604.15190

Meituan Merchant Business Diagnosis via Policy-Guided Dual-Process User Simulation

通过政策引导的混合仿真框架，PGHS在美团上实现了8.80%的群体仿真误差。

Ziyang Chen, Renbing Chen, Daowei Li 等

2026-04-17 41

cs.RO 2604.15168

Dual Pose-Graph Semantic Localization for Vision-Based Autonomous Drone Racing

提出双姿态图语义定位方法，在TII-RATM数据集上将ATE减少56%至74%。

David Perez-Saura, Miguel Fernandez-Cortizas, Alvaro J. Gaona 等

2026-04-16 43

cs.CL 2604.15165

Fabricator or dynamic translator?

LLMs在翻译中生成过多内容，提出检测策略以提高翻译质量。

Lisa Vasileva, Karin Sim

2026-04-16 36

cs.NE 2604.15143

Structure as Computation: Developmental Generation of Minimal Neural Circuits

通过模拟小鼠皮层神经发生过程，生成85个神经元的最小神经回路，经过一次训练在MNIST上准确率超90%。

Duan Zhou

2026-04-16 35

stat.ML 2604.15114

Amortized Optimal Transport from Sliced Potentials

通过切片势函数实现的摊销最优传输方法，提升了多对测度间的OT计划预测效率。

Minh-Phuc Truong, Khai Nguyen

2026-04-16 79