返回周报列表

🗓 arXiv论文周选 (2026-W11)

更新时间: 2026-03-15

📚 学科: cs.* (计算机科学)

本周概览:本周 cs 领域高质量论文集中在 CVPR 2026 的入选作品中。研究热点聚焦于"效率"与"通用性":包括提升视觉自动回归模型效率的自适应分词技术(EVATok)、通过"预测性注视"大幅减少长视频冗余的 AutoGaze,以及旨在统一生成与分类任务的 Token 压缩框架。此外,具身智能(Robotics)方面的 SaPaVe 框架展示了视觉-语言-动作模型在复杂操控中的最新突破。

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

分数: 7 📄 论文链接 🏆 Accepted to CVPR 2026

主动感知和操作对于机器人与复杂场景的交互至关重要。现有方法难以将语义驱动的主动感知与鲁棒的、视点无关的执行统一起来。我们提出了 SaPaVe,这是一个端到端框架,能够以数据高效的方式共同学习这些能力。我们的方法将相机动作和操纵动作解耦,而非置于共享动作空间中,并采用自下而上的训练策略:首先在大规模数据集上训练语义相机控制,然后使用混合数据共同优化两种动作类型。为了支持该框架,我们引入了 ActiveViewPose-200K(包含 20k 图像-语言-相机运动对的数据集)和一个 3D 几何感知模块。实验表明,SaPaVe 在真实世界任务中的成功率比 GR00T N1 和 π0 高出 31.25%。

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

分数: 6 📄 论文链接 🏆 Accepted by CVPR 2026

自回归视频生成模型依赖于将像素压缩为离散 Token 序列的标记器。传统标记器对不同视频段应用统一的 Token 分配,导致在静态段浪费资源而在动态段表现不足。我们引入了 EVATok,这是一个高效视频自适应标记器框架。它能估计每个视频的最佳 Token 分配,开发轻量级路由进行快速预测,并训练自适应标记器。结果显示,与 SOTA 模型 LARP 相比,EVATok 在保持甚至提升重建质量的同时,平均节省了 24.4% 的 Token 使用量。

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

分数: 5 📄 论文链接 🏆 CVPR 2026

多模态大模型(MLLM)在处理长视频或高分辨率视频时,由于对每个像素平等处理,存在巨大的时空冗余。我们引入了 AutoGaze,一个在 ViT 或 MLLM 处理前移除冗余 Patch 的轻量级模块。通过自回归方式,AutoGaze 仅选择极少数多尺度 Patch 即可重建视频信息。实验表明,该方法将视觉 Token 减少了 4-100 倍,模型加速高达 19 倍,使 MLLM 处理 1000 帧 4K 视频成为可能,并在 VideoMME 等基准测试中表现卓越。

BiGain: Unified Token Compression for Joint Generation and Classification

分数: 4 📄 论文链接 🏆 CVPR 2026

扩散模型的加速方法通常只关注合成质量而忽略了判别能力。我们提出了 BiGain,这是一个无需训练、即插即用的框架,在压缩 Token 加速模型的同时,提升了扩散模型的分类性能。其核心洞察是"频率分离":通过拉普拉斯门控 Token 合并(保留高频边缘)和插值-外推 KV 下采样,使模型在加速部署时能兼顾生成保真度与判别效用。在 ImageNet-1K 上,BiGain 在加速的同时将分类准确率提升了 7.15%。

📚 学科: eess.* (电气工程与系统科学)

本周概览:本周入选论文聚焦于计算光学与图像恢复的底层突破。UniCAC 填补了相机像差校正领域缺乏通用基准的空白,这对于移动设备摄影质量的跨硬件移植具有里程碑意义。该研究不仅提供了大规模数据集,还深入探讨了影响校正性能的关键网络架构因素。

Towards Universal Computational Aberration Correction in Photographic Cameras: A Comprehensive Benchmark Analysis

分数: 7 📄 论文链接 🏆 Accepted to CVPR 2026

现有的计算像差校正(CAC)方法通常针对特定光学系统定制,导致泛化性差且重训练成本高。本文提出了 UniCAC,这是一个通过自动光学设计构建的大规模摄影相机基准,旨在实现跨镜头通用性。我们引入了光学退化评估器(ODE)来客观量化 CAC 任务难度,并对比评估了 24 种算法。研究识别出先验利用、网络架构和训练策略是影响性能的核心因素。该工作为未来通用的镜头像差修复奠定了基础。

📚 学科: q-bio.* (定量生物学)

本周概览:本周推荐了一篇关于蛋白质工程与预训练模型结合的深度研究。该研究不仅关注模型本身的架构,更从"采样方法"这一被忽视的角度切入,通过湿实验验证了采样策略对生物特性优化的关键影响,对于计算生物学从业者具有极高的实操参考价值。

How to make the most of your masked language model for protein engineering

分数: 6 📄 论文链接 🏆 Accepted into the GEM Workshop, ICLR 2026

近年来出现了大量蛋白质语言模型,但关于如何通过采样优化生物特性的研究相对较少。我们提出了一种针对掩码语言模型(MLM)的灵活采样方法,并在抗体治疗活动中进行了系统的体外(In vitro)评估。我们提出利用随机束搜索(Stochastic Beam Search)进行采样,并证明采样方法的选择与模型本身的选择同样重要。本研究填补了蛋白质序列生成引导策略的空白,并提供了详尽的实验数据。

📚 学科: stat.* (统计学)

本周概览:本周重点关注零样本(Zero-Shot)文本理解的基准测试。随着 LLM 和检索重排序模型的爆发,如何公平评价它们的零样本分类能力成为统计与机器学习领域的难题。BTZSC 提供的全面对比为模型选择提供了清晰的效能/成本参考。

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

分数: 3 📄 论文链接 🏆 Accepted at ICLR 2026

零样本文本分类(ZSC)通过将文本与标签描述直接匹配,消除了标注成本。我们引入了 BTZSC,这是一个包含 22 个公共数据集的全面基准,涵盖情感、主题、意图等多个维度。我们对 NLI 交叉编码器、嵌入模型、重排序器和指令微调 LLM 进行了系统对比。结果显示:Qwen3-Reranker-8B 等现代重排序器达到了 SOTA 水平(F1=0.72);而嵌入模型在精度和延迟之间取得了最佳平衡;随着模型规模增加,重排序器和 LLM 受益明显,而 NLI 模型则进入瓶颈期。

📚 学科: astro-ph.* (天体物理)

本周概览:本周天体物理领域侧重于多波段观测与恒星形成规律的研究。特别是对邻近星系团 Norma 中冲击波的探测,揭示了星系碰撞如何剧烈改写星际介质的演化逻辑,是高能天体物理研究中的优质案例。

The shocking features in the closest rich galaxy cluster Norma

分数: 3 📄 论文链接 🏆 Published on ApJ

星系团碰撞产生的合并冲击波会提升星系团内介质的压力,影响星系演化。我们利用 XMM-Newton 和 Chandra 数据,在距离我们最近的富星系团 Norma(A3627)西北侧探测到了一个马赫数约为 1.3 的冲击波。研究发现,著名的冲压压力剥离(RPS)星系 ESO 137-001 位于激波后方区域,激波显著增强了其剥离效应,并可能诱导形成了目前已知最亮的 X 射线尾迹。此外,激波还将射电星系的喷流茧卷成了类似"烟圈"的涡环结构。