返回周报列表

🗓 arXiv 论文周选 (2026-W10)

更新时间:2026-03-08

📚 学科:cs.* (计算机科学)

本周亮点:本周五项高质量成果(CVPR/ICLR)展现了多模态技术的全面进步。FaceCam 实现了人像视频的可定制摄像机控制;LSP 调度器 将扩散语言模型的推理速度提升 3.4 倍;NaiLIA 革新了美甲设计检索;LWAIL 仅需极少专家演示即可实现模仿学习;SAIL 在弱监督视频描述任务上达到业界领先水平。

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

分数:6 📄 论文链接 🏆 CVPR 2026

针对单目人像视频提出可定制的摄像机轨迹控制系统,通过尺度感知摄像机变换表示,无需 3D 先验即可提供确定性约束,在摄像机可控性、视觉质量和身份保持方面达到领先水平。

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

分数:6 📄 论文链接 🏆 ICLR 2026

提出"最长稳定前缀"(LSP)调度器,通过动态识别连续稳定预测块并进行原子提交,将扩散语言模型的推理速度提升达 3.4 倍,同时大幅减少令牌翻转率。

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

分数:6 📄 论文链接 🏆 多模态检索

提出能同时对齐详细文字描述与连续颜色偏好的多模态检索方法,引入基于置信度分数的松弛损失函数,在 1 万多张图像数据集上表现显著优于标准方法。

Latent Wasserstein Adversarial Imitation Learning

分数:6 📄 论文链接 🏆 模仿学习

在动力学感知的潜空间中计算 Wasserstein 距离,仅通过状态分布匹配进行学习,使策略仅需极少数甚至单个专家的状态序列即可达到专家级性能。

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

分数:6 📄 论文链接 🏆 视频描述

通过跨模态对齐构建语义感知掩码,并引入基于 LLM 的增强策略生成合成描述,在 ActivityNet Captions 和 YouCook2 数据集上的描述准确度和定位精度均达到业界领先。

📚 学科:eess.* & math.* (电气工程与数学)

本周亮点:电气工程领域聚焦自动驾驶测试框架创新,数字孪生驱动的中央计算平台 解决了 E/E 架构演进中的验证难题。数学领域在计算几何取得重要突破,ETH-Tight 算法 彻底解决了莫尔斯匹配问题在有限宽度复形上的复杂性边界问题。

From Code to Road: A Vehicle-in-the-Loop and Digital Twin-Based Framework for Central Car Server Testing in Autonomous Driving

分数:3 📄 论文链接 🏆 自动驾驶测试

提出基于车辆在环(ViL)和数字孪生技术的中央车控服务器测试框架,将动力计上的实体测试车与仿真环境中的虚拟孪生体同步耦合,为验证中心化架构下的自动驾驶算法提供安全、可重复且具成本效益的平台。

ETH-Tight Complexity of Optimal Morse Matching on Bounded-Treewidth Complexes

分数:3 📄 论文链接 🏆 计算几何

针对任何有限正则 CW 复形提出新的 $2^{O(k \log k)} n$ 时间复杂度算法,并证明除非指数时间假设(ETH)失效,否则不存在更优复杂度的算法,彻底解决了该问题对参数$k$的确切依赖性这一长期悬而未决的问题。

📚 学科:q-bio.* (定量生物学)

本周亮点:DNA 基础模型迎来重要演进。D3LM 通过引入离散扩散机制,打破了以往模型在"理解"与"生成"任务之间的隔阂,在双向调控关系的建模上展现了超越自回归模型的潜力,为统一 DNA 基础模型提供了极具前景的扩散范式。

D3LM: A Discrete DNA Diffusion Language Model for Bidirectional DNA Understanding and Generation

分数:3 📄 论文链接 🏆 DNA 基础模型

通过掩码扩散机制统一了双向表示学习与 DNA 生成,在相同规模下,D3LM 在理解任务上优于 Nucleotide Transformer v2;在监管元件生成任务中,SFID 分数为 10.92,远优于自回归模型的 29.16。

📚 学科:astro-ph.* (天体物理学)

本周亮点:观测工具与精细化研究双管齐下。AstroInspect Web 系统整合多源巡天数据,助力天体分类与编目精炼;VLT-ESPRESSO 以 8 倍标准差置信度在土卫六大气中检测到$C_3$分子,展现了地基观测技术的不断精进。

AstroInspect: a web-based system to organize, assess, and visually inspect astronomical objects

分数:4 📄 论文链接 🏆 天文观测工具

集成 SDSS、LS 和 S-PLUS 等多源数据的 Web 端系统,用户只需上传天体坐标,系统即可实时丰富其影像、光谱和光度信息,已用于在 Hydra I 星系团方向识别出 80 个确定的 Hα发射线星系。

Detection of C3 in Titan with VLT-ESPRESSO

分数:3 📄 论文链接 🏆 土卫六研究

利用甚大望远镜(VLT)的 ESPRESSO 仪器,在 405 纳米波段以 8 倍标准差的置信度检测到了$C_3$分子的吸收带,这是目前对土卫六最高光谱分辨率的光学观测。

📚 学科:stat.* (统计学)

本周亮点:聚焦模型可解释性研究。ViT 层间分析 揭示了预训练视觉 Transformer 中间层的表征能力,发现不同分布偏移下最优探测策略,为提升模型泛化性能提供了理论指导。

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

分数:6 📄 论文链接 🏆 模型可解释性

对预训练视觉 Transformer(ViT)进行全面分析,发现在强分布偏移下,探测前馈网络(FFN)的激活效果最好;而当偏移较弱时,多头自注意力(MHSA)的归一化输出则是最优选择。

📚 学科:econ.* (经济学)

本周亮点:呈现强烈的"后疫情时代"交叉学科特征。Long COVID 交叉性分析 揭示了不同族群、性别及职业群体的健康差异;企业补贴政策研究 从"再生产正义"视角审视了社会公平的深层影响。

An Intersectional Analysis of Long COVID Prevalence

分数:3 📄 论文链接 🏆 健康经济学

利用美国 2022-2023 年住户脉搏调查(HPS)数据,对长期新冠患病率进行交叉性分析,揭示女性、少数族裔、性少数群体及无大学学位群体受影响更严重,呼吁加强社会安全网减少健康差距。

Who Benefits? Employer Subsidization of Reproductive Healthcare and Implications for Reproductive Justice

分数:3 📄 论文链接 🏆 劳动经济学

探讨罗诉韦德案被推翻后雇主提供堕旅费报销福利的动机,指出这种资助虽有助于女性根据工作规划生育,但并未真正促进再生产正义,反而强化了激励女性推迟生育的现有结构并加剧经济不平等。