活水快报

用 AI 跟踪日新月异的 AI 领域进展

Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Part I: 技巧还是陷阱？LLM推理中强化学习的深度探索

强化学习(RL)在LLM推理领域的应用已迅速成为重要研究方向，相关研究在算法创新和实际应用方面均呈现显著增长。尽管取得进展，该领域仍存在若干关键挑战：缺乏使用RL技术的标准化指南，对其底层机制的理解也较为碎片化。此外，实验设置不一致、训练数据差异以及模型初始化不同等问题导致研究结论相互矛盾，既模糊了这些技术的核心特征，也使从业者在选择合适技术时产生困惑。本文通过严格复现和统一开源框架下的隔离评估，系统回顾了广泛采用的RL技术。我们通过细粒度实验（包括不同难度数据集、模型规模和架构）分析了各项技术的内部机制、适用场景和核心原理。基于这些发现，我们提出了针对特定配置选择RL技术的清晰指南，为LLM领域的强化学习实践者提供了可靠路线图。最后，我们发现两种技术的最小化组合可以通过原始PPO损失实现无评判器策略的学习能力。实验结果表明，我们的简单组合能持续提升性能，超越GRPO和DAPO等策略。

机器学习计算与语言

Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

Stand-In：一种轻量级即插即用的视频生成身份控制方法

在生成式AI领域，生成与用户指定身份匹配的高保真人视频既重要又具有挑战性。现有方法通常依赖过多的训练参数，且缺乏与其他AIGC工具的兼容性。本文提出Stand-In，一种用于视频生成中身份保持的轻量级即插即用框架。具体而言，我们在预训练视频生成模型中引入了一个条件图像分支。通过带有条件位置映射的限制性self-attention实现身份控制，并且仅需2000对样本即可快速学习。尽管仅包含和训练约1

计算机视觉与模式识别

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

自进化AI智能体全面综述：连接基础模型与终身智能体系统的新范式

大语言模型(LLM)的最新进展引发了人们对能够解决复杂现实任务AI智能体的日益关注。然而，现有大多数智能体系统依赖于人工设计的静态配置，限制了其适应动态演化环境的能力。为此，近期研究探索了基于交互数据和环境反馈自动增强智能体系统的进化技术。这一新兴方向为自进化AI智能体奠定了基础，它在基础模型的静态能力与终身智能体系统所需的持续适应性之间架起了桥梁。本综述系统回顾了现有自进化智能体系统的技术。具体而言，我们首先提出了统一概念框架，抽象出自进化智能体系统设计背后的反馈循环。该框架强调四个关键组件：系统输入、智能体系统、环境和优化器，为理解和比较不同策略奠定了基础。基于此框架，我们系统性地回顾了针对智能体系统不同组件的各类自进化技术。我们还研究了为生物医学、编程和金融等专业领域开发的特定领域进化策略，其中优化目标与领域约束紧密耦合。此外，我们专门讨论了自进化智能体系统的评估、安全性和伦理考量，这对确保其有效性和可靠性至关重要。本综述旨在为研究人员和实践者提供对自进化AI智能体的系统性理解，为开发更具适应性、自主性和终身性的智能体系统奠定基础。

人工智能计算与语言多智能体系统

Large Language Models Do Not Simulate Human Psychology

大语言模型并不能模拟人类心理

大语言模型(LLM)，如ChatGPT，正越来越多地应用于从简单的写作辅助到复杂的数据标注任务等各种研究中。最近有研究表明，LLM甚至可能模拟人类心理，从而可以在心理学研究中替代人类受试者。我们对此方法提出警示。我们首先提供了反对"LLM能模拟人类心理"这一假设的理论依据，然后通过实证证据说明：即使是针对心理反应特别微调的最新CENTAUR模型，当遇到语义重大变化但措辞细微改变的提问时，LLM的反应与人类反应仍存在显著差异。此外，不同LLM对新项目的反应差异很大，进一步证明了它们的不可靠性。我们的结论是LLM并不能模拟人类心理，建议心理学研究者应将LLM视为有用但本质上不可靠的工具，在每个新应用中都需要以人类反应为基准进行验证。

人工智能

OpenCUA: Open Foundations for Computer-Use Agents

OpenCUA：计算机使用代理的开放基础

视觉语言模型已展现出作为计算机使用代理(CUAs)的卓越能力，能够自动化执行多样化的计算机任务。随着其商业潜力增长，最强大CUA系统的关键细节仍处于封闭状态。由于这些代理将日益中介化数字交互并代表我们执行重要决策，研究界需要开放的CUA框架来研究其能力、局限性和风险。为弥补这一缺口，我们提出OpenCUA——一个用于扩展CUA数据和基础模型的综合性开源框架。我们的框架包含：(1) 无缝捕获人类计算机使用演示的标注基础设施；(2) AgentNet——首个跨3个操作系统和200余个应用程序及网站的大规模计算机使用任务数据集；(3) 可扩展的流水线，能将演示转化为具有反思性的长思维链推理的状态-动作对，随着数据规模扩大持续获得稳健性能提升。我们的端到端代理模型在CUA基准测试中展现出强劲性能，其中OpenCUA-32B平均成功率达到34.8。

人工智能计算机视觉与模式识别

最新研究

将本体和约束拟合到关系结构

我们研究了将本体和约束拟合到以有限关系结构形式呈现的正负示例的问题。作为本体和约束语言，我们考虑了描述逻辑 ℰ-2𝓂𝓊 ℒ 和 ℰ-2𝓂𝓊 ℒℐ，以及几类元组生成依赖（TGDs）：完全TGDs、守卫TGDs、边界守卫TGDs、边界一TGDs、无限制TGDs以及包含依赖。我们精确指出了计算复杂性，设计了算法，并分析了拟合本体和TGDs的大小。我们还研究了为给定的一组有限结构构建概念包含/TGDs的有限基的相关问题。虽然对于 ℰ-2𝓂𝓊 ℒ、ℰ-2𝓂𝓊 ℒℐ、守卫TGDs和包含依赖存在有限基，但对于完全TGDs、边界守卫TGDs和边界一TGDs，它们通常不存在。

人工智能数据库

arXiv

变换高斯随机场的量子采样与矩估计

我们提出了一种量子算法，用于在d维域上高效采样变换高斯随机场，该方法基于经典移动平均方法的增强版本。强制有界性的逐点变换对于在量子计算中使用高斯随机场至关重要，并且自然出现，例如在表示偏微分方程中微观结构的系数场建模中。直接在量子设备上从其少量统计参数生成这种微观结构，绕过了输入瓶颈。我们的方法能够高效地量子表示所得到的随机场，并在时间𝒪(polylog𝚝𝚘𝚕^-1)内准备一个近似精度𝚝𝚘𝚕 > 0的量子态。结合振幅估计和量子伪随机数生成器，这导致了估计线性和非线性可观测量（包括混合和高阶矩）的算法，总复杂度为𝒪(𝚝𝚘𝚕^-1polylog𝚝𝚘𝚕^-1)。我们通过在模拟量子硬件上的数值实验来说明理论发现。

量子物理学数值分析概率论

arXiv

Besov空间傅里叶采样数的近乎最优界

令𝕋^d表示d维环面。我们考虑从目标函数f^*:𝕋^d→ℂ的傅里叶系数样本中最优恢复该函数的问题。我们对f^*做出经典的平滑性假设，具体而言，假设f^*位于Besov空间B^s_∞(L_q)中，其中s > 0且1≤ q≤∞，并在L_p范数下测量恢复误差，其中1≤ p≤∞。抽象地说，最优恢复误差由Gelfand宽度的一个"受限"版本表征，我们称之为傅里叶采样数。在对数因子范围内，我们在s/d > 1 - 1/p的范围内确定了傅里叶采样数的正确渐近性态。我们还给出了在这些情况下近乎最优的傅里叶测量和恢复算法的描述。在相反方向上，我们证明了一个新的下界，表明当q = 1且p_0 < p≤ 2（其中p_0 ≈ 1.535）时，傅里叶采样数与Gelfand宽度之间存在渐近间隙。最后，我们讨论了结果的实际意义，这些意义暗示了边缘的更锐利恢复，并提供了展示这一现象的数值结果。

泛函分析信息论数值分析

arXiv

关于n-correct和GC_n集合中2节点直线的使用

平面中的n-correct集合𝒳是一个允许使用总次数不超过n的双变量多项式进行唯一插值的节点集合。k节点直线是指恰好通过𝒳中k个节点的直线。一条直线最多可以通过n-correct集合中的n+1个节点。具有n+1个节点的直线称为最大直线（C. de Boor, 2007）。如果直线ℓ是节点A∈𝒳的基本多项式的因子，我们说节点A使用直线ℓ。设𝒳为n-correct集合。本文研究的主要问题之一是确定共享公共节点B∈𝒳的已使用2节点直线的最大可能数量。我们证明这个数量等于n。此外，如果存在n条这样的2节点直线，那么𝒳恰好包含n条不通过公共节点B的最大直线。进一步地，如果𝒳是GC_n集合，则存在一条通过B的额外最大直线。因此，在这种情况下，𝒳具有n+1条最大直线，并且是n次的Carnicer Gasca集合。需要注意的是，具有指定n条已使用2节点直线的n次Carnicer Gasca集合可以很容易地构造出来。

数值分析

arXiv

非凸势能下动力学Langevin采样器的收敛性

我们研究了三种动力学Langevin采样器，包括欧拉离散化、BU和UBU分裂方案。我们针对非凸势能提供了L^1-Wasserstein距离下的收缩结果。这些结果基于精心设计的距离函数和适当的耦合构造。此外，我们还给出了真实目标测度与离散化方案不变测度之间L^1-Wasserstein距离误差的界。为了在L^1-Wasserstein距离上达到ε精度，我们在目标测度的适当假设下，证明了欧拉方案的复杂度保证为𝒪(√(d)/ε)，UBU方案的复杂度保证为𝒪(d^1/4/√(ε))。这些结果适用于相互作用粒子系统，并为平均场类型的概率测度采样提供了界。

概率论数值分析

arXiv

分数阶Camassa-Holm方程的收敛傅里叶谱Galerkin方法

我们分析了一种用于分数阶Camassa-Holm（fCH）方程的傅里叶谱Galerkin方法，该方程涉及指数α∈[1,2]的分数阶拉普拉斯算子，并具有周期性边界条件。该半离散格式保持了fCH方程的质量和能量不变量。对于分数阶Benjamin-Bona-Mahony简化，我们建立了半离散解的存在性和唯一性，并证明了在给定T>0时，在C^1([0, T];H^α_per(I))空间中强收敛于唯一解。对于一般的fCH方程，我们证明了空间离散化的谱精度，对于初始数据u_0 ∈ H^r(I)且r ≥α + 2的情况，具有最优误差估计𝒪(N^-r)，对于光滑解则具有指数收敛性𝒪(e^-cN)。数值实验验证了孤立波的轨道稳定性，实现了最优收敛，证实了理论发现。

数值分析

arXiv

有界算术上的矩阵秩函数

在[Mulmuley, 1987]中，Mulmuley给出了一个将矩阵秩函数的计算约简为行列式计算的方法，其验证证明是初等的。在本文中，我们在有界算术LAP中形式化这一论证；即，我们证明对于具有𝔽(X)-系数的矩阵A,B，(AB)=(A)(B)蕴含rank(M)=dim(im M)，其中𝔽是该理论的域类宇宙，M是具有𝔽-系数的矩阵，rank(M)是通过Mulmuley算法计算的秩函数。进一步地，通过用𝔽=ℚ的VNC^2解释LAP，并利用[Tzameret & Cook, 2021]的结果，我们看到VNC^2可以形式化rank(M)并证明rank(M)=dim(im M)。最后，我们利用形式化的线性代数，给出了VNC^2中可证明的几个组合陈述的例子。

计算机科学中的逻辑逻辑学

arXiv

d-张量拟积及其简化表示

我们将arXiv:2503.12629中的2-张量拟积分解结果推广到d-张量，并详细阐述其简化表示。特别地，我们证明对于A ∈ C^d, f ∈Λ^α([0,1]^d)，A(f)具有近似表示Ã(f) = (∑_α=1^d A^α(P^j_1,j_2, …, j_d(f)) 𝐯̃^α(f))，其中𝐣 = (j_1, j_2, …, j_d)是固定的尺度序列，且级数∑_α=1^d A^α(P^j_1,j_2, …, j_d(f)) 𝐯̃^α(f)是A的泰勒展开。此外，我们证明算子序列(𝐯̃^1(f),𝐯̃^2(f), …, 𝐯̃^d(f))构成了由形如A(f)的线性泛函组成的子空间的基，且残差Δ(A,f) = Ã(f) - A(f) ∈Λ^2α([0,1]^d)。因此，我们可以获得Calderon-Zygmund型分解Δ(A,f)_λ + Ã(f)_λ，以及得到的拟积分解A(f) = Δ(A,f) + Ã(f)。我们的理论发现得到了d=2,3时的计算实例支持。

偏微分方程分析数值分析

arXiv

约束重构与运动规划的复杂性分析

在约束环境中协调多个智能体的运动是机器人学、运动规划和调度领域的一个基本挑战。一个激励性的例子涉及n个机械臂，每个机械臂表示为一个线段。目标是将每个机械臂旋转到其垂直方向，一次一个（顺时针或逆时针），避免碰撞且不旋转任何机械臂超过一次。这个场景是更一般的k-Compatible Ordering问题的一个例子，其中n个智能体，每个能够执行k个状态改变动作，必须在编码为k对有向图集合𝒢的约束下转换到特定的目标状态。我们证明k-Compatible Ordering是𝖭𝖯-complete的，即使当𝒢是平面的、退化的或无环的。在积极方面，我们为诸如k = 1或𝒢具有有界树宽的情况提供了多项式时间算法。我们还引入了支持每个智能体多个状态改变动作的广义变体，扩展了我们框架的适用性。这些结果适用于约束环境中广泛的调度、重构和运动规划应用。

计算复杂性离散数学数据结构与算法机器人学

arXiv

打破求积精确性：球面上Allen-Cahn方程的谱方法

我们提出了一种新颖的球面上Allen-Cahn方程谱方法，消除了对传统求积精确性条件的依赖。通过用从Marcinkiewicz-Zygmund求积系统导出的受限等距关系替代这些条件，我们的方法实现了对多项式被积函数求积误差的精确控制。这一理论进展使得可以使用比经典谱方法多得多的求积点选择，同时保持严格的误差界。所提出的方法仅需对数值解的多项式次数施加温和约束即可建立最大值原理和能量稳定性，这与依赖限制性时间步长、非线性项的Lipschitz性质或数值解的L^∞有界性的现有技术有显著不同。值得注意的是，我们的方法允许时间步长独立于扩散系数，使其适用于长时间模拟。受Li（Ann. Appl. Math., 37(2): 131–290, 2021）提出的有效最大值原理启发，我们发展了一个几乎尖锐的最大值原理，允许数值解在大时间步长下与尖锐界存在可控偏差。此外，我们证明了当求积规则达到足够精确性时，我们的方法保持能量稳定性并在数学上与Galerkin方法一致。另外，我们提出了一种能量稳定的混合求积格式，即使在随机采样的初始条件数据下也能良好工作。我们在𝕊^2上的数值实验验证了关于能量稳定性和几乎尖锐最大值原理的理论结果。

数值分析

arXiv

使用人工直觉在科学摘要的区分性简约分类中用于技术组合管理

科学摘要的分类对于战略活动很有用，但由于稀疏文本提供的上下文线索很少，自动化具有挑战性。与科学出版物相关的元数据可用于提高性能，但仍然通常需要半监督设置。此外，此类方案可能生成缺乏区分性的标签——即它们重叠，因此不能唯一地定义摘要。相比之下，专家可以轻松地标记和分类这些文本。在这里，我们描述了一个我们称之为人工直觉的过程的应用，以复制专家的方法，使用大型语言模型（LLM）生成元数据。我们使用来自美国国家科学基金会（United States National Science Foundation）的公开可用摘要创建一组标签，然后在中国国家自然科学基金（Chinese National Natural Science Foundation）的一组摘要上测试这种方法，以检查资助趋势。我们证明了这种方法在研究组合管理、技术侦察和其他战略活动中的可行性。

数字图书馆人工智能机器学习

arXiv

FutureX：面向LLM智能体未来预测的高级实时基准测试

未来预测对LLM智能体而言是一项复杂的任务，需要高水平的分析思维、信息收集、上下文理解以及在不确定性下的决策能力。智能体不仅需要收集和解释大量动态信息，还必须整合多样化数据源、权衡不确定性，并根据新兴趋势调整预测，就像人类专家在政治、经济和金融等领域所做的那样。尽管其重要性不言而喻，但目前尚无大规模基准测试用于评估智能体在未来预测方面的表现，这主要是由于处理实时更新和获取及时准确答案的挑战。为了解决这一问题，我们推出了FutureX，这是一个专门为执行未来预测任务的LLM智能体设计的动态实时评估基准。FutureX是最大且最多样化的未来预测实时基准，支持实时每日更新，并通过自动化的问题收集和答案收集流程消除了数据污染。我们评估了25个LLM/智能体模型，包括具有推理能力、搜索能力以及集成外部工具（如开源Deep Research Agent和闭源Deep Research模型）的模型。这项全面评估考察了智能体在动态环境中的自适应推理能力和性能表现。此外，我们还深入分析了智能体在面向未来的任务中的失败模式和性能缺陷，包括对虚假网页的脆弱性和时间有效性。我们的目标是建立一个动态、无污染的评估标准，推动LLM智能体在复杂推理和预测思维方面达到专业人类分析师水平的发展。

人工智能机器学习

arXiv

关于建模和解决玻尔兹曼方程

多年来,玻尔兹曼方程一直是重大数学研究背后的驱动力。其具有挑战性的理论复杂性,加上目前需要基于该模型进行数值模拟的各种科学和技术问题,证明了这种兴趣。这项工作简要介绍了与一维和二维空间维度中线性玻尔兹曼方程的解相关的研究和进展。特别是,在中子和光子传输应用中突出了模型的离散坐标近似的相关方面,包括核保障,核反应堆屏蔽问题和光学断层扫描。此外,还介绍了关于稀疏气体动力学问题的简短讨论,这些问题在微机电系统的研究中具有相关性,以及它们与线性化玻尔兹曼方程的联系。这项工作的首要目标是尽可能建立模型描述的不同现象与分析方法(ADO方法)的多功能性之间的联系,提供简洁准确的解决方案,这是数值模拟的基础。

数学物理数值分析

arXiv

MM-BrowseComp:多模态浏览剂的综合基准

具有高级推理和工具使用能力的AI代理在深度搜索的网页浏览中表现出令人印象深刻的表现。虽然现有的基准测试,如BrowseComp评估这些浏览能力,但它们主要关注文本信息,忽略了多模态内容的普及。为了弥补这一差距,我们引入了MM-BrowseComp,这是一个新颖的基准,由224个具有挑战性的手工制作的问题组成,专门用于评估代理的多模态检索和推理能力。这些问题通常将图像包含在提示中,在搜索和推理过程中遇到的关键信息也可能嵌入在网页上的图像或视频中。因此,仅仅依靠文本的方法证明不足以达到我们的基准。此外,我们还为每个问题提供了一个经过验证的清单,可以对多模态依赖关系和推理路径进行细粒度分析。我们对MM-BrowseComp上最先进的模型的全面评估表明,即使是像OpenAI o3这样的具有工具的顶级模型也只实现了29.0%的准确率,突出了当前模型中的次优多模态能力和缺乏原生多模态推理。

计算与语言人工智能计算机视觉与模式识别

arXiv

用于单细胞Omics分析的基于LLM的代理

多模态单细胞组学数据的激增暴露了传统手动定义的分析工作流程的局限性。人工智能代理提供了一个范式转变,实现自适应规划,可执行代码生成,可追溯决策和实时知识融合。然而,缺乏全面基准严重阻碍了进展。我们引入了一种新的基准评估系统,以严格评估单细胞组学分析中的代理能力。该系统包括:与各种代理框架和LLM兼容的统一平台;评估认知计划合成,协作,执行效率,生物信息学知识集成和任务完成质量的多维指标;以及50个跨越多组学,物种和测序技术的真实世界的单细胞组学分析任务。我们的评估表明,Grok-3-beta在测试的代理框架中实现了最先进的性能。多代理框架通过专门的角色划分,显著提高了单代理方法的协作和执行效率。代理能力的归因分析确定高质量的代码生成对于任务成功至关重要,自我反省具有最重要的整体影响,其次是检索增强生成(RAG)和规划。这项工作突出了代码生成,长上下文处理和上下文感知知识检索方面的持续挑战,为在计算生物学中开发强大的AI代理提供了关键的经验基础和最佳实践。

基因组学人工智能多智能体系统

arXiv

消费者类型的对话推荐系统研究

对话推荐系统(CRS)通过多转交互提供个性化服务,但大多数现有方法忽略了用户的异构决策风格和知识水平,这既限制了准确性和效率。为了解决这一差距,我们提出了CT-CRS(消费者类型增强会话推荐系统),这是一个将消费者类型建模集成到对话推荐中的框架。基于消费者类型理论,我们定义了四个用户类别 - 依赖,高效,谨慎和专家 - 来自两个维度:决策风格(最大化者与讽刺者)和知识水平(高vs.低)。 CT-CRS采用交互历史并微调大型语言模型,以实时自动推断用户类型,避免依赖静态问卷。我们将用户类型纳入状态表示,并设计一个类型自适应策略,可动态调整推荐粒度、多样性和属性查询复杂性。为了进一步优化对话政策,我们采用逆强化学习(IRL),使代理能够近似以消费者类型为条件的专家式策略。 LastFM、Amazon-Book 和 Yelp 上的实验表明,与强大的基线相比, CTCRS 提高了推荐成功率,减少了交互转弯。消融研究证实,消费者类型建模和IRL都为性能提升做出了重大贡献。这些结果表明,CT-CRS提供了一种可扩展和可解释的解决方案,通过整合心理建模和高级策略优化来增强CRS个性化。

信息检索人工智能社会与信息网络

arXiv

TaoSR1:电子商务相关性搜索的思维模式

查询-产品相关性预测是电子商务搜索的核心任务。基于BERT的模型擅长语义匹配,但缺乏复杂的推理能力。虽然探索了大型语言模型(LLM),但大多数仍然使用歧视性微调或蒸馏到较小的模型进行部署。我们提出了一个框架,直接为这项任务部署LLM,解决关键挑战:思维链(CoT)错误积累,判别幻觉和部署可行性。我们的框架TaoSR1涉及三个阶段:(1)使用CoT进行监督微调(SFT)以灌输推理;(2)具有pass@N策略和直接偏好优化(DPO)的离线采样,以提高生成质量;(3)基于困难的动态采样与组相对策略优化(GRPO)以减轻歧视性幻觉。此外,后CoT处理和基于概率的累积分区方法可实现高效的在线部署。 TaoSR1明显优于离线数据集的基线,并在在线并排的人类评估中取得了实质性进展,引入了将CoT推理应用于相关性分类的新范式。

信息检索人工智能计算与语言

arXiv

MCPSecBench:用于测试模型上下文协议的系统安全基准和游乐场

大型语言模型(LLM)越来越多地通过模型上下文协议(MCP)集成到现实世界的应用程序,MCP是一个通用的开放标准,用于将AI代理与数据源和外部工具连接起来。虽然MCP增强了基于LLM的代理的能力,但它也引入了新的安全风险并扩展了他们的攻击面。在本文中,我们介绍了MCP安全性的第一个系统分类法,确定了4个主要攻击表面上的17种攻击类型。我们引入了MCPSecBench,这是一个全面的安全基准和游乐场,集成了提示数据集,MCP服务器,MCP客户端和攻击脚本,以评估三大MCP提供商的这些攻击。我们的基准是模块化和可扩展的,允许研究人员将客户端,服务器和运输协议的自定义实现纳入系统的安全评估。实验结果显示超过85

密码学与安全人工智能

arXiv

生物声学编码的重要性

生物声学,对生物体产生的声音的研究,在保护,生物多样性监测和行为研究中起着至关重要的作用。该领域的许多任务,如物种,个体和行为分类和检测,非常适合机器学习。然而,它们经常受到注释有限的数据的影响,这突出表明需要一种通用的生物声学编码器,能够为不同的下游任务提取有用的表示。这种编码器以前已经提出过,但由于关注范围狭窄的物种(通常是鸟类)以及依赖单一模型架构或训练范式,因此范围通常有限。此外,它们通常在一组小任务和数据集上进行评估。在这项工作中,我们提出了一项大规模的实证研究,涵盖了与研究相关的生物声学方面,但以前几乎没有考虑过:训练数据多样性和规模,模型架构和培训配方,以及评估任务和数据集的广度。我们获得现有和拟议基准上最先进的编码器。我们还确定了训练这些编码器的重要性,以便在提供更多数据或提出更好的架构时可以扩展这项工作。具体来说,在26个数据集中,包括物种分类,检测,个人ID和声乐曲目发现,我们发现自我监督的预训练,然后是混合生物声学+普通音频语料库的监督后训练,产生最强的分发内外表现。我们展示了数据多样性在两个阶段的重要性。为了支持正在进行的研究和应用,我们将发布模型检查点。

声音处理人工智能信息检索机器学习

arXiv

使用概率分类框架建模 GRN

了解基因调控网络(GRN)的复杂性和随机性仍然是系统生物学的核心挑战。现有的建模范式往往难以有效地捕捉错综复杂的多因素监管逻辑,并严格管理网络结构和动力学参数的双重不确定性。作为回应,这项工作引入了概率分类GRN(PC-GRN)框架。它是一种基于三种核心方法协同整合的新理论方法。首先,类别理论为监管途径的模块化和组成提供了正式的语言。其次,贝叶斯型培养基网(BTPN)作为可解释的机械基质,用于建模随机细胞过程,动力学参数本身表示为概率分布。 PC-GRN的核心创新是其端到端生成式贝叶斯推理引擎,它直接从数据中学习BTPN模型(P(G,Θ|D))的完整后验分布。这是通过GFlowNet的新相互作用实现的,它学习了对网络拓扑进行采样的策略,以及HyperNetwork,它执行摊销的推理来预测其相应的参数分布。由此产生的框架提供了GRN的数学严谨,可生物学解释和不确定性感知表示,推进预测建模和系统级分析。

分子网络机器学习范畴论

arXiv

活 水 快 报

用 AI 跟踪日新月异的 AI 领域进展

Part I: 技巧还是陷阱？LLM推理中强化学习的深度探索

Stand-In：一种轻量级即插即用的视频生成身份控制方法

自进化AI智能体全面综述：连接基础模型与终身智能体系统的新范式

大语言模型并不能模拟人类心理

OpenCUA：计算机使用代理的开放基础

热门分类

最新研究

将本体和约束拟合到关系结构

变换高斯随机场的量子采样与矩估计

Besov空间傅里叶采样数的近乎最优界

关于n-correct和GC_n集合中2节点直线的使用

非凸势能下动力学Langevin采样器的收敛性

分数阶Camassa-Holm方程的收敛傅里叶谱Galerkin方法

有界算术上的矩阵秩函数

d-张量拟积及其简化表示

约束重构与运动规划的复杂性分析

打破求积精确性：球面上Allen-Cahn方程的谱方法

使用人工直觉在科学摘要的区分性简约分类中用于技术组合管理

FutureX：面向LLM智能体未来预测的高级实时基准测试

关于建模和解决玻尔兹曼方程

MM-BrowseComp:多模态浏览剂的综合基准

用于单细胞Omics分析的基于LLM的代理

消费者类型的对话推荐系统研究

TaoSR1:电子商务相关性搜索的思维模式

MCPSecBench:用于测试模型上下文协议的系统安全基准和游乐场

生物声学编码的重要性

使用概率分类框架建模 GRN

活水快报