AI Industry-Academia Insights

AI Industry-Academia Insights

发表日期: 2025年6月13日


一、Now, Scaling What?  

探索新的 Scaling 目标

自2024年起,随着预训练环节Scaling Law的边际效益递减,业界开始探索新的Scaling 路径,进而衍生出有关「Self-Play RL+ LLM 」、「Post-Training Scaling Law」、「Test-Time Training」等路线。其中,Test-Time Scaling(TTS)逐渐成为研究重点,其通过在推理阶段增加计算资源来增强模型性能,从简单的重复采样发展到复杂的混合扩展和内部扩展策略,应用范围也从特定领域扩展到通用任务。

微调与推理的同等重要性

传统观点认为预训练奠定模型基础能力,微调则是关键一步。然而,随着 LLM的广泛部署,推理阶段的重要性日益凸显。推理策略设计得当的模型,即使基础能力并非顶尖,也能通过「聪明」的推理过程弥补不足。因此,后训练的 Scaling Law不再仅关注微调阶段,而是转向一个更综合的框架,量化微调计算量、微调数据量、推理计算量与模型性能之间的关系,解决在既定计算预算下如何分配资源以实现性能最大化的问题。

Scaling Law 的多领域应用

Scaling Law的影响力和应用范围超出了LLM的范畴。2025 年,UT、清华和佐治亚理工等机构提出「自主通才科学家」(AGS)概念,指出科学发现可能遵循全新的扩展定律。AGS系统通过自动化流程加速科学发现,减少对专业知识的依赖。谷歌提出了面向DiLoCo分布式训练方法的Scaling Law,发现其在模型规模增大时性能提升更为明显。苹果与牛津大学提出了蒸馏扩展定律,可基于计算预算及其在学生和教师模型之间的分配估算蒸馏模型的性能,为知识蒸馏技术提供了理论支持。


原文链接:
https://mp.weixin.qq.com/s?biz=MzA3MzI4MjgzMw==&mid=2650970386&idx=1&sn=c4182da68ea736819b51dfd01a031359&poc_token=HA_kUGij8VKJ21Yn4s8Y6p5hX_NdxQ5YoI5fjWbp


二、Radiology | 宾夕法尼亚大学发布重磅文献!告别模糊,低场MRI也能看清微小病灶!LowGAN让64mT图像质量直追3T 

便携式低场强MRI提高了神经影像学可及性,但因较低的信噪比和空间分辨率而导致成像质量差,限制了其临床应用。近日,宾夕法尼亚大学的研究者开发了LowGAN模型,利用生成对抗网络(GANs)从低场强(64mT)图像合成高场强(3T)质量脑部图像,显著提升低场强MRI诊断价值。LowGAN的创新之处在于其巧妙的设计和训练策略:

多序列输入与输出:它不仅仅处理单一序列,而是同时利用了低场强MRI的T1加权(T1w)、T2加权(T2w)和液体衰减反转恢复(FLAIR)三种序列作为输入。重要的是,它也能同时生成这三种序列对应的类3T高质量图像。

配对训练数据:研究团队收集了来自多发性硬化症(MS)患者在短时间内分别进行的64mT低场强扫描和3T高场强扫描的数据,这种严格配对的数据是训练成功的关键。

针对MS的优化:由于训练数据主要来自MS患者,模型在学习过程中特别关注了对MS病灶特征的保持和增强,这对于评估其在神经退行性疾病中的应用价值尤为重要。

LowGAN模型在提升图像质量、增强大脑结构测量精度、提高病灶可见度、优化分割精度、去除伪影干扰以及展现良好的泛化能力等方面均表现卓越,同时能够忠实地保留和反映原始低场强数据中的潜在信息,其效果超乎预期。

LowGAN的成功预示着,低场强便携式MRI设备可以借助AI后处理在更多临床场景中提供高质量诊断信息,打破高端医疗设备资源分布不均的壁垒,让更多地区的患者受益。



论文链接:
https://pubs.rsna.org/doi/10.1148/radiol.233529



三、DeepSeek开源Prover-V2强推理模型 
4月30日,DeepSeek开源了其数学推理模型DeepSeek-Prover-V2,该模型专注于形式化定理证明任务,基于数学编程语言Lean 4开发。模型包含两个版本:7B参数版本基于DeepSeek-Prover-V1.5-Base构建,支持32K tokens 的上下文长度;671B参数版本则基于DeepSeek-V3-Base训练。在技术实现上,该模型采用递归定理证明流程生成初始训练数据。具体方法是通过 DeepSeek-V3将数学问题分解为子目标,并生成形式化的Lean 4证明步骤。

模型训练分为两个阶段:首先通过合成冷启动数据进行监督微调,随后引入强化学习来提升性能。在强化学习阶段,模型采用GRPO算法,使用二元奖励机制(正确证明得1分,错误得0分)进行优化。训练过程中,模型同时支持非思维链(non-CoT)和思维链(CoT)两种证明生成模式,分别针对快速生成和逻辑透明度进行优化。

研究团队还发布了ProverBench基准数据集,包含325道形式化数学题目,涵盖高中竞赛和本科水平数学问题。该数据集包含15道来自AIME竞赛的题目和310道教材题目,用于评估模型在不同难度数学问题上的表现。DeepSeek-Prover-V2-671B的测试结果显示,其在MiniF2F-test上的通过率为88.9%,并在PutnamBench数据集中解决了49道题目。


DeepSeek-Prover-V2-7B 链接:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
DeepSeek-Prover-V2-671B 链接:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
技术链接:
https://github.com/deepseek-ai/DeepSeek-Prover-V2
ProverBench数据集链接:
https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench 

四、谷歌DeepMind提出进化编码Agent「AlphaEvolve」 


近日,谷歌DeepMind与陶哲轩等科学家近期发布论文,提出了基于LLM的进化编码Agent「AlphaEvolve」,用于通用算法的发现与优化。AlphaEvolve是一个LLM驱动的进化编码Agent,通过一个自主的LLM流程来改进算法,直接对代码进行修改,并利用进化方法,持续从一个或多个评估器接收反馈,迭代地改进算法。其工作流程包括人类定义“是什么”,即设置评估标准、提供初始解决方案和可选的背景知识;而AlphaEvolve则解决“怎么做”,通过迭代改进解决方案。

AlphaEvolve在谷歌内部的应用成果较好,在数据中心调度上,该工作提出的解决方案已投入生产超过一年,平均持续恢复谷歌全球0.7%的计算资源;在协调硬件设计上,该工作提出Verilog重写方案,删除了矩阵乘法关键算术电路中高度优化的、不必要的位;在AI训练和推理上,该工作通过找到将大型矩阵乘法运算划分为更易于管理的子问题的更智能方法,将Gemini架构中的大型矩阵乘法运算加速了23%,缩短训练时间了1%;在数学和算法上,该工作设计了基于梯度的新型优化程序的诸多组件,发现了一种使用48次标量乘法来对4x4复值矩阵进行乘法运算的算法,改进了Strassen于1969年提出的算法。

研究团队对多个 LLM 在 BBEH 上的表现进行了详细测试。结果显示,当前最强的推理专用模型(OpenAI o3-mini)也仅达到 44.8% 的准确率。这一结果清晰地表明,在推理能力方面,LLM 仍存在巨大提升空间,尤其是在处理复杂、多样化的任务时。BBEH 的发布不仅为评估 LLM 的推理能力提供了更高的标准,也为未来模型的优化和多样化能力提升指明了方向。随着这一新基准的应用,我们有望见证更智能、更强大的 AI 模型的进一步发展,从而更好地服务于科学研究、技术创新及社会需求。


原文链接:
https://mp.weixin.qq.com/s/M9muLk9Bshu_3WWoF7UFdg

五、苹果开源视觉语言模型FastVLM 


苹果开源了一个能在iPhone上直接运行的高效视觉语言模型——FastVLM(Fast Vision Language Model)。

视觉语言模型(VLMs)在处理高分辨率图像时,面临传统视觉编码器(如ViT)在高分辨率下效率低下的问题,且生成的视觉token过多,导致语言模型(LLM)预填充时间增长,首次输出时间(TTFT)变长。

为解决上述问题,研究者提出了FastVLM方法,引入了混合视觉编码器FastViTHD,以高效处理高分辨率图像,从而提升VLMs的整体性能。FastViTHD通过多尺度特征提取和池化策略,以及额外的自注意力层和下采样操作,生成比传统ViT模型少得多的视觉token(比传统ViT少16倍,比FastViT少4倍),从而减少编码时间和LLM的预填充时间。FastVLM可以用于模型自动生成陈述,同时兼容主流LLM并适配iOS/Mac生态,适合边缘设备、端侧AI应用和实时图文任务场景的落地。

经测试,对于广泛使用的多模态大模型LLaVA-1.5,FastVLM在生成首token(TTFT)的速度比以往的工作快3.2倍,同时在VLM基准测试中保持了几乎相同的性能。在最高分辨率(1152×1152)下,FastVLM使用相同的0.5B语言模型,在关键基准测试(如SeedBench和MMMU)上实现了与LLaVa-OneVision相当的性能,但TTFT快了85倍,视觉编码器的大小也缩小了3.4倍。




代码链接:

https://github.com/apple/ml-fastvlm



六、AIS | 内镜黏膜下剥离术中可变形组织的自动虚实校准与动态配准 


在内镜黏膜下剥离术中,精确且直观地感知目标组织是提高手术精度的关键。增强现实(Augmented Reality,AR)技术为手术提供了直观的引导方案。

近日,香港中文大学任洪亮教授团队提出了一种针对可变形组织的自动校准与动态注册方法,可以进一步优化手术中的引导效果。首先,该方法设计了一种基于6D位姿估计器的自动校准策略,用于将虚拟世界中的目标组织与现实世界无缝对齐,通过结合特征匹配网络SuperGlue和深度估计网络Metric3D,实现高效且稳定的虚实结合。其次,为了实时跟踪目标组织的变形情况,该方法提出了一种动态注册策略,可以实时捕捉组织形变,从而在手术中提供更加可靠的引导。

在以猪小肠组织为实验对象进行的离体实验结果显示,该方法AR校准的平均绝对误差(MAE)为3.11±0.56mm,动态注册误差的MAE为3.20±1.96mm。

代码链接:

https://mp.weixin.qq.com/s/-k-rImw8edkayGTzlXofqw