AI行业资讯专家精选No.22:学习17h后,SRT-H实现独立主刀做手术;智能化科研里程碑综述;DINOv3重新定义CV天花板
发表日期: 2025年9月12日
一、学了17小时视频,SRT-H实现独立主刀做手术
7月,美国约翰·霍普金斯大学与斯坦福大学联合研发的人工智能手术机器人SRT-H(Surgical Robot Transformer–Hierarchy)在无需人工干预的情况下,成功完成猪胆囊切除手术,相关研究成果发表在《Science Robotics》杂志。
SRT-H的训练仅通过观看17小时的手术视频完成,这些视频涵盖了16,000个外科医生的手术动作,搭配任务描述字幕强化学习,并首次将自然语言作为机器人手术规划与纠错的接口。在实验中,SRT-H自主完成了包含17个步骤的胆囊切除术,并能够应对解剖差异、组织干扰、模拟出血及图像不完美等复杂情况。在8次测试中,SRT-H平均每台手术自我修正6次,展现出强大的动态纠错能力。此外,该系统还支持语音交互,能够实时接受医生指导,模拟“导师指导住院医师”的教学模式,并持续学习与优化操作。
SRT-H的核心优势在于其双层人工智能系统。第一层AI通过实时分析内窥镜视频,生成自然语言指令(如“分离胆囊动脉”),将视觉信息转化为具体操作步骤;第二层AI则将这些指令转化为三维器械动作,精准执行抓取、夹闭、切割等复杂操作。
SRT-H的双层“大脑”形成协同架构,使其能够有效处理长时序、多步骤手术流程中的动态纠错难题,实现了决策智能与执行精度的高度统一。这一技术突破为未来自主化、智能化医疗机器人发展奠定了坚实基础。
论文链接:https://www.science.org/doi/10.1126/scirobotics.adt5254
二、智能化科研(AI4S)的里程碑式重大成果综述
近年来,越来越多的AI团队开始探索智能化科研(AI for Science,AI4S)的应用,并在解决生物、材料、能源等复杂问题的科学研究中取得了重大突破。
在数学领域:Meta与巴黎理工团队利用AI模型解决了困扰132年的李雅普诺夫函数构造难题,效率比传统方法高10倍,首次实现非多项式系统的突破;谷歌的AlphaTensor和AlphaEvolve打破了施特拉森(Strassen)算法保持56年的矩阵乘法纪录,标志着AI从理论数学的“解题工具”跃升为“发现工具”;北京科学智能研究院与深势科技联合研发的原子间势函数预训练模型DPA-1,实现了100亿原子规模的动力学模拟,效率提升达百万倍;AlphaGeometry2在国际数学奥林匹克几何题单独测试中超越金牌水平,说明AI能自动“理解”问题并生成公式化证明。
在物理领域:DeepMind通过强化学习优化核聚变反应堆的控制精度,使能量约束时间提升30%,AI控制器响应速度较传统快1000倍;麻省理工与英伟达开发的模型在计算流体动力学中比传统快1000倍的运算速度,将湍流模拟精度提高3个数量级。
在化学领域:AlphaFold3预测蛋白质复合体结构,大幅缩短药物研发周期,助力DeepMind创始人获诺贝尔化学奖;中国科学技术大学“AI化学研究平台”仅用6周完成人类2000年计算量,成功解决化学领域的“经验依赖困境”;Meta AI开发的Molecular Transformer模型通过精准预测有机反应逆合成路径,将药物合成周期从6个月缩短至2周,显著提升制药效率。
在生物领域:阿里云与中山大学联合研发的LucaProt首次实现“病毒圈”系统性探索,精准发现史上最大RNA病毒,将候选药物优化周期缩短50%以上;谷歌DeepMind发布的AlphaGenome模型可精准分析DNA碱基变异及其功能影响,开创基因组学从“碎片化工具”向“智能解码”迈进的新阶段;Meta AI发布的ESMFold系统通过无需多序列比对完成6亿多个未知蛋白质结构预测,构建了一个“蛋白质宇宙图谱”。
在材料领域:微软与PNNL利用AI不到80h就模拟了3200万种材料组合,成功合成了锂用量减少70%的新型固态电池材料,为新能源技术迭代按下了“倍速键”;劳伦斯伯克利国家实验室与谷歌DeepMind合作的A-Lab系统使新材料发现成本降低90%,GNoME系统已生成并验证了超过220万种新晶体材料。
在制药与医疗领域:英矽智能通过Pharma.AI平台研发的INS018_055新药已进入临床二期,有望成为全球首个上市的AI原创新药;北京深势科技的Hermite药物设计平台可精确模拟量子力学层面的分子建模,已应用于多靶点抗肿瘤药物设计;斯坦福大学与谷歌联合开发的Med-PaLM2通过多模态疾病预测框架,实现了200余种疾病从“辅助诊断”向“主动健康管理”的范式转变。
在集成电路设计领域:中国科学院的“启蒙2号”系统成功完成了从芯片硬件到系统软件的全链条全自动设计,性能优于人类专家设计水平;谷歌DeepMind团队发布AI芯片设计系统AlphaEvolve可自动生成、验证并迭代芯片设计,预估可使芯片流片次数减少40%。
原文链接:https://mp.weixin.qq.com/s/oIVglqFd7zPjvzz9GsT0kw
三、重新定义CV天花板,Meta最强巨兽DINOv3开源
8月15日,Meta团队发布并开源了DINOv3视觉基础模型。该模型在无需标注数据的情况下,能够学习高质量的高分辨率视觉特征,并在多个密集预测任务中取得了SOTA表现。
DINOv3采用了ViT架构,适配了更大规模的训练数据集,数据量高达17亿张图像,模型参数规模达70亿。同时,DINOv3提出了多项创新设计,包括Gram Anchoring策略和旋转位置编码RoPE等。
该模型引入了全新的无监督学习技术,通过无标签的原始图像进行训练,从而摆脱了对标注数据的依赖。这种训练方式不仅大幅降低了训练成本,还使得模型能够扩展到更广泛的应用场景,尤其是在标签稀缺或标注成本高昂的领域。此外,DINOv3的训练计算量仅为以往方法的一小部分,但依然能够产出性能卓越的视觉基础模型。
DINOv3实现了一个重要里程碑:首次证明自监督学习(SSL)模型在广泛任务中能够超越弱监督模型。测试结果表明,DINOv3在多个图像分类基准上达到了与最新强大模型相当或更优的性能,同时在密集预测任务中显著拉大了性能差距。
值得一提的是,DINOv3不仅支持商用,还开源了完整的预训练主干网络、适配器、训练与评估代码等「全流程」工具链。目前,该模型已经在多个领域中得到实际应用。例如,美国NASA已将其应用于火星探索任务中。
原文链接:https://ai.meta.com/research/publications/dinov3/
四、性能追平o4-mini,OpenAI发布两款开源语言模型
8月5日,OpenAI同步发布了两款开源语言模型,分别是总参数1170亿、激活参数51亿的「gpt-oss-120b」,以及总参数210亿、激活参数36亿的「gpt-oss-20b」。
两款模型均采用Transformer-MoE架构,搭配o200k_harmony分词器、RoPE位置编码技术,支持128k上下文长度和原生MXFP4量化。预训练语料以英文STEM(科学、技术、工程、数学)、编程、常识领域为主,后续训练过程延续了与o4-mini相同的监督微调和强化学习流程。同时,模型完整保留了思维链功能,不进行直接对齐,以方便外部监控潜在异常行为。
在性能方面,根据OpenAI的基准测试结果,gpt-oss-120b在Codeforces、MMLU、HealthBench、AIME2024-2025等任务上表现持平或超过了o4-mini;而gpt-oss-20b虽然参数规模较小,但在竞赛数学和医疗问答任务上的表现依然优于o3-mini。此外,这两款模型支持多种高级功能,包括可调推理力度(低/中/高)、函数调用、Python代码执行、结构化输出,以及参数高效微调。
gpt-oss-120b和gpt-oss-20b的开源,标志着OpenAI在开源模型领域迈出了重要一步。在同等参数规模下,这些模型的推理性能可与o3-mini和o4-mini相媲美,甚至在某些领域超越竞品。
值得一提的是,这两款模型在硬件适配性上表现优异,既可在16GB笔记本上运行,也能适配单张H100GPU的服务器。目前,它们已同步上线Amazon Bedrock和SageMaker平台,开发者不仅可以通过网页版Playground直接体验,还可自由商用、修改或本地部署。
OpenAI的这次开源行动,不仅丰富了开源语言模型的生态,也为开发者带来了更灵活、更高效的选择。
GitHub链接:https://github.com/openai/gpt-oss
五、DeepSeek-V3.1发布,迈向Agent时代的第一步
8月21日,深度求索正式发布DeepSeek-V3.1,本次升级亮点包括:
- 混合推理架构:支持同一模型在思考模式与非思考模式间自由切换。
- 更高的思考效率:相比DeepSeek-R1-0528,DeepSeek-V3.1-Think可以在更短的时间内给出答案。
- 更强的Agent能力:通过后训练优化(Post-Training),新模型在工具使用与智能体任务中的表现实现显著提升。
在代码修复测评(SWE)及命令行终端环境下的复杂任务测试(Terminal-Bench)中,DeepSeek-V3.1相较于此前的DeepSeek系列模型表现有明显提高。尤其是在需要多步推理的复杂搜索任务测试(browsecomp)以及多学科专家级难题测试(HLE)中,DeepSeek-V3.1的性能已大幅领先R1-0528。
测试结果显示,经过思维链压缩训练后,V3.1-Think的输出Token数减少了20%-50%,但在各项任务中的平均表现仍与R1-0528持平。
此外,在非思考模式下,V3.1的输出长度也得到了有效控制。相比DeepSeek-V3-0324,输出长度明显减少的同时,模型性能依旧保持不变。
目前,深度求索官方App与网页端模型已同步升级为DeepSeek-V3.1,DeepSeek API也已同步升级,且上下文均已扩展为128K。API Beta接口支持了strict模式的Function Calling,同时增加了对Anthropic API格式的支持,便于接入Claude Code框架。
模型链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1
六、Surge AI创始人专访,谈及AGI前景、竞争与创业忠告
7月21日,AI领域知名播客《20VC》专访了Surge AI创始人Edwin Chen。这家从未融资、年营收超十亿美元的公司低调神秘,而这次访谈中,Edwin坦诚分享了他对AGI、AI行业竞争与创业的独到见解。
关于AGI,Edwin认为,如果AGI定义为“替代普通工程师的工作”,或许2028年就能实现;但要攻克癌症、登火星等终极目标,可能还需等到2038年甚至更久。他指出,目前AI生成代码更多是在处理UI优化、小功能调整等工作,而真正复杂的问题仍需人类的深度思考与创意。
当被问及是否担心模型厂商吞并应用层时,Edwin并不认为产品空间会被完全垄断。他认为,尽管用户对“统一智能界面”有强烈需求,但模型厂商无法覆盖所有细分领域。比如,他已用ChatGPT替代50%的Google搜索,这种“通用智能界面”的体验非常吸引人,但仍有大量应用场景需要更专业化的解决方案。
Edwin对AGI持乐观态度,他认为AGI公司最终不会只有一两家,而是相信未来会出现更多巨头,因为每家公司都有独特的文化、专注点和“模型人格”。例如,OpenAI更偏消费端体验,Anthropic在代码和企业产品方面表现强劲,而Grok敢于越界尝试。他还认为,当前最具影响力的大模型公司可能还未诞生,AI行业未来仍会有重大突破。
最后,Edwin表示,如果能给创业第一天时的自己一句忠告,他会说:“专注于能带来10倍提升的事,而不是纠结于只能改进10%的细节。”对于AI推动全球GDP在未来十年增长10%的预测,他完全相信,认为AI发展空间广阔,将创造数万亿美元的新价值。
访谈原文链接:https://podcasts.apple.com/ca/podcast/20vc-scaling-to-%241bn-in-revenue-with-no-funding-surge/id958230465?i=1000718245009
七、智能频谱与「1Hz壁垒」,突破通用人工智能的速度瓶颈
7月27日,通用人形机器人公司1X的AI副总裁Eric Jang提出了「智能频谱」(Intelligence Spectrum)的概念,将智能行为类比为电磁波谱,覆盖从极慢到极快的决策行为。他指出,当前AI面临的「1Hz壁垒」严重限制了其智能表现,尤其是在与人类自然交互中的流畅性与实时性。
智能频谱的两端分别代表低频和高频智能:低频智能如植物的生长,表现为缓慢但策略性的决策;高频智能如蜂鸟的快速飞行,则体现了精细的实时反应。在此框架下,当前主流大语言模型(LLMs)如ChatGPT的决策频率为1-2Hz,其从接收到输入到生成首个词元的响应时间为200-500毫秒,但与人类对话的自然节奏(约10Hz)仍有显著差距。这种延迟不仅使人机交互显得「回合制」,更放大了AI在理解复杂语境、主动性和情景感知上的局限。
Eric Jang进一步指出,真正的通用人工智能(AGI)需覆盖从低频(如战略规划的0.1Hz)到高频(如机器人控制的50Hz)的全频谱能力。然而,这一目标面临系统性瓶颈。当前AI在不同速度层级的应用场景中表现各异:低频任务如复杂规划需要深度推理和充裕时间;中频任务如自然对话需低延迟生成;高频任务如机器人控制则要求毫秒级响应。这种速度层级的分化反映了双系统理论中「慢思考」和「快思考」的需求差异。
突破1Hz壁垒的核心挑战之一是速度与正确性的冲突。复杂推理任务需要更长的上下文窗口,但长序列会增加计算延迟。同时,机器人控制领域仍受限于模拟精度与现实泛化能力,难以实现高频决策。此外,AI系统的内在可靠性问题如幻觉与逆转诅咒,也贯穿整个智能频谱。
尽管如此,诸如扩散架构、NoThinking推理方法等新兴技术可能为解决部分瓶颈带来希望。未来,实现跨频谱能力的关键在于兼顾速度与正确性,突破现有架构限制。唯有如此,AI才能真正迈向「Ultra Instinct」的通用智能水平,实现从战略规划到瞬时反应的无缝覆盖。
最后Eric Jang认为,实现跨智能频谱的AI需同时解决深度推理准确性与实时响应效率的矛盾,同时提升多模态感知和决策能力。扩散架构语言模型、视频编码器改进及多模态数据处理能力是潜在方向,唯有突破这些瓶颈,AI才能迈向真正的通用智能。