AI行业资讯专家精选No.24:百川新模型横扫医学考试,深度求索提出光学压缩技术,华为全面开放AI产业生态,苹果发布幻觉片段检测框架
发表日期: 2025年11月12日
1.横扫全球医学考试,百川发布首个循证增强医疗大模型
关键词:Baichuan-M2 Plus,循证医学,百小应
10月22日,百川智能重磅发布“首个循证增强的医疗大模型”——Baichuan-M2 Plus,标志着医疗大模型正从“答得快”迈向“答得对、有依据”可信可用的新阶段。
该模型将“循证医学”理念深度融入训练和推理,通过首创“六源循证范式”,模拟人类医生思维,有效辨别不同层级医学证据、评估其可靠性,并在回答中优先引用高等级证据。这种“循证驱动”的生成逻辑使其有效避免了无中生有的幻觉,让可信度比肩资深临床专家的水平。
在多场景医疗评测中,M2 Plus的幻觉率指标较Deepseek-R1低3倍,并且显著领先于美国最热门的医疗产品OpenEvidence。
在多项权威医学考试中,M2 Plus成绩直接拉满,其医学知识储备和医学知识运用能力远超人类医生的平均水平。在多个真实临床场景测试中,M2 Plus同样表现惊艳。例如,在临床用药方面,M2 Plus能有效结合患者实际情况,简化靶向药选择过程;在临床科研分析方面,M2 Plus能够快速抓住核心关注点,通过结构化阐述,收集并呈递最新的临床科研成果。
目前,M2 Plus已全面上线“百小应”APP,不仅能够成为医生的“专属武器”,也能让患者及家属在希望深入理解诊断、治疗、预后、病因、检查等背后科学逻辑时,便捷获取最新最权威的知识、顶尖专家的思维视角以及无限耐心的专业解答。同时,M2 Plus还提供了标准化API接口,向所有开发者开放使用。

链接:https://ying.baichuan-ai.com/chat
2.登上Nature子刊 ,浙江大学发布科学工具智能体SciToolAgent
关键词:SciToolAgent,知识图谱,工具链规划
近期,浙江大学研究团队提出的智能体SciToolAgent利用知识图谱的结构化信息,增强了大模型智能体对于复杂任务规划的能力,提高了其调用科学工具的准确性。该成果已被Nature 子刊《Nature Computational Science》接收。
研究团队围绕科学工具的系统收集、科学工具知识图谱的构建、基于LLM的多智能体架构设计、自动化安全检测机制的集成、跨模型兼容性测试以及高效模型训练策略等方面进行了系统性探索与创新。
实验结果显示,SciToolAgent在所有指标和任务难度层级上均大幅优于现有方法,尤其在自动化、多工具、高安全性的科学任务执行方面表现出色。SciToolAgent的最终答案准确率达到94%,相较于其他智能体提升10%,充分证明了基于知识图谱驱动的工具链规划对于复杂科学任务的巨大优势。同时,不同LLM下的消融实验表明,经过指令微调的开源大模型Qwen2.5-7B-Instruct亦具备较强的工具理解和执行能力,进一步验证了SciToolAgent的兼容性。
此外,在蛋白设计与分析、化学反应预测、化学分子合成、MOF材料筛选四大真实科研任务中,SciToolAgent也展示了其在多工具联动、复杂流程管理和安全把控等方面的强大能力。
SciToolAgent创新性地提出知识图谱驱动的多工具集成智能体,显著提升了大语言模型智能体在复杂科学问题中的工具调度与协同能力,为科研智能体的落地应用奠定了坚实基础。

链接:https://www.nature.com/articles/s43588-025-00849-y
3.爆火的DeepSeek-OCR,如何颠覆AI的长文本瓶颈
关键词:DeepSeek-OCR,光学压缩,长文本
10月20日,DeepSeek正式开源DeepSeek-OCR,模型一经发布就火爆全网,并引发了一种思潮:LLM会“看”比会“读”更重要,这一研究思路对流行的NTP(Next Token Prediction)范式产生了深远的影响。
学术界普遍认为,采用NTP机制的模型与人类认知过程存在根本性的背离,缺乏对全局的规划,本质上是一种“近视”(myopic)的工作模式。同时,NTP模型的运作还依赖于Tokenization前置步骤,需要将原始文本分割成一个固定的、预定义词汇表中的Token序列。这种离散化的表示方式带来了一系列问题。
DeepSeek-OCR的核心思想在于,提出了一种“上下文光学压缩”(Contexts Optical Compression,CoC)技术,不再将长篇文档视为一个由数千甚至数万个文本Token组成的线性序列,而是将其渲染成一张高分辨率的图像,然后将这张图像压缩成一小组信息高度浓缩的“视觉Token”(Vision Tokens)。通过CoC重构了信息处理流程,将全局上下文的理解前置,在某种程度上绕过了传统NTP的“近视问题”,并规避了Tokenization环节。
实验表明,在 10 倍压缩率下,信息解码精度可达 97%;即使在 20 倍压缩率下,仍能保持 60% 的准确率。在超长文本(比如读长文档、读书等)场景,保证内容识别精度的前提下,算力成本降低将近10倍,极大提升了模型计算效率、改善记忆负载。
综合来看,采用视觉Token作为输入的DeepSeek-OCR,并非对现有LLM架构的简单优化,而是在信息表征、处理流程和误差动态上的重构。针对传统NTP范式中的长上下文窗口问题,DeepSeek-OCR提供了一条高性价比、高可行性的全新路径,从根本上改变了大模型的记忆和学习方式。

链接:https://github.com/deepseek-ai/DeepSeek-OCR
4.精准定位LLM幻觉,苹果提出强化学习框架RL4HS
关键词:RL4HS,幻觉检测,GRPO
10月10日,苹果发布了一篇引发学界与业界关注的重磅论文,提出了用于检测大语言模型幻觉片段的强化学习框架RL4HS,能够精准定位文本中的错误部分。该技术在片段级幻觉检测任务测试中表现优于GPT-5和O3模型,尤其擅长摘要和问答任务中的细粒度幻觉检测。
RL4HS基于组相对策略优化(GRPO)方法构建,通过强化学习机制,利用片段级奖励函数(span-level rewards)来激励模型进行推理,并引入了类别感知策略优化(Class-Aware Group Relative Policy Optimization),以缓解奖励不平衡问题。
在RAGTruth基准测试集(涵盖摘要生成、问答、数据到文本等任务)上的实验结果显示:RL4HS的表现优于预训练的推理模型与传统监督微调方法。这表明,对于幻觉片段检测任务,基于片段级奖励的强化学习机制是必要且有效的。
定性结果分析案例表明,不同于生成泛化或无关的说明,RL4HS的推理不仅停留在表面解释层面,还能够执行系统化、一致性检验式的推理,并与传统幻觉检测流程中使用的启发式规则高度契合。这说明在片段级奖励机制下,RL4HS所学到的推理行为是真实的、可靠的。
RL4HS的核心突破在于:“片段级奖励与类别平衡机制”让模型不再只是笼统地提示有错误,而是能直接指出具体哪一段文字是错误的,实现从“是否错误”到“哪里错误”的关键突破。这对于需要修改输出或进行事实审查的用户来说,大大节省了时间,标志着大语言模型在可靠性和可审计性方面迈出了重要一步。
链接:https://arxiv.org/pdf/2510.02173
5.华为发布全球最强算力集群,全面开放鲲鹏、昇腾生态
关键词:华为算力集群、灵衢、鲲鹏、昇腾
近期,在华为全联接大会2025上,华为发布了全球最强算力超节点和集群,并全面开源了操作系统灵衢组件以及鲲鹏全系列软件、AI应用开发套件等,致力于构建开放、创新、协同共赢的产业生态。
算力平台方面,华为超节点产品 Atlas 950 SuperPoD和Atlas 960 SuperPoD,分别支持8192及15488张昇腾卡,多项关键指标全面领先;超节点集群Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡。此外,其全球首个通用计算超节点TaiShan 950 SuperPoD,率先引入了超节点技术,能够彻底取代各种应用场景的大型机、小型机和Exadata数据库一体机。
操作系统方面,华为开源了灵衢组件,代码将陆续合入openEuler等多个上游操作系统开源社区。用户可以根据实际需求,将部分或全部源代码集成到现有操作系统中,自行迭代维护版本,也可以将整个组件直接合入现有操作系统。
通用计算方面,华为开源了鲲鹏全系列软件,包括openEuler操作系统、openGauss数据库、openUBMC固件管理、openFuyao算力集群软件、鲲鹏应用使能套件BoostKit、高性能计算编程框架KUPL以及三款新编译器GCC for openEuler、LLVM for openEuler和高性能图编译器ANNC等;在AI领域,昇腾开源了MindSpore以及CANN、Mind系列应用使能套件等,覆盖资源部署、训推加速、模型参考、应用开发的全流程。

链接:https://mp.weixin.qq.com/s/puOnHBr0xub93GOZRVGWAw
6.外科医生创立AI公司,18个月斩获1亿融资、200万用户
关键词:Heidi,AI医疗记录员
由创伤外科医生Tom Kelly在墨尔本创立的健康科技初创公司Heidi Health,仅用18个月就获得了1亿美元的融资,用户量突破200万,覆盖全球116个国家,成为医疗技术领域增长最快的公司之一。
针对临床医生每天花费大量时间在行政文书事务上的痛点,Heidi成功打造了一个医生的AI工作伙伴,一个真正理解医疗工作流程、能够实质性减轻医生负担的智能助手。其核心功能包括用AI转录和听写笔记,生成个性化的病历记录,管理和追踪医护任务等,不仅提高了医生的工作效率,还减少了因为遗忘或疏忽导致的医疗错误风险。近期,Heidi还推出了一个新工具:一个能够代表医生给患者打电话的AI agent,可以自动处理后续预约安排、提醒等任务,进一步简化医生与患者的沟通流程。
在AI医疗记录员这个竞争激烈的赛道上,Heidi能够脱颖而出的关键在于围绕用户的真实体验打造产品,真正为医生的灵活性和个性化需求服务,而不是为医院管理层或保险公司服务。让医生自己成为产品的推销员,这一自下而上的增长策略,比传统的自上而下销售更有机,也更可持续。
Heidi之所以快速崛起,正是由于全球医疗系统正面临前所未有的压力。人口老龄化导致医疗需求持续上升,而医生的数量增长速度远远跟不上。这种供需失衡创造了一个巨大的缺口,而AI技术能够将医生从行政工作中解放出来,把更多时间用于患者护理,从而充分激活医疗资源,缓解全球医疗危机。

链接:https://www.heidihealth.com/en-nz/about-us/company
7.OpenAI明年上线AI科学家早期版本,250亿投资医疗健康领域
关键词:OpenAI,山姆·奥特曼,AI科学家,AGI
10月28日,OpenAI首席执行官山姆·奥特曼在一场直播中首次公开了迈向超级智能的具体时间表:
- 2026年9月,实现AI研究实习生,能够通过消耗大量计算资源有效加速内部研究;
- 2028年3月,实现全自动AI研究员,可自主完成大型研究项目。
目前,OpenAI正加速从AI助手转型为平台服务商,以便于外部开发者在其平台上构建应用和服务的“AI云”。山姆·奥特曼表示,凭借现有的技术、用户基础和框架,OpenAI能够推动全世界在其平台上创建出惊人的新公司、服务和应用。
在产品规划上,OpenAI描绘了一个层级架构:
- 底层,芯片、机架、数据中心和能源等硬件基础;
- 中间层,在硬件之上训练模型并构建账户体系;
- 应用层,推出了名为Atlas的浏览器,并计划未来几年推出硬件设备;
- 顶层生态系统,通过OpenAI的API、ChatGPT应用及企业平台,构建多样化的AI服务。
在问答环节中,山姆·奥特曼补充,AGI的到来将是一个持续数年的过渡过程,包括技术逐步成熟、社会适应以及政策调整等阶段,而非单一时间点。他特别指出2028年这个节点,届时科学研究将完全由AI自动化,AI系统将能够推动科学前沿发展。
此外,OpenAI基金会将投入250亿美元,重点支持医疗健康领域及“人工智能韧性”相关项目,涵盖后AGI时代的关键社会事务,包括技术创新、经济发展和安全保障等。资金将主要用于数据生成、计算资源供给以及科学家资助,为推动全球科技和社会进步提供坚实基础

链接:https://openai.com/live/?video=1131297184

