AI行业资讯专家精选No.23:MedSegX实现医学图像自动分割;MedDINOv3唤醒通用视觉模型;苹果发布统一视觉分词器
发表日期: 2025年10月16日
1、通用医学图像分割基础模型MedSegX登上Nature大子刊!
9月5日,期刊《Nature biomedical engineering》上发表的一项研究,详细介绍了通用医学图像分割基础模型MedSegX及其配套数据库MedSegDB的构建与应用。该模型通过大规模、多模态医学影像数据的系统性整合,具备了极强的跨场景适应性,能够在开放世界的临床情境下对不同器官和病变进行自动化分割。
针对现有基础模型在医学数据预训练中存在负迁移与性能退化等问题,研究团队基于129个公共分割库和内部数据集构建了大规模、高质量的数据库MedSegDB,并利用放射学术语体系建立了层次化组织结构。在此基础上提出的MedSegX模型引入上下文混合适配专家(ConMoAE)策略,通过层次结构先验与上下文引导的混合适配网络有效缓解负迁移并增强跨任务泛化能力。
MedSegX支持多种医学成像模态,如CT、MRI、X光等,实现了跨模态的医学图像分割。通过MedSegHierarchy提供的层次结构上下文信息,MedSegX能够动态适应不同任务,生成任务特定的子模型。此外,研究团队还构建了MedSegDiffusion这一大规模、多样化的开放世界医学图像分割数据库,涵盖了多种医学成像模态、解剖结构和病理类型,进一步提升了对临床应用的适应性。
评估结果显示,MedSegX在分布内、分布外以及真实世界场景(涵盖多器官、多疾病、多模态)中均表现优异。例如,在测试-训练同分布的实验(in-distribution)设置下,MedSegX的平均Dice分数达到0.9109,HD95为4.372;在测试-训练不同分布的实验(out-of-distribution)设置下,零样本学习的平均Dice分数也高达0.8733。这些性能提升为医学图像分割的准确性和可靠性提供了有力保障。
论文链接:https://www.nature.com/articles/s41551-025-01497-3
2、MedDINOv3唤醒通用视觉大模型,让它看懂医学影像!
9月2日,美国佐治亚理工学院和埃默里大学的研究团队共同提出了MedDINOv3的新框架,成功将Meta AI的强大基础模型DINOv2适配到医学领域,为视觉基础模型(FMs)应用于医学影像领域提供了宝贵的实践指南。
在医学影像分析中,大模型面临着两大核心挑战:一是基础模型常用的ViT架构在分割任务上常不如专门训练的CNN;二是自然图像与医学图像之间巨大的领域鸿沟。为此,MedDINOv3通过“两步走”策略完美地解决了这些问题:
第一步:改造架构,引入多尺度Token聚合
研究团队设计了一种多尺度token聚合机制,在ViT的解码器部分,将来自ViT编码器不同深度的特征图(token maps)进行融合。这样一来,模型就能同时利用到包含丰富语义信息的深层特征和包含精细空间细节的浅层特征,生成一个多尺度的、更适合像素级分割任务的特征表示。
第二步:领域预训练,在医学数据海洋中“补课”
研究团队在一个包含近400万张轴向CT切片的大规模数据集CT-3M上,使用DINOv3的多阶段自监督学习策略进行领域自适应预训练。通过这个复杂的自监督学习过程,MedDINOv3的骨干网络逐渐学会了医学影像中独特的解剖结构、组织纹理和灰度分布。
经过“架构改造”和“领域预训练”两步之后,MedDINOv3便化身为一个强大的、通用的医学影像分割骨干网络。在四个公开的医学分割基准上,其性能达到甚至超越了当前最先进的(SOTA)方法,证明了视觉基础模型作为医学影像分割统一骨干网络的巨大潜力。
MedDINOv3通过架构适配和领域预训练,成功释放了视觉基座模型在医学分割任务上的潜力,同时也连接了通用视觉基座模型的强大能力与医学影像分割的专业需求,为“基座模型”在医疗领域的落地提供了新的范例。
论文链接:https://arxiv.org/abs/2509.02379
3、苹果发布统一视觉分词器ATOKEN,解决不同模态泛化问题
9月17日,苹果公司研究团队在arXiv平台发表论文,提出了名为ATOKEN(A Unified Tokenizer for Vision)的统一视觉分词器,旨在解决当前视觉AI领域中多模态数据与多任务场景难以被统一处理和泛化的问题。
AToken是首个在图像、视频和三维点云数据上同时实现高保真重建与语义理解的统一视觉分词器。与现有仅针对单一模态数据、专用于重建任务或理解任务的分词器不同,AToken将多样化的视觉输入编码到共享的四维隐空间中,在单一框架实现了多模态数据与多任务场景的统一处理。
首先,ATOKEN将所有视觉模态(图像、视频、3D数据)都映射到一个共享的、稀疏的四维(x, y, z, t)隐空间中。在该空间下,图像是t=z=0的2D切片,视频是沿时间轴t展开的序列,3D数据则是t=0时的空间体素集合。其次,ATOKEN采用纯Transformer架构,并引入4D旋转位置嵌入(RoPE),使其能在单一架构下原生处理任意分辨率和时序长度的视觉输入,保留了完整的时空关系。
与传统多任务学习可能存在「任务冲突」的认知相反,ATOKEN的训练过程证明了跨模态学习的协同增益效应。模型采用四阶段训练策略:从图像能力开始,逐步引入视频动态建模,再集成三维几何,最后实现离散分词。通过多模态联合训练,不仅没有削弱单一模态的性能,反而起到了增强作用。例如,在图像和视频上学到的颜色理解能力,反哺并提升了3D点云重建的颜色一致性。
实验证明,ATOKEN可以在统一处理所有模态的同时,达到甚至超越专门化的单一模态模型。例如:在图像重建质量(rFID 0.21)和3D点云重建质量(PSNR 28.28)上,ATOKEN均优于现有的统一或专用分词器。同时,其图像分类准确率(82.2%)与基础的SigLIP2模型几乎无损,证明了其强大的语义理解能力。这些结果表明,基于统一视觉分词的下一代多模态AI系统正逐渐成为现实。
论文链接:https://arxiv.org/pdf/2509.14476
4、通义团队完全开源DeepResearch,性能比肩OpenAI!
9月18日,通义团队推出首个深度研究Agent模型——DeepResearch,同时实现模型、框架、方案全面开源。在多个权威评测集上,DeepResearch以3B激活参数超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet模型的ReAct Agent,取得SOTA成绩。
在数据策略上,DeepResearch基于全合成数据的增量预训练和后训练。首先,团队引入了Agentic CPT(增量预训练)来为模型打下坚实的Agent基础,利用后续训练流程产生的数据,形成一个数据生成的正向循环。其次,团队开发了一套全自动的合成数据生成方案,旨在全自动化生成超越人工标注质量的数据集,经过了多次迭代,数据质量和可扩展性都得到了保证。此外,该团队还开发了一个自动化数据引擎,用于生成需要多学科知识和多源推理的“博士级”研究问题。
在推理模式上,DeepResearch既有原生的ReAct Mode支持大量的多轮次交互,又有进行上下文管理的Heavy Mode用于处理极端复杂的多步研究任务。同时,团队全新的IterResearch范式将一项任务解构为一系列“研究轮次”,有效解决了Agent将所有信息堆积时出现的认知瓶颈和噪音污染。在此基础上,团队还提出了Research-Synthesis框架:让多个IterResearch Agent并行探索同一个问题,最后整合它们的报告和结论,以获得更准确的答案。
DeepResearch实现了智能体强化训练的“闭环”。从基座模型开始,团队进行了Agentic持续预训练以初始化工具使用技能,然后使用类似专家的数据进行监督微调以实现冷启动,最后进在on-policy的强化学习,使模型进行自我进化。这种全栈方法为训练能够在动态环境中稳健地解决复杂任务的AI代理提供了一种全新的范例。
目前,DeepResearch已赋能多个阿里巴巴内部应用。例如:与高德地图合作推出AI原生出行Agent,结合交通、地图、天气等数据,依用户出发地、目的地和时间,综合考量交通方式优劣,推荐最优出行方案。法律领域的“通义法睿”,可自动检索法律数据库,快速定位相关资料,还能深度归纳分析、提取关键信息、建立知识体系,为法律从业者提供高效工具。
模型链接:https://tongyi-agent.github.io/
5、昇腾0day支持Qwen3-VL-30B-A3B模型适配
10月4日,Qwen3系列模型正式发布并开源了其迄今最强大的视觉语言模型——Qwen3-VL-30B-A3B-Thinking和Qwen3-VL-30B-A3B-Instruct。相较于前代产品,Qwen3-VL体积更小,却集成了Qwen3-VL系列的全部能力。模型仅需激活30亿参数,即可在多个领域中媲美甚至超越GPT-5-Mini和Claude4-Sonnet。
昇腾从Qwen系列模型发布之初便提供了同步支持。此次Qwen3-VL一经开源,即可在LLaMA Factory和vLLM平台中实现“开箱即用”的0Day适配。此外,昇腾还积极参与GitCode AI社区、魔乐社区、Gitee AI社区、启智社区等多个生态社区的共建,为开发者快速获取昇腾适配的模型、算法、工具链及源码提供了坚实保障。
作为开放AI技术生态的重要推动者,昇腾其强算力、全场景覆盖和开放生态,为AI行业提供了全面支持:
强大的AI计算能力
昇腾核心采用自研的达芬奇架构,支持高效并行计算,提供卓越的算力,同时具备高能效比,适配多种数据精度(如FP32、FP16、INT8等),在保证计算精度的同时显著提升计算效率,满足复杂AI模型训练与推理的需求。
端到端的全场景覆盖
昇腾支持云、边、端全场景协同计算,灵活适配多种AI应用场景,包括计算机视觉、自然语言处理、语音识别等。通过其灵活的部署模式,能够根据不同需求扩展算力,实现从云端高性能计算到边缘设备低功耗运行的全覆盖,充分满足行业多样化需求。
开放生态与开发友好性
昇腾构建了完善的开放生态,提供了与芯片深度适配的昇思MindSpore框架,支持主流AI开发框架及工具链,降低开发门槛,提升开发效率。从芯片到框架到工具链的全栈优化,使开发者能够快速落地AI应用。
原文链接:https://mp.weixin.qq.com/s/TH55Xmdz0MNC178m1I8rlA
6、美国首个标准化类器官建模中心成立,开启医学研究新纪元!
9月25日,美国国立卫生研究院(NIH)宣布启动标准化类器官建模中心(SOM Center),这是美国首个专门聚焦标准化类器官研发的国家级平台。
类器官是小型的实验室培育组织模型,能够复制人体器官的结构和功能,从而为药物筛选、疾病机制研究和个性化医疗提供了更为可靠的平台。例如,在癌症研究中,科学家们可以利用患者自身的癌细胞培育出类器官模型,从而测试不同药物对患者癌细胞的疗效,为个性化治疗方案的制定提供重要依据。
尽管潜力巨大,但目前大多数类器官模型的生产效率低下,而且难以在不同实验室之间复制,这就导致了类器官技术在推广和应用上面临巨大的挑战。针对这一问题,SOM中心将通过人工智能、机器人技术和多种人类细胞来源,建立标准化的类器官模型,提供研究人员广泛使用,从而加速科学发现和决策。
在发展规划上,SOM中心将专注于开发肝脏、肺部、心脏和肠道的类器官模型,并计划逐步扩展到更多器官系统和疾病特异性模型。同时,通过与美国食品药品监督管理局(FDA)等监管机构的合作,SOM中心将开发出符合临床前测试标准的类器官模型,加速新疾病治疗方法的开发和安全性评估。此外,SOM中心还将为全球的科学家和研究人员提供开放获取的协议、数据和类器官模型,促进全球范围内的合作与创新。
7、医疗AI五大已实现规模收费的商业场景深度解析
近年来,随着技术成熟和政策支持,医疗AI逐渐走出商业化困境,在多个细分领域实现规模化收费,并跑通可持续盈利模式。
AI医学影像诊断:领跑商业化赛道
AI医学影像是医疗AI领域中落地最成熟的领域。目前,已有超过100款AI医学影像产品取得国家药品监督管理局的三类医疗器械注册证。AI医学影像采用按次收费的模式,例如:每次CT影像分析收费约为0.5元,成本仅为传统方式的十分之一,边际利润率高达60%,预计2026年市场规模将增至235亿元。借助AI,浙江一家三甲医院放射科医生日均处理CT影像量从80例跃升至200例,误诊率却下降40%。此外,国家卫健委将AI辅助诊断纳入《医疗服务价格项目规范(2024版)》,明确允许对AI增强型检查项目上浮15-25%定价,从政策支持上为AI医学影像商业化提供了有力保障。
临床辅助决策系统:成为医生“第二大脑”
临床辅助决策系统(CDSS)是大模型在医疗领域最重要的应用场景,能够帮助医生做出更好的决策,其收费模式包括按医院床位数收费、按节约金额分成等。例如:医院可通过实时分析患者心电图、病史、用药数据,按照200元/床/月的服务费对恶性心律失常风险进行提前预警。在武汉协和医院,通过多模态AI交互与病情整理,医生可以在10秒内判断是否加号,判断的准确率约为95%。此外,电子病历、智慧服务、互联互通等政策的出台,为CDSS应用打开了更多场景。
电子病历与医患沟通管理:减轻医生行政负担
据统计,医生平均每天将40%以上工作时间花在电子病历和文书上,“数字行政负担”极大。通过AI与EHR系统(电子健康记录系统)的集成,能够大大提高医生的诊断效率,此类AI服务市场规模高达数百亿/年。目前,国内已有成功案例,系统能够为医生自动起草对一些最常见和耗时的患者信息的回复草稿内容,同时利用语音AI来智能识别医生与患者的对话内容,然后将数据输入到电子病历中来自动创建临床记录。医患沟通和记录场景是临床的一大痛点,也是生成式AI的优势所在。
AI制药与药物研发:研发效率的革命性提升
AI制药是医疗AI应用中增长速度最快的领域,近五年复合年均增长率达53%,2024年市场规模达5.62亿元。目前,国内多数AI药物研发企业在SaaS服务商、AICRO和AI biotech这三种商业模式中,选择兼容其中两种甚至三种模式。其中,华为云开发的盘古药物分子大模型将药物设计的效率提升33%,优化后的分子结合能提升40%以上;深睿医疗也推出了基于AI大模型的智能多模态科研平台,助力医药研发。
健康管理与慢病防控:B2B2C模式的成功实践
健康管理是医疗AI应用中市场规模最大的领域,预计2027年市场规模将增至2.59万亿元。健康管理的B端面向医疗机构、药店等商业及专业机构;C端则聚焦于慢病患者、亚健康群体等个体消费者。调研显示,68%的中老年人愿意为AI中医服务多支付30%的费用。互联网中医问诊量年增长率达150%。目前,智云健康推出已推出合理用药系统,系统性分析和梳理“人”、“药”、“病”、“医”四方面数据,并转化为独特的风控规则;南京某中医馆引入AI诊断后,客流量提升120%。
原文链接:https://zhuanlan.zhihu.com/p/1953485824881571799