手术医师看过来,全球最大手术视频大模型“术影”带你一步迈入“智驾L3”时代
发表日期: 2026年5月30日
【术影是什么?】
中文名:术影
英文名:SurgMotion
主治:传统手术AI模型无法精准识别解剖结构、手术器械、交互动作
功能:工作流理解、动作识别、深度估计、息肉分割、三元组识别、技能评估
适用范围:临床治疗、手术操作、术后复盘、医学教学
出品方:中国科学院香港创新研究院人工智能与机器人创新中心
检验方:北京协和医院、香港大学深圳医院、中山大学附属第一医院
价格:免费,全面开源
出厂日期:2026/3/24
【术影从何而来?】
两组数据,揭示手术AI之路不得不走
1亿手术量
据国家卫健委官方统计,我国年度住院手术量已突破1亿台次,规模位居全球第一。然而,全国外科执业医师仅有90万至100万人,其中具备独立主刀资质的主治医师占比不足五成,年均主刀手术约220台。在省级三甲医院,部分资深专家年手术量更是达到800至1000台,致使不少高难度手术排期长达3至6个月。
12年成长期
按国内现行医学培养体系,一名可独立主刀的合格外科医师,完整培养周期长达12年之久。依靠传统人才培养模式,难以快速填补临床外科医师缺口,无法化解当前医疗资源供需失衡的行业困境。

自2022年ChatGPT问世以来,人工智能在全球迎来爆发式增长。通过AI赋能,智能驾驶、视频创作、代码开发等领域都发生了颠覆性变革。AI浪潮之下,将人工智能融入临床手术诊疗,打造手术AI,已成为缓解当下医疗资源紧缺、补齐医疗服务短板的必然路径。
四大挑战,让手术AI前进的举步维艰
当前,常规生成式AI虽能高效理解并处理文本、图像及视频内容,但真实手术场景错综复杂,临床研判精度要求严苛,早已超出通用大模型的适配能力。因此,手术AI想要实现规模化落地普及,仍需突破以下四大难题:
高质量标注数据稀缺
手术AI训练需要海量标注精准的影像数据,但兼具专业能力的标注人才十分紧缺,造成手术影像的标注成本高、周期长,可用数据集严重不足。
视频模型预训练困难
手术视频多为操作节奏快、场景变化复杂的连续动态影像,且普遍存在视野遮挡、术中出血、画面抖动等情况,严重制约模型预训练效果。
多维度感知能力薄弱
当前主流模型不具备一体化感知能力,无法同步实现对手术进度、器械操作、解剖结构细微变化等多维度信息的精准识别。
跨中心跨术式泛化差
训练好的模型,在应用至不同医疗机构或其他外科术式时,极易出现识别偏差、判断失误、功能适配异常等问题,通用能力不足。

三项突破,点化手术AI破茧羽化成蝶
2026年3月,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)推出业内最完整的手术视频大模型“术影”SurgMotion,不仅能直接解析手术视频,还能精准识别术中操作、器械交互及精细动作,精度远超现有通用模型。
针对手术AI技术瓶颈,“术影”从多个层面进行突破,淬炼出十亿参数量,将学习范式从像素级重建转向潜在运动预测,实现手术AI从“碎片化识别”向“通用化理解”的跨越式进化。
基于V-JEPA架构的自监督预训练
“术影”依托V-JEPA架构自监督预训练框架,可自主完成视觉特征提取,实现任务特征分离,高效内化手术领域专业知识,大幅降低对人工标注数据的依赖。
排除干扰因素,提升效率与稳定性
“术影”引入运动引导隐空间预测、特征多样性维持、模型稳定性维持等技术改进,对视频进行降噪、去冗、聚焦,有效规避学习偏差与无效学习,显著加快训练速度、提升运行稳定性。
大规模多中心多器官多术式数据集
“术影”构建了全球规模最大的手术视频预训练数据集,汇集来自50个数据源的1500万帧、超3658小时手术视频,覆盖13个人体器官、70个解剖结构、100多种术式,其中75%为合作医疗机构独家开放。

六类任务,全面刷新 SOTA 最优纪录
临床手术的核心,在于理清手术流程、明晰器械功用、规范实操动作、贯通诊疗逻辑,这也是手术AI复刻人类诊疗思维的关键所在。然而,目前手术AI普遍存在功能碎片化问题,各类模型相互独立、数据不通、能力割裂。
对此,“术影”构建了感知、理解、评估一体化手术全链路体系,并融合流程理解、动作解析、深度估计、息肉分割、三元组识别、技能评估六大核心任务,依托海量数据反复训练打磨,持续优化迭代。

在20余项国际权威基准测试中,“术影”六大任务均取得最优(SOTA)表现,相较主流基座模型性能提升14.6%~39.5%。其中,深度估计、息肉分割两项核心指标优势显著,既可精准还原术野空间结构,也能精细定位病灶区域,为手术导航、精准操作及AI辅助诊疗筑牢技术基础。同时,在手术流程识别、器械交互解析、精细动作建模等任务中,“术影”整体性能全面优于现有技术方案,兼具超高识别准确率与强场景泛化适配能力。
临床导向,术影绝不停留在纸上谈兵
“术影” 聚焦临床实际需求,多位业内权威医师全程参与研发。目前,该系统已在香港大学深圳医院、中山大学附属第一医院等多家三甲医院开展真实临床场景融合应用。
香港大学深圳医院
在香港大学深圳医院神经医学中心,“术影”已应用于内镜下垂体手术流程智能识别。医护人员开展术后视频复盘分析时,模型能够自动识别并划分手术核心步骤,实现手术视频智能拆分与流程阶段精准判定,输出标准化、结构化的手术步骤索引。
临床数据表明,“术影”在多中心临床样本中的识别准确率达90%。在公开JIGSAWS手术技能评估数据集中,评估误差低至2.649,预测精度贴近临床专家水平,与专家评分相关系数高达0.770,评判结果与医师专业研判高度一致,综合性能大幅领先行业同类模型。
依托“术影”,医护人员可从数小时手术视频中快速精准定位核心操作环节,省去人工逐帧筛查梳理的繁琐工作,同时全面赋能临床手术教学实训、术后病例深度复盘与手术操作标准化评估体系建设。

中山大学附属第一医院
在中山大学附属第一医院呼吸与危重症医学科,“术影”被用于支气管介入流程识别,现已实现支气管镜全操作流程的自动步骤划分与时序精准定位,可将原始手术视频转化为标准化结构化流程数据。
实验结果显示,“术影”综合识别性能优势显著:相较当前手术最佳模型GastroNet,识别准确率提升11.11%;对比自然场景最优模型DINO v3-L,F1分值(精确率与召回率的调和均值)高出6%。同时,模型关键帧预测结果与实际手术操作高度契合,对核心术式表现出极强的区分能力。

“术影”凭借出色的视觉表征能力与时序关联捕捉能力,既可精准识别内镜画面特征,又能深度理解手术流程上下文,能够为未来支气管介入智能临床辅助、手术机器人术中状态感知、手术步骤精准判定及术中操作协同应用提供有力技术支撑。
前景探索,辅助教学、手术、机器人
目前,“术影”在标准手术场景下病灶部位识别准确率达95%以上,病变性质判断准确率达90%以上,实现四级手术关键步骤自动梳理以及结构化手术报告智能生成,单项专业任务处理能力达高年级医学生水平。
在应用场景上,“术影”现阶段重点落地外科教学、手术质控、术中指导及基层医疗赋能等领域。未来,还将向具身智能手术机器人领域拓展,实现更深层次的人机协同作业。

辅助临床教学
传统手术视频分析高度依赖人工判读与经验总结,效率低下且标准不一。依托“术影”智能分析系统,可将知名外科专家的经验进行结构化拆解,提炼出核心操作规范。受训医师能够通过精准检索、反复观摩与结构化复盘,针对性补强薄弱环节,无需耗费大量时间逐段研读冗长的手术影像资料。

辅助医生手术
“术影”整合行业海量临床诊疗数据与资深专家临床经验,不仅有效弥补医师认知短板,提升临床决策能力,为术中精准决策提供坚实循证依据,还能协助医师快速精准定位病灶、研判病灶病理属性,优化术中团队沟通流程,大幅降低漏诊、误诊风险,全方位提升临床手术的安全性与诊疗效率。

辅助手术机器人
“术影”专属感知与决策模块,可显著提升手术机器人的视觉感知与场景理解能力,可辅助手术机器人实时研判手术进程、解剖环境及操作风险,精准预判最优操作路径,甚至自主完成部分标准化手术步骤,进而推动手术从依托医师个人经验,转变为可量化、可复制、可推广的标准化诊疗模式。
全面开源,加快技术迭代和数据共享
当前AI领域技术壁垒持续攀升,技术门槛、数据储备、研发投入等多重因素制约行业进阶,底层技术自研难度居高不下。在此背景下,CAIR选择全面开源“术影”的完整代码、预训练权重及全套训练方案,面向科创企业、医疗机构、高校及科研机构开放授权、共享使用。
降低创新准入门槛
全球各类科研主体与研发人员可依托成熟的“术影”技术底座,快速开展定制化应用开发、专科场景适配与算法迭代,减少底层技术重复投入,充分释放行业创新潜力。
助推行业标准统一
“术影”高性能通用模型打破机构间的信息与数据壁垒,打通技术互通、成果共享、经验交流的渠道,助力全球手术AI产业协同发展,构建标准化、一体化的行业发展体系。
提速临床落地转化
各级医疗机构、医疗器械企业可在“术影”开源模型基础上,快速搭建智能手术辅助诊疗系统,适配外科、内镜、介入等多元临床场景,推动前沿AI技术深度落地临床实操。

目前,在GitHub主流AI开发者社区中,仅发布2个月时间,“术影”下载量已稳居全球同类模型榜首,获得众多科研团队、开发者及行业企业的广泛认可
赋能医生,开启外科手术智驾L3时代
依托顶尖的手术流程理解能力,“术影”可深度适配手术教学、临床实操、术后复盘、质量管控等各类诊疗场景,大幅减轻医务工作负荷,有效提升手术质量,为医生提供全方位赋能。
参照汽车自动驾驶分级体系,在临床应用全面铺开后,“术影”还可在流程规范、工况平稳的手术场景下,独立完成部分标准化手术操作的临床前置探索,有力推动手术AI从L2辅助智能升阶至L3条件自主层级,驱动外科领域革新发展:
临床安全
全流程实时监测、精准研判、动态排查手术操作隐患,有效降低手术失误率与患者并发症发生率。
医疗公平
打破优质外科医疗资源的地域、层级壁垒,推动顶尖外科诊疗技术与AI智能辅助能力下沉基层。
成本管控
优化手术流程、提升诊疗效率,实现医疗资源的优化配置与高效利用,助力医疗体系降本增效。

未来,CAIR将围绕“术影”搭建手术AI开放生态,汇聚全行业力量共建共享智能医疗产业体系,加速技术迭代、数据互通与能力升级。通过分层分级落地模式,优先在三甲医院开展临床试点应用,打磨成熟后逐步向地市、县级基层医院全面下沉普及。同时,依托手术“数字分身”技术,规模化复刻、传递顶级专家手术经验,让偏远地区、基层患者均可享受三甲医院同质化外科诊疗服务,真正实现外科智能医疗技术的规模化普惠。
“术影”大模型官网
https://surgmotion.cares-copilot.com/
“术影”大模型开源链接

