Highlights & News

手术医师看过来，全球最大手术视频大模型“术影”带你一步迈入“智驾L3”时代

发表日期： 2026年5月30日

【术影是什么？】

中文名：术影

英文名：SurgMotion

主治：传统手术AI模型无法精准识别解剖结构、手术器械、交互动作

功能：工作流理解、动作识别、深度估计、息肉分割、三元组识别、技能评估

适用范围：临床治疗、手术操作、术后复盘、医学教学

出品方：中国科学院香港创新研究院人工智能与机器人创新中心

检验方：北京协和医院、香港大学深圳医院、中山大学附属第一医院

价格：免费，全面开源

出厂日期：2026/3/24

【术影从何而来？】

两组数据，揭示手术AI之路不得不走

1亿手术量

据国家卫健委官方统计，我国年度住院手术量已突破1亿台次，规模位居全球第一。然而，全国外科执业医师仅有90万至100万人，其中具备独立主刀资质的主治医师占比不足五成，年均主刀手术约220台。在省级三甲医院，部分资深专家年手术量更是达到800至1000台，致使不少高难度手术排期长达3至6个月。

12年成长期

按国内现行医学培养体系，一名可独立主刀的合格外科医师，完整培养周期长达12年之久。依靠传统人才培养模式，难以快速填补临床外科医师缺口，无法化解当前医疗资源供需失衡的行业困境。

自2022年ChatGPT问世以来，人工智能在全球迎来爆发式增长。通过AI赋能，智能驾驶、视频创作、代码开发等领域都发生了颠覆性变革。AI浪潮之下，将人工智能融入临床手术诊疗，打造手术AI，已成为缓解当下医疗资源紧缺、补齐医疗服务短板的必然路径。

四大挑战，让手术AI前进的举步维艰

当前，常规生成式AI虽能高效理解并处理文本、图像及视频内容，但真实手术场景错综复杂，临床研判精度要求严苛，早已超出通用大模型的适配能力。因此，手术AI想要实现规模化落地普及，仍需突破以下四大难题：

高质量标注数据稀缺

手术AI训练需要海量标注精准的影像数据，但兼具专业能力的标注人才十分紧缺，造成手术影像的标注成本高、周期长，可用数据集严重不足。

视频模型预训练困难

手术视频多为操作节奏快、场景变化复杂的连续动态影像，且普遍存在视野遮挡、术中出血、画面抖动等情况，严重制约模型预训练效果。

多维度感知能力薄弱

当前主流模型不具备一体化感知能力，无法同步实现对手术进度、器械操作、解剖结构细微变化等多维度信息的精准识别。

跨中心跨术式泛化差

训练好的模型，在应用至不同医疗机构或其他外科术式时，极易出现识别偏差、判断失误、功能适配异常等问题，通用能力不足。

三项突破，点化手术AI破茧羽化成蝶

2026年3月，中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）推出业内最完整的手术视频大模型“术影”SurgMotion，不仅能直接解析手术视频，还能精准识别术中操作、器械交互及精细动作，精度远超现有通用模型。

针对手术AI技术瓶颈，“术影”从多个层面进行突破，淬炼出十亿参数量，将学习范式从像素级重建转向潜在运动预测，实现手术AI从“碎片化识别”向“通用化理解”的跨越式进化。

基于V-JEPA架构的自监督预训练

“术影”依托V-JEPA架构自监督预训练框架，可自主完成视觉特征提取，实现任务特征分离，高效内化手术领域专业知识，大幅降低对人工标注数据的依赖。

排除干扰因素，提升效率与稳定性

“术影”引入运动引导隐空间预测、特征多样性维持、模型稳定性维持等技术改进，对视频进行降噪、去冗、聚焦，有效规避学习偏差与无效学习，显著加快训练速度、提升运行稳定性。

大规模多中心多器官多术式数据集

“术影”构建了全球规模最大的手术视频预训练数据集，汇集来自50个数据源的1500万帧、超3658小时手术视频，覆盖13个人体器官、70个解剖结构、100多种术式，其中75%为合作医疗机构独家开放。

六类任务，全面刷新 SOTA 最优纪录

临床手术的核心，在于理清手术流程、明晰器械功用、规范实操动作、贯通诊疗逻辑，这也是手术AI复刻人类诊疗思维的关键所在。然而，目前手术AI普遍存在功能碎片化问题，各类模型相互独立、数据不通、能力割裂。

对此，“术影”构建了感知、理解、评估一体化手术全链路体系，并融合流程理解、动作解析、深度估计、息肉分割、三元组识别、技能评估六大核心任务，依托海量数据反复训练打磨，持续优化迭代。

在20余项国际权威基准测试中，“术影”六大任务均取得最优（SOTA）表现，相较主流基座模型性能提升14.6%~39.5%。其中，深度估计、息肉分割两项核心指标优势显著，既可精准还原术野空间结构，也能精细定位病灶区域，为手术导航、精准操作及AI辅助诊疗筑牢技术基础。同时，在手术流程识别、器械交互解析、精细动作建模等任务中，“术影”整体性能全面优于现有技术方案，兼具超高识别准确率与强场景泛化适配能力。

临床导向，术影绝不停留在纸上谈兵

“术影” 聚焦临床实际需求，多位业内权威医师全程参与研发。目前，该系统已在香港大学深圳医院、中山大学附属第一医院等多家三甲医院开展真实临床场景融合应用。

香港大学深圳医院

在香港大学深圳医院神经医学中心，“术影”已应用于内镜下垂体手术流程智能识别。医护人员开展术后视频复盘分析时，模型能够自动识别并划分手术核心步骤，实现手术视频智能拆分与流程阶段精准判定，输出标准化、结构化的手术步骤索引。

临床数据表明，“术影”在多中心临床样本中的识别准确率达90%。在公开JIGSAWS手术技能评估数据集中，评估误差低至2.649，预测精度贴近临床专家水平，与专家评分相关系数高达0.770，评判结果与医师专业研判高度一致，综合性能大幅领先行业同类模型。

依托“术影”，医护人员可从数小时手术视频中快速精准定位核心操作环节，省去人工逐帧筛查梳理的繁琐工作，同时全面赋能临床手术教学实训、术后病例深度复盘与手术操作标准化评估体系建设。

中山大学附属第一医院

在中山大学附属第一医院呼吸与危重症医学科，“术影”被用于支气管介入流程识别，现已实现支气管镜全操作流程的自动步骤划分与时序精准定位，可将原始手术视频转化为标准化结构化流程数据。

实验结果显示，“术影”综合识别性能优势显著：相较当前手术最佳模型GastroNet，识别准确率提升11.11%；对比自然场景最优模型DINO v3-L，F1分值（精确率与召回率的调和均值）高出6%。同时，模型关键帧预测结果与实际手术操作高度契合，对核心术式表现出极强的区分能力。

“术影”凭借出色的视觉表征能力与时序关联捕捉能力，既可精准识别内镜画面特征，又能深度理解手术流程上下文，能够为未来支气管介入智能临床辅助、手术机器人术中状态感知、手术步骤精准判定及术中操作协同应用提供有力技术支撑。

前景探索，辅助教学、手术、机器人

目前，“术影”在标准手术场景下病灶部位识别准确率达95%以上，病变性质判断准确率达90%以上，实现四级手术关键步骤自动梳理以及结构化手术报告智能生成，单项专业任务处理能力达高年级医学生水平。

在应用场景上，“术影”现阶段重点落地外科教学、手术质控、术中指导及基层医疗赋能等领域。未来，还将向具身智能手术机器人领域拓展，实现更深层次的人机协同作业。

辅助临床教学

传统手术视频分析高度依赖人工判读与经验总结，效率低下且标准不一。依托“术影”智能分析系统，可将知名外科专家的经验进行结构化拆解，提炼出核心操作规范。受训医师能够通过精准检索、反复观摩与结构化复盘，针对性补强薄弱环节，无需耗费大量时间逐段研读冗长的手术影像资料。

辅助医生手术

“术影”整合行业海量临床诊疗数据与资深专家临床经验，不仅有效弥补医师认知短板，提升临床决策能力，为术中精准决策提供坚实循证依据，还能协助医师快速精准定位病灶、研判病灶病理属性，优化术中团队沟通流程，大幅降低漏诊、误诊风险，全方位提升临床手术的安全性与诊疗效率。

辅助手术机器人

“术影”专属感知与决策模块，可显著提升手术机器人的视觉感知与场景理解能力，可辅助手术机器人实时研判手术进程、解剖环境及操作风险，精准预判最优操作路径，甚至自主完成部分标准化手术步骤，进而推动手术从依托医师个人经验，转变为可量化、可复制、可推广的标准化诊疗模式。

全面开源，加快技术迭代和数据共享

当前AI领域技术壁垒持续攀升，技术门槛、数据储备、研发投入等多重因素制约行业进阶，底层技术自研难度居高不下。在此背景下，CAIR选择全面开源“术影”的完整代码、预训练权重及全套训练方案，面向科创企业、医疗机构、高校及科研机构开放授权、共享使用。

降低创新准入门槛

全球各类科研主体与研发人员可依托成熟的“术影”技术底座，快速开展定制化应用开发、专科场景适配与算法迭代，减少底层技术重复投入，充分释放行业创新潜力。

助推行业标准统一

“术影”高性能通用模型打破机构间的信息与数据壁垒，打通技术互通、成果共享、经验交流的渠道，助力全球手术AI产业协同发展，构建标准化、一体化的行业发展体系。

提速临床落地转化

各级医疗机构、医疗器械企业可在“术影”开源模型基础上，快速搭建智能手术辅助诊疗系统，适配外科、内镜、介入等多元临床场景，推动前沿AI技术深度落地临床实操。

目前，在GitHub主流AI开发者社区中，仅发布2个月时间，“术影”下载量已稳居全球同类模型榜首，获得众多科研团队、开发者及行业企业的广泛认可

赋能医生，开启外科手术智驾L3时代

依托顶尖的手术流程理解能力，“术影”可深度适配手术教学、临床实操、术后复盘、质量管控等各类诊疗场景，大幅减轻医务工作负荷，有效提升手术质量，为医生提供全方位赋能。

参照汽车自动驾驶分级体系，在临床应用全面铺开后，“术影”还可在流程规范、工况平稳的手术场景下，独立完成部分标准化手术操作的临床前置探索，有力推动手术AI从L2辅助智能升阶至L3条件自主层级，驱动外科领域革新发展：

临床安全

全流程实时监测、精准研判、动态排查手术操作隐患，有效降低手术失误率与患者并发症发生率。

医疗公平

打破优质外科医疗资源的地域、层级壁垒，推动顶尖外科诊疗技术与AI智能辅助能力下沉基层。

成本管控

优化手术流程、提升诊疗效率，实现医疗资源的优化配置与高效利用，助力医疗体系降本增效。

未来，CAIR将围绕“术影”搭建手术AI开放生态，汇聚全行业力量共建共享智能医疗产业体系，加速技术迭代、数据互通与能力升级。通过分层分级落地模式，优先在三甲医院开展临床试点应用，打磨成熟后逐步向地市、县级基层医院全面下沉普及。同时，依托手术“数字分身”技术，规模化复刻、传递顶级专家手术经验，让偏远地区、基层患者均可享受三甲医院同质化外科诊疗服务，真正实现外科智能医疗技术的规模化普惠。

“术影”大模型官网

https://surgmotion.cares-copilot.com/

“术影”大模型开源链接

https://github.com/CAIR-HKISI/SurgMotion

HOME

INNOVATION

Partnership and IP Collaboration

NEWS

JOIN US

ABOUT

Highlights & News

手术医师看过来，全球最大手术视频大模型“术影”带你一步迈入“智驾L3”时代

发表日期： 2026年5月30日