
3月24日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港科学园深圳分园发布“术影”SurgMotion手术视频大模型,并同时宣布这个10亿参数量的大模型全面开源,标志外科手术AI从“碎片化识别”向“通用化理解”的跨越式进化,为临床治疗、手术操作、医学教学及术后复盘提供有力支撑。

“术影”SurgMotion手术视频大模型正式发布 受访者 供图
能直接看懂手术视频的通用大模型
据介绍,“术影”SurgMotion手术视频大模型是目前业内规模最大、最完整的手术视频通用智能底座,依托SurgMotion-15M海量数据集进行训练,突破了传统像素重建的局限,引入运动引导的隐空间预测机制,显著提升了模型对手术器械、解剖结构、交互动作等关键语义结构的理解能力,为多中心、多科室、多术式的通用手术智能奠定了基础。
“术影”SurgMotion大模型支持13种人类主要器官、6大类手术理解任务(工作流理解、动作理解、深度估计、息肉分割、三元组识别、技能评估),尤其在手术流程识别、器械交互理解、精细动作建模等核心任务上大幅超越现有方法,展现出极强的泛化能力与精度。
“术影”SurgMotion大模型不处理文字或普通图片,而是能直接看懂手术视频,能准确识别正在进行的操作、器械交互和精细动作,精度远超现有通用模型。中国科学院香港创新研究院人工智能与机器人创新中心主任刘宏斌研究员表示,“‘术影’的推出,将助力构建大湾区AI医疗的智慧生态,另外也希望它能够帮助偏远地区的基层医生,让他们也能拥有类似顶尖医院专家的‘眼睛’和‘大脑’。”
除技术创新以外,研究团队还构建了目前规模最大的手术视频预训练数据集——SurgMotion-15M。该数据集汇集来自50个数据源、13个解剖区域的1500万帧、超3658小时的真实手术视频,一级全黄60分钟免费网站涵盖腹腔镜、开腹、神经外科、眼科、耳鼻喉科等多专科场景,为模型提供了前所未有的多样性支撑。
提升临床治疗的精准度与安全性
“术影”SurgMotion的标准化分析能力可有效降低复杂手术的风险,显著提升临床诊断与手术操作的规范性,为各级医疗工作者提供强有力的技术支持。
五位专家接受媒体访问 受访者 供图
香港大学深圳医院作为神经外科专科培训基地,一直致力于解决复杂手术教学中传统“师带徒”模式的标准化难题。拥有35年临床经验的香港大学深圳医院神经医学中心名誉顾问医师潘伟生教授表示,凭借精准的动作解析与客观的评估能力,“术影”大模型未来将成为可靠的教学辅助工具,帮助年轻医生进行规范化的手术复盘,极大推动专科培训的数字化与标准化发展。“它不会替代医生做决定,而是在手术中辅助医生决策判断,同时用于年轻医生的培训,帮助他们理解手术操作和过程。”
中山大学附属第一医院呼吸与危重症医学科副主任廖槐教授则表示,呼吸介入治疗正向着更深、更精细的方向发展,这迫切需要强大的AI视觉模型来提供技术支撑。“术影”大模型展现了卓越的性能,在图像分割和深度估计这两项关键任务上全面领先,实现了极高的病灶勾画精度与极低的深度误差。结合中山一院真实的临床视频数据进行测试,呼吸介入治理流程识别的准确率达到85%左右,“这种能真正‘读懂’手术的强大感知能力,未来必将深度赋能支气管镜机器人,大幅提升临床治疗的精准度与安全性。”
南方+记者 欧旭江