AI Industry-Academia Insights

AI Industry-Academia Insights

发表日期: 2025年1月6日


一、DeepSeek V3横空出世:震惊AI圈

12月26日,中国科技公司研发的大模型 DeepSeek-V3开源上线,即刻引爆AI界:低成本&高效率(开发仅用了两个月和约 550 万美元,显著低于 OpenAI 和 Google 等巨头开发模型所需的数十亿美元)、性能不算落后(与OpenAI 和 Meta 的最先进模型相当,甚至在某些领域表现更佳)、打破硬件限制(使用较易获得的NVIDIA H800 晶片进行训练)、挑战现有巨头的市场优势、对投资者的启示(是否有必要投资成本高昂的前沿模型训练)。

许多人认为,这是来自东方的魔法,但实际上这个魔法叫工程科学。根据DeepSeek的技术报告,惊人的低训练价格和其强悍的能力全部有迹可循:DeepSeek-V3在预训练阶段,对性能影响有限的地方,他们选择了极致压缩;在后训练阶段,对模型擅长的领域,他们又倾注全力提升。精准启用部分「脑细胞」:其采用了一种名为「混合专家架构」的设计,简单来说,它只会在需要时启动部分「脑细胞」而不是全部,这样就大大降低了运算资源的消耗,训练该模型只使用了 2048 部 NVIDIA H800 GPU。数据处理及节能创新:DeepSeek 开发内部工具生成高质量训练数据,并使用「蒸馏技术」进一步压缩运算资源。训练过程中采用 FP8 技术,这种低精度数据格式能显著降低显存需求,同时提升效率。FP8 的使用让记忆体需求仅为传统 FP16 技术的一半,而计算性能依然不减。为进一步提升效能,DeepSeek-V3 引入多头潜在注意力(MLA)技术,能大幅压缩长文本处理时的记忆体需求,减少高达 96% 的资源消耗。同时解耦位置编码(RoPE)的加入,也确保压缩后的数据仍能准确保留位置信息,进一步提升推理速度与准确性。

Deepseek 的突破让人们看到,未来 AI 不仅能以高效能运行于高端伺服器,甚至能轻松移植到手机和平板等消费性装置上运行,让用户以低成本享受到媲美传统高性能硬件的 AI 功能,为市场带来真正的平民化技术体验。

技术解密:
https://36kr.com/p/3104268229054209 
访谈链接:
https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmj 
技术报告链接:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf 

二、全球华人团队合作:震撼开源生成式物理引擎Genesis

12月19日,CMU 联合其他 20 多所研究实验室开源发布了一个能够生成 4D 动态世界的生成式物理引擎Genesis,专为通用机器人、具身AI和物理AI应用而设计,可以超高速度模拟各种场景。Genesis完全用纯Python开发,但速度比现有的GPU加速平台(如Isaac Gym和MJX)快10-80倍。它的仿真速度比实时快约43万倍,并且仅需26秒就能在一块RTX4090显卡上训练出可转移到真实世界的机器人运动策略。

Genesis 可将各种物理求解器集成到统一框架中,通过生成式代理框架的增强,旨在彻底改变机器人技术及其他领域的自动数据生成方式。Genesis不仅是一个仿真工具,还是一个创意强大的平台,可以将自然语言描述转化为丰富的多模态数据,包括视频、3D场景和机器人策略。课题组领导者淦创教授称:“我们的方法核心是逆向工程人类心智模型,并构建由生成物理引擎驱动的机器人大脑!”

论文链接:
https://genesis-embodied-ai.github.io 

三、科技世界前沿:智源研究院实现数字孪生心脏电功能超实时仿真
11月28日,智源研究院宣布实现数字孪生心脏电功能的超实时仿真,成功将生物时间与计算时间比提升至1:0.84,为心脏病研究、药物研发和临床手术规划带来革命性突破。该系统包含19种细胞生理状态变量和70多个公式,能够实现复杂的心脏电生理与病理仿真,为临床与医药工业应用提供丰富的场景。团队设计的分布式计算(提速32倍)、量化策略(提速2.48倍)和循环展开(提速2.34倍)为心脏模型的模拟整体提速了181倍。在精度方面,优化后的系统保持了高度准确性:膜电位时程差别小于2毫秒(0.6%),模电位平均误差仅0.72mV(0.4%),完全满足生理准确度要求。这一技术进步不仅为心律失常机制研究、药物安全评估等基础研究提供了强大工具,还能支持射频消融等临床手术的方案规划,标志着心脏模拟技术翻开了崭新的篇章。

原文链接:
https://mp.weixin.qq.com/s/H2Rgb0pVgoBLRIWo6qAEsA 

四、Nature子刊报道:内镜垂体手术的AI辅助解剖识别

11月9日,英国伦敦国立神经外科医院神经外科Hani J. Marcus等在Nature 子刊npj Digital Medicine上报道了AI在内镜垂体手术上的最新应用进展。研究团队将对照实验平均分为四组:医学生、初级培训医生、中级培训医生和专家,每组各6人。参与者需要完成对6张图像的鞍区标注任务,分别在有无AI辅助的情况下进行。实验结果显示出显著的改善:在所有参与者中,鞍区识别的DICE评分从基线的70.7%提升到了使用人工智能辅助后的77.5%,整体提升了6.7个百分点。

最引人注目的是经验水平与获益程度之间呈现出的反比关系。医学生群体从这项技术中获得了最大收益,他们的DICE评分从原本的66.2%提升至78.9%,增幅达到了12.8个百分点。这一提升幅度几乎是整体平均提升的两倍,研究结果不仅证实了这项技术在提高手术安全性方面的潜力,更重要的是揭示了它在外科教学中的独特价值:使用者经验越少,从人工智能辅助中获益就越多。AI通过缩小新手与专家之间的差距,成为医学教育中一个强有力的辅助工具。
演讲全文:
https://wallstreetcn.com/articles/3738537
演讲视频:
https://shorturl.at/V8jAK


五、Nature Communications报道:革命性的便携式低场磁共振成像技术

12月02日,哈佛医学院在Nature Communications在线发表一个用于阿尔茨海默病(AD)评估的便携式低场磁共振成像(LF-MRI)的研究。该研究优化了LF-MRI采集,并开发了一个免费的机器学习管道来量化大脑形态测量和白质高信号(WMH)。作者验证了该管道,并将其应用于因轻度认知障碍或由AD引起的痴呆而就诊的门诊患者。作者发现,来自≤3毫米各向同性LF-MRI扫描的海马体体积与传统MRI一致,并且比各向异性对应物更准确。作者还展示了WMH体积在手动分割和自动化管道之间具有一致性。LF-MRI的增加可用性和降低的成本,结合作者的机器学习管道,有潜力增加对痴呆症神经影像学的获取。

论文链接:
https://www.nature.com/articles/s41467-024-54972-x 

六、医疗AI重大突破:大模型撰写高质量出院报告
7月24日,新加坡综合医院的研究团队在医学互联网研究杂志(Journal of Medical Internet Research) 发表了一项研究,探索大语言模型(GPT-4)在生成专科门诊出院报告方面的应用潜力。该研究评估了GPT-4在撰写泌尿外科门诊出院报告中的表现,并与初级医生撰写的出院报告进行了比较。研究模拟了5个常见病例,通过GPT-4和初级医生分别生成报告,交由初级保健医生的盲评小组评价。结果显示,GPT-4在信息提供方面优于初级医生,且生成的报告未出现任何幻觉或语法错误。在清晰度、礼貌性、简洁性、随访建议与总体满意度等方面,GPT-4与初级医生的表现无显著差异。此外,研究中发现GPT-4还具有一些超出预期的能力,它能够关注到未在原始提示中明确要求的次要医疗问题、为偶发发现提供适当的随访建议、并会注意到围手术期发现的其他健康问题并提出相应建议。此项工作表明,AI生成的出院报告质量在多个维度上不输甚至优于人工撰写,甚至展现出了超出预期的全局性关注能力。因此研究团队认为,在确保适当人工监督的前提下,大语言模型可以成为提升医疗文档质量、减轻医务人员工作负担的有力工具。

论文链接:
https://www.jmir.org/2024/1/e57721 

七、OpenAI 引领技术革新:“强化学习微调” 到来

12月6日,OpenAI释出新功能“强化学习微调” (Reinforcement Fine-Tuning),其可以通过给予模型高质量任务数据和参考答案来强化其推理能力。与传统微调不同,强化微调并不是简单地让模型“记住答案”,而是通过训练模型在特定领域中学会推理,找到正确答案。这种微调方法使用两种数据集:一个是用于训练的微调数据集,另一个是用于验证的测试数据集。模型首先通过微调数据集进行学习,然后在测试数据集上验证其推理能力,发现不足后再调整。通过这种反复的自我推理、训练和验证,模型的能力会逐步提升,最终达到极高的专业水平。这种方法显著增强了模型在特定领域的准确性,比如法律、保险、医疗、金融和工程领域。劳伦斯伯克利国家实验室计算生物学家 Justin Reese参与了模型的现场演示,分享“强化学习微调”是如何帮助诊断罕见疾病。目前OpenAI仅支持强化学习微调的Alpha测试申请,预计明年正式发布。

视频链接:

https://www.bilibili.com/video/BV1csq5YCEtg/ 


八、Ilya预言AI新纪元:预训练时代落幕,“超级智能”成未来趋势 

12月14日, OpenAI前首席科学家、联合创始人Ilya Sutskever在NeurIPS 2024发表演讲,并大胆预测:“预训练毫无疑问将会终结,与此同时我们也不会再有更多数据了” 。他认为,尽管计算机的计算能力正通过更先进的硬件、更优化的算法和更庞大的集群不断增长,但数据量的增长却并不明显。他将数据比作AI的化石燃料,认为如今数据已达到峰值,随着全球数据限制,未来人工智能将面临数据瓶颈。虽然目前仍可以使用现有数据进行有效训练,但是Ilya认为这一增长趋势终将放缓,预训练的时代也会逐步结束。

在预训练时代结束后,Ilya预测下一代人工智能系统将向着“超级智能”(Superintelligence)的方向迈进。他提到:“虽然目前的AI系统还不能真正理解和推理,但未来的AI将会在推理和决策方面展现出更加不可预测的能力”。Ilya 进一步推测,未来的 AI 将不仅仅是执行任务的工具,而会发展成“Agent”,能够自主进行推理和决策,甚至可能具备某种形式的自我意识。这将是一个质的飞跃,AI 将不再是人类的延伸,而是一个具有独立智能的存在。

视频链接:

https://www.bilibili.com/video/BV1qjqfYoE3t/?spm_id_from=333.337.search-card.all.click