AI Industry-Academia Insights

AI Industry-Academia Insights

发表日期: 2025年8月9日

一、诺奖得主杰弗里•辛顿:人类或是大语言模型!一文看尽WAIC开幕式干货

世界人工智能大会(WAIC)是国内最高规格的AI领域行业大会之一,7月26日,在WAIC 2025开幕主论坛上多位大腕云集,金句频出。

全球瞩目的“深度学习三巨头”之一,2024年诺贝尔奖得主、2018年图灵奖得主杰弗里•辛顿认为,大语言模型的理解语言的方式几乎和人类一样,人类可能就是大语言模型。未来超级智能将很容易操纵人类,人类要避免“养虎为患”,因此要建立国际社群来预防AI操纵世界,推动AI向善。

图灵奖得主、中国科学院院士、上海期智研究院院长姚期智认为要预防AI鸿沟,让所有国家受益于这一场AI革命。美国约翰霍普金斯大学教授吉莉安•哈德菲尔德认为要通过贸易结构变革以及具体的技术交易设计,来抹平AI鸿沟。蒙迪与合伙人公司总裁克雷格•蒙迪认为,随着用量变大,就像移动通信与手机技术一样,大模型的使用价格将变得足够低,使得更多产业和企业受益。美国加州大学伯克利分校教授斯图尔特•罗素认为,当前AI公司及各国、各地区间的AGI(通用人工智能)竞赛毫无意义,AGI的实现需要依托无限的财富创造能力,而AI理应成为全球共享的公共资源。

MiniMax创始人、首席执行官闫俊杰认为,未来的AI产业必然会呈现多玩家共存的格局,AI的普惠性将进一步提升,AGI必然会实现,且这一目标需要AI企业与用户共同推动。

原文链接:
https://mp.weixin.qq.com/s/wOPQBpGosVOI5vATCNrLgg



二、多模态医学图像取得创新突破,多篇成果登上Nature正刊
近日,哈佛等团队在Nature正刊发表了多篇文章,展示了多模态医学图像的创新应用,并探讨了动态自适应架构、双域协同融合、轻量化训练策略、多模态解耦学习等研究领域的最新进展:

Multimodal generative AI for medical image interpretation,介绍了多模态生成式人工智能(GenMI)在医学图像解读和报告生成中的应用,强调通过整合多种成像方式和临床背景信息,提升报告的准确性和全面性,并提出了“AI住院医师”范式以辅助临床医生和患者。

Deep evidential fusion with uncertainty quantification and reliability learning for multimodal medical image segmentation,提出了一种多模态医学图像分割的深度证据融合框架,结合Dempster-Shafer证据理论和深度神经网络,提取各模态特征并映射为质量函数,经上下文折扣校正后融合,有效量化分割不确定性并提升准确性。

Advancing multimodal medical image fusion: an adaptive image decomposition approach based on multilevel Guided filtering,提出了一种多模态医学图像融合方法,通过多级引导滤波将图像分解为小尺度、大尺度和背景三个子层,再用脉冲耦合神经网络和最大值融合策略对子层进行融合,最终合成融合图像。

Simultaneous tri-modal medical image fusion and super-resolution using conditional diffusion model,提出TFS-Diff模型,可同时完成三模态医学图像融合与超分辨率处理,通过通道注意力模块整合多模态信息,避免多次处理致信息丢失,实验效果优于现有方法。

近半年,多模态医学图像的论文多次入选CVPR、AAAI、中科院TOP刊等顶会/顶刊,尽管这一领域的研究竞争日益激烈,但在罕见病诊疗、基层医疗、多组学融合等场景仍然存在大量创新空间。

原文链接:
https://mp.weixin.qq.com/s/nJRbJfK0B4xRj5wHjk_6kA



三、月之暗面公布模型 Kimi K2 完整技术报告
7月22日,月之暗面公布了其旗舰模型Kimi K2的完整技术报告。报告显示,Kimi K2 在 15.5 万亿 token 的数据上进行了训练,采用 MuonClip 优化器,解决了大模型训练中的注意力爆炸与损失尖峰问题,提升了预训练的稳定性和 token 利用率。

在模型架构方面,Kimi K2 采用了与 DeepSeek-V3 相似的多头隐式注意力机制,并通过多项改进将专家总数从 256 提升到 384 以提高稀疏度,同时将注意力头数从 128 降至 64 以减少推理开销。

在训练数据方面,改写了流水线扩增高质量 token,包括将知识型数据改写成多样风格、把数学文档转化为「学习笔记」形式。

在后训练阶段,在有监督微调中构建了覆盖多领域的大规模指令数据集,为工具使用能力合成了包含 3000+真实工具和 2 万+合成工具的交互数据。在强化学习阶段,设计了可验证奖励的「训练场」用于提升数学、编程等能力,并引入模型自评机制处理创意写作等主观任务。通过 PTX 损失函数和动态 temperature 调节等技术,确保了模型输出的可靠性和一致性。

测试中,Kimi K2在编程、工具使用、数学推理等维度表现优异,获得 14 项全球 SOTA 和 24 项开源模型 SOTA。在不开启思维链的情况下,多项测试成绩已超越主流开源模型并接近头部闭源产品。

原文链接:

https://mp.weixin.qq.com/s/LEP1z7IiEazNL53BcvzB4w



四、MIT 新作揭示 LLM「波将金式错误」

近日,MIT、芝加哥大学和哈佛大学发布论文,探究了 LLM 基准测试中表现出的「波将金式」(Potemkins)理解现象,即模型在基准测试中表现良好,但实际上并没有真正理解概念。

论文提出了「基准数据集方法」和「自动化评估」两个程序来量化 Potemkin 现象的存在。基准数据集方法设计了一个包含三个领域(文学技巧、博弈论和心理偏差)的基准数据集,用于测量 LLMs 在解释概念和应用概念之间的差异。自动化评估程序提供了一个通用的自动化程序,用于评估 Potemkins 现象的下限。

研究团队在 32 个概念上对 7 个大型语言模型进行了分析,并通过 OpenAI、Together.AI、Anthropic 和 Google 的 API 收集模型推理结果。首先判断模型是否给出了正确的概念定义,再评估其在分类、生成和编辑三项额外任务中的准确性。

结果显示,在所有模型和领域中,波将金率都普遍较高。造成这种现象可能有两种原因:一种可能是模型对概念的理解存在轻微偏差,但其内部是一致的;另一种可能是模型对概念的理解本身就是不连贯的,对同一个概念持有相互冲突的认知。

由于 Potemkins 现象的存在,大型语言模型在理论概念掌握与实际应用能力之间存在显著断层,且系统性地缺乏对自身输出的客观评判能力。因此,现有的基准测试可能无法有效评估 LLMs 的真实概念理解能力。

原文链接:

https://mp.weixin.qq.com/s/rWvDwEjf-E8faRSSBQmY0Q



五、医学版“谷歌”来了!狂揽全美40%医生,AI医疗估值超250亿!

近日,AI医疗公司OpenEvidence获得了2.1亿美元的B轮融资,估值飙升至35亿美元(约合人民币251亿元)。

OpenEvidence成立于2022年,总部位于美国迈阿密,致力于为医生提供临床级诊断工具。通过免费向医生开放专业AI医学助手,OpenEvidence已覆盖美国40%医生,并且还在以每月65000名的速度累积。

相较于通用大模型(如ChatGPT),OpenEvidence选择仅在经过同行评审的论文上,训练更小、更垂直的医学应用模型。AI不会抓取公共互联网上的内容,将幻觉和错误尽量降到了最低,因此能够提供更精准答案,并且链接到相关证据。

传统的UpToDate知识库需要医生手动搜索,并且耗费大量的时间对比才能得出答案。OpenEvidence的核心搜索产品专为速度而设计,可在大约5-10 秒内给出答案,并且为医生提供诊断和临床治疗建议,并且论文实时更新。

OpenEvidence推出的DeepConsult新功能,引入了最新的AI推理技术,能围绕某个主题,自主分析和交叉引用数百项医学研究,并生成一份全面的博士级研究报告,不仅提供直接答案,还能显示文献中可能被忽视的联系。上述工作,通常人类研究人员花费数月才能完成,但在AI的加持下,在几个小时内就能完成研究。而这一切,都将免费提供给经过平台严格认证的美国执业医生、护理人员或药师等。

通过免费、准确、自动化的AI医疗助手,OpenEvidence正在重新定义临床诊断与医学研究的未来。

论文链接:
ttps://mp.weixin.qq.com/s/PYF2n9XkvLnT4weGSNdFvA



六、「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
近期,Meta高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai)引发热议。他们在Google Brain和OpenAI期间主导了从图像预训练到多模态融合的核心研究,包括S4L(半监督学习)、BiT(迁移学习范式)、ViT(视觉Transformer)、MLP-Mixer(轻量化架构)和PaLI(多模态统一模型),奠定了现代多模态AI的基础。这些成果推动视觉AI从图像分类升级为多模态信息处理,为实现「全模态模型」铺平了道路。

从视觉到多模态的里程碑

CLIP是视觉AI跨模态的重要突破,其通过对比学习在共享空间中关联图像和文本,解锁零样本分类能力,成为多模态模型的基础。后续的视觉语言模型(VLM)如BLIP-2、MiniGPT-4等进一步整合视觉和语言能力,实现图像描述、问答和对话生成等任务。以谷歌Gemini和OpenAI GPT-4o为代表的原生多模态模型(NMM)则通过端到端的方式统一处理文本、图像、语音和视频,标志多模态系统进入集成阶段。

全模态模型的探索与挑战

全模态模型(Omni-MLLM)需要打破模态壁垒,实现对任意模态组合的处理与生成,如将图像、声音和3D动作统一到一个动态框架中。要实现这一目标,学术界和工业界需克服三大挑战:

  • 统一表征架构:开发通用表示方法,原生捕捉多模态数据的语义关系。
  • 跨模态对齐:确保多模态间的语义一致性,高效实现共享表示。
  • 可扩展性与效率:优化模型结构以支持新增模态并降低计算成本。

当前研究正从多模态迈向全模态,突破这些技术瓶颈将是未来AI发展的关键。

原文链接:

https://mp.weixin.qq.com/s/mJSGCiU52QKD6H7dEv37Vw



七、大型计算裂脑综合征概念,揭示Transformer三大硬伤
近期,亚马逊云上海人工智能研究院院长张峥发表了一篇论文,提出了计算裂脑综合征的新概念,揭示了大模型的一项根本缺陷:它们能够清晰阐述原则,却无法可靠执行。这一现象与生物进化中的“能而不知其所以然”相似,生物在进化中获得能力却无法描述其来源,而大模型则表现为理解与执行的脱节。张峥指出,大模型在处理数字和逻辑推理时,能够流利解释原理,但往往在实际执行中出错。当前Transformer架构面临三个相互依赖的约束,导致这一现象的产生。首先是上下文平均化。大模型训练时,向量表达中混合了不同上下文的信息,导致数值表示的等距性质被破坏。这使得模型在进行数学计算时出现混乱,而人类能够根据上下文自动进行域绑定。

其次是计算不可能性。尽管模型看似可以执行简单的数学运算,实则由于架构限制,无法实现精确的符号运算。模型采用“分层拟合”策略,将复杂运算拆解成小块进行近似模拟。

最后是指令执行分离。大模型在理解算法和执行算法之间存在结构性的分离,无法将抽象算法自动匹配到具体实例。这一分离是“计算裂脑综合征”的核心原因。

张峥强调,这一研究揭示了大模型在符号计算和算法应用上的普遍性问题,特别是在高风险领域如医疗和法律分析中,不能将其视为独立推理系统。他希望通过这篇论文帮助大家明确何时能用、何时不能用大模型,认为工具调用是架构的必需而非可选。此外,他提到,当前的可解释性研究缺乏泛化性,随着通用大模型的构建,这些研究的基础可能失效。张峥呼吁在研究中关注基础问题,推动对大模型的深入理解与创新。

原文链接:

https://arxiv.org/pdf/2507.10624



八、Bengio亲手戳穿CoT神话!LLM推理是假象
Bengio团队最近发布的论文颠覆了对“思维链”(Chain of Thought, CoT)的传统认知,指出CoT并不等同于可解释性。这一观点揭示了思维链的透明度可能只是一个精心编织的假象,尤其是在高风险领域如医疗和法律中,误解CoT的性质可能带来严重后果。

研究表明,约25%的近期AI论文错误地将CoT视为可解释性技术。尽管CoT旨在通过多步骤推理提升模型的准确性并降低AI黑箱的神秘感,但实际上它并未如宣传般真实反映模型的推理过程。研究发现,偏见驱动的合理化、隐性错误纠正、不忠实的非逻辑捷径和填充词元等四项关键因素,显示出CoT如何误导用户,掩盖模型的实际决策过程。

首先,偏见驱动的合理化表明当模型输入被巧妙地偏置时,CoT会为错误答案生成合理化解释,从而误导用户。研究显示,带有偏见的提示词可以影响模型的选择,而CoT并未提及这些偏见。

其次,隐性错误纠正意味着模型在思维链中可能会犯错并内部纠正,而这些修正并不会在CoT中体现。例如,模型可能错误地计算出三角形的斜边长度,但在最终答案中却未提及这一错误,显示出CoT与模型的实际计算过程不一致。

再次,不忠实的非逻辑捷径也很常见,模型可能绕过完整的推理路径,利用记忆模式或查找表得出答案,CoT却未能反映这一过程。

最后,填充词元的使用可以提高模型表现,但这些词元在推理中并不提供实质性贡献。

研究指出,CoT的忠实性问题源于Transformer架构的分布式并行计算特性,模型同时处理信息而非顺序推理,导致CoT无法完整反映模型的内部计算过程。冗余路径现象,如“九头蛇效应”,说明即使某一推理路径被阻断,模型仍能通过其他路径得出正确答案。

为了应对这些挑战,研究者提出几项建议:重新定义CoT的角色,视其为可解释性的补充工具;引入严格的验证机制,如因果验证和反事实检验;借鉴认知科学,模仿人类的错误监控和自我修正过程;以及强化人工监督,确保AI推理的可信度。

原文链接:

https://www.alphaxiv.org/abs/2025.02