AI Industry-Academia Insights

AI Industry-Academia Insights

发表日期: 2025年2月8日


一、DeepSeek-R1发布,性能对标OpenAI o1正式版

1月20日,继DeepSeek-V3之后,DeepSeek再次推出并开源了推理大模型DeepSeek-R1,该模型性能可比肩 OpenAI o1 正式版。除此之外,DeepSeek还开源了6个从DeepSeek-R1蒸馏而来的小型模型。其中,32B和70B模型的性能同样可以与OpenAI-o1-mini相媲美。DeepSeek-R1 API 服务定价亲民,每百万输入 tokens 仅1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 仅16 元。

为了不用监督微调(SFT)作为冷启动,而是通过大规模强化学习显著提升模型的推理能力,该团队还开发了DeepSeek-R1-Zero,其具有以下三点独特设计:一是采用群组相对策略优化(GRPO)降低训练成本,二是采用准确性奖励与格式奖励系统,三是设计了一种训练模板来引导基础规则。在训练过程中,DeepSeek-R1-Zero 展现出了显著的自我进化能力,并学会了通过重新评估初始方法来更合理地分配思考时间。

论文链接:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
代码:
https://github.com/deepseek-ai/DeepSeek-R1

二、DeepSeek Janus-Pro:实现多模态理解与生成的统一

1月28日,DeepSeek发布了开源多模态AI模型Janus-Pro。Janus-Pro 在其前身 Janus 的架构基础上进行了改进,目标是提高多模态理解(同时解释和推理图像和文本)和文本生成图像的性能,同时提高图像生成过程的稳定性。Janus-Pro关键的改进包括:
  • 训练策略优化:精炼训练过程,更有效地建模图像中的像素依赖关系,以及更有效地利用文本到图像数据;
  • 数据扩展:扩展了多模态理解和视觉生成的训练数据,包括合成美学数据的整合;
  • 模型扩展:将模型从 10 亿参数扩展到 70 亿参数,证明了这种方法的可扩展性。

性能评估结果显示,Janus-Pro 在多个多模态理解基准测试中取得了优异的结果;视觉生成测试中,Janus-Pro-7B 在 GenEval 上取得了 0.80 的成绩,超过了 DALL-E 3 和 Stable Diffusion 3 Medium。


论文链接:
https://arxiv.org/abs/2501.17811

代码:

https://github.com/deepseek-ai/Janus 


三、DeepSeek创始人梁文锋访谈:一个更极致的中国技术理想主义故事
短短两个月内,DeepSeek推出的大模型DeepSeek-V3与DeepSeek-R1引发了全球的关注。事实上,早在去年7月,DeepSeek-V2 已凭极低的推理成本在中国AI领域一跃成名。公司创始人梁文锋当时在采访中提到:“降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API还是AI,都应该是普惠的、人人可以用得起的东西。”

作为一名技术理想主义者,梁文锋是少有的把“是非观”置于“利害观”之前,并提醒我们看到时代惯性,把“原创式创新”提上日程的人。他认为在过去三十年创新的作用被忽视了,而现在中国需要参与到全球创新的浪潮里去,逐步成为贡献者。“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。真正的差距不是一年或两年,而是原创和模仿之差。中国企业创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋在两年前的采访中曾说过“务必要疯狂地怀抱雄心,且还要疯狂地真诚”,两年过去,它已经成为了一种行动,并正在改变世界。



原文链接:
https://36kr.com/p/2872793466982535 

四、英伟达CEO黄仁勋CES 2025演讲:人工智能正以惊人的速度发展

英伟达CEO黄仁勋在拉斯维加斯举行的 2025 年国际消费电子展上,进行了一场长达90分钟的主题演讲,他表示:“人工智能正以惊人的速度发展,一开始是判别式人工智能,识别图像、文字和声音中的内容;接着是生成式人工智能,即创造文本、图像和声音;如今我们正迈入具身人工智能的时代,即能够推理、规划并付诸行动的人工智能。” 

他阐述了 AI 发展的缩放定律(scaling law),在大模型的预训练、后训练和推理阶段,得到了广泛的应用。最新加入的是测试时缩放定律(test-time computing scaling),它实现了 AI 大模型在实际推理过程中的持续优化,显著提高当前AI大模型的逻辑思考能力。这些技术突破都需要海量计算资源支持。在计算资源有限的约束下,市场对 NVIDIA Blackwell 的需求激增。


演讲全文:
https://wallstreetcn.com/articles/3738537
演讲视频:
https://shorturl.at/V8jAK


五、1760亿参数医学大模型MedFound问世

1月8日,北京邮电大学网络与交换技术全国重点实验室王光宇教授团队发表“A generalist medical language model for disease diagnosis assistance”论文。该团队提出并验证了当前具有最大规模参数量的生物医学大语言模型 MedFound(176B)。这是一个具有1760亿参数的通用医学语言模型,在来自不同医学文本和真实世界临床记录的大规模语料库上进行预训练。这些数据包含了海量开源的中英文医学文献、书籍和“真实世界”的电子病历记录,确保模型获得全面的生物医学领域知识。团队通过基于自引导策略的思维链方法,让大模型学习医生的推理诊断,然后进行优化,将LLM与专业领域的知识体系和临床诊断偏好对齐,确保模型在诊断决策时不仅科学合理,而且符合临床实践中的专家决策逻辑。该模型可以在多个维度上(如所有常见疾病、开放环境下的罕见疾病及推理能力等方面),突破多学科知识整合能力和临床诊断思维能力,实现通才诊断。目前,团队已将MedFound开源并发布在Hugging Face,可为全球科研人员、临床医生、及医疗机构提供底层基础大模型服务及全方位的领域知识。

论文链接:
https://www.nature.com/articles/s41591-024-03416-6
代码:
https://huggingface.co/medicalai/MedFound-7B 

六、从MedRAG到i-MedRAG,新型多轮搜索机制显著提高大模型医学能力
去年,美国弗吉尼亚大学团队在MedRAG基础上,进一步提出一种全新的迭代检索增强生成框架i-MedRAG,让大模型能够根据历史检索结果动态生成跟进查询 (follow-up queries),逐步获取关键信息,形成完整的逻辑推理链。

面对复杂的临床推理场景时,MedRAG的单轮检索依旧存在信息不完整和检索效果受限的问题。而i-MedRAG可以将跟进查询 (follow-up queries) 引入MedRAG 框架,让大模型不仅能够动态生成查询,根据历史检索结果生成后续问题,逐步定位关键信息,还能够构建信息链条,通过多轮检索与推理,形成完整逻辑链,找到准确答案。在MedQA-USMLE数据集上,i-MedRAG 在零样本 (zero-shot) 设定下,使用 GPT-3.5 实现了 69.68% 的准确率,不仅超过了前代 MedRAG (66.61%),还超越了现有基于 few-shot 和 fine-tuned 的方法,例如 MedAdapter 的 68.66% 和 LLM-AMT 的 67.90%。


论文链接:
https://arxiv.org/abs/2408.00727
代码:
https://github.com/Teddy-XiongGZ/MedRAG 

七、复旦大学等机构揭秘OpenAI o1路线

去年12月,复旦大学等机构发表题为“Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective”的论文,从强化学习的角度分析了实现OpenAI o1的路线图,令全球AI学者震惊不已。

这个路线图有四个关键部分需要重点关注:
  1.  策略初始化:使模型能够发展出「类人推理行为」,从而具备高效探索复杂问题解空间的能力。
  2. 奖励设计:通过奖励塑造或建模提供密集有效的信号,指导模型的学习和搜索过程。
  3. 搜索:通过更多计算资源可以生成更优质的解决方案,在训练和测试中都起着至关重要的作用
  4. 学习:强化学习通过与环境的交互进行学习,避免了高昂的数据标注成本,并有可能实现超越人类的表现

此外,作为路线图的一部分,该团队还总结出了现有的“开源版”项目。
600



论文链接:

https://arxiv.org/abs/2412.14135 


八、o3权威测评报告:AI能力实现关键跃升,但仍未达到AGI水平 

去年12月21日,OpenAI发布最新一代推理模型o3的同一天,知名法国计算机科学家和机器学习研究者、ARC Prize基金会的创始人弗朗索瓦·肖莱(François Chollet)撰写报告称,o3在ARC-AGI基准测试中取得了突破性高分。ARC-AGI是一个专门设计用来测试人工智能模型对极其困难的数学和逻辑问题进行推理的能力的基准测试。

肖莱在报告中指出,OpenAI最新推出的o3模型,在基于ARC-AGI-1公共训练集的训练下,在遵守公开排行榜规定的1万美元计算限制的前提下,在半私有评估集上取得了75.7%的突破性高分。而在高计算量(172倍)配置下的o3模型,得分更是达到了87.5%。这一成绩标志着人工智能能力出现了令人震惊且关键的跃升,展现出GPT系列模型中前所未有的新任务适应能力。o3解决了大语言模型范式在测试时无法重新组合知识的根本局限,并且通过一种大语言模型引导的自然语言程序搜索形式来实现这一点。这不仅是渐进式的进步,更是新领域的开拓。


原文链接:

https://mp.weixin.qq.com/s/0Yo-kRGtQS3aIKoFzBaGaw 


九、MinMax-01开源:新架构开启Agent时代 

1月15日,MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

MiniMax-01系列模型首次大规模实现线性注意力机制,传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。业界主流的文本和多模态理解测评结果显示,该模型在大多数任务上追平了海外公认最先进的两个模型,GPT-4o-1120和Claude-3.5-Sonnet-1022;在长文任务上,随着输入长度变长,MiniMax-Text-01是性能衰减最慢的模型,显著优于之前长文最好的模型Google Gemini。MiniMax标准定价是输入token 1元/百万token,输出token 8元/百万token。



论文链接:
https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
MinMax开放平台:
https://www.minimaxi.com/platform