今年1月,DeepSeek-R1横空出世,凭借在性能和成本方面展现出的巨大优势,迅速成为全球人工智能(AI)领域瞩目的焦点。时隔四个月,这款大模型迎来了小升级。5月28日,DeepSeek正式发布了R1的最新版本――DeepSeek-R1-0528。
与上一版本相比,该版本的性能提升显著。例如,在AIME2025测试中,其准确率从70%跃升至87.5%,幻觉率降低了45%到50%,还新增了128K上下文支持和Function Calling功能。
具体来看,DeepSeek-R1-0528的编程能力取得了重大改进。在测试过程中,只需简单的指令,模型便能快速生成高质量的代码和设计作品。并且,R1-0528在生成复杂的前端页面和动态动画方面也表现出色。
此外,R1-0528的写作和推理能力也变得更加完善。在一项实验中,R1-0528在32K-token上下文中检索和使用信息的准确性比之前的R1版本大幅提升。尽管在非常大的上下文中,其准确性仍会有所下降,但在32K上下文中,性能提升显著。这表明,针对成千上万字的参考资料,新模型能够提供可靠的答案,而先前的模型则可能会遇到困难。
测试人员还注意到,R1-0528的书面输出质量已经得到了显著提升。写作任务的输出内容更贴近人类的写作风格,读起来更自然,风格更为合适。
纸上得来终觉浅,不如亲自体验一番。本次,我们将从信息整合、代码编写、文本创作三个维度进行测试,看看DeepSeek-R1-0528的实际表现。
一、代码编写
要求:编写俄罗斯方块网页游戏代码。
由DeepSeek-R1-0528生成的俄罗斯方块网页游戏界面美观、响应迅速且体验流畅。同时,游戏逻辑严谨完善,涵盖了方块的生成、旋转、下落、消除行等一系列核心玩法机制。
二、信息收集
要求:1、生成2025年五一假期出游报告;2、以网页形式呈现。
可以看到,DeepSeek-R1-0528能够迅速整合来自行业报告、权威新闻等多渠道的信息。这些信息不仅全面,还经过筛选,剔除了不相关的内容,节省了用户筛选信息的时间。
另外,网页形式呈现非常美观,以红色为主色调,搭配简洁明了的图表,如柱状图、饼图、雷达图等,直观展示数据;各板块布局合理,信息层次清晰,色彩搭配协调,既具视觉冲击力又便于用户快速抓取关键信息。
三、文本创作
要求:写一个短篇小说,东北科幻题材。
文学的魅力从不在 “标准答案”,而在不同视角碰撞出的火花......这里就不做评价了
写在最后:
正如我们在测试中所看到的,无论是面对复杂的编程任务,还是需要深度信息挖掘与整理的工作,亦或是充满想象力的文学创作,R1-0528都能提供令人满意的解决方案。此次升级无疑为人工智能领域注入了新的活力,也为未来大模型的发展提供了方向和思路,期待DeepSeek在未来能够带来更多的突破和惊喜。