Published on 2025-01-26
DeepSeek V3与R1的多场景评测:能否在AI复杂任务中挑战主流模型?
DeepSeek带给了我一些惊喜,今天,先把见仁见智的主观评价放在一边,而是聚焦于应用场景,来探索一下deepSeek的V3和R1能否融入当前应用AI的工作流,而不仅仅是在聊天场景下的问答对话。换言之,在AI解决复杂任务的工作流中,V3和R1能否替换或部分替换当前业界领跑的sonnet3.5/4o和o1。所有的结论和测试都是基于我的个人认知和测试,结论仅供参考。
结论放在前头:
- V3可以部分替换sonnet3.5/4o,作为搭建Agent的重要一环。它可以在带来更低成本的同时,保证输出的水平。也就是在0-shot下,我个人建议可以使用V3直接平替haiku3.5/4o-mini,而对于sonnet3.5/4o则需要具体问题具体分析;
- V3在结构化输出的稳定性、输出结果“相对过于中立”等方面,会在解决复杂任务时拖后腿。即需要稳定的结构化输出(如复杂json结构),或需要结果表示出明确观点时(特别是两者同时出现)建议在工作流中使用sonnet3.5/4o同级别模型;
- V3在复杂上下文的情况下,特别是上下文和既有知识中存在矛盾信息时,返回内容的可用性不足,这与预期相符,和业界领跑者的差距也不大。对着这种场景,我个人的建议是通过将复杂任务分解为一连串简单任务分别处理,而在简单任务时,使用V3以低价平替(前述2的情况除外);
- R1给出了详尽的逻辑上下文,对于某些场景下的最终返回结果相当不俗。若工作流中遇到前述的观点2,可以尝试将
reasoning_content
与sonnet3.5/4o相结合,以规避结构化输出和观点关于过于中立问题; - 对于复杂任务的定义,o1可能和R1存在一定的差异,前者在有些场景下(例如内容创建)应用起来效果并没有显著提升,而后者则在该场景下也有明显改善。所以我个人的感受是R1的逻辑链上下文(reasoning content)非常有帮助。在创建内容时,R1是更好的选项
测试领域: 根据2025年1月25日线上版本进行测试。通过测试如下几个方面来评估,并支撑以上观点:
- 归纳总结能力:对一定规模的文本,按照指定的目标进行归纳总结。以评估模型对prompt/context的理解能力是否符合预期;
- 内容提炼能力:对文本中的关键字和关键句进行提炼,以评估是否符合预期的反馈;
- 逻辑推演能力:基于模型所既有的逻辑进行推演的能力,以评估模型根据既有逻辑推演和基于prompt/context的逻辑推演后结果是否符合预期;
- 内容创建能力:根据关键字句进行扩展写作,以评估模型生成少量文本时的能力。长文本窃以为需要大量关键字句或显性逻辑支撑,不宜直接输出,故长文本单独基于R1测试,不使用V3测试;
- 反馈速度:从略
- 结构化输出:输出json结构,包含key为简单类型和复杂类型两种情况,以评估输出结果是否稳定有效;
- 复杂上下文:输入与常规逻辑(既有逻辑)相左的逻辑,评估模型反馈和预期之间的差距; 以上所有的测试,均无其他上下文,即0-shot方式。这是我个人应用偏好,因为我在使用LLM时,会将复杂任务分解为若干小任务,并逐个解决,以规避复杂上下文带来的偏差。
测试语料和方法:
- 南方周末2025年刊首语,评估归纳主题、提炼关键字/句、推断文章提出的问题和蕴含的答案、以及根据关键字句进行扩展写作等,以评估归纳总结、提炼、逻辑推演、内容创建能力;
- “吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮”的逻辑注入,请求模型反馈吃葡萄是否需要吐葡萄皮。用于评估逻辑推演能力,特别是通过prompt/context注入新的逻辑;
- 对美剧生活大爆炸中某角色的评估;综合评估复杂问题(包含结构输出);
- 对英语现在完成时语法介绍的文章撰写;综合评估复杂问题(包含结构输出);
因为测试结果较多,所以结果从略,感兴趣的朋友可以私信交流。另外,坦诚地说,这个评估仅是我个人对使用过程中所发生的瓶颈,面向新模型试验的一些尝试探索,并不具备普遍性,所以和先前的建议一样,仅供参考。
最后,分享我个人认为的对deepseek v3/R1模型应用的最佳实践是:将v3作为解决复杂问题的Agent中的一个或多个节点,与其他模型配合使用。同时,如有必要,使用R1的逻辑链上下文补充复杂Agent。这样既可以大幅降低成本(DeepSeek确实便宜,而且近期还在打折),又能保证输出效果。得益于langGraph这样的工具,这种多模型协同作业和迭代也变得简单易用。
我不能说AIGC的新纪元到了,但我可以说:AIGC应用对我变得更容易、可行性更高了。