Published on 2025-01-26

DeepSeek V3与R1的多场景评测：能否在AI复杂任务中挑战主流模型？

DeepSeek带给了我一些惊喜，今天，先把见仁见智的主观评价放在一边，而是聚焦于应用场景，来探索一下deepSeek的V3和R1能否融入当前应用AI的工作流，而不仅仅是在聊天场景下的问答对话。换言之，在AI解决复杂任务的工作流中，V3和R1能否替换或部分替换当前业界领跑的sonnet3.5/4o和o1。所有的结论和测试都是基于我的个人认知和测试，结论仅供参考。

结论放在前头：

V3可以部分替换sonnet3.5/4o，作为搭建Agent的重要一环。它可以在带来更低成本的同时，保证输出的水平。也就是在0-shot下，我个人建议可以使用V3直接平替haiku3.5/4o-mini,而对于sonnet3.5/4o则需要具体问题具体分析;
V3在结构化输出的稳定性、输出结果“相对过于中立”等方面，会在解决复杂任务时拖后腿。即需要稳定的结构化输出（如复杂json结构），或需要结果表示出明确观点时（特别是两者同时出现）建议在工作流中使用sonnet3.5/4o同级别模型；
V3在复杂上下文的情况下，特别是上下文和既有知识中存在矛盾信息时，返回内容的可用性不足，这与预期相符，和业界领跑者的差距也不大。对着这种场景，我个人的建议是通过将复杂任务分解为一连串简单任务分别处理，而在简单任务时，使用V3以低价平替（前述2的情况除外）；
R1给出了详尽的逻辑上下文，对于某些场景下的最终返回结果相当不俗。若工作流中遇到前述的观点2，可以尝试将reasoning_content与sonnet3.5/4o相结合，以规避结构化输出和观点关于过于中立问题；
对于复杂任务的定义，o1可能和R1存在一定的差异，前者在有些场景下（例如内容创建）应用起来效果并没有显著提升，而后者则在该场景下也有明显改善。所以我个人的感受是R1的逻辑链上下文（reasoning content）非常有帮助。在创建内容时，R1是更好的选项

测试领域：根据2025年1月25日线上版本进行测试。通过测试如下几个方面来评估，并支撑以上观点：

归纳总结能力：对一定规模的文本，按照指定的目标进行归纳总结。以评估模型对prompt/context的理解能力是否符合预期；
内容提炼能力：对文本中的关键字和关键句进行提炼，以评估是否符合预期的反馈；
逻辑推演能力：基于模型所既有的逻辑进行推演的能力，以评估模型根据既有逻辑推演和基于prompt/context的逻辑推演后结果是否符合预期；
内容创建能力：根据关键字句进行扩展写作，以评估模型生成少量文本时的能力。长文本窃以为需要大量关键字句或显性逻辑支撑，不宜直接输出，故长文本单独基于R1测试，不使用V3测试；
反馈速度：从略
结构化输出：输出json结构，包含key为简单类型和复杂类型两种情况，以评估输出结果是否稳定有效；
复杂上下文：输入与常规逻辑（既有逻辑）相左的逻辑，评估模型反馈和预期之间的差距；以上所有的测试，均无其他上下文，即0-shot方式。这是我个人应用偏好，因为我在使用LLM时，会将复杂任务分解为若干小任务，并逐个解决，以规避复杂上下文带来的偏差。

测试语料和方法：

南方周末2025年刊首语，评估归纳主题、提炼关键字/句、推断文章提出的问题和蕴含的答案、以及根据关键字句进行扩展写作等，以评估归纳总结、提炼、逻辑推演、内容创建能力；
“吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮”的逻辑注入，请求模型反馈吃葡萄是否需要吐葡萄皮。用于评估逻辑推演能力，特别是通过prompt/context注入新的逻辑；
对美剧生活大爆炸中某角色的评估；综合评估复杂问题（包含结构输出）；
对英语现在完成时语法介绍的文章撰写；综合评估复杂问题（包含结构输出）；

因为测试结果较多，所以结果从略，感兴趣的朋友可以私信交流。另外，坦诚地说，这个评估仅是我个人对使用过程中所发生的瓶颈，面向新模型试验的一些尝试探索，并不具备普遍性，所以和先前的建议一样，仅供参考。

最后，分享我个人认为的对deepseek v3/R1模型应用的最佳实践是：将v3作为解决复杂问题的Agent中的一个或多个节点，与其他模型配合使用。同时，如有必要，使用R1的逻辑链上下文补充复杂Agent。这样既可以大幅降低成本（DeepSeek确实便宜，而且近期还在打折），又能保证输出效果。得益于langGraph这样的工具，这种多模型协同作业和迭代也变得简单易用。

我不能说AIGC的新纪元到了，但我可以说：AIGC应用对我变得更容易、可行性更高了。