Mistral Large 2 在 GSM8K 上表现良好,仅落后于 LLaMA 3.1 70B。在最严苛的 Math Instruct 基准测试中,Mistral Large 2 位居第二,仅次于 GPT-4o,展现了开箱即用的强大数学推理能力。这些进步,特别是在零样本任务中,反映了他先进的数学能力和扎实的训练。
与 Mistral Large 2 的数学推理比较
资料来源:米斯特拉尔人工智能
总体而言,Mistral Large 2 在代码生成和数学推理等需要精度和可靠性的领域表现出色。它经过大量代码库的训练,显着优于其前身,并且与 GPT-4o 和 Llama 3.1 405B 等顶级模型具有竞争力。其性能表明它是软件开发和学术研究的强大工具。
指令跟踪和对齐
Mistral Large 2 的另一个关键功能是其极大改进的指令跟随和对话功能,让您可 VK数据 以更好地遵循指令并处理长时间对话。
Mistral Large 2 在 Wild Bank 中取得了不错的成绩,仅落后于 GPT-4o。在 Arena Hard 上,它排名第三,落后于 GPT-4o 和Claude 3.5 Sonnet。
野外替补和竞技场硬地性能对比
资料来源:米斯特拉尔人工智能
Mistral Large 2在MT台上的表现在GPT-4o评判中也获得了很高的评分,在大型型号中排名第三,并且在代长度上排名第二,仅落后于原始Mistral Large。这表明Mistral Large 2可以给出详细且高质量的答案。
使用GPT-4o判断和平均生成长度的MT Bank性能比较
资料来源:米斯特拉尔人工智能
多语言MMLU
Mistral Large 2 最显着的特点之一是它的多语言功能。在评估多种语言性能的 MMLU 多语言基准测试中,Mistral Large 2 在所有测试语言中均表现良好,始终位居第二,落后于更大的 LLaMA 3.1 405B 模型。这证明了 Mistral Large 2 的性能和效率之间的巨大平衡。
Mistral Large 2:多语言 MMLU 性能比较
资料来源:米斯特拉尔人工智能
函数调用
调用函数至关重要,因为它允许模型准确地执行特定任务或命令,这对于需要根据用户输入进行精确操作的实际应用程序非常有效。