Openai推出了GPT
栏目:成功案例 发布时间:2025-05-08 10:49
直到现在,已经将三个新型号引入了OpenAI API:GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO。这些模型的性能超过了GPT-4O和GPT-4O MINI,在编码和教学监控方面都有显着改善。此外,它们还有一个更大的上下文窗口,可支持多达100万个上下文令牌。 GPT-4.1在经过验证的SWE Bench中得分为54.6%,超过GPT-4O的21.4%,在GPT-4.5上获得26.6%,使其成为领先的编码模型。在衡量指令遵守的标准中,GPT-4.1 MARK为38.3%,GPT-4O的增加10.5%。在理解视频多模式长上下文的基准中,GPT-4.1在长期类别中创建了72.0%的新高级结果A分数,GPT-4O增加了6.7%。为了进行模型优化,GPT-4.1家族以较低的成本提供了毛刺性能。这些模型在延迟曲线中的每个点都取得了改进。同一天,Zhipu开设了32B/9B系列GLM模型,根据发电代码,指令合规性等与GPT4.1紧密连接。它是通过新的Z.AAI平台自由打开的,并同时启动了Zhipu Maas平台。目前,Openai和Zhipu都在努力工作。 GPT-4.1在许多领域中击败了GPT-4O,例如代码活动,教学和漫长的背景理解。 Z.AAI在教学适当的调整和搜索代码中,在基准指标上靠近甚至超过GPT-4O。在各种代码任务中,代码生成GPT-4.1的性能要比GPT-4O表现更好,包括代理分辨率任务,前面编码,降低无关的编辑,遵守不同格式,确保持续的工具使用等等。在测量现实世界软件工程技能的SWE Bench验证的测试中,GPT-4.1完成了54.6%的任务,而GPT-4O的速度为33.2%。它反映了该模型探索代码库,完成任务,并生成可运行和可测试的代码。对于需要编辑大型文件的API开发人员,GPT-4.1在审查许多格式​​的代码差异方面更为准确。在AIDER的多语言基准上,GPT-4.1的标价是GPT-4O的两倍以上,甚至比GPT-4.5高8%。 OpenAI特殊练习GPT-4.1能够遵循不同格式的能力,因此开发人员不必重写整个文件,节省成本和Pagkaantala。 GPT-4.1在前端代码方面还比GPT-4O具有显着改善,并且可以创建更强大,更好的Web应用程序。在我们面前的比较中,有80%的付费评级手册评估者表明,GPT-4.1网站比GPT-4O网站更受欢迎。除上述基准测试外,GPT-4.1的性能符合格式,具有更高的精度,并降低了无关编辑的频率。在对OpenAI的内部检查中,无关的代码编辑从GPT-4O的9%降低到GPT-4.1的2%。这说明遵循OpenAI产生内部教学监控系统,将每个类别分为简单,中和困难的提示。在难度方面,GPT-4.1特别在GPT-4O上执行。 GPT-4.1最好能够从以前的对话中获取信息,从而实现更自然的对话。在多章派基准上,GPT-4.1的性能比GPT-4O好10.5%。 GPT-4.1在IFEVAL上也得分87.4%,而GPT-4O得分为81.0%。 IFEVAL使用具有可验证指令的信号(例如,指定内容长度或预防某些术语或格式)。 Zhipu的GLM-Z1-32B-0414在IFEVAL中也表现良好,与GPT O1-Mini竞争,标记为84.5%。了解GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO的悠久背景可以处理多达100万个上下文令牌,而较早的GPT-4O模型最多可以容纳128,000。一百万个令牌等于反应C的整个基础的8个以上的副本颂歌,这么长的上下文是处理大型代码库或长期文档的范围的理想选择。 GPT-4.1可以准确处理最多100万个上下文的信息。此外,它可以比GPT-4O更准确地识别相关文本,并在漫长而短的上下文中忽略令人不安的术语。长期的上下文理解是法律申请,编码,客户支持和许多其他领域的基本能力。下图显示了GPT-4.1在上下文窗口中不同位置获得隐藏信息(“针”)的能力。 gpt-。无论这些令牌在哪些输入中,它都可以有效地获取与当前任务相关的详细信息。为了进一步证明了解信息的能力,OpenAI打开了一个新的评论平台的资源:OpenAI-MRCR(许多共同引用周期,将发现该套件可以在上下文中发现和识别许多隐藏的环境)。GPT-4.1在上下文长度上胜过GPT-4O,最高为128K代币,并保持强劲的性能,即使长达100万个令牌。在GraphWalks的基准上,一个用于审查多跳长认知的数据集,GPT-4.1达到了61.7%的精度,可与O1性能相当,并且很容易击败GPT-4O。值得注意的是,Zhipu目前还对小型型号的性能取得了突破。尽管只有9B的GLM-Z1-9B-0414的参数较少,但在数学推理和一般活动中仍然表现良好。在AIME基准测试中,它以76.4%的高分击败了DeepSeek-R1-Distill-Qwen-7b。理解GPT-4.1系列的图像在理解图像方面非常强烈,尤其是GPT-4.1 Mineither代表着一个显着的跳跃,通常在图像基准上击败GPT-4O。在视频测试-MME(无长期未订阅)中,该模型回答了许多基于30-60分钟视频的选项,这些选项未替换。 GPT-4.1取得了最佳性能,标记为72.0%,高于65.3%Of GPT-4O。 GPT-4.1价格比GPT-4O的价格低26%,而GPT-4.1 Nano是迄今为止OpenAI的最便宜,最快的型号。除了标准的每条图表的成本外,还提供长上下文请求,而无需额外的费用。在定价方面,Zhipu Z.AAI通常低于GPT4.1。此时推出的码头型号有两个版本,即GLM-4-Air-250414和GLM-4-Flash-250414,后者是完全免费的。理解模型分为塔特隆版本,这些版本满足了各种情况的需求:GLM-Z1-AIRX(极端版):将最快的概念模型定位在中国,识别速度可以达到200个代币/秒,比常规速度快8倍; GLM-Z1-Air(高成本有效版):价格仅为DeepSeek-R1的1/30,适用于高频通话; GLM-Z1-FLASH(免费版):支持免费使用,旨在降低模型使用的阈值。
服务热线
400-123-4567