Inflection-2.5:认识世界上最好的个人AI
在Inflection,我们的使命是为每个人创造一种个人AI。去年5月,我们推出了[Pi]——一种富有同情心、乐于助人和安全的个人AI。11月,我们宣布推出一种新的主要基础模型[Inflection-2],当时是世界上第二好的大型语言模型。
现在,我们正在为Pi的卓越EQ(情商)增添IQ(智商)。
我们推出了Inflection-2.5,这是我们升级的内部模型,与GPT-4和Gemini等世界领先的大型语言模型一样出色。它将原始能力与我们独特的富有同情心的个性和微调相结合。从今天开始,Inflection-2.5将在[pi.ai]()、[iOS]、[Android]或我们新的[桌面]应用程序上供所有Pi用户使用。
我们以令人难以置信的效率实现了这一里程碑:Inflection-2.5的性能几乎与GPT-4相当,但训练所用的计算量只有GPT-4的40%。
我们在IQ领域如编码和数学方面取得了特别进步。这在关键行业基准测试中体现为具体改进,确保Pi始终处于技术前沿。Pi现在还包含世界一流的实时网络搜索功能,确保用户获得高质量的最新消息和最新信息。
我们已经向用户推出了Inflection-2.5,他们真的很喜欢Pi!我们看到用户情绪、参与度和留存率大幅提高,加速了有机用户增长。
我们每天有一百万活跃用户,每月有六百万活跃用户,他们已与Pi交换了超过40亿条消息。
与Pi的平均对话时长为33分钟,每天有十分之一的对话超过一小时。在任何一周与Pi交谈的人中,约有60%的人会在下周重新交谈,我们看到的月粘性比主要竞争对手更高。
凭借Inflection-2.5强大的能力,用户与Pi讨论的话题比以往任何时候都广泛:讨论当前事件、获取当地餐馆推荐、学习生物考试、起草商业计划、编码、为一个重要对话做准备,或只是娱乐讨论一种爱好。我们迫不及待想向您展示Pi能做什么。
技术成果
下面,我们展示了一系列关键行业基准测试的结果。为简单起见,我们将Inflection-2.5与GPT-4进行比较。这些结果显示,Pi现在拥有与公认的行业领导者相当的IQ能力。由于报告格式不同,我们在注意评估所用的格式。
Inflection-1使用的训练浮点运算(FLOPs)约为GPT-4的4%,在一系列以IQ为导向的任务中,平均表现为GPT-4的72%左右。现在驱动Pi的Inflection-2.5,尽管只使用了40%的训练FLOPs,但平均性能达到了GPT-4的94%以上。我们在广泛领域看到了显著的性能提升,最大的进步来自STEM领域。
与Inflection-1相比,Inflection-2.5在MMLU基准测试方面取得了大幅进展,MMLU是一种测量从高中到专业级难度各种任务表现的多样化基准测试。我们还评估了极端困难的GPQA Diamond基准测试,这是一种专家级别的基准测试。
我们还包括了两种不同的STEM考试结果:匈牙利数学考试以及物理GRE的表现——物理研究生入学考试。
对于匈牙利数学,我们使用[这里]提供的少量示例提示和格式,以便于重复。Inflection-2.5只使用了提示中的第一个示例。
我们还[发布了]已公布的物理GRE考试(GR8677、GR9277、GR9677、GR0177)的处理版本,并将Inflection 2.5在第一考试中的表现与GPT-4进行了比较。我们发现Inflection-2.5在maj@8中达到人类考生的85百分位,在maj@32中几乎获得了最高分数。为了便于广泛比较,下面的结果中排除了一些带有图像的题目。无论如何,我们已经发布了所有题目。
在BIG-Bench-Hard上,这是BIG-Bench问题中对大型语言模型来说很困难的一个子集,Inflection-2.5比Inflection-1有10%以上的改进,与最强大的模型一样出色。
我们还在[MT-Bench]上评估了我们的模型,这是一个广为人知的用于比较模型的社区排行榜。然而,在评估MT-Bench后,我们意识到推理、数学和编码类别中近四分之一的示例存在参考解决方案不正确或问题前提有缺陷的情况。因此,我们对这些示例进行了修正,并在[这里]发布了修正后的数据集版本。
在评估这两个子集时,我们发现在正确修正的版本中,我们的模型的表现与基于其他基准测试的预期更加一致。
Inflection-2.5在数学和编码性能方面比Inflection-1有了特别的改进,如下表所示。
在MBPP+和HumanEval+这两个编码基准测试中,我们看到了比Inflection-1有了大幅改进。
对于MBPP,我们报告了来自[DeepSeek Coder]的GPT-4值。对于HumanEval,我们采用了[EvalPlus]排行榜上的结果(2023年5月的GPT-4)。
我们还评估了Inflection-2.5在HellaSwag和ARC-C这两个常见的常识和科学基准测试上的表现,它们是许多模型报告的基准。在这两种情况下,我们都看到了在这些接近饱和的基准测试中的出色表现。
上述所有评估都是针对现在驱动Pi的模型进行的,但我们注意到,由于网络检索(上面的基准测试都未使用网络检索)、少量示例提示的结构以及其他生产环节差异的影响,用户体验可能会略有不同。
简而言之,Inflection-2.5保留了Pi独特、亲和的个性和卓越的安全标准,同时在各个方面都成为了更加贴心的模型。
我们感谢Azure和CoreWeave的合作伙伴,感谢他们的支持,将Pi背后的最先进语言模型带给了全球数百万用户。