GPT-4官方的一些技术要点,认识GPT-4

OpenAI 宣布了 GPT- 4 的诞生,这是一个大型多模态模型,能够同时处理图像和文本输入,并生成文本输出。尽管在许多实际场景中,GPT- 4 的能力仍不如人类,但在各种专业和学术基准测试中,它展现出了与人类水平相当的性能。例如,GPT- 4 在模拟律师考试中的成绩位于前 10%,而 GPT-3.5 的成绩则位于后 10%。

经过 6 个月的努力,OpenAI 借鉴了他们的对抗性测试项目和其他来源的经验,对 GPT- 4 进行了多次调整。因此,与前一版本相比,GPT- 4 在事实性、可引导性和遵循边界方面的表现有所提升,尽管仍有提高空间。

在进行闲聊时,GPT-3.5 和 GPT- 4 之间的差异可能并不明显,但在处理复杂任务时,差异则变得显著。GPT- 4 在可靠性、创造力以及处理复杂指令的能力方面均优于 GPT-3.5。为了测试两个模型之间的差异,研究人员采用了各种基准测试,包括最初为人类设计的模拟考试。所使用的考试是最新的公开考试或专门为此目的购买的 2022-2023 年的练习考试。尽管在训练过程中遇到了一些问题,但这些考试并未针对这些模型进行专门的训练。所获得的结果被认为具有代表性,详细信息可以在技术报告中找到。

GPT- 4 官方的一些技术要点,认识 GPT-4

GPT- 4 官方的一些技术要点,认识 GPT-4

视觉输入方面

GPT- 4 能够处理文本和图像输入,让用户在语言和视觉任务上有更多选择。它可以根据涵盖各种领域的文本和图像输入生成文本输出,例如含有文字的文档、照片、图表或截屏,输出内容包括自然语言和代码等。GPT- 4 在纯文本输入和混合输入方面展现出相似的能力,并可以通过类似于纯文本语言模型的技术(如少量示例和思维链提示)进行增强。然而,图像输入功能目前仍处于研究阶段,尚未向公众开放。

局限性

尽管 GPT- 4 表现出强大的功能,但它与前代模型在某些方面有相似的局限性。首要局限之一是可靠性不足,因为它仍然可能产生错误的信息和推理失误,通常被称为“幻觉”。因此,特别是在高风险场景中使用语言模型输出时,谨慎操作至关重要。为解决这一问题,可根据具体使用场景采取不同策略,如人工审查、基于额外背景信息或完全避免高风险应用。

虽然仍面临可靠性挑战,但 GPT- 4 在减少幻觉方面相较之前的模型有显著进步。内部对抗性事实评估显示,GPT- 4 的得分比最新的 GPT-3.5 模型高出 40%,相较于之前的版本有大幅改进。

尽管已付出努力减少偏见,GPT- 4 在输出中仍可能表现出偏差。模型的知识仅限于 2021 年 9 月之前的事件,需要依靠经验进行学习。它有时会出现推理失误,过分相信他人,并在复杂问题上出现失误,类似于人类。GPT- 4 可能会自信地给出错误预测,其校准水平通过现有的后期训练过程有所降低。不过,目前正努力确保该模型具备合理的默认行为,反映广泛用户价值观,并允许在一定范围内根据公众意见进行定制。

正文完