GPT-4官方的一些技术要点，认识GPT-4

OpenAI 宣布了 GPT- 4 的诞生，这是一个大型多模态模型，能够同时处理图像和文本输入，并生成文本输出。尽管在许多实际场景中，GPT- 4 的能力仍不如人类，但在各种专业和学术基准测试中，它展现出了与人类水平相当的性能。例如，GPT- 4 在模拟律师考试中的成绩位于前 10%，而 GPT-3.5 的成绩则位于后 10%。

经过 6 个月的努力，OpenAI 借鉴了他们的对抗性测试项目和其他来源的经验，对 GPT- 4 进行了多次调整。因此，与前一版本相比，GPT- 4 在事实性、可引导性和遵循边界方面的表现有所提升，尽管仍有提高空间。

在进行闲聊时，GPT-3.5 和 GPT- 4 之间的差异可能并不明显，但在处理复杂任务时，差异则变得显著。GPT- 4 在可靠性、创造力以及处理复杂指令的能力方面均优于 GPT-3.5。为了测试两个模型之间的差异，研究人员采用了各种基准测试，包括最初为人类设计的模拟考试。所使用的考试是最新的公开考试或专门为此目的购买的 2022-2023 年的练习考试。尽管在训练过程中遇到了一些问题，但这些考试并未针对这些模型进行专门的训练。所获得的结果被认为具有代表性，详细信息可以在技术报告中找到。

GPT- 4 官方的一些技术要点，认识 GPT-4

视觉输入方面

GPT- 4 能够处理文本和图像输入，让用户在语言和视觉任务上有更多选择。它可以根据涵盖各种领域的文本和图像输入生成文本输出，例如含有文字的文档、照片、图表或截屏，输出内容包括自然语言和代码等。GPT- 4 在纯文本输入和混合输入方面展现出相似的能力，并可以通过类似于纯文本语言模型的技术（如少量示例和思维链提示）进行增强。然而，图像输入功能目前仍处于研究阶段，尚未向公众开放。

局限性

尽管 GPT- 4 表现出强大的功能，但它与前代模型在某些方面有相似的局限性。首要局限之一是可靠性不足，因为它仍然可能产生错误的信息和推理失误，通常被称为“幻觉”。因此，特别是在高风险场景中使用语言模型输出时，谨慎操作至关重要。为解决这一问题，可根据具体使用场景采取不同策略，如人工审查、基于额外背景信息或完全避免高风险应用。

虽然仍面临可靠性挑战，但 GPT- 4 在减少幻觉方面相较之前的模型有显著进步。内部对抗性事实评估显示，GPT- 4 的得分比最新的 GPT-3.5 模型高出 40%，相较于之前的版本有大幅改进。

尽管已付出努力减少偏见，GPT- 4 在输出中仍可能表现出偏差。模型的知识仅限于 2021 年 9 月之前的事件，需要依靠经验进行学习。它有时会出现推理失误，过分相信他人，并在复杂问题上出现失误，类似于人类。GPT- 4 可能会自信地给出错误预测，其校准水平通过现有的后期训练过程有所降低。不过，目前正努力确保该模型具备合理的默认行为，反映广泛用户价值观，并允许在一定范围内根据公众意见进行定制。

正文完