GPT-4o

GPT-4o 是什么

GPT-4o 是 OpenAI 最新发布的旗舰AI模型，能够实时进行音频、视觉和文本推理等多模态交互，该模型可以实时响应用户对话，甚至在语音对话中能捕捉用户声音中的情感，并生成 “一系列不同情感风格 ”的语音，极大地改善了 ChatGPT 的体验，让用户可以像与真人对话一样与 ChatGPT 互动。

GPT-4o 文本和图像输入将于今天（5月13日）开始在 API 和 ChatGPT 中推出，并且向所有用户免费开放试用，语音和视频模式将在未来几周内推出。

GPT-4o 功能特性

✅ 多模态人机交互
GPT-4o 是朝着更自然的人机交互迈出的一步——它接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合输出。

✅ 实时的对话响应
GPT-4o 可以在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间(在新窗口中打开)相似。

✅ 拟人的语音交互
GPT-4o 的语音对话带有语气和情感，可以识别用户心情状态并模拟人与人的自然交流，可以讲故事、可以唱歌、可以drama、可以学机器人发音等等。

✅ 摄像头视觉感知
GPT-4o 可以通过摄像头实时感知并理解文字、影像等内容，比如通过视频镜头解答数学题目或分析人物， “这道数学题该怎么做 “、 “这个人穿的是什么牌子的衬衫？”，并且可以语音回答讨论。

✅ 多语言同声传译
GPT-4o 支持超过50种语言的实时翻译，可以根据接收到的语言灵活应对，比如英语与意大利语实时同声传译。

✅ 模型安全性升级
GPT-4o 通过过滤训练数据和通过后训练优化模型行为等技术，在各个模态中内置了安全性。我们还创建了新的安全系统，为语音输出提供护栏。

✅ API 接口升级
在 API 使用方面，GPT-4o 的价格是GPT-4-turbo的一半，响应速度是 GPT-4-turbo 的两倍，同时使用限额也比 GPT-4-turbo 提高了5倍。

GPT-4o 能力探索

实时的视觉叙事：GPT-4o 可以根据对话输入的文字实时输出视觉效果，并且保持一致性。
海报设计：GPT-4o 可以通过对话，将多张图片照片融合为一张海报。
连贯的角色设计：GPT-4o 可以通过对话生成角色，并且连贯生成各种动作场景。
诗意的排版与迭代：GPT-4o 可以为诗歌进行排版，生成手写字体以及信纸插画等。
纪念币设计：GPT-4o 可以对话输入图形要求和文字，生成纪念币等标志。
照片转漫画：GPT-4o 可以对话生成各种真人照片，并且可以转换成漫画。
文本到字体：GPT-4o 可以进行字母排列组合，并根据对话指令生成新的字体。
3D物体合成：GPT-4o 可以通过对话指令生成3D文本、图像，并且可以合成3D动画。
品牌植入：GPT-4o 可以通过对话的方式将品牌标志植入到背景图片中。
会议记录总结：GPT-4o 可以上传语音音频文件，将音频转录为文字并进行总结。
视频讲座总结：GPT-4o 可以上传视频文件，通过对话的方式进行视频摘要总结。
变量绑定-立方体堆叠：GPT-4o 可以通过对话的方式生成制定的图形并且进行堆叠。
具象诗：GPT-4o 可以通过对话指令将图片标志转换为具象诗，并且可以调整字体、色彩。

GPT-4o 模型评测

在传统基准测试中，GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力上创下了新的高水准。

✴️ 文本推理评估
GPT-4o 在 5 次 MMLU（常识问题）测试中创下了 87.2% 的新高。
GPT-4o

✴️ 音频 ASR 性能
GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能，特别是对于资源较少的语言。

✴️ 音频翻译性能
GPT -4o 在语音翻译方面树立了新的领先水平，并在 MLS 基准上超越了 Whisper-v3。

✴️ M3Exam 零样本结果
M3Exam 基准既是多语言评估，也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时包括图形和图表。GPT-4o 在所有语言的这个基准上都比 GPT-4 更强。

✴️ 视觉理解评估
GPT-4o 在视觉感知基准上实现了最先进的性能，各个指标都超过 GPT-4、Gemini Pro、Claude Opus等模型。

GPT-4o 如何使用

GPT-4o 的文本和图像功能将于今天（5月13日）开始在 ChatGPT 中推出，OpenAI 将在免费套餐中提供 GPT-4o，并为 Plus 用户提供高达 5 倍的消息限制。未来几周内会在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式。

开发人员现在还可以在 API 中以文本和视觉模型的形式访问 GPT-4o。与 GPT-4 Turbo 相比，GPT-4o 的速度提高了 2 倍，价格降低了一半，使用限额提高了 5 倍。OpenAI 计划在未来几周内向 API 中的一小部分可信赖合作伙伴推出对 GPT-4o 的新音频和视频功能的支持。