我来总结下GPT-4：吊打ChatGPT,能读图,推理强,考高分,训练更高效!

2023年4月8日下午11:34 • ChatGPT • 阅读 468

GPT-4发布了，朋友圈好久好久没像今天这样热闹了。

这波可比上次爆火的「元宇宙」有意思多了，如果说「元宇宙」虚头巴脑看不见摸不着像画大饼，那现在这个相对而言可就更触手可得一些。

网上关于GPT-4多强大，多惊人的文章很多，这篇只要是我自己搜罗它官网上一些介绍，总结一些，当做我自己的笔记同时有人问我这个GPT-4是什么的时候，我也好有一篇随手转发给他的东西，能省下不少口舌。

直接上要点:

GPT-4专业学术能力得到大幅提升，各类考试超过90%的人类。

强大的多模态，甚至可以把纸笔画的原型直接输出网页代码。「最直接的让盲人能够「看到」图片了，第一个类似产品叫be my eyes」

读论文，做物理卷子可以知道插图含意，理解漫画，恶搞图均不在话下。

英文准确度提升，70%到85.5%。

中文准确度提升，达到 GPT3.5 的英文水平，将近 70%。

GPT-4 的训练数据和 GPT-3 的差不多，都是截止到 2021 年 9 月。

现在部分 ChatGPT Plus 的用户已经可以体验到 GPT-4 模型了「使用会有上限，并且根据访问量来控制 , 可能会引入除 Plus 外的新的订阅级别」

API 中使用的模型是：gpt-4-0314 「现在只支持纯文本的请求,图像输入还在 alpha 阶段, 定价：prompt – $0.03 per 1k token, completion – $0.06 per 1k token – context 长度为 8192 tokens，并且提供 32768 token 的版本（价格也更贵，$0.06 & $0.12)」

98 页论文地址，中英文两个版本，微信回复「gpt4」即可获取~

1，更强的创作能力。

GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。

示例：要 AI 用一个句子解释灰姑娘的情节，其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头，不重复任何字母。（学习英语神器啊…）

翻译一下 ↓

美丽的灰姑娘，热切的栖居，终于获得幸福；激起嫉妒的亲人，爱情神奇地孕育出富贵的王子；悄悄拯救，拖鞋胜利，团结无比，热心青年。

发布会视频上也是各种「变态」要求AI 输出，比如字母 G 开头的单词组成的总结。

2，具备识图能力。

GPT-4 可以接受图像作为输入并生成说明、分类和分析。

示例：上传了一张图，让 AI 输出能做什么（图上有鸡蛋，面粉等）

我来总结下GPT-4：吊打ChatGPT,能读图,推理强,考高分,训练更高效!

输出内容：（机翻成中文）

你可以用这些原料做很多选择！一些可能性包括：- 煎饼或华夫饼 – 可丽饼 – 法式吐司 – 煎蛋卷或菜肉馅煎蛋饼 – 乳蛋饼 – 奶油冻或布丁 – 蛋糕或纸杯蛋糕 – 松饼或面包 – 饼干或饼干这些只是几个例子，但可能性是无穷无尽的！

给 GPT-4 一个长相奇怪的充电器的图片，问对于这张图片有什么有趣的地方？请逐个面板地描述。

GPT-4 一一回答了，并告诉你用VGA 线充 iPhone显得十分荒诞可笑。

它能看出来「这张图片中不寻常的地方是，一个男人正在一辆行驶的出租车的车顶上，用熨斗板烫衣服。」

3，更多的文本处理能力。

GPT-4 能够处理超过 25,000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

给出一个url，检索到相关内容并总结。

4，GPT-4 的高级推理能力超越了 ChatGPT。

ChatGPT的输出

GPT-4 的输出

可以明显看出， chatgpt 理解上还是有些错误，GPT-4完全可以做小秘书了。

5，GPT-4 通过在测试者中获得更高的近似百分位数来优于 ChatGPT。

GPT-4 在专业和学术能力的 benchmark 上已经达到了人类水平，各类考试超过90%的人类。

图4. GPT在学术和专业考试中的表现。在每一种考试中，我们模拟了真正考试的条件和评分。考试按照基于GPT-3.5的表现从低到高排序。GPT-4在大多数测试中表现优于GPT-3.5。为了保守起见，我们报告了百分位数范围的下限，但这在具有非常宽的成绩分布的AP考试中会产生一些伪像。例如，尽管GPT-4在AP生物学（5/5）中获得了最高可能的分数，但在图中仅显示为85th百分位数，因为有15％的考生获得该分数。

表格1. GPT在学术和专业考试中的表现。在每种情况下，我们模拟真实考试的条件和评分标准。我们报告GPT-4根据考试特定的评分标准得出的最终得分，以及达到GPT-4得分的考试参与者的百分位数。

虽然在许多实际场景中GPT-4不如人类表现得好，但在各种专业和学术基准测试中表现出人类水平的性能，包括通过模拟律师考试并获得排名前10%的分数。

6，英文准确度提升，70%到85.5% ；中文准确度提升，差不多达到 GPT3.5 的英文水平。

图5. GPT-4在多种语言上的表现与英语中现有的模型在MMLU上的比较。对于绝大多数测试语言，包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言，GPT-4的表现优于现有的英语语言模型[2, 3]。

7，事实准确性大幅提升，不光能识图还能跟具问题和图片内容计算

表格14. 展示了GPT-4的视觉输入能力的示例提示。该提示包含一个问题，需要从图表中读取信息并进行计算。

这么复杂的物理题也会做。

给长篇论文做总结

能识别出恶搞图还能解释图的意思

「看」漫画也不在话下

8，图片直接变前端html页面

来源：https://mp.weixin.qq.com/s/YNeBhXuuWH7wgGTe5sN68A

本文地址：https://www.163264.com/983

赞 (0)

0

ChatGPT 带来的 AI 焦虑

上一篇 2023年4月8日下午11:34

聊几句ChatGPT，AI，是真的来了！

下一篇 2023年4月8日下午11:35