/ 科技 / 22浏览

号称比GPT4更强大的Claude3到底怎么样?

Claude

背景

全球最强大的 AI 模型在一夜之间易主,Anthropic 发布了 Claude 3 系列模型。Claude 3 系列模型包括3种:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,他们的目标是战胜并取代GPT4。每种模型都针对不同的应用提供了不同程度的性能,这些模型在智能、速度和成本效率方面都进行了改进,有非常显著的进步。

  • Claude 3 Haiku :速度最快、最紧凑的模型,可以实现近乎即时的响应。它可以以前所未有的速度来回答简单的查询和请求。
  • Claude 3 Sonnet :在智能和速度之间取得了理想的平衡,尤其适用于企业工作负载。与同类产品相比,它能以更低的成本提供更强的性能,并能在大规模人工智能部署中实现更高的耐用性。
  • Claude 3 Opus :最智能的模型,在高度复杂的任务上拥有业内最佳性能。它能够以非凡的流畅性和类人理解力处理开放式提示和陌生的场景。

基本功能

  1. 账号注册完整之后,在输入框中输入你的需求,点击Start Chat就可以了。 Claude 注册使用教程
  2. 进入会话页面后,在页面下部的输入框中与 Claude 聊天就好。
    Cloudinary
  3. 页面中部是 Claude 官方提供的一些示例,再下面是历史聊天记录,点击查看。Cloudinary

能力测试 (基于免费版 Sonnet)

代码生成能力

设计稿还原 : 提示词 Convert this design into html and tailwind css
原图
还原效果
从图片中可以看出,还原度还是很高的。不过使用截图上传生成没有成功,使用官方提供的图片没有问题。

使用python编写贪吃蛇游戏 :提示词 使用python写一个简单的贪吃蛇游戏
贪吃蛇游戏
手忙脚乱的玩了一会,所有功能都正常没有报错。与gpt4相比来讲,游戏的用户体验方面差一点。

数学计算能力

数学计算
数学计算
数学计算正确通过测试。

逻辑计算 提示词:1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?
逻辑计算
在这里翻车了,从第一步开始就错了,正确答案是:18个

艺术生成能力

古诗 提示词:写一首古风有雨的5言诗
古诗
你认为这首诗怎么样?6句古诗比较少见。

小红书营销体 :提示词 请为我的洗衣液写一个小红书风格的帖子的,洗衣液特点是白衣服洗完是红色。
小红书营销体
个人认为这个‘营销体’内容写的不错,开头使用魔法和红色点题。然后写配方和功能,写用户的关注点。最后留下‘评论’的小钩子。

文档读取分析能力

Cloudinary
因为测试过程中被claude限制使用了,这里借用宝玉大佬的一个测试结果。claude的ocr功能和逻辑能力是没问题的,但是中文表达能力有待改善。

使用方法

  • Opus 和 Sonnet 现在可以在 API 中使用(需要申请开通)。Sonnet 为 claude.ai 上的免费体验提供支持,Opus 则适用于 Claude Pro 订阅用户。
  • Poe 也已经集成了最新的 Claude 3 模型,每天有限制,上下文窗口短,高级功能需要订阅。
  • Lmsys,可免费体验 Opus、Sonnet,但只支持文本,无法处理附件或图片。 https://chat.lmsys.org
  • Claude 注册使用教程
  • Poe 注册使用教程

问题

  • 在社交媒体中有很多人反馈 Claude 的幻觉问题,依然还是很严重。可能是资源问题导致的,也有人反馈200k的效果好很多。
  • 正常使用情况下,在官方通告的限制中会出现无法输入更多字符的情况,目前不知道是 bug 还是什么问题。
  • 资源限制太严重,在测试过程中经常出现: Due to unexpected capacity constraints, Claude is unable to respond to your message. Please try again soon, or consider upgrading to Claude Pro. ,也可能是用的人太多了,服务器资源不够导致。
  • 免费使用资源太少,总共进行10多次交互,就超出了免费资源限制: You are out of free [messages] until 7 PM ,3个小时无法使用。

总结

Anthropic推出的Claude 3系列模型,与之前相比在智能、速度和成本效率上实现显著进步。通过代码生成、数学计算和艺术创作等测试,Claude展现出卓越的性能。但是在某些计算和逻辑判断上存在误差,用户反映了幻觉问题、资源限制和偶尔的系统bug,特别是对免费资源的限制,严重影响使用体验。

相关资源

0

  1. This post has no comment yet

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注