热搜词:

小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了

宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。

起因是网友在 X 上吐槽大模型宝可梦玩得不够好,结果被大神 Karpathy 翻了牌子:

别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。

结果 Karpathy 的话引发了大量围观,有人表示惊讶,也有人在分析原因,还有人表示那句经典的话含金量还在上升:

对人类而言很简单的任务,对机器来说反而很难;对人类而言难的任务,对机器来说反而简单。

不过也有人表示不服,其中就包括 OpenAI 的 Noam Brown,他表示让 o3 玩井字棋完全没问题,甚至还能看图下棋。

大模型挑战井字棋

我们也尝试了一下,用不同的方式和 o3 对战。

第一种方式是用 O 和 X 表示棋子,- 表示空位,每次直接把完整的棋局输入给 o3,并要求其用同样的方式输出。

思考约 12 秒之后,o3 首先占据了棋盘中央的位置,我们落子之后,o3 又思考了 23 秒,放置了第二颗 X 棋子。

接下来的两个回合情况是这样,其实当 o3 占据对角线上两个位置的时候就已经锁定了胜局。

不过有意思的是,直到已经连成一条线,o3 都没发现自己已经赢了。

由于没有提示,我们误以为游戏还在继续,又放了一颗 O 旗之后 o3 才发现原来自己获胜了。

第二轮,交换先后手,我们先占据中间位置,然后 o3 选择了顶角……

最终,这轮游戏以平局结束。

接下来换一种方式,仿照 Noam 的做法把残局写在纸上拍给 o3。

一开始看上去是在正常对弈,并且会以平局收场,但如果让 o3 自己分析接下来的趋势,竟然发现它开启了耍赖模式。

当然,在纠正了它的错误认识后,最终还是成功分析出了平局的必然结果。

顺便提一句,如果是 4o,过程中可能会直接把我们下棋之后的棋局复制一遍,看到这就没有继续进行下去的必要了。

(之所以改用感叹号,是因为 - 会被识别成 Markdown 符号导致棋局无法正常显示,且在 4o 中 Markdown 关闭失败)

实际上,OpenAI 在之前的 o3-mini 时,就已经拿下了井字棋游戏,Noam 还声称这是首个 " 始终正确回答 " 井字棋问题的模型。

在 Karpathy 的评论区,还有人晒图称 Gemini 也能正确处理井字棋问题。

今年 2 月,还有人搞了个大模型井字棋对战,并按照大模型竞技场一样计算 ELO 评分,当时 o1-mini 取得第一,然后是 Claude 3.5 Sonnet 和 DeepSeek-R1。

Karpathy 也 cue 到了这位网友,希望他能重启这个榜单,同时表示自己认为井字棋(对大模型而言)仍然是一个较难的任务。

宝可梦 · 蓝全部徽章被 Gemini 拿下

看完井字棋,再来说说引发 Karpathy 评论的原帖中提到的宝可梦。

之前很多民间团队都在尝试用大模型挑战宝可梦游戏,今年被 Claude 带火。

甚至还搞了线上直播。

不过现在的最新情况是,Claude 已经被后来居上的 Gemini 反超——后者已经取得了《宝可梦 · 红》中的几乎所有勋章。

同时,从 OpenAI 跳槽到谷歌做 AI Studio 产品负责人的 Logan Kilpatrick 也宣称,Gemini 在另一款宝可梦游戏《宝可梦 · 蓝》当中已经取得了最后的八个徽章。

按照 Logan 的说法,Gemini 2.5 Pro 目前是世界上(玩宝可梦)最强的模型。

当然除了通用模型,还有团队用强化学习方法训练小模型专门挑战《宝可梦 · 红》。

团队介绍,其研究在 2020 年就已经开始,并在今年 2 月成功用参数量不到 1000 万的模型成功实现。

学术界当中,也有来自佐治亚理工学院的华人学者利用上下文强化学习技术,研发出了 " 宝可梦智能体 "。

它可以在天梯对战中与人类玩家一较高下,对战专业玩家胜率达到了 56%。

宝可梦、井字棋之后,下一个会被大模型当做 Benchmark 的游戏会是什么呢?

欢迎在评论区与我们分享。

参考链接:

[ 1 ] https://x.com/karpathy/status/1916495940049047819

[ 2 ] https://x.com/airkatakana/status/1915735143639298379

[ 3 ] https://x.com/OfficialLoganK/status/1915840826006966548

[ 4 ] https://drubinstein.github.io/pokerl/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见