Saber 酱的抱枕

Fly me to the moon

01/1
2025
软件

对比 4 个 AI 统计一项数据的表现

我记录了每次施法的日期,以换行分割,让 AI 统计每月分别有几次,以及全年总数。结果还是 ChatGPT 最靠谱。

提问

我对每个 AI 都会提两次问题。

第一次按月份统计:

第二次核对总数,询问“一共有多少条?”。

来看看这 4 个 AI 的表现吧(均使用在线网页版本;均未开通会员)。

对比

AI 名称 主页网址 月份统计 总数 重试表现 响应速度
ChatGPT 主页网址 正确 正确 一致 接近 20 秒
Copilot 主页网址 错误 错误 不一致 很快
DeepAI 主页网址 错误 错误 不一致 很快
Aichatting 主页网址 错误 错误 不一致 很快

具体数据:(均为某一次测试的结果;重复测试时,后 3 个的数据都会产生波动)

AI 名称 月份统计(我手动计算了总和) AI 回答的总数
16+12+8+11+15+12+9+10+6+13+9+12 = 133 133
ChatGPT 16+12+8+11+15+12+9+10+6+13+9+12 = 133 133
Copilot 16+12+7+11+13+11+8+9+6+11+9+10 = 123 123
DeepAI 15+13+8+12+14+12+10+10+7+13+10+12 = 136 151
Aichatting 15+11+8+10+13+11+12+11+8+13+11+14 = 137 131

结论

这 4 个 AI 里只有 ChatGPT 是正确的,也是唯一一个在重复测试时,每次的结论都保持一致(且正确)的 AI。它的缺点只有响应速度慢,以及免费额度可能比较少。

看来姜还是老的辣啊,至于剩下 3 个,你别说对不对,你就说快不快吧!

由此可得 AI 的不可能三角:免费,快速,正确。

附加说明:

  • Copilot 的月份和总数虽然都是错误的,但是它的总数符合它给出的每月数据之和,逻辑自洽。而后面两个 AI 则是总数和自己的月份统计数据都不一致,非常难绷。
  • DeepAI 的误差极大,有时候 3 月从 8 条变成 19 条,4 月从 11 条变成 24 条。
  • Aichatting 也不遑多让,总数有时候有 130 多,有时候只有 110 多。

截图

ChatGPT:

Copilot:

DeepAI:

Aichatting:

原始数据

第一次按月份统计:

下面是一组日期数据,格式为 mouth.date,请帮我总结一下每个月分别有几条记录:(每一行是一条单独的数据;有些数据是相同的,这不是错误)
1.1
1.3
1.6
1.6
1.7
1.8
1.10
1.12
1.14
1.16
1.18
1.20
1.23
1.25
1.28
1.29
2.1
2.4
2.5
2.7
2.12
2.12
2.13
2.15
2.16
2.21
2.21
2.25
3.12
3.14
3.15
3.19
3.20
3.22
3.23
3.24
4.7
4.8
4.12
4.16
4.18
4.19
4.21
4.23
4.24
4.25
4.26
5.3
5.7
5.9
5.13
5.14
5.16
5.17
5.17
5.19
5.20
5.21
5.22
5.24
5.28
5.31
6.2
6.4
6.6
6.8
6.11
6.14
6.15
6.17
6.24
6.27
6.29
6.30
7.2
7.4
7.6
7.10
7.12
7.16
7.23
7.24
7.27
8.2
8.2
8.4
8.11
8.15
8.18
8.21
8.27
8.28
8.29
9.4
9.9
9.12
9.15
9.15
9.19
10.1
10.3
10.7
10.9
10.14
10.15
10.18
10.21
10.22
10.24
10.25
10.26
10.31
11.1
11.7
11.7
11.9
11.13
11.14
11.16
11.20
11.22
12.1
12.1
12.2
12.4
12.7
12.14
12.16
12.22
12.23
12.25
12.27
12.31

第二次核对总数:

一共有多少条?

对比 4 个 AI 统计一项数据的表现

      1. Google Chrome 129Google Chrome 129WindowsWindows

        ![image.png](https://server.skydevs.link/d/BQACAgUAAxkDAAIBDmd2J1_3X6OQDIgY6sQmshJv1HQ7AAL8EQAC9jSwVzjK8GaPN9v_NgQ)

        这个点开应该就能看到生成的python代码了,实际上如果不调用代码解释器,结果如下图(模型是4o,明确告诉了不要使用代码解释器):

        ![image.png](https://server.skydevs.link/d/BQACAgUAAxkDAAIBD2d2KEpKxcXHVDR5l74nsVhZQbTOAAL_EQAC9jSwVwSTpJIPGaEDNgQ)

        ![image.png](https://server.skydevs.link/d/BQACAgUAAxkDAAIBEWd2KOn4u4K7xOblSaksYlPFqUMzAAICEgAC9jSwV5JE1nUm10I7NgQ)

        回复