对比 4 个 AI 统计一项数据的表现

01/1

2025

软件

对比 4 个 AI 统计一项数据的表现

saber 撰写 AI Aichatting ChatGPT Copilot DeepAI 对比数据统计 6条回复 1,394次查看

我记录了每次施法的日期，以换行分割，让 AI 统计每月分别有几次，以及全年总数。结果还是 ChatGPT 最靠谱。

提问

我对每个 AI 都会提两次问题。

第一次按月份统计：

第二次核对总数，询问“一共有多少条？”。

来看看这 4 个 AI 的表现吧（均使用在线网页版本；均未开通会员）。

对比

AI 名称	主页网址	月份统计	总数	重试表现	响应速度
ChatGPT	主页网址	正确	正确	一致	接近 20 秒
Copilot	主页网址	错误	错误	不一致	很快
DeepAI	主页网址	错误	错误	不一致	很快
Aichatting	主页网址	错误	错误	不一致	很快

具体数据：（均为某一次测试的结果；重复测试时，后 3 个的数据都会产生波动）

AI 名称	月份统计（我手动计算了总和）	AI 回答的总数
我	16+12+8+11+15+12+9+10+6+13+9+12 = 133	133
ChatGPT	16+12+8+11+15+12+9+10+6+13+9+12 = 133	133
Copilot	16+12+7+11+13+11+8+9+6+11+9+10 = 123	123
DeepAI	15+13+8+12+14+12+10+10+7+13+10+12 = 136	151
Aichatting	15+11+8+10+13+11+12+11+8+13+11+14 = 137	131

结论

这 4 个 AI 里只有 ChatGPT 是正确的，也是唯一一个在重复测试时，每次的结论都保持一致（且正确）的 AI。它的缺点只有响应速度慢，以及免费额度可能比较少。

看来姜还是老的辣啊，至于剩下 3 个，你别说对不对，你就说快不快吧！

由此可得 AI 的不可能三角：免费，快速，正确。

附加说明：

Copilot 的月份和总数虽然都是错误的，但是它的总数符合它给出的每月数据之和，逻辑自洽。而后面两个 AI 则是总数和自己的月份统计数据都不一致，非常难绷。
DeepAI 的误差极大，有时候 3 月从 8 条变成 19 条，4 月从 11 条变成 24 条。
Aichatting 也不遑多让，总数有时候有 130 多，有时候只有 110 多。

截图

ChatGPT：

Copilot：

DeepAI：

Aichatting：

原始数据

第一次按月份统计：

下面是一组日期数据，格式为 mouth.date，请帮我总结一下每个月分别有几条记录：（每一行是一条单独的数据；有些数据是相同的，这不是错误）
1.1
1.3
1.6
1.6
1.7
1.8
1.10
1.12
1.14
1.16
1.18
1.20
1.23
1.25
1.28
1.29
2.1
2.4
2.5
2.7
2.12
2.12
2.13
2.15
2.16
2.21
2.21
2.25
3.12
3.14
3.15
3.19
3.20
3.22
3.23
3.24
4.7
4.8
4.12
4.16
4.18
4.19
4.21
4.23
4.24
4.25
4.26
5.3
5.7
5.9
5.13
5.14
5.16
5.17
5.17
5.19
5.20
5.21
5.22
5.24
5.28
5.31
6.2
6.4
6.6
6.8
6.11
6.14
6.15
6.17
6.24
6.27
6.29
6.30
7.2
7.4
7.6
7.10
7.12
7.16
7.23
7.24
7.27
8.2
8.2
8.4
8.11
8.15
8.18
8.21
8.27
8.28
8.29
9.4
9.9
9.12
9.15
9.15
9.19
10.1
10.3
10.7
10.9
10.14
10.15
10.18
10.21
10.22
10.24
10.25
10.26
10.31
11.1
11.7
11.7
11.9
11.13
11.14
11.16
11.20
11.22
12.1
12.1
12.2
12.4
12.7
12.14
12.16
12.22
12.23
12.25
12.27
12.31

第二次核对总数：

一共有多少条？

对比 4 个 AI 统计一项数据的表现

skydev
2025年1月2日 08:02Google Chrome 129Windows 10/11

实际上是ChatGPT调用了代码解释器，也就是说数据是执行GPT生成的代码得到的。
（来自一个全系列模型被降智了许久了Plus用户🤐）
回复
1. saber 文章作者
  2025年1月2日 11:48Google Chrome 131Windows 10/11
  
  我没开会员，应该没用代码解释器吧
  回复
  1. skydev
    2025年1月2日 13:51Google Chrome 129Windows 10/11
    
    ![image.png](https://server.skydevs.link/d/BQACAgUAAxkDAAIBDmd2J1_3X6OQDIgY6sQmshJv1HQ7AAL8EQAC9jSwVzjK8GaPN9v_NgQ)
    
    这个点开应该就能看到生成的python代码了，实际上如果不调用代码解释器，结果如下图（模型是4o，明确告诉了不要使用代码解释器）：
    
    ![image.png](https://server.skydevs.link/d/BQACAgUAAxkDAAIBD2d2KEpKxcXHVDR5l74nsVhZQbTOAAL_EQAC9jSwVwSTpJIPGaEDNgQ)
    
    ![image.png](https://server.skydevs.link/d/BQACAgUAAxkDAAIBEWd2KOn4u4K7xOblSaksYlPFqUMzAAICEgAC9jSwV5JE1nUm10I7NgQ)
    回复
    1. saber 文章作者
      2025年1月2日 14:12Google Chrome 131Windows 10/11
      
      谢谢，原来如此，确实有代码
      看来其他的AI是没用代码，纯“脑内”分析导致不准的吗？
      回复
      1. skydev
        2025年1月2日 19:36Google Chrome 129Windows 10/11
        
        确实可以这么理解
        回复
Asuna
2025年1月2日 07:32Google Chrome 131Android 10

看力了😡
回复

Saber 酱的抱枕

Fly me to the moon

对比 4 个 AI 统计一项数据的表现

提问

对比

结论

截图

原始数据

对比 4 个 AI 统计一项数据的表现

撤销评论

近期文章

近期评论

Saber 酱的抱枕

Fly me to the moon

对比 4 个 AI 统计一项数据的表现

提问

对比

结论

截图

原始数据

相关文章：

对比 4 个 AI 统计一项数据的表现

撤销评论

近期文章

近期评论