01/1
2025
我记录了每次施法的日期,以换行分割,让 AI 统计每月分别有几次,以及全年总数。结果还是 ChatGPT 最靠谱。
提问
我对每个 AI 都会提两次问题。
第一次按月份统计:
第二次核对总数,询问“一共有多少条?”。
来看看这 4 个 AI 的表现吧(均使用在线网页版本;均未开通会员)。
对比
AI 名称 | 主页网址 | 月份统计 | 总数 | 重试表现 | 响应速度 |
---|---|---|---|---|---|
ChatGPT | 主页网址 | 正确 | 正确 | 一致 | 接近 20 秒 |
Copilot | 主页网址 | 错误 | 错误 | 不一致 | 很快 |
DeepAI | 主页网址 | 错误 | 错误 | 不一致 | 很快 |
Aichatting | 主页网址 | 错误 | 错误 | 不一致 | 很快 |
具体数据:(均为某一次测试的结果;重复测试时,后 3 个的数据都会产生波动)
AI 名称 | 月份统计(我手动计算了总和) | AI 回答的总数 |
---|---|---|
我 | 16+12+8+11+15+12+9+10+6+13+9+12 = 133 | 133 |
ChatGPT | 16+12+8+11+15+12+9+10+6+13+9+12 = 133 | 133 |
Copilot | 16+12+7+11+13+11+8+9+6+11+9+10 = 123 | 123 |
DeepAI | 15+13+8+12+14+12+10+10+7+13+10+12 = 136 | 151 |
Aichatting | 15+11+8+10+13+11+12+11+8+13+11+14 = 137 | 131 |
结论
这 4 个 AI 里只有 ChatGPT 是正确的,也是唯一一个在重复测试时,每次的结论都保持一致(且正确)的 AI。它的缺点只有响应速度慢,以及免费额度可能比较少。
看来姜还是老的辣啊,至于剩下 3 个,你别说对不对,你就说快不快吧!
由此可得 AI 的不可能三角:免费,快速,正确。
附加说明:
- Copilot 的月份和总数虽然都是错误的,但是它的总数符合它给出的每月数据之和,逻辑自洽。而后面两个 AI 则是总数和自己的月份统计数据都不一致,非常难绷。
- DeepAI 的误差极大,有时候 3 月从 8 条变成 19 条,4 月从 11 条变成 24 条。
- Aichatting 也不遑多让,总数有时候有 130 多,有时候只有 110 多。
截图
ChatGPT:
Copilot:
DeepAI:
Aichatting:
原始数据
第一次按月份统计:
下面是一组日期数据,格式为 mouth.date,请帮我总结一下每个月分别有几条记录:(每一行是一条单独的数据;有些数据是相同的,这不是错误)
1.1
1.3
1.6
1.6
1.7
1.8
1.10
1.12
1.14
1.16
1.18
1.20
1.23
1.25
1.28
1.29
2.1
2.4
2.5
2.7
2.12
2.12
2.13
2.15
2.16
2.21
2.21
2.25
3.12
3.14
3.15
3.19
3.20
3.22
3.23
3.24
4.7
4.8
4.12
4.16
4.18
4.19
4.21
4.23
4.24
4.25
4.26
5.3
5.7
5.9
5.13
5.14
5.16
5.17
5.17
5.19
5.20
5.21
5.22
5.24
5.28
5.31
6.2
6.4
6.6
6.8
6.11
6.14
6.15
6.17
6.24
6.27
6.29
6.30
7.2
7.4
7.6
7.10
7.12
7.16
7.23
7.24
7.27
8.2
8.2
8.4
8.11
8.15
8.18
8.21
8.27
8.28
8.29
9.4
9.9
9.12
9.15
9.15
9.19
10.1
10.3
10.7
10.9
10.14
10.15
10.18
10.21
10.22
10.24
10.25
10.26
10.31
11.1
11.7
11.7
11.9
11.13
11.14
11.16
11.20
11.22
12.1
12.1
12.2
12.4
12.7
12.14
12.16
12.22
12.23
12.25
12.27
12.31
第二次核对总数:
一共有多少条?
实际上是ChatGPT调用了代码解释器,也就是说数据是执行GPT生成的代码得到的。
(来自一个全系列模型被降智了许久了Plus用户🤐)