一位历史学家对 Gemini3Pro 进行了严苛测试:50份约1万词的英文学术手写样本,涵盖多种复杂书写体与成像条件。结果显示,Gemini3在字符错误率(CER)和词错误率(WER)上实现惊人突破,CER 仅0.56%、WER1.22%,已接近或达到专业人类转录水平。

历史手稿破译,Gemini 3 首次逼近“人类专家”

从“看不懂”到“能推理”,AI 跨越认知门槛

传统大语言模型因“预测式”本质,在非常规拼写、长 s(ſ)、模糊标点、历史度量单位等高含混场景中表现疲软。而 Gemini3不仅识别出未经训练的复杂手写字体表格,甚至优于受过专业训练的学生。在严格计分下,前代 Gemini-2.5-Pro 的 CER 为4%、WER11%;若排除标点与大小写,降至2%/4%。而 Gemini3直接将错误率压至原模型的1/7至1/9,提升幅度达50%–70%。

不止转录:它开始“理解”历史世界

最震撼的并非低错误率,而是 隐含推理能力 的浮现。

面对一处模糊数字,Gemini3自主补全缺失语境,完成跨越 历史货币与重量单位的多步换算,最终得出需对文档世界进行抽象建模的正确结论——这些符号从未在训练中被明确定义。

历史手稿破译,Gemini 3 首次逼近“人类专家”

统计模型内部的“自发逻辑”觉醒?

作者惊叹:Gemini3似乎跨越了专家长期认为“当前架构无法逾越”的界限。

在纯统计框架内,感知、记忆与逻辑的自组织结合 正在发生——这是否预示着一种新型隐性推理机制的诞生?AIbase 结语

从“读不懂古籍”到“能推理历史逻辑”,Gemini3正在重新定义 AI 在人文学科中的边界。

未来,历史学家或许不再是唯一能“听懂过去声音”的人。