一些关于 AI 的思考

真的是很久没写博客了。说实话我不是个很爱写博客分享东西的人，最近很难得的有了一些分享欲，趁热打铁整理成文字给自己和大家看看。

这几年AI（特指生成式大语言模型，下同）的发展真的是太快了：ChatGPT发布至今还不到四年，四年间AI的能力已经从只能写写简单的脚本，发展到现在独自完成复杂应用、独自进行漏洞审计，甚至效果与用时还要远远优于一般人类了。一年之前，我还觉得AI不会对我的工作构成威胁，但是近几个月来我真的越来越害怕自己的工作会被AI取代。这四年间，我们对”如何更好地运用AI”这个问题的探索，从最初的提示词工程出发，经由Agent与工具调用能力的落地，再到MCP协议打通了模型与外部世界的标准化接口，直至2025年末兴起的Skills将重心从”让模型适应任务”转向”为模型构建适配的环境”，每一步都在拓宽AI能力边界的同时，也在改变人机协作的底层逻辑。

然而与之相对的，更多的人第一次使用AI还是因为某些APP推广时期的各种“薅羊毛”活动，他们根本没想过AI会产生幻觉这类问题，更别说去理解AI的能力边界了。我觉得这也是为什么很多人会对AI产生过度的信任，甚至把它当成了一个无所不能的工具，来满足自己各种各样的需求。

之前看文章看到过一种流形假设，其认为：高维数据（比如所有可能的自然语言句子，更加玄幻点说的话可以认为是所谓的“智能”、“意识”）并非均匀分布在整个高维空间，而是蜷缩在一个低得多的、光滑的几何结构（流形）表面，而AI的训练过程，就是试图通过调整几十亿个参数，去逼近这个流形的形状。模型的权重存储的，不是单词本身，而是这个流形的曲率、距离和路径。这个假设中其实就暗含着AI产生幻觉的原因：人类知识的真实流形维度极高，而AI在训练时强行将其压缩嵌入到一个有限维度的参数空间里。在这个过程中，很多微妙的特征因为距离太近而被粘合在一起，导致模型在某些输入上无法正确区分，“连错了通路”，从而产生了幻觉。我让AI给我总结了一个高大上的版本：“AI通过海量语料，学习了一个概率蒸馏后的语言流形嵌入，该嵌入的局部曲率编码了词语间的语义引力与逻辑约束，但其全局拓扑常因统计偏差而与客观事实产生拓扑畸变。”

AI和人的差距，就来源于人类的真实流形与AI所学习到的流形的不同之处。人类的流形是由真实世界的经验、感知和理解构成的，而AI的流形则是由训练数据中统计规律和模式构成的，所以训练数据的质量和多样性直接影响了AI的准确性和完整性。AI的能力边界就在于它所拟合的流形与真实流形的重叠程度，没有重叠的部分就是只有人类能完成的部分。

根据上文提到的流形假设，AI的能力取决于它所学习到的流形质量。在训练数据质量相近的前提下，AI的参数越多、维数越多，理论上就能拟合出更复杂、更接近真实流形的结构，它的能力与智力也就越接近真人。加上其计算速度上的优势以及不受生理限制（只要保证模型参数不变，哪怕长期使用，智力也不会下降）的特点，AI在很多时候都能超越人类的表现，尤其是在需要一次性处理大批量的信息时，AI的上下文窗口显然长于人类的短时记忆。

模型选择上，我和小伙伴通过具体任务测试下来发现在计算机/编程方向上综合表现最好的仍然是 Claude Opus 4.6，Gemini Pro 和 GPT Pro 次之。国内的一众模型虽然在测评上表现不错（~~是不是偷偷把测试集拿去训练了~~），但是在实际使用的时候会有各种奇奇怪怪的小问题，其配套的 agent 体验也不如 codex 和 claudecode 一般顺畅。

然而很多公司都有数据安全相关的规定，导致在部分高密级场景或者数据敏感的场景下，无法使用外部的 AI 服务，这其实会极大地限制 AI 在工作中的应用范围。虽然很多公司会部署自己的私有化 AI 模型（不论是自训练的还是开源模型），但是这些模型的能力与主流的顶尖商业模型相比往往存在着较大的差距，尤其是在处理复杂任务和调用外部工具方面，用过 Claude Opus 4.6 之后真的很难再回去用这些能力有限的模型了。领导们通常会犯的一个毛病就是在基座模型受限时妄图通过各种神奇的优化来尝试复刻顶尖商业模型水平的能力，这就好比是想教会一个先天智障一样，完全不考虑客观条件的限制，结果就是既达不到预期的效果，又浪费了大量的时间和精力。

用现在这些孱弱的私有化 AI 模型去完成复杂任务好比 “想让霍金通过一套合理的agent和skill设计去打nba，你找个刘翔来打nba我都算你努力了，你让我上可能也有点作用，霍金是什么意思？还没有轮椅？你把你妈的灵牌拿过来当篮球投了吧！🤣🤣🤣”