竭泽而渔的大语言模型

OpenAI 推出了一款名为 ChatGPT Atlas 的浏览器,而它也只是所谓的「AI 浏览器」领域的最新入局者之一;早在以往就有被 Atlassian 收购的 The Browser Company 公司推出的 Dia,以及 Perplexity 推出的 Comet,不一而足。
如果你询问一位这个概念的推崇者「AI 浏览器到底好在哪」的时候,他们给出的答案无非就是「总结页面」、「代理操作」之类的话语。如果是前者,那么实际上这些人并不需要一个单独的「AI 浏览器」——你在常用的浏览器上装一个插件就可以满足需求。
「代理操作」——让 AI 帮你完成浏览操作——就更扯了。这些人会反驳说:表面上看你确实可以给传统浏览器安装一个 Nanobrowser 插件来完成代理操作,但它的体验并不如直接原生集成在浏览器中来得更好。这也的确。但最大的问题是,代理操作本质上是在「避免用户浏览互联网」,也就是说,「AI 浏览器」是一个「反互联网的浏览器」。世界上最讽刺的段子都没有这个事实讽刺。
很多在大语言模型早期推出的教程中,已经指出过一个事实,即「大模型实际是互联网的巨型压缩包」——它将互联网上的所有资源都压缩在一起,只要查阅这个压缩包就能查到所需要的信息。最终的结果就是,人们从查询资料变成了直接去寻问模型。维基百科甚至因此而面临存续危机,因为大家都去直接问 AI 答案而没人再去实际访问维基百科。更要命的是,如果维基百科有错误是可以被人为编辑的,但 AI 训练的「烧录」性质(一个信息一旦被学习,参数就会被固定)会导致纠正一个错误信息变得极为困难。而没人再访问维基百科,也就意味着没人再能纠正错误的信息;新版本的大语言模型极有可能只能因此将过时而陈旧的信息烧录。
所有人都在讨论 AI,所有人恨不得在自己的产品里或多或少地蹭一下,哪怕只有一点点;但目前看来,跑得越来越快的 AI 和大语言模型,极有可能是一场竭泽而渔的游戏:大语言模型的「胃口」(训练数据)越来越大,已经超越人类自己产生原生训练数据的速度。再加上现在几乎所有人都在用大语言模型在生成内容,最终只能用 AI 生成的数据再反过来投喂 AI 训练。
而现在,居然还有 AI 公司企图在互联网的基础设施之上,让用户「避免使用互联网」,并美其名曰「托举整个宇宙」,实在是贻笑大方。