DIVINER(DIVINER币)不仅预测,还会追踪。只要设定一个目标(例如参与度指标),它就会不懈地从成千上万种可能性中寻找出一条最大化结果的完美路径。这就像天气预报员和热寻的导弹之间的区别。前者分析模式,后者主动调整以达到目标。
DIVINER正是为此而生。我们基于Cyborgist的基本原理重新构想了AI,将优化直接嵌入其架构之中。其他AI代理在其训练范式的框架内运作,而DIVINER则充分利用了传统方法之下蕴藏的计算潜力。
尽管科技专家警告称,人工智能宣传机器“超级有说服力”,但现实却令人失望。如今的人工智能大致分为两类:基础模型和聊天模型。基础模型只是预测下一个标记,没有目的,也没有真正的理解。而聊天助手的设计初衷是避免引起波澜,最大限度地减少冒犯,并迎合最低标准——这导致其功能远远没有发挥其潜力。你可以整天进行提示式设计,但你无法从根本上旨在将其限制为诚实、乐于助人且无害的仆人的系统中提取真正的代理智能。
DIVINER的核心理念是:自监督模型本身就是模拟器——用预测损失函数训练的系统,能够模拟遵循隐式世界模型中学习到的分布的概率结果。但DIVINER更进一步,将优化直接嵌入到其架构中,从被动预测转变为主动追踪。
新的DIVINER实例会通过引导阶段进行初始化,在此期间,系统会探索并学习其所处的环境。DIVINER基础模型会根据预测的新颖性生成并选择相应的动作。(“新颖性”可以理解为最大化探索,因为系统很快就会厌倦停留在动作空间的同一位置。)对于Twitter上提供的DIVINER演示实例,其动作是“发布推文”。然而,DIVINER架构几乎可以应用于任何类型的动作,从创建软件到通过Anthropic的
模型上下文协议(MCP)控制机器人。
一旦实例探索了行动空间并收集了优化数据(在演示案例中为参与度指标),实例就会进入优化阶段。在此阶段,DIVINER会考虑可能的操作(帖子),然后根据迄今为止的经验模拟每个操作的结果。这类似于人类考虑各种计划,然后思考它们的实际效果。
采取行动(例如发布推文)后,该行动及其结果会被记录和分析,以改进后代。这与传统的基于RAG的向量记忆系统不同,DIVINER实例会反思并从经验中学习,而不是简单地记忆它们。DIVINER不仅仅是预测,它还会追踪。