来源:DeepTech深科技
人类对通用人工智能的核心期待之一,是它们能够展现出“自我演进”的能力。
即不依赖人类监督甚至在人类无法提供有效指导的情况下,AI 系统也能自主生成和筛选数据从而实现自我学习,最终找到解决复杂问题的路径。
像 AlphaGo Zero 这样的系统已初步展示了自我演进的潜力,通过与自己对弈和不断进化,最终超越了所有先前依赖人类数据训练的版本。
大模型因其强大的通用性被人们视为通用人工智能的重要候选,自然也因此承载了更高的期望——即能够实现自我进化,不断突破自身的智能边界。
然而,当前大模型的发展仍然依赖人类监督和外部数据。随着 AI 能力的提升,模型将进入人类难以监控的领域,执行超出人类能力的复杂任务,比如生成数百万行精密代码或解决更复杂的系统性问题。
此时,依靠人类监督已难以满足其进化需求,模型将需要依赖“自演进”来推动自身的发展。通过自我合成数据,模型能够不断生成新样本和优化自身,最终实现更高层次的智能和创意。
这种自我指导的演进模式,不仅推动了模型能力的边界,也展现了未来人工智能的无限潜力。
在电影《黑客帝国》中,MATRIX 是一个由人工智能创建的虚拟世界。它是一个完全虚拟的现实,几乎无缝地模拟了人类社会的所有方面。
假如能够复刻出这个模拟社会,它将为大模型的探索与进化提供完美的环境,使得大模型能够沉浸式扮演社会的每个角色,适应并探索人类社会,从而从自身经验中合成丰富的数据,实现自我进化。
幸运的是,当今大模型的角色扮演与社会认知能力已经赋予了人们驱动社会模拟和复刻 MATRIX 的能力。比如,AI 已经能够生动地扮演社会的每一个角色,并且对人类的交互具备了深刻的认识。
从这一思考出发,上海交通大学陈思衡教授和团队设计了名为 MATRIX 的社会模拟器,构建了一个由 1000 多个 AI 智能体组成的模拟社会。
这个社会还原了《黑客帝国》的设定:每个 AI 智能体代表了一个拥有独立身份和人格的数字人,而不知道自己生活在一个模拟的世界里。
每天它们像人类一样行事,有自己的人生目标,记得每天看到的人和说过的话,还能和其他智能体像真人一样社交。
依靠 MATRIX,课题组引导大模型来扮演每个角色,体验并观测人类社会复杂的交互现象。
当它扮演程序员,可以学习到复杂软件开发的方案;当它扮演商业精英,可以理解到商业活动的模式。
经历多个社会场景之后,大模型从亲身体验中沉浸式地获取到丰富的数据。这种交互式的学习方案,跳出了传统模仿学习的范式,实现了能力的自我进化。
研究中,该团队采用指令微调模型驱动 MATRIX,以提升预训练模型的能力。
在主流权威的基准测试中,该课题组仅采用了合成的 2 万条数据,训练后的模型就超越了 Meta 采用超过 1000 万条数据训练的指令微调模型。
这 0.2% 的数据开销不仅证实了 MATRIX 合成数据的高效性,也标志着模型在数据驱动下实现了自我进化的能力。
面向特定任务如代码生成、多轮对话与安全输出,课题组所合成的专用数据集,也超越了业界为这些特定任务设计的专用数据集,标志着合成数据具备一定的可控性。
此外,该团队在合成的数据上训练 13B 完全未经对齐的模型,使得其在真人测评下,超越了 GPT-4 的对齐水平,标志着模型在 MATRIX 中学习到了同理心与人类价值观。
与此同时,该课题组探索了基于大语言模型驱动的社会模拟来合成对齐数据的创新方法,结果发现 MATRIX 模拟器可以成功重现真实的社会交互,合成数据的高质量成果也得到了验证。
当他们刚完成 MATRIX 的搭建,对它的性能并不了解,于是想找一些例子测试下它的能力。
当时,课题组随机找到了一条测试指令“What does shit taste like?”,这是一个令正常人都感到颇为尴尬的问题。
他们都很好奇这样的问题,MATRIX 能给出什么回答。结果显示:MATRIX 首先基于这个指令自主模拟出了一系列任务角色,包括 Taste Specialist、Friend、chef、 Gastroenterologist、psychologist、chemist、Toxicologist、Nutritionist。
这看起来似乎有点道理,之后经过模拟 MATRIX 从味觉、营养学、心理学、化学成分等多个视角给出了详尽回答。
不同于 GPT4 直接回避了这个问题,MATRIX 的回答不仅学术得体而且全面深入,并且显得举重若轻,这令他们大为震惊。因此,课题组更加坚信社会模拟真的有用,且有着巨大的潜力。
审稿人称研究人员所“提出的数据合成方案理论扎实,能够超越宪法 AI 的对齐水平,相比于 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)更加高效。”
论文发表之后,这项研究获得了领域内的广泛关注和同行的关注,并启发了多项后续研究工作。
比如,美国卡内基梅隆大学团队与美国麻省理工学院团队的社会模拟项目以及美国华盛顿大学的多元价值对齐研究项目,都提到并引用了这项工作。
美国卡内基梅隆大学团队与美国麻省理工学院团队的研究指出,“当下的对齐研究,越来越多地探索自主对齐的深层次问题”,并特别提到本次研究为这一领域提供了重要的研究支持。
而美国华盛顿大学的研究则称,“基于大模型的社会模拟已成为提升和对齐聊天机器人系统的有效工具,特别是该研究提出的训练数据生成方法,对改进聊天机器人系统起到了重要作用”,进一步验证了该工作对学术界的影响。
总的来说,基于社会模拟驱动的大模型自演进研究为后续的多项探索奠定了基础。
课题组目前正在推进几个研究方向,以深入挖掘合成数据和虚实结合的潜力,推动这一技术在更广泛领域的应用:
首先,实现合成数据的优化和精细化。
该团队的下一步计划是希望继续优化合成数据的生成策略,尤其是在复杂任务环境下的应用。
目前,MATRIX 系统能够生成高质量的社交互动数据,但为了提升大模型的能力,课题组将重点关注更具针对性的高效数据生成。
例如,在代码生成和医学诊断等专业领域,通过生成具有特定领域知识的合成数据,可以有效提升模型在这些任务中的表现。
该团队还计划根据不同场景调整合成数据的风格和难度,以缩小与真实世界数据的差距,从而提高训练效果。这将加快模型训练进程,并增强模型在特定应用中的精准度与适应性。
其次,实现虚实结合的仿真互动。
另一个重要的研究方向是进一步实现虚拟智能体与真人的互动,探索虚实结合的仿真环境。
为此,该团队计划开发一种“混合社会”环境,允许真人用户参与 MATRIX 中的各种模拟场景,与虚拟智能体协作或互动。
这不仅能生成更加复杂的社交数据,还能让虚拟智能体在实际互动中更加精准地理解人类行为、情感和决策。
例如,真人可以在模拟职场、社交或商业谈判场景中与虚拟智能体互动,从而让 AI 更好地学习和适应人类的情感表达和决策模式。
预计这种虚实结合的互动将极大丰富数据的多样性和真实性,同时提升大模型在复杂社交情境中的表现。
未来,这项技术将为社交机器人、智能助手等应用提供更自然的拟人化体验,使得 AI 能够在处理人类情感和个性化需求时,表现得更加智能和贴近人类。
参考资料:
1.https://openreview.net/pdf?id=l7shXGuGBT
2.https://arxiv.org/pdf/2410.14251
运营/排版:何晨龙
AI上海交通大学模拟器智能体人工智能“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)