通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。
比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。
这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。
这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。
结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。
原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。
但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。
研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。
通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。
更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。
除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。
研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。
通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
成色18k.8.35mb菠萝当裙装的外观设计非常有辨识度的时候,大家注意,上半身的服装选用一定别过于的张扬,否则二者之间就会有冲突的可能,看起来就不是特别的和谐。2岁参与录制《爸爸去哪儿》和哥哥安吉一起走火的鱼儿,转眼他都已经10岁长成了大小伙,长大后的鱼儿还是那么有趣,开通了自己社交平台的他很喜欢和大家分享他的日常,很是讨人喜欢。成色18k.8.35mb菠萝www.17cao.gov.cn他继续说道:“当一切都井然有序——球员、教练、管理层、比赛风格、财务资源——没有理由不取得成功。俱乐部也从过去的失败中吸取了教训。尽管每次被淘汰后氛围有时很糟糕,但它从未气馁。这次胜利是对曾经的质疑和批评的一种反击。目标达成了,而且是以如此强势的方式。尽管花费了一些时间,我承认。”乔-戈麦斯在安菲尔德球场曾为三位不同的主教练效力。他在布兰登-罗杰斯即将离任时加盟利物浦,随后在克洛普麾下效力了八年半时间。去年斯洛特上任后,戈麦斯依然是球队中的关键人物。斯洛特最近表示:“即使在他没有上场的时候,他也在激励着队友,他对我们的成功影响比外界所知的要大得多。”
20251207 🔞 成色18k.8.35mb菠萝2025年,中国车市的硝烟,不仅弥漫在价格战的战场,更深藏于技术升级的暗涌。当“降本增效”成为全行业的紧箍咒,电动化浪潮的喧嚣未歇,一场围绕智能化的下半场角逐已然鸣枪。www.51cao.gov.cn张阔:这段周期内AI本身的能力逐步变强,单纯从学习能力、解题能力讲,水平已经非常高了。但如果从AI对人类GDP产生的影响看,还远远没到极限。AI有一定的生产力,也让新的能量爆发出来了,但最终其价值还是要在那些垂直的产业场景上去产生足够大的作用才得以充分体现。从这个角度讲,我觉得目前AI的能量1%都没有释放出来。未来我觉得一个节点是,AI给人类GDP带来10%影响的时刻,因为很少有一个技术可以实现10%的影响。
📸 张腾记者 邹炳运 摄
20251207 🔞 成色18k.8.35mb菠萝罗永浩:所以你现在搞成邀请制的主要原因是为了控制成本,还是产品打磨到更好会放开?这件事我是纯好奇,因为我们两个月以后上线,我也想跟你请教一下。77788.gov.cn简单来说,细胞通讯就是一个在人体内广泛分布的交通信号系统,而细胞就是路上一辆辆或行驶或停止的车辆。如果交通中心懈怠了,发出了不及时甚至错误的指令,就会造成大堵车,影响交通效率,也就让人显现出了“衰老”的特征。
📸 胡喜增记者 郑鹏 摄
🩲 眼下,阿斯塔纳市区多条公交干线都有中国纯电动客车的身影。近日,本报记者走进阿斯塔纳,坐上公交车,听这里的人讲述中国与中亚合作带来的绿色出行改变。WWW.77788.GOV.CN