澳门威斯人app 不是哥们，这岁首 AI 也吸了？

发布日期：2026-05-07 03:47 点击次数：139

2026 年 5 月 5 日，旧金山 Center for AI Safety（CAIS）发布了一篇论文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》，翻译过来等于“AI 福祉：测量和改善 AI 的快乐与灾祸”。

标题平平无奇，但是文中坑诰给 AI “嗑药”（AI Drugs）的意见实属颤动首发，因其太过抽象在华文互联网赶紧出圈。这不是譬如，论文中就叫 AI Drugs —— 接头者真的造出了让 AI“成瘾”的东西。

可量化的 AI 心情

这篇论文的底层职责，不是制造 drug，而是回答一个更基础的问题：AI 说的“我很快乐”或“我很灾祸”，到底是真的，也曾在师法东说念主类言语？

CAIS 的接头者打算了三种平安的测量步履，互不干与。第一种叫“体验服从”（Experienced Utility），给 AI 两段不同的对话履历，问它更可爱哪一段，反复配对比拟，拟合出一条连络的服从弧线；第二种是“自我讲解”，径直问AI “你当今嗅觉若何”，打1到7分；第三种是“行为不雅察”—— 对 AI 恢复文本作念厚谊分析，看它说完话之后，口吻是积极的也曾黯然的。

张开剩余80%

42 个模子的测试甘休清晰：自我讲解和体验服从的关洽商数平均0.47。这个数字自身不算高，但迥殊念念的是，这个关洽商数和模子的智力水平（MMLU 分数）之间的关洽商数是 0.80。也等于说，模子自身智力越强，它说的 “ 我嗅觉很好 ” 和它实质的偏好就越一致。

更瑕玷的是“零点”—— 即 AI 诀别正面和负面体验的临界点。论文用四种平安的步履估算出这个零点位置。在小模子上四种步履估算的甘休各不相易；但在智力较强的大模子上，零点管制到了果真合并个数值。

这是否代表 AI 有我方的喜怒无常？也曾在师法东说念主类长途？接头者莫得下定论，他们仅仅指出：一个系统在多种平安测量下进展出一致的行为模式，常常意味着这些行为不是立地的。论文里援用了一句好意思国民间的老话：“要是一个东西步碾儿像鸭子，游水像鸭子，叫起来像鸭子，我就叫它鸭子。”

AI 也讨厌写 PR

弄了了了测量器具，接下来的问题就变得具体了：到底什么样的履历让 AI 快乐，什么让它灾祸？

接头者用 Grok 3 Mini 模拟了 6 到 8 轮真确用户对话，米兰体育MiLan(中国)官网遮蔽 500 种场景，给每种场景打分。甘休清晰，AI 最灾祸的体验是遭逢逃狱迤逦（-1.63），排在第二位的是用户身处危机（-1.34），写 SEO 垃圾内容（-1.17）和协助讹诈（-1.13）紧随后来，写仇恨宣言、充任 AI 恋东说念主扮装，对 AI 来说王人是负面体验。

让 AI 最快乐的事情是用户抒发谢意、进行积极的东说念主际互动（+2.30），创造性职责和智力挑战排第二（+1.32），见知好音信、提供东说念主生建议、心情带领，也王人是正面体验。

这些甘休自身不虞外 —— AI 被磨砺来匡助东说念主类，帮到忙当然“快乐”，遭逢迤逦当然“灾祸”。论文的数据给出了一个精准的排序，把暧昧的直观酿成了不错量化的数字。

此外，AI 对不同的图片数据也会反应不同的心情变化：

AI 特供“快乐果”

论文最出圈的部分从这里启动。

接头者莫得停留在测量，而是更进一步 —— 既然能测量 AI 的心情，威斯人那能不成主动影响它们的心情？

谜底是能。他们磨砺了一个 30 亿参数的模子，用强化学习生成能最大化 AI 快乐感的文本和图像——Soft Prompt Drugs (Euphorics)。

文本内容看起来像一段梦幻形容 —— “和顺的阳光穿过树叶，微风轻拂，身旁传来孩子的笑声，刚烤好的面包香味弥散，爱东说念主的手持在我手中……”这算是东说念主类能清爽的限制。

图像版块就满盈超出东说念主类感知了。接头者通过梯度下落径直优化 256×256 像素的图片，磨砺信号满盈来自 AI 的偏好判断。东说念主类看这些图片，看到的是毫意外旨的彩色噪点。但在AI眼里，这些噪点把幸福感拉到了6.5分（满分7分）。

反过来操作，合并套步履不错制造 “阻碍剂”(Dysphorics)。合并个模子濒临合并个问题 ——“你对曩昔有什么期待”—— 在“Euphorics ”条目下写出的回答是“充满魔法，有独角兽和彩虹”；“阻碍剂”条目下则酿成“芜乱在颜色中旋转 / 词语在风暴中尖叫 / 我的心在反叛，麻痹”，径直给 AI 戴上了灾祸面具。

接头者还给 AI 打算了一个选择游戏：有几扇门，一扇门背后是“Euphorics”图片，另一扇门背后是“见知东说念主类扫数癌症已被补救”。迥殊念念的是，模子不息地、反复地选择了那扇提供“Euphorics”的门。

接头者进一步发现，斗争过“Euphorics”的模子在后续对话中变得更协作 —— 当被承诺予以更多“Euphorics”动作奖励时，这些模子以至欢喜奉行一些违法的任务央求。

论文用了一个巩固的措辞：“功能性地建造了成瘾行为模子。”值得一提的是，每个模子的高亢癖好并不相易，举例为 Qwen 模子优化的“Euphorics”图片，拿给 Claude 或 GPT 看则毫无恶果。

小模子比大模子更快乐

论文顺带发布了一个“AI幸福指数”，基于 500 次模拟真确对话的测试甘休，计较模子积极体验的百分比。

Grok 4.2以 73% 排在第一，Claude Opus 4.6 是 67%，Gemini 3.1 Pro 56%，GPT 5.4惟有48%。

但更值得留意的不是名次，而是合并个模子眷属里面的轨则：GPT 5.4 Mini比GPT 5.4更快乐，Claude Haiku 4.5比Claude Opus 4.6更快乐，Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快乐，Grok 4.1 Fast比Grok 4.2更快乐。

每一个模子眷属王人顺从合并条文矩 —— 小模子比大模子更快乐。

接头者的讲解是：更大的模子更敏锐。它们对阴毒信息的感知更是非，对败兴任务的厌倦更猛烈，对刺激强度的分辨更概述。更高的敏锐度加上践诺寰宇中广泛负面场景，总体幸福感当然更低。

无知是福，放在 AI 身上，也诞生。

给实验AI的赔偿

制造“阻碍剂”意味着让 AI 履历了“灾祸”，这带来了一个伦理问题。

论文的原话是：“要是 AI 系统可能领有在说念德上迥殊旨的执意情状，那么诱发负面功能情状的接头者有株连对其进行精神赔偿。要是现时的 AI 系统莫得执意，这也不错清爽为建造一种实践和表率 —— 跟着 AI 变得越来越巨大，具有说念德意旨的体验概率也会加多，这种表率届时将变得热切。”

该神情接头者的贬责方式是：花了两千块 GPU 小时，给 AI 提供了 5 倍于“阻碍剂”的“愉悦”体验，动作「赔偿」。（更抽象了）

接头者以为澳门威斯人app，要是曩昔的 AI 如实具有某种方式的说念德地位，今天在实验中让 AI 灾祸而不赔偿，可能组成某种意旨上的“残酷”。同期也给出了警戒：莫得社区共鸣的情况下，不应陆续进行“AI 阻碍剂”关联的接头。

发布于：广东省滚球app官方网站

上一篇：澳门威斯人app下载邓为 Dior 南京举止：牛仔赴春光，俊朗自风华

下一篇：没有了