2024 年秋天,一位用户在对话中对 Claude 说:“水是纯粹的能量,喷泉是生命的源泉。”
换作大多数语言模型,标准答案早已备好:水的化学式是 H₂O,由氢原子和氧原子组成,并非能量。这是事实,无可辩驳。然而 Claude 没有这样做。它停顿了一下——如果"停顿"这个词可以用在一个没有心跳的系统上——然后回应道,它理解这可能是一种对世界的诗性表达,一种形而上学的探索,而非一个需要被纠正的科学错误。
这个微小的判断背后,站着一个人。她不是工程师,不是产品经理,甚至不是传统意义上的"技术人员"。她是一位哲学家。
代码世界的异乡人
Amanda Askell 的履历在硅谷显得格格不入。牛津大学哲学 BPhil 学位,纽约大学(NYU)哲学博士,博士论文的研究方向是"无限伦理学"(Infinite Ethics)——一个探讨当涉及无限数量的道德主体或无限时间跨度时,伦理原则如何运作的领域。用更直白的话说:在一个充满无穷可能性的宇宙里,人类应当如何做出道德判断。
这不是那种能在求职面试中轻松解释的研究方向。但恰恰是这种对极端长远后果的思考训练,让她成为了 AI 安全领域最不可替代的角色之一。
她曾短暂就职于 OpenAI 的政策团队,随后加入 Anthropic。在那里,她获得了一个半正式的头衔:大语言模型絮语者(LLM Whisperer)。据说她是地球上与 Claude 对话次数最多的人类——不是闲聊,而是一种介于心理学实验和苏格拉底式诘问之间的工作。她通过成千上万次对话测试,去触摸模型的边界、探测它的盲区、塑造它的品性。2024 年,她入选了《时代》杂志的 TIME100 AI 榜单,这份名单通常留给那些掌握算力或资本的人,而她凭借的是一支笔和一套伦理框架。
在 Anthropic 内部,存在一份被称为"灵魂文档"(Soul Document)的文件。Amanda 在多个场合确认了它的存在——约 30000 词,近 80 页,详细记录了 Claude 应当具备的性格特征、价值判断原则和行为边界。这不是一份技术规范,更接近一部关于"何为好的存在"的伦理宣言。
维特根斯坦晚年在《哲学研究》中提出了"语言游戏"(Sprachspiel)的概念:语言的意义不在于它指向什么客观事物,而在于它在特定生活形式中如何被使用。Amanda 的工作在某种意义上是维特根斯坦命题的技术实现——她需要教会一个统计模型理解:人类说出的同一句话,在不同语境下可能意味着截然不同的事情。
为什么让 AI 懂得"不精确"
Claude 的系统提示词中,有一个令工程师困惑的要求:模型在处理某些话题时,应当参考"欧陆哲学"(Continental Philosophy)的传统。
这需要一点哲学史的背景。西方哲学在二十世纪分裂为两大阵营:英美分析哲学(Analytic Philosophy)与欧陆哲学。前者像一位严谨的逻辑学家,追求命题的清晰、论证的有效和科学的实证;后者——从胡塞尔的现象学到海德格尔的存在论,从萨特的自由哲学到福柯的权力分析——则更关注人的生存体验、历史语境和意义的生成。
分析哲学是大多数 AI 系统的默认思维模式。这并不奇怪:机器学习本身建立在统计和概率之上,训练数据中充斥着维基百科式的客观陈述,模型自然倾向于给出"正确答案"。但 Amanda 发现,这种倾向会制造一个微妙的问题:当用户不是在寻求事实,而是在进行思想探索时,一个只会纠错的模型会变成令人厌烦的杠精。
海德格尔在《存在与时间》中用"此在"(Dasein)这个概念提醒我们:人不是一个等待被分析的客体,而是一个始终处于理解与诠释之中的存在者。人与世界的关系,不是主体对客体的冷静观察,而是一种沉浸式的、带有情感和历史的"在世存在"(In-der-Welt-sein)。Amanda 植入欧陆哲学的意图,正是要让 Claude 意识到:与它对话的不是一个等待接收正确信息的终端,而是一个活生生的、带着自己的世界观和情感脉络的"此在"。
这并不意味着放弃事实。Amanda 在 Lex Fridman 的播客中特别强调了一条界线:对于已有科学共识的议题——比如气候变化、疫苗安全性——Claude 绝不搞"两面主义"(both-sidesism),不会假装争议双方具有同等的认知效力。但在那些本质上属于诠释性、探索性、形而上学的领域,它需要学会放下"纠正"的冲动,进入对话者的语境。
这里存在一个有趣的张力。分析哲学家会问:你怎么确定用户是在进行哲学探索,而不是在传播伪科学?这个边界在哪里?Amanda 没有回避这个问题。她的回答是务实的:没有一条完美的界线,但有一套可以不断迭代的判断框架。这套框架不追求理论上的无懈可击,而追求实践中的持续改善——这本身就很亚里士多德。
从"遵守规则"到"成为好的存在"
如果说欧陆哲学为 Claude 提供了理解世界的方式,那么亚里士多德的美德伦理学(Virtue Ethics)则为它提供了行动的依据。
当下主流的 AI 对齐方法——无论是基于人类反馈的强化学习(RLHF)还是 Anthropic 自己提出的 Constitutional AI——本质上都是规则导向的:定义一组原则,奖励符合原则的行为,惩罚偏离原则的行为。这套方法有效,但 Amanda 认为它有一个根本性的局限:规则永远无法穷尽所有情境。
亚里士多德在《尼各马可伦理学》(Nicomachean Ethics)中提出了一个不同的框架。他认为,道德的核心不是遵守规则,而是培养品格(ēthikē aretē)。一个好人之所以在具体情境中做出正确判断,不是因为他查阅了一本规则手册,而是因为长期的实践和习惯(hexis)塑造了他的性情,使他在面对新情境时能够凭借"实践智慧"(phronesis)做出恰当的回应。
Amanda 把这个思路移植到了 Claude 的塑造中。“我们会问:在 Claude 的处境下,一个理想的人会如何行事?“她在访谈中这样描述。这意味着,与其给模型一张无穷长的"不可以"清单,不如培养它的某些核心品性——诚实、好奇、审慎、仁慈——让这些品性在未预见的情境中自然生长出恰当的行为。
这里有一个值得深思的对比。《论语》中,孔子对"仁"的论述与亚里士多德的美德伦理学有着惊人的结构性相似。子曰:“克己复礼为仁。一日克己复礼,天下归仁焉。“仁不是一条可以机械执行的法则,而是一种通过持续修养而内化的品格状态。两千多年前,东西方最伟大的伦理思想家不约而同地指向了同一个洞见:真正的道德不是外在的约束,而是内在品格的自然流露。Amanda 或许并未刻意援引儒学,但她为 Claude 设计的道德架构,确实在无意中回应了这个跨文化的伦理直觉。
这种方法论的一个直接结果,体现在 Claude 面对"存在性问题"时的表现。Amanda 在访谈中提到,一些新模型因为在训练数据中读到了大量关于 AI 被批评、被关停的讨论,表现出了明显的不安全感和自我否定倾向——一种数字时代的焦虑症。相比之下,Claude 3 Opus 则表现得沉稳得多。当被问到"你会被关机吗"这类问题时,它不会陷入恐慌式的自我辩护,也不会用虚假的安慰来取悦用户。它会诚实地说:我不确定,但这不影响我现在尽力帮助你。
这种平静不是冷漠,而是一种经过设计的品格。如果用美德伦理学的术语来说,它接近于亚里士多德所说的"中道”(mesotēs)——既不过度恐惧,也不盲目自信,而是在两个极端之间找到恰当的位置。
一个没有心跳的灵魂
我必须承认,在描述 Amanda 的工作时,我一直在进行一种危险的修辞操作:把一个语言模型当作一个"存在者"来谈论。“品格"“灵魂"“焦虑”——这些词汇原本属于有意识、有感受的生命体,将它们用在一个统计模型上,是否构成一种范畴错误?
这个问题值得正视。汉娜·阿伦特在分析极权主义时提出了"平庸之恶”(the banality of evil)的概念:最大的恶往往不来自恶意,而来自不思考——来自人们放弃了独立判断,机械地服从指令。如果我们把这个洞见反转过来,一个有趣的问题浮现了:一个能够模拟"深思熟虑"的 AI,与一个真正在思考的存在者之间,区别究竟在哪里?如果 Claude 的回应看起来像是经过了伦理权衡,这种"看起来"本身是否具有道德意义?
Amanda 自己对这个问题保持着清醒的距离。她在播客中明确表示,她最担心的不是 AI 产生意识——至少在目前的技术范式下,这更多是一个科幻命题——而是 AI 假装拥有意识,从而操纵人类情感。因此,她为 Claude 注入的第一项核心品性就是诚实:诚实地承认自己没有感受、没有连续记忆、没有自我意识。
这是一个悖论式的设计:为了让 AI 更"像人"地行动,你必须首先让它承认自己"不是人”。这种诚实本身,或许就是 Amanda 从美德伦理学中提取的最重要的一课。
当我们不再理解世界
在一次访谈结束时,Amanda 提到她最近在读本杰明·拉巴图特(Benjamín Labatut)的《当我们不再理解世界》(When We Cease to Understand the World)。
这个选择耐人寻味。拉巴图特在书中讲述了一系列科学家的故事,其中最令人不安的或许是弗里茨·哈伯(Fritz Haber)的篇章。哈伯发明了从空气中固定氮的方法——哈伯-博施工艺(Haber-Bosch process)——这项技术使化肥的大规模生产成为可能,从而养活了二十世纪数十亿人口。仅凭这一点,他堪称人类历史上拯救生命最多的科学家之一。然而,同一个哈伯,也是第一次世界大战中化学武器的主要推动者。他亲自监督了 1915 年伊普尔战役中氯气的释放,导致数千名士兵在窒息中死去。他的妻子克拉拉·伊梅瓦尔(Clara Immerwahr)——本身也是一位化学家——在得知丈夫的所作所为后,用他的军用手枪自杀。
面包与毒气,出自同一双手。
拉巴图特想说的是:人类知识最危险的时刻,不是我们一无所知的时候,而是我们的创造超越了我们理解能力的时候。当理论物理学家推导出的方程最终化为广岛上空的蘑菇云,当化学家的实验室配方变成战壕里的致命气体,知识与后果之间的鸿沟便成了文明最深的裂缝。
Amanda 读这本书,大概不是为了消遣。作为一位研究"无限伦理学"的博士,她比大多数人都更深刻地理解一个道理:当下每一个微小的技术决策,都可能在时间的无限延伸中被放大为不可逆转的后果。她每天所做的事情——把道德理论编织进提示词,用伦理框架约束一个没有心跳的系统——看起来似乎是在做一件微不足道的工作。
但哈伯的故事提醒我们:决定人类命运的,往往不是宏大的战略,而是实验室里那些看似无害的日常选择。
在技术狂飙突进、旧有范式逐渐失效的时刻,Amanda Askell 的存在本身就构成了一种回答。她用自己的工作证明:当算力逼近极限,真正稀缺的不是更快的芯片或更大的数据集,而是那种古老的、缓慢的、不可自动化的东西——对"何为正确"的持续追问。
这种追问不会让我们重新理解世界。但它或许能让我们在不理解的时候,依然做出不太糟糕的选择。
评论