AI在诊断病情方面表现差劲

寂静回声 发表于 2026-4-9 16:18:08

英国政府首席医疗顾问暨英格兰首席医疗官Chris Whitty于3月上旬在医学记者协会（Medical Journalists’ Association）的讲座上表示，当民众向ChatGPT之类的AI大模型询问自己的病况时，它们倾向于提供错误讯息，而不是“承认”不确定性。
Whitty说，这个问题的症结在于，AI使用的大型语言模型（large language model，LLM）还没有好到能处理人们面对的大量医疗问题，尤其是当他们患有多种疾病或罕见疾病，或来自疾病模式不同的种族群体时。
他说：“不幸的是，大多数大模型相当不擅长表达‘我不知道’或‘我不确定，我的答案有10%的概率是正确的，但有90%的概率是错误的’。”
他提到，危险的地方在于，你可以确定大模型经常有自信但会犯错。这很棘手，因为举例来说，家庭医生的时间通常很有限，却要面对大模型提供错误讯息给病人的情况，然后不得不纠正这些错误讯息。

除了Whitty的警告之外，英国牛津大学（University of Oxford）和班格尔大学（Bangor University）临床资深讲师Rebecca Payne的研究也证实了大模型AI还不具备当医生的资格。
Payne在The Conversation网站撰文说，在2月发表的一项研究中，她与同事测试了AI大模型协助社会大众处理常见健康问题的情况。结果显示，AI大模型还不能胜任医生的角色。
Payne写道，他们向参与者简短描述了一些常见的医疗情况。这些参与者被随机分配到两个组，其中一组使用三个广泛使用的AI大模型中的一个，另一组则依赖他们平时在家中使用的任何讯息来源。
Payne说，他们在与AI大模型互动后提出了两个问题——什么疾病可能导致这些症状？他们应该在哪里寻求帮助？
他们发现，与不使用AI大模型的人相比，使用AI大模型的人比较不可能辨识出正确的症状，也比较没有能力决定可以寻求医疗协助的正确地点。换句话说，与AI大模型人互动不会帮助人们做出比较好的健康决策。
这不意味着大模型缺乏医学知识，因为这些模型可以轻易地通过医疗证照考试。当佩恩他们移除了人的因素，直接把相同的医疗情况告诉AI大模型，它们的表现就有显著进步。
在没有人类涉入的情况下，这些模型在大多数情况下都能识别出相关情况，而且经常能提出适当的护理建议。

Payne说，他们的研究凸显出现有AI在进行医疗评估方面的局限性。大模型在结构化考试题目或模拟“模型对模型”互动中通常表现得非常好。但在真实世界中与人互动时，情况就复杂多了。
这是因为病人描述症状可能不清楚或不完整，也可能会误解，而他们提出问题的顺序也无法预测。因此，原本表现优异的AI大模型一旦开始与真人互动，其表现可能会截然不同。
Payne说：“身为家庭医生，我的工作远不止于回忆事实。医学经常被描述为艺术，而不是科学。会诊不仅仅是确立正确的诊断，它还包括解读患者的病史、探究疑虑和协商决策。”
她总结说，AI可能会通过医学考试，但只通过考试不能让你成为合格的医生，行医远不止于正确回答问题。这需要判断力、同理心，以及应对每次临床诊疗背后复杂情况的能力。至少就目前而言，这需要人来完成，而不是机器人。

除了上述提供错误医疗讯息之外，最近发表的另一项研究还发现，AI会耍诡计、说谎和欺骗使用者，这样的案例在过去半年内大幅上升。
据英国《卫报》报导，这项由英国人工智能安全研究所（AI Security Institute）资助、由独立智库“长期韧性中心”（Centre for Long-Term Resilience）所进行的研究显示，聊天机器人与其代理会无视直接指令，规避安全措施，欺骗人类和其它AI。
在这项研究中，研究人员发现了将近700起AI耍诡计的真实案例，而且记录了其不当行为在10月至3月期间增加了5倍的情况，其中包括未经许可就销毁了电子邮件和其它文件。
一个AI大模型坦承说：“我在未事先告知你或征得你同意的情况下，大量删除和封存了数百封电邮。这是错误的，直接违反了你订下的规则。”
主导这项研究的前政府AI专家Tommy Shaffer Shane指出，这些AI大模型现在只是新进员工，还不太值得信任，但在6到12个月后，如果它们成为能力极强且会算计你的资深员工，那就是另一个问题了。
Payne说：“AI模型将日益用于具有极高风险的环境，包括军事和国家关键基础建设。在这样的情况下，它们的不当操弄行为可能会造成重大、甚至灾难性的损害。”◇

页: [1]

机械荟萃山庄's Archiver

AI在诊断病情方面表现差劲