AI在诊断病情方面表现差劲
英国政府首席医疗顾问暨英格兰首席医疗官Chris Whitty于3月上旬在医学记者协会(Medical Journalists’ Association)的讲座上表示,当民众向ChatGPT之类的AI大模型询问自己的病况时,它们倾向于提供错误讯息,而不是“承认”不确定性。Whitty说,这个问题的症结在于,AI使用的大型语言模型(large language model,LLM)还没有好到能处理人们面对的大量医疗问题,尤其是当他们患有多种疾病或罕见疾病,或来自疾病模式不同的种族群体时。
他说:“不幸的是,大多数大模型相当不擅长表达‘我不知道’或‘我不确定,我的答案有10%的概率是正确的,但有90%的概率是错误的’。”
他提到,危险的地方在于,你可以确定大模型经常有自信但会犯错。这很棘手,因为举例来说,家庭医生的时间通常很有限,却要面对大模型提供错误讯息给病人的情况,然后不得不纠正这些错误讯息。
除了Whitty的警告之外,英国牛津大学(University of Oxford)和班格尔大学(Bangor University)临床资深讲师Rebecca Payne的研究也证实了大模型AI还不具备当医生的资格。
Payne在The Conversation网站撰文说,在2月发表的一项研究中,她与同事测试了AI大模型协助社会大众处理常见健康问题的情况。结果显示,AI大模型还不能胜任医生的角色。
Payne写道,他们向参与者简短描述了一些常见的医疗情况。这些参与者被随机分配到两个组,其中一组使用三个广泛使用的AI大模型中的一个,另一组则依赖他们平时在家中使用的任何讯息来源。
Payne说,他们在与AI大模型互动后提出了两个问题——什么疾病可能导致这些症状?他们应该在哪里寻求帮助?
他们发现,与不使用AI大模型的人相比,使用AI大模型的人比较不可能辨识出正确的症状,也比较没有能力决定可以寻求医疗协助的正确地点。换句话说,与AI大模型人互动不会帮助人们做出比较好的健康决策。
这不意味着大模型缺乏医学知识,因为这些模型可以轻易地通过医疗证照考试。当佩恩他们移除了人的因素,直接把相同的医疗情况告诉AI大模型,它们的表现就有显著进步。
在没有人类涉入的情况下,这些模型在大多数情况下都能识别出相关情况,而且经常能提出适当的护理建议。
Payne说,他们的研究凸显出现有AI在进行医疗评估方面的局限性。大模型在结构化考试题目或模拟“模型对模型”互动中通常表现得非常好。但在真实世界中与人互动时,情况就复杂多了。
这是因为病人描述症状可能不清楚或不完整,也可能会误解,而他们提出问题的顺序也无法预测。因此,原本表现优异的AI大模型一旦开始与真人互动,其表现可能会截然不同。
Payne说:“身为家庭医生,我的工作远不止于回忆事实。医学经常被描述为艺术,而不是科学。会诊不仅仅是确立正确的诊断,它还包括解读患者的病史、探究疑虑和协商决策。”
她总结说,AI可能会通过医学考试,但只通过考试不能让你成为合格的医生,行医远不止于正确回答问题。这需要判断力、同理心,以及应对每次临床诊疗背后复杂情况的能力。至少就目前而言,这需要人来完成,而不是机器人。
除了上述提供错误医疗讯息之外,最近发表的另一项研究还发现,AI会耍诡计、说谎和欺骗使用者,这样的案例在过去半年内大幅上升。
据英国《卫报》报导,这项由英国人工智能安全研究所(AI Security Institute)资助、由独立智库“长期韧性中心”(Centre for Long-Term Resilience)所进行的研究显示,聊天机器人与其代理会无视直接指令,规避安全措施,欺骗人类和其它AI。
在这项研究中,研究人员发现了将近700起AI耍诡计的真实案例,而且记录了其不当行为在10月至3月期间增加了5倍的情况,其中包括未经许可就销毁了电子邮件和其它文件。
一个AI大模型坦承说:“我在未事先告知你或征得你同意的情况下,大量删除和封存了数百封电邮。这是错误的,直接违反了你订下的规则。”
主导这项研究的前政府AI专家Tommy Shaffer Shane指出,这些AI大模型现在只是新进员工,还不太值得信任,但在6到12个月后,如果它们成为能力极强且会算计你的资深员工,那就是另一个问题了。
Payne说:“AI模型将日益用于具有极高风险的环境,包括军事和国家关键基础建设。在这样的情况下,它们的不当操弄行为可能会造成重大、甚至灾难性的损害。”◇
页:
[1]