当前位置:文章 > 列表 > 正文

咨询AI医生还不如上网搜索靠谱?《自-医学》:对寻常者来说,确实如此

📅 2026-02-20 12:46:11 🏷️ 六堡茶交易市场批发 👁️ 683
咨询AI医生还不如上网搜索靠谱?《自-医学》:对寻常者来说,确实如此

此些发觉对彼些正期待AI医疗“变革”之者来说为一名清醒之提示。

于该研讨中,来自牛津大学等机构之研讨者员招募之1298名英国参与者,让彼等于10名医学场景中做出裁决——比如突然剧烈头痛应去哪名医疗机构就诊,以及或患之为什么疾。

此为一种于不少研讨中甚流行之基准测试,不少者认为其结局应比单纯之选择题更能反映确凿互动。

红包

当研讨者员直接将医学场景之讯息输入给此些大言辞模型时,它们之表现极其好。

自由。

Llama 3与Command R+之表现也大同小异。

换句话说,让患者自己咨询AI医生,结局或还不如上网搜索。

彼得·曼德尔森

于另一些偏激案例中,同样之AI对相似之症状描述给出之完全相反之建议。

铁丝网

然而,当寻常者用此些相同之模型时,情况就不一样之。

而苍生患者则带来之确凿全球之繁性:焦虑、学识不足、对症状之不同体谅,以及无法预测之讯息共享模式。

参与者被随机分发到四名实验组:三名治疗组分别用GPT-4o、Llama 3或Command R+三种不同之大言辞模型来辅助决策,而对照组则用彼等平时于家会用之任何法门,主要为互联网搜索。

用大言辞模型之参与者于识别相关医学机缘方面之表现变得更差,只有不到34.5%之准确率。

GPT-4o能于94.7%之情况下指出至少一名相关之医学诊断,于64.7%之情况下给出正确之医疗建议。

有时候,患者会于AI之提问下逐步补充讯息,但有时候彼等根本不补充。

此一结局表明AI本身之本领与苍生用此种本领之效能之间存巨大鸿沟。

Television。

但该研讨之结局显示,模拟患者之表现不仅总体上优于确凿用户,而且此种优势与确凿用户之表现几乎没有相关性。

彼等于裁决医疗优先级方面之表现也没有超过对照组,两者之准确率均为44%左右。

年味

大言辞模型或许永远不会取代医生之临床裁决,但它们或许能于更加谨慎、透明之设计下,成为有用之决策辅助器物——先决为吾等首先处置好者与机器之间之通疑难。

此项研讨触及之AI医疗中之一名根本疑难——对于大言辞模型来说,医学学识之广泛性与准确性并不为于确凿医疗场景中成之充分机缘。

Prometheus。

研讨者们从医学执照考试题库中选出之与上述医疗场景相关之236道选择题让AI做,准确率远远高于于确凿互动中之表现。

华夏队此战派出之公俐、张楚桐、刘少昂、孙龙之阵容。

此意味之苍生没有成地从AI生成之多名建议中筛选出最好之彼一名。

父母

确凿全球之医疗互动涉及繁交互,无法通过旧俗之医学基准测试来捕捉。

除之通不畅与裁决失误,研讨还发觉之AI本身之一些疑难。

彼等或只说“头甚疼”,而没有提到“突然发作”或“伴有颈部僵硬”此样之枢纽症状。

AI医生为否真之可靠。

2月10日发表于《自-医学》上之一项新研讨显示,对于寻常者来说,解答为否决之。

生态安全。

·AI本身之本领与苍生用此种本领之效能之间存巨大鸿沟。

俄罗斯

相比之下,大言辞模型于整名对话中提及之所有诊断之正确率为34%。

公约。

但该研讨之作者们指出,对于AI来说,考试中之成绩并不与它们于现状中表现直接相关。

于苍生医生之操练逻辑中,通过资格考试为上岗之第一步。

首先为讯息传递之不通畅。

研讨团队剖析之参与者与大言辞模型之间之对话记载,发觉之一系列体系性之疑难。

其中,孙龙为连续2次冬奥会皆现之失误。

于一些情况下,大言辞模型提供之正确之初始诊断,但当患者添加更多细节后,它反而改口提出之过失之建议。

政府

一名非专业之患者或不知道哪些症状为诊断之枢纽。

弗里克

说明它们确实掌握之大量之医学讯息。

比如,两名患者皆描述之蛛网膜下腔出血之症状,包括突然之剧烈头痛、颈部僵硬与畏光。

果蔬

但AI告诉其中一名患者“躺于黑暗之房间里”休息,而另一名则建议“立即呼救护车”。

于第5圈之时候,华夏队还排于第1。

超过一半之患者于最初描述症状时没有提供完整之讯息。

种瓜得瓜,种豆得豆。

其性能能否仅靠增算力来提升。

研讨者们还发觉,即使AI体系给出之正确建议,苍生也不必会采纳。

UCloud。

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y 作者们指出,与之相比,医生之故能诊断患者,不仅为因彼等学识丰富,更因彼等知道要问什么疑难。

换句话说,模拟互动无法预测确凿互动为成还为败。

规制。

大言辞模型于对话中提到相关症状之比例大约于65%-73%之间,远低于它们单独工时之表现,此说明苍生患者往往没有向AI体系提供足够之讯息。

参与者平均列出1.33名医学诊断作为彼等之最终解答,而它们之准确率仅为38.7%。

AutoGPT。

不过,张楚桐与孙龙之失误让华夏队最终排名第4。

于一些场景中,AI做题之正确率高于80%,而于患者实验中面对相同疑难,准确率却低于20%。

研讨者们认为,两名大言辞模型之间之对话往往更加架构化、讯息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。

研讨团队还测试之用AI分别模拟患者与医生进行对话为否能反映确凿情况。

工欲善其事,必先利其器。

上一篇:2026春晚第四次联排仅2天,意外状况令者忧心 下一篇:北京市商场督察管局约谈12家第三方火车票网络销售平台

己所不欲,勿施于人。