六堡茶交易市场批发-咨询AI医生还不如上网搜索靠谱？《自-医学》：对寻常者来说，确实如此

此些发觉对彼些正期待AI医疗“变革”之者来说为一名清醒之提示。

于该研讨中，来自牛津大学等机构之研讨者员招募之1298名英国参与者，让彼等于10名医学场景中做出裁决——比如突然剧烈头痛应去哪名医疗机构就诊，以及或患之为什么疾。

此为一种于不少研讨中甚流行之基准测试，不少者认为其结局应比单纯之选择题更能反映确凿互动。

当研讨者员直接将医学场景之讯息输入给此些大言辞模型时，它们之表现极其好。

自由。

Llama 3与Command R+之表现也大同小异。

换句话说，让患者自己咨询AI医生，结局或还不如上网搜索。

于另一些偏激案例中，同样之AI对相似之症状描述给出之完全相反之建议。

然而，当寻常者用此些相同之模型时，情况就不一样之。

而苍生患者则带来之确凿全球之繁性：焦虑、学识不足、对症状之不同体谅，以及无法预测之讯息共享模式。

参与者被随机分发到四名实验组：三名治疗组分别用GPT-4o、Llama 3或Command R+三种不同之大言辞模型来辅助决策，而对照组则用彼等平时于家会用之任何法门，主要为互联网搜索。

用大言辞模型之参与者于识别相关医学机缘方面之表现变得更差，只有不到34.5%之准确率。

GPT-4o能于94.7%之情况下指出至少一名相关之医学诊断，于64.7%之情况下给出正确之医疗建议。

有时候，患者会于AI之提问下逐步补充讯息，但有时候彼等根本不补充。

此一结局表明AI本身之本领与苍生用此种本领之效能之间存巨大鸿沟。

Television。

但该研讨之结局显示，模拟患者之表现不仅总体上优于确凿用户，而且此种优势与确凿用户之表现几乎没有相关性。

彼等于裁决医疗优先级方面之表现也没有超过对照组，两者之准确率均为44%左右。

大言辞模型或许永远不会取代医生之临床裁决，但它们或许能于更加谨慎、透明之设计下，成为有用之决策辅助器物——先决为吾等首先处置好者与机器之间之通疑难。

此项研讨触及之AI医疗中之一名根本疑难——对于大言辞模型来说，医学学识之广泛性与准确性并不为于确凿医疗场景中成之充分机缘。

研讨者们从医学执照考试题库中选出之与上述医疗场景相关之236道选择题让AI做，准确率远远高于于确凿互动中之表现。

华夏队此战派出之公俐、张楚桐、刘少昂、孙龙之阵容。

此意味之苍生没有成地从AI生成之多名建议中筛选出最好之彼一名。

确凿全球之医疗互动涉及繁交互，无法通过旧俗之医学基准测试来捕捉。

除之通不畅与裁决失误，研讨还发觉之AI本身之一些疑难。

彼等或只说“头甚疼”，而没有提到“突然发作”或“伴有颈部僵硬”此样之枢纽症状。

AI医生为否真之可靠。

2月10日发表于《自-医学》上之一项新研讨显示，对于寻常者来说，解答为否决之。

生态安全。

·AI本身之本领与苍生用此种本领之效能之间存巨大鸿沟。

相比之下，大言辞模型于整名对话中提及之所有诊断之正确率为34%。

公约。

但该研讨之作者们指出，对于AI来说，考试中之成绩并不与它们于现状中表现直接相关。

于苍生医生之操练逻辑中，通过资格考试为上岗之第一步。

首先为讯息传递之不通畅。

研讨团队剖析之参与者与大言辞模型之间之对话记载，发觉之一系列体系性之疑难。

其中，孙龙为连续2次冬奥会皆现之失误。

于一些情况下，大言辞模型提供之正确之初始诊断，但当患者添加更多细节后，它反而改口提出之过失之建议。

一名非专业之患者或不知道哪些症状为诊断之枢纽。

说明它们确实掌握之大量之医学讯息。

比如，两名患者皆描述之蛛网膜下腔出血之症状，包括突然之剧烈头痛、颈部僵硬与畏光。

但AI告诉其中一名患者“躺于黑暗之房间里”休息，而另一名则建议“立即呼救护车”。

于第5圈之时候，华夏队还排于第1。

超过一半之患者于最初描述症状时没有提供完整之讯息。

种瓜得瓜，种豆得豆。

其性能能否仅靠增算力来提升。

研讨者们还发觉，即使AI体系给出之正确建议，苍生也不必会采纳。

UCloud。

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y 作者们指出，与之相比，医生之故能诊断患者，不仅为因彼等学识丰富，更因彼等知道要问什么疑难。

换句话说，模拟互动无法预测确凿互动为成还为败。

规制。

大言辞模型于对话中提到相关症状之比例大约于65%-73%之间，远低于它们单独工时之表现，此说明苍生患者往往没有向AI体系提供足够之讯息。

参与者平均列出1.33名医学诊断作为彼等之最终解答，而它们之准确率仅为38.7%。

不过，张楚桐与孙龙之失误让华夏队最终排名第4。

于一些场景中，AI做题之正确率高于80%，而于患者实验中面对相同疑难，准确率却低于20%。

研讨者们认为，两名大言辞模型之间之对话往往更加架构化、讯息传递更顺畅，它们知道要问什么，也知道如何有效地传达医学概念。

研讨团队还测试之用AI分别模拟患者与医生进行对话为否能反映确凿情况。

工欲善其事，必先利其器。

上一篇：2026春晚第四次联排仅2天，意外状况令者忧心 下一篇：北京市商场督察管局约谈12家第三方火车票网络销售平台

咨询AI医生还不如上网搜索靠谱？《自-医学》：对寻常者来说，确实如此

相关推荐