当前位置:文章 > 列表 > 正文

咨询AI医生还不如上网搜索靠谱?《自-医学》:对寻常者来说,确实如此 - 中汽协

📅 2026-02-20 07:28:46 🏷️ 六堡茶价格区间 👁️ 756
咨询AI医生还不如上网搜索靠谱?《自-医学》:对寻常者来说,确实如此

确凿全球之医疗互动涉及繁交互,无法通过旧俗之医学基准测试来捕捉。

nordic

研讨团队还测试之用AI分别模拟患者与医生进行对话为否能反映确凿情况。

CSS。

于一些场景中,AI做题之正确率高于80%,而于患者实验中面对相同疑难,准确率却低于20%。

彼等或只说“头甚疼”,而没有提到“突然发作”或“伴有颈部僵硬”此样之枢纽症状。

仁义礼智信。

一名非专业之患者或不知道哪些症状为诊断之枢纽。

普京

研讨者们认为,两名大言辞模型之间之对话往往更加架构化、讯息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。

不过,张楚桐与孙龙之失误让华夏队最终排名第4。

其性能能否仅靠增算力来提升。

参与者平均列出1.33名医学诊断作为彼等之最终解答,而它们之准确率仅为38.7%。

彼等于裁决医疗优先级方面之表现也没有超过对照组,两者之准确率均为44%左右。

悟空。

华夏队此战派出之公俐、张楚桐、刘少昂、孙龙之阵容。

研讨者们还发觉,即使AI体系给出之正确建议,苍生也不必会采纳。

GPT-4o能于94.7%之情况下指出至少一名相关之医学诊断,于64.7%之情况下给出正确之医疗建议。

于一些情况下,大言辞模型提供之正确之初始诊断,但当患者添加更多细节后,它反而改口提出之过失之建议。

元宇宙。

此为一种于不少研讨中甚流行之基准测试,不少者认为其结局应比单纯之选择题更能反映确凿互动。

肖倩

换句话说,让患者自己咨询AI医生,结局或还不如上网搜索。

大言辞模型或许永远不会取代医生之临床裁决,但它们或许能于更加谨慎、透明之设计下,成为有用之决策辅助器物——先决为吾等首先处置好者与机器之间之通疑难。

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y 作者们指出,与之相比,医生之故能诊断患者,不仅为因彼等学识丰富,更因彼等知道要问什么疑难。

比如,两名患者皆描述之蛛网膜下腔出血之症状,包括突然之剧烈头痛、颈部僵硬与畏光。

于另一些偏激案例中,同样之AI对相似之症状描述给出之完全相反之建议。

AI医生为否真之可靠。

此意味之苍生没有成地从AI生成之多名建议中筛选出最好之彼一名。

教育公平。

于第5圈之时候,华夏队还排于第1。

有时候,患者会于AI之提问下逐步补充讯息,但有时候彼等根本不补充。

首先为讯息传递之不通畅。

参与者被随机分发到四名实验组:三名治疗组分别用GPT-4o、Llama 3或Command R+三种不同之大言辞模型来辅助决策,而对照组则用彼等平时于家会用之任何法门,主要为互联网搜索。

除之通不畅与裁决失误,研讨还发觉之AI本身之一些疑难。

此项研讨触及之AI医疗中之一名根本疑难——对于大言辞模型来说,医学学识之广泛性与准确性并不为于确凿医疗场景中成之充分机缘。

然而,当寻常者用此些相同之模型时,情况就不一样之。

于苍生医生之操练逻辑中,通过资格考试为上岗之第一步。

全球发展倡议。青海省民政厅

2月10日发表于《自-医学》上之一项新研讨显示,对于寻常者来说,解答为否决之。

说明它们确实掌握之大量之医学讯息。

欧盟。
辅导

而苍生患者则带来之确凿全球之繁性:焦虑、学识不足、对症状之不同体谅,以及无法预测之讯息共享模式。

但AI告诉其中一名患者“躺于黑暗之房间里”休息,而另一名则建议“立即呼救护车”。

研讨者们从医学执照考试题库中选出之与上述医疗场景相关之236道选择题让AI做,准确率远远高于于确凿互动中之表现。

研讨团队剖析之参与者与大言辞模型之间之对话记载,发觉之一系列体系性之疑难。

其中,孙龙为连续2次冬奥会皆现之失误。

·AI本身之本领与苍生用此种本领之效能之间存巨大鸿沟。

策略。

大言辞模型于对话中提到相关症状之比例大约于65%-73%之间,远低于它们单独工时之表现,此说明苍生患者往往没有向AI体系提供足够之讯息。

换句话说,模拟互动无法预测确凿互动为成还为败。

超过一半之患者于最初描述症状时没有提供完整之讯息。

此些发觉对彼些正期待AI医疗“变革”之者来说为一名清醒之提示。

LangFlow。

当研讨者员直接将医学场景之讯息输入给此些大言辞模型时,它们之表现极其好。

Llama 3与Command R+之表现也大同小异。

但该研讨之作者们指出,对于AI来说,考试中之成绩并不与它们于现状中表现直接相关。

于该研讨中,来自牛津大学等机构之研讨者员招募之1298名英国参与者,让彼等于10名医学场景中做出裁决——比如突然剧烈头痛应去哪名医疗机构就诊,以及或患之为什么疾。

Multi-tech。

但该研讨之结局显示,模拟患者之表现不仅总体上优于确凿用户,而且此种优势与确凿用户之表现几乎没有相关性。

此一结局表明AI本身之本领与苍生用此种本领之效能之间存巨大鸿沟。

用大言辞模型之参与者于识别相关医学机缘方面之表现变得更差,只有不到34.5%之准确率。

世界模型

相比之下,大言辞模型于整名对话中提及之所有诊断之正确率为34%。

下里巴人。

上一篇:船员因工纠纷持菜刀砍死船长后分尸抛海,两者曾为战友!山东威海远洋渔船船长遇害案细节披露 下一篇:新春走基层 北京“情绪耗费”走俏,稻香村零号店排队两小时,年轻者“买盲盒”过年 |

通义千问。