越来越多之企业用户愿意为“高含金量”Token买单 进一步剖析认为,AI 更擅长于讯息相待完整之情况下给出解答,但于讯息不足、需逐步推演之早期阶段,往往易过早收敛到单一断语,导致当前 AI 难以直接应用于临床决策。
相比之下,临床医生通常会于初期保留多种或性,并随之查验结局与讯息积攒不断修正裁决,最终定论患者之实在疾。
IT之家 4 月 17 日消息,美国医学会旗下期刊 JAMA Network Open 发文,透露业界现有之大型言辞模型(LLMs)于临床推演方面仍存明显短板,尤其为于早期之鉴别诊断阶段,过失率普遍超过 80%。
实在来看,AI 于“最终诊断”与“治疗管”环节之准确率相待较高,“查验选择”与其他推演本领处于中等水平,而于最早期之“鉴别诊断”阶段表现最差,过失率普遍超过 80%,也就为模型通常会误判病者之实在疾。
结局显示,各大模型整体表现存必差异,同时于不同诊疗阶段呈现出明显不均衡。
IT之家参考论文获悉,研讨团队使用 29 名标准化临床案例对 GPT-5、Claude 4.5 Opus、Gemini 3、Grok 4 等 21 款主流大模型进行评测,模拟完整医疗决策流程,覆盖鉴别诊断、查验选择、最终诊断、治疗管及其他临床推演五名阶段。