着手:IT之家
IT之家 12 月 25 日音书,由哈佛医学院和斯坦福大学构成的科研团队,在医学会诊鸿沟潜入评估 OpenAI 的 o1-preview 模子,发现其比东谈主类大夫更擅长会诊辣手的医疗案例。
凭证商酌推崇,o1-preview 正确会诊了 78.3% 的测试案例,在 70 个特定案例的对比测试中,准确率更是高达 88.6%,权贵优于其前身 GPT-4 的 72.9%。
使用医学推理质料评估圭臬量表 R-IDEA,o1-preview 在 80 个案例中取得了 78 个满分。比拟之下,素养丰富的大夫仅在 28 个案例中取得满分,入院大夫则仅为 16 例。
在 25 位行家谋略的复杂案例中,o1-preview 得分高达 86%,ag百家乐三路实战是使用 GPT-4 的大夫(41%)和使用传统器用的大夫(34%)的两倍多。
商酌东谈主员承认该测试存在局限性,部分测试案例可能包含在 o1-preview 的检会数据中,且测试主要鸠合于系统单独责任,并未充分探讨其与东谈主类大夫协同责任的场景;此外 o1-preview 提议的会诊测试本钱昂贵,在实质讹诈中存在局限性。
IT之家附上参考地址
Superhuman performance of a large language model on the reasoning tasks of a physician
OpenAI‘s o1-preview outperforms doctors in diagnosing tricky medical cases, study finds
告白声明:文内含有的对外跳转连气儿(包括不限于超连气儿、二维码、口令等体式),用于传递更多信息,节俭甄选时间,效果仅供参考,IT之家通盘著作均包含本声明。
背负剪辑:陈钰嘉 百家乐ag