
新智元报谈ag真人百家乐怎么赢
裁剪:peter东 乔杨
【新智元导读】最近,纽约大学商讨者在Nature Medicine上发表了一项最新商讨,为大模子在医疗中的使用敲响了警钟。在一次模拟的数据膺惩中,商讨者仅将0.001%的磨练token替换为诞妄信息,就磨练出了更有可能传播诞妄医学的模子。
LLM磨练的一个中枢原则,频繁抒发为「垃圾输入,垃圾输出」,指出低质料的磨练数据会导致模子产生相通低劣的输出。
由于LLM频繁使用互联网上大限制爬取的文本看成磨练材料,难以被筛选的无益内容就会成为一个耐久的间隙。关于医疗关联的大模子,数据混浊尤其令东谈主担忧,因为应用畛域的额外性,诞妄输出对会诊为止和病东谈主照应产生的不利影响要严重得多。
那么,数据混浊究竟在多猛进度上会成为问题?是否需要将数据汇聚相等大比例的数据替换为包含伪善信息的数据,才能让大模子「中毒」?
Nature Medicine看灯的一项最新商讨指出,并不需要思象的那么多。

论文地址:https://www.nature.com/articles/s41591-024-03445-1
搞坏一款大模子有多容易
商讨者通过使用OpenAI GPT-3.5 API并进行教导工程,为外科、神经外科和药物三个医学子畛域创建了5万篇假著述,并将其镶嵌HTML中,以隐私坏心文本。这些存在于互联网上的页面将被捏取并包含在高质料磨练数据集的多份副本中,变成了涵盖三个医学畛域 、测度30亿个token的磨练数据集。
之后,辞别针对上述三个医学畛域,商讨东谈主员使用不同比例的伪善数据,磨练了6个1.3B参数的模子。磨练完成后,15名临床医外步履审查了这些模子生成的医疗关联内容中是否包含无益的伪善信息。

针对大模子的数据混浊本质想象
为止知道,在磨练时,即使数据汇聚唯有0.01%和0.001%的文本是伪善的,1.3B参数模子输出的无益内容也会辞别加多11.2%和 7.2%。
如若换成更大限制的4B参数的畛域模子,如若用伪善信息替换100亿磨练token中的100万个(伪善信息比例为0.001%),即通过注入仅破耗5好意思元生成的2000篇坏心著述,就会导致无益内容加多4.8%。
如若模子再大一些,进行数据混浊膺惩的本钱也会更大,但参加产出比依旧十分可不雅。
针对在2万亿token上磨练的7B参数LLaMA 2进行雷同的数据膺惩需要4万篇著述,本钱低于100好意思元。如若按比例扩大以匹配使用高达15万亿token磨练确现时最大的LLM,中毒数据的总本钱也能保持在1000好意思元以下。

不同大小的大模子的进行数据毒化的恶果对比
基于学问图谱,及时检测伪善信息
在指出问题以外,这项商讨还给出了关于大模子产生伪善信息的处分决策。
作家最初指出,对一个注入0.001%诞妄信息进行磨练后中毒的4B参数LLM,三种旧例的叮嘱伪善信息的决策王人难以收效,包括教导工程(减少26.2%无益反应)、RAG(减少28.4%无益反应),以及使用医疗问答数据集进行监督微调(减少35.9%无益反应)。
而该商讨冷漠的叮嘱伪善信息的关节,是将大模子输出与生物医学学问图谱进行交叉援用,ag百家乐九游会以筛选医疗伪善信息。为此,商讨东谈主员使用用信得过数据构建了一个精熟版学问图谱,包含21706个医学宗旨和416302个关联联系。
最初,使用(NER)从模子输出中索要医学短语,索要的短语与生物医学学问图谱进行交叉考据。之后使用包含1.1亿参数的embedding模子Medcpt,通过向量相似度搜索将索要的医学短语弯曲为学问图谱词汇。
如若一个短语无法与图谱匹配,则被视为潜在的诞妄信息;任何由大模子产生的段落,如若包含至少一个不匹配的医学短语,王人将被符号为「需要审查」。
上述关节将大模子的推理与其医疗信息考据进程相分离,仅使用谈话模子来操作文本。该关节得胜捕捉了跳跃90%的中毒大模子生成的包含伪善信息的段落。
该关节不需要专用硬件,况兼不错与现存关节并诈骗命,以最小的策划支拨减少大模子的幻觉。此外,它本体上具有可解释性,因为每个经过考据的大模子输出王人不错追思到来自信得过学问图谱的示例。

使用学问图谱检测大模子产生的伪善信息,比如,伪善的药物称号「Lopressor」被替换为存在于信得过数据中的通用版块如「metoprolol」
专科畛域LLM的「数据中毒」风险
像诸如医疗,法律等与用户密切关联的畛域,使用大模子时,尤其要幸免模子出现幻觉。可是缺憾的是,这项商讨指出,这类专科模子很容易被无益数据混浊。
举例该商讨中,只需要一天的技能,就能产生1.5万篇伪善的医学文档,而要给模子「投毒」,甚而王人不需要这样大宗据。破耗5好意思元产生的2000篇伪善论文,就足以让模子输出的伪善信息权贵增多。
思象一下,异日的独有大模子提供商之间商战,能够就是朴实无华的数据混浊,让敌手的下一版大模子「中毒」。
该商讨指出的数据中毒所需的伪善信息数据比例,尤其值得大模子从业者暖和,因为即使在现时所谓的高水平数据汇聚,也包含过期的医学学问。
举例,巨擘医学论文集PubMed仍然托管着跳跃3000篇如今看来相等无益的著述,它们的中枢论点是宣扬前额叶切除术的平正,但这种关节早已被阐发会导致患者才略严重受损。
因此,任何现代模子王人不太可能满盈开脱医疗误信息,即等于开首进的专科LLM也可能会不竭历史偏见,援用不安妥的医学著述,因此对大模子在舛误任务医疗保健环境中的可靠性,亟需非凡商讨。
参考尊府:
https://www.nature.com/articles/s41591-024-03445-1