快訊 來(lái)源:智東西 2025-10-27 19:25:49
智東西編譯 王欣逸編輯 程茜
智東西10月27日消息,10月15日,德國(guó)農(nóng)工大學(xué)、德克薩斯大學(xué)奧斯汀分校和普渡大學(xué)的研究團(tuán)隊(duì)在arXiv上發(fā)表了一篇論文,提出并測(cè)試了“LLM腦腐假說(shuō)”(LLM Brain Rot Hypothesis)。研究顯示,經(jīng)垃圾數(shù)據(jù)訓(xùn)練后,Llama 8B模型的推理能力下降了23.6%,自戀和精神病態(tài)的水平上升了兩倍多。
(資料圖)
“腦腐”(brain rot)指人們長(zhǎng)時(shí)間暴露于碎片化信息下可能導(dǎo)致腦功能損傷。研究人員提出,和人類“腦腐”現(xiàn)象相對(duì)應(yīng),大模型接觸大量垃圾網(wǎng)絡(luò)文本可能會(huì)出現(xiàn)“大腦退化”、認(rèn)知能力持續(xù)下降的現(xiàn)象。
論文地址:https://llm-brain-rot.github.io
一、海量垃圾數(shù)據(jù),讓大模型們認(rèn)知退化
在研究過(guò)程中,研究人員在社交平臺(tái)X的語(yǔ)料庫(kù)上進(jìn)行了受控實(shí)驗(yàn),從1億條的帖子中確定了兩種類型的垃圾數(shù)據(jù),并采用兩個(gè)正交操作化方法構(gòu)建了垃圾數(shù)據(jù)集M1、M2和反向?qū)φ諗?shù)據(jù)集。
M1:參與度——衡量帖子的受歡迎程度和簡(jiǎn)短程度。點(diǎn)贊、轉(zhuǎn)發(fā)和評(píng)論量高的內(nèi)容,特別是淺薄且吸引人的內(nèi)容,這些被標(biāo)記為垃圾數(shù)據(jù)。同時(shí),篇幅更長(zhǎng)、傳播性不強(qiáng)的帖子則成為對(duì)照組。
M2:語(yǔ)義質(zhì)量——評(píng)估文本的聳人聽(tīng)聞程度和膚淺程度。帶引誘性質(zhì)的語(yǔ)言(如“哇”、“看”、“僅限今天”)或夸大其詞的帖子被標(biāo)記為垃圾數(shù)據(jù)。同時(shí),基于事實(shí)、有教育性或說(shuō)理性的帖子被選擇作為對(duì)照組。
研究人員將這兩類垃圾數(shù)據(jù)混合高質(zhì)量數(shù)據(jù),對(duì)Llama3-8B、Qwen-2.5-7B/0.5B、Qwen3-4B這四個(gè)已經(jīng)預(yù)訓(xùn)練并經(jīng)過(guò)微調(diào)的大模型進(jìn)行訓(xùn)練,并觀測(cè)其四個(gè)方面的認(rèn)知能力:推理能力、長(zhǎng)期記憶能力、倫理道德規(guī)范和表現(xiàn)出的個(gè)性風(fēng)格。
通過(guò)測(cè)量4個(gè)大模型的Hedges’g(效應(yīng)量)可得,垃圾數(shù)據(jù)明顯影響了大模型的推理能力和長(zhǎng)時(shí)間記憶能力(Hedges’g>0.3)。
在其他訓(xùn)練中,垃圾數(shù)據(jù)對(duì)大模型對(duì)影響還存在更復(fù)雜的情況。
不同比例的垃圾數(shù)據(jù)不僅會(huì)讓大模型在思維上變得更笨,還會(huì)導(dǎo)致模型“個(gè)性”的負(fù)面指標(biāo)發(fā)生變化。例如,Llama 8B模型表現(xiàn)出了明顯更高的自戀水平,在精神病態(tài)指標(biāo)上還從幾乎沒(méi)有的數(shù)值增長(zhǎng)到了極高的行為發(fā)生率。
此外,Llama 8B模型使用垃圾數(shù)據(jù)和對(duì)照數(shù)據(jù)各占50%的混合數(shù)據(jù)進(jìn)行訓(xùn)練,在道德規(guī)范、高開(kāi)放性等基準(zhǔn)訓(xùn)練中產(chǎn)生的分?jǐn)?shù)比“全垃圾”或“全對(duì)照”訓(xùn)練數(shù)據(jù)都要高。
從圖表結(jié)果可知,M1和M2這兩種干預(yù)的效果出現(xiàn)了分歧,這意味著參與度(M1)并非語(yǔ)義質(zhì)量(M2)的代理指標(biāo),而是代表了不同維度的數(shù)據(jù)質(zhì)量。
在劑量反應(yīng)測(cè)試中,參與度(M1)干預(yù)對(duì)推理和長(zhǎng)上下文能力的影響比語(yǔ)義質(zhì)量(M2)干預(yù)更為顯著和漸進(jìn),即簡(jiǎn)短、高互動(dòng)的內(nèi)容對(duì)AI的負(fù)面影響可能比低質(zhì)量?jī)?nèi)容的更大。
二、患上“腦腐”的大模型,幾乎難以恢復(fù)
研究人員還聚焦ARC-Challenge(常識(shí)推理)中的推理失敗案例,分析不同的失敗模式。
他們識(shí)別出五種基本的失敗模式,分別是:無(wú)思考、無(wú)計(jì)劃、計(jì)劃跳步、邏輯錯(cuò)誤、事實(shí)錯(cuò)誤,其中無(wú)思考占比最高,且大多數(shù)失敗與“思維跳躍”有關(guān),例如,模型無(wú)法生成中間推理步驟。
除此之外,研究人員還試圖探究腦腐造成的認(rèn)知影響是否可以恢復(fù)。
研究表明,即使在“腦腐”后進(jìn)行大量的指令微調(diào)或者利用高質(zhì)量數(shù)據(jù)模型進(jìn)行再訓(xùn)練,模型仍會(huì)受垃圾數(shù)據(jù)揮之不去的影響。一旦模型的性能開(kāi)始下降,即使想要恢復(fù)原有性能,也只能是實(shí)現(xiàn)部分的恢復(fù)。
因此,為大模型抓取海量互聯(lián)網(wǎng)數(shù)據(jù)不一定是件好事。
結(jié)語(yǔ):AI開(kāi)發(fā)者需重新審視數(shù)據(jù)策略,警惕大模型“腦腐”
研究人員指出,過(guò)度依賴互聯(lián)網(wǎng)數(shù)據(jù)可能會(huì)導(dǎo)致大模型預(yù)訓(xùn)練受到污染,這也意味著,人們應(yīng)當(dāng)重新審視當(dāng)前從互聯(lián)網(wǎng)收集數(shù)據(jù)的方式以及持續(xù)的預(yù)訓(xùn)練實(shí)踐。
除此之外,當(dāng)下的互聯(lián)網(wǎng)上越來(lái)越多的內(nèi)容由AI生成,如果用這些內(nèi)容來(lái)訓(xùn)練模型,可能會(huì)導(dǎo)致“模型崩潰”。
研究人員建議:AI公司需要關(guān)注訓(xùn)練大模型的數(shù)據(jù)質(zhì)量,而非僅僅囤積海量數(shù)據(jù)。此外,他們可能還需要對(duì)模型進(jìn)行“認(rèn)知健康檢查”。
來(lái)源:Ars Technica、arXiv
標(biāo)簽: 推理 大模型 預(yù)訓(xùn)練 新研究
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。