姚期智領銜提出大模型「思維」框架!邏輯推理正確率達98%
圖靈獎得主姚期智領銜的首篇大語言模型論文來了!
一出手,瞄準的就是“讓大模型像人一樣思考”這個方向——
日本教科书修订慰安妇表述 民间团体怒批
不僅要讓大模型一步步推理,還要讓它們學會“步步爲營”,記住推理過程中間的所有正確結果。
具體來說,這篇新論文提出了一種叫做累積推理(Cumulative Reasoning)的新方法,顯著提高了大模型搞複雜推理的能力。
要知道,大模型基於思維鏈等,可以進行問題推理,但面對“要拐好幾個彎”的問題,還是容易出錯。
累積推理正是在此基礎上,加入了一個“驗證者”,及時判斷對錯。由此模型的思考框架也從鏈狀和樹狀,變成了更復雜的“有向無環圖”。
這樣一來,大模型不僅解數學題思路更清晰,還生出了一手“玩牌”的技巧:
在代數和幾何數論等數學難題上,大模型的相對準確率提升了42%;玩24點,成功率更是飆升到98%。
據清華大學交叉信息研究院介紹,共同一作張伊凡解釋了這篇論文的出發點:
教您几种自制除皱眼霜!
從這個角度出發設計的累積推理,效果比思維鏈(CoT)和思維樹(ToT)更好。
那麼,這種新方法究竟長啥樣?我們一起展開看看。
中秋国庆假期第二天全国道路交通总体平稳
累積推理的核心,在於改進了大模型思維過程的“形狀”。
OPPO T1新机曝光:骁龙855,2499元起
具體來說,這個方法用到了3個大語言模型:
推理過程中,“提議者”先給出提案,“驗證者”負責評估,“報告者”決定是否要敲定答案、終止思考過程。
△CR推理示例
有點像是團隊項目裡的三類角色:小組成員先頭腦風暴出各種idea,指導老師“把關”看哪個idea可行,組長決策什麼時候完成項目。
感动!《原神》迎来3岁生日派对,全球玩家共同送上二创生日会
所以,這種方法究竟是怎麼改變大模型思維“形狀”的?
要想理解這一點,還得先從大模型思維加強方法“鼻祖”思維鏈(Chain of Thought,CoT)說起。
這個方法在2022年1月由OpenAI科學家Jason Wei等人提出,核心在於給數據集中的輸入加一段“逐步推理”文字,激發出大模型的思考能力。
逾40天零确诊 嘉义一天爆9个!这件事最令人担心
△選自GSM8K數據集
基於思維鏈原理,谷歌也快速跟進了一個“思維鏈PLUS版”,即CoT-SC,主要是進行多次思維鏈過程,並對答案進行多數投票(majority vote)選出最佳答案,進一步提升推理準確率。
南三石 小说
但無論思維鏈還是CoT-SC,都忽略了一個問題:題目不止有一種解法,人類做題更是如此。
福田欧马可新款箱货北京4s店可贷款
因此,隨後又出現了一種名叫思維樹(Tree of Thought,ToT)的新研究。
這是一種樹狀檢索方案,允許模型嘗試多種不同的推理思路,並自我評估、選擇下一步行動方案,必要時也可以回溯選擇。
從方法中可以看出,思維樹比思維鏈更進一步,讓大模型思維“更活躍”了。
這也是爲什麼玩24點時,思維鏈加成的GPT-4成功率只有4%,但思維樹成功率卻飆升到74%。
BUT無論思維鏈、CoT-SC還是思維樹,都有一個共同的侷限性:
畢竟不是所有的思維過程都能做成鏈或者樹,人類想東西的方式往往還要更復雜。
這次的累積推理新框架,在設計上就突破了這一點——
大模型的整體思維過程不一定是鏈或樹,還可以是一個有向無環圖(DAG)!(嗯,有神經突觸內味了)
△圖中的邊都有方向,並且不存在任何循環路徑;每個有向邊是一個推導步驟
新技术让红外夜视图中的人脸也能被识别
這也就意味着,它可以將所有歷史上正確的推理結果存儲於內存中,以便在當前搜索分支中探索。(相比之下,思維樹並不會存儲來自其它分支的信息)
但累積推理也能和思維鏈無縫切換——只要將“驗證者”去掉,就是一個標準的思維鏈模式。
基於這種方法設計的累積推理,在各種方法上都取得了不錯的效果。
研究人員選擇了FOLIO wiki和AutoTNLI、24點遊戲、MATH數據集,來對累積推理進行“測試”。
提議者、驗證者、報告者在每次實驗中使用相同的大語言模型,用不同的prompt來設定角色。
這裡用作實驗的有GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B這些基礎模型。
值得一提的是,理想情況下應該使用相關推導任務數據專門預訓練模型、“驗證者”也應加入正規的數學證明器、命題邏輯求解器模塊等。
夢迴大明春 王梓鈞
FOLIO是一階邏輯推理數據集,問題的標籤可以是“true”、“False”、“Unknown”;AutoTNLI是高階邏輯推理數據集。
在FOLIO wiki數據集上,與直接輸出結果(Direct)、思維鏈(CoT)、進階版思維鏈(CoT-SC)方法相比,累積推理(CR)表現總是最優。
在刪除數據集中有問題的實例(比如答案不正確)後,使用CR方法的GPT-4推理準確率達到了98.04%,並且有最小1.96%的錯誤率。
习近平出席中德工商界招待会并发表重要讲话把握中国机遇,实现共同发展
再來看AutoTNLI數據集上的表現:
與CoT方法相比,CR顯著提高了LLaMA-13B、LLaMA-65B的性能。
广汽研究院 在上海137年历史老厂房里搞设计
在LLaMA-65B模型上,CR相較於CoT的改進達到了9.3%。
ToT最初論文中用到的是24點遊戲,所以這裡研究人員就用此數據集來做CR和ToT的比較。
瑞虎5x PLUS全球品质值得信赖
ToT使用固定寬度和深度的搜索樹,CR允許大模型自主確定搜索深度。
研究人員在實驗中發現,在24點的上下文中,CR算法和ToT算法非常相似。不同點在於,CR中算法每次迭代最多產生一個新的狀態,而ToT在每次迭代中會產生許多候選狀態,並過濾、保留一部分狀態。
关之琳低调庆61岁生日 大回春重返颜值巅峰状态绝美
通俗來講,ToT沒有上面提到的CR有的“驗證者”,不能判斷狀態(a、b、c)正誤,因此ToT比CR會探索更多無效狀態。
最終CR方法的正確率甚至能達到98%(ToT爲74%),且平均訪問狀態數量要比ToT少很多。
也就是說CR不僅有更高的搜索正確率,也有更高的搜索效率。
MATH數據集包含了大量數學推理題目,包含代數、幾何、數論等,題目難度分爲五級。
25岁以下最佳阵容怎么选?这套阵容堪称无敌
用CR方法,模型可以將題目分步驟拆解成能較好完成的子問題,自問自答,直到產生答案。
實驗結果表明,CR在兩種不同的實驗設定下,正確率均超出當前已有方法,總體正確率可達58%,並在Level 5的難題中實現了42%的相對準確率提升,建立了GPT-4模型下的新SOTA。
這篇論文來自清華交叉信息院姚期智和袁洋領銜的AI for Math課題組。
論文共同第一作者爲交叉信息院2021級博士生張伊凡、楊景欽;
金鳞 小说
Honda小可爱K-Car「变身电动轻商用车」!N-Van e:实用性不打折
指導老師及共同通訊作者爲袁洋助理教授、姚期智院士。
張伊凡
張伊凡2021年本科畢業於於北京大學元培學院,現師從袁洋助理教授,主要研究方向爲基礎模型(大語言模型)的理論和算法、自監督學習、可信人工智能。
楊景欽
2021年畢業於清華大學交叉信息研究院獲學士學位,現師從袁洋助理教授攻讀博士學位。主要研究方向有大語言模型、自監督學習、智能醫療等。
被辞退的乌克兰发言人公布了很多秘密,可能命不久矣。
袁洋
人活到最后,拼的是心态
袁洋是清華大學交叉信息學院助理教授。2012年畢業於北京大學計算機系;2018年獲美國康奈爾大學計算機博士學位;2018-2019年前往麻省理工學院大數據科學學院做博士後。
IE浏览器老矣:新漏洞会被远程盗取文件
他的主要研究方向是智能醫療、AI基礎理論、應用範疇論等。
姚期智
姚期智教授是中國科學院院士、清華大學交叉信息研究院院長;同時也是“圖靈獎”創立以來首位獲獎的亞裔學者、迄今爲止獲此殊榮的唯一華人計算機科學家。
应届生疫情期间找工作难?“一网职前”为校招助力
姚期智教授2004年從普林斯頓辭去終身教職回到清華任教;2005年爲清華本科生創立了計算機科學實驗班“姚班”;2011年創建“清華量子信息中心”與“交叉信息研究院”;2019年再爲清華本科生創立了人工智能學堂班,簡稱“智班”。
集各种激进设计于一身的阿维塔12能否走量?
如今,他領導的清華大學交叉信息研究院早已聲名遠播,姚班、智班都隸屬交叉信息院。
中国广电补足5G低频商用版图 700M频谱迁移年内完工
姚期智教授研究方向有算法、密碼學、量子計算等,是這方面的國際先驅和權威。最近,他現身2023世界人工智能大會,所領導的上海期智研究院目前正在研究“具身通用人工智能”。
論文鏈接: https://arxiv.org/abs/2308.04371
中国联通回应常小兵被查