人手一個(gè)ChatGPT的時(shí)代或許就要來了!
(資料圖)
當(dāng)?shù)貢r(shí)間4月12日,微軟宣布開源大語言模型訓(xùn)練工具Deep Speed Chat,這意味著繼OpenAI開放GPT的API方便各大廠商直接接入后,更為底層的工具也開放給所有用戶使用。
開源底層訓(xùn)練工具
人工智能行業(yè)又迎來重磅消息。
當(dāng)?shù)貢r(shí)間4月12日,微軟宣布開源了Deep Speed Chat,幫助用戶輕松訓(xùn)練類ChatGPT等大語言模型。
據(jù)了解,這一工具是基于微軟Deep Speed深度學(xué)習(xí)優(yōu)化庫開發(fā)而成,具備訓(xùn)練、強(qiáng)化推理等功能,還使用了RLHF(人工反饋機(jī)制的強(qiáng)化學(xué)習(xí))技術(shù),可將訓(xùn)練速度提升15倍以上,成本卻大幅度降低。
簡(jiǎn)單來說,這種接近“所見即所得”反饋的訓(xùn)練工具,可以幫助沒有太多人工智能模型訓(xùn)練基礎(chǔ)的用戶,在短時(shí)間內(nèi)迅速訓(xùn)練出定制化的ChatGPT大語言模型,堪稱“傻瓜式服務(wù)”。
據(jù)微軟披露,目前使用該工具訓(xùn)練一個(gè)130億參數(shù)的類ChatGPT模型,只需1.25小時(shí)。而訓(xùn)練一個(gè)1750億參數(shù)的模型,Deep Speed Chat也只需不到一天的時(shí)間,而這一參數(shù)規(guī)模相當(dāng)于ChatGPT-3.5。
據(jù)介紹,Deep Speed Chat擁有強(qiáng)化推理、RLHF模塊、RLHF系統(tǒng)三大核心功能。
具體來看,首先是這一工具的強(qiáng)化推理能力對(duì)于用戶使用更為友好,只需一個(gè)腳本即可實(shí)現(xiàn)多個(gè)訓(xùn)練步驟。
“傳統(tǒng)模型訓(xùn)練需要諸多流程,包括調(diào)用預(yù)訓(xùn)練模型,實(shí)施訓(xùn)練標(biāo)注等等?!币晃粯I(yè)內(nèi)工程師告訴記者,從目前微軟介紹的情況來看,Deep Speed Chat可以大幅優(yōu)化這一過程的繁瑣度。此外,該工具還提供一個(gè)易于使用的推理API,用于在模型訓(xùn)練后測(cè)試對(duì)話性能。
而RLHF模塊、RLHF系統(tǒng)則確保模型訓(xùn)練過程中的精細(xì)度,同時(shí)實(shí)現(xiàn)模型訓(xùn)練與推理能力的無縫切換。
從目前披露的情況來看,多位業(yè)內(nèi)人士認(rèn)為,相關(guān)的大模型訓(xùn)練門檻的資金投入、專業(yè)性要求都將大幅下降。
有業(yè)內(nèi)人士戲稱,如果說GPT引發(fā)了諸多行業(yè)的“工作危機(jī)”,那么如今Deep Speed Chat則可能將這場(chǎng)危機(jī)引入人工智能行業(yè)本身。
商業(yè)化領(lǐng)域迎重大變革
這無疑將引發(fā)整個(gè)人工智能領(lǐng)域商業(yè)化的變革。
“現(xiàn)在訓(xùn)練大模型要依托超大的算力,背后是大量GPU集群,這些價(jià)格是一般小型企業(yè)乃至科研機(jī)構(gòu)無法承擔(dān)的?!币晃粡氖氯斯ぶ悄苎芯康墓こ處煾嬖V記者,類GPT模型訓(xùn)練此前存在的最大障礙是硬件設(shè)備。
事實(shí)上,在過去幾個(gè)月伴隨ChatGPT的走紅,類似Deep Speed Chat的訓(xùn)練開發(fā)工具也紛紛面世。但總體而言,由于缺乏支持端到端的基于RLHF的規(guī)?;到y(tǒng),要想訓(xùn)練ChatGPT模型整體效率依然不高。
有媒體此前調(diào)查發(fā)現(xiàn),現(xiàn)有的開源系統(tǒng)的訓(xùn)練效率通常還不到,這些機(jī)器所能達(dá)到的最大效率的5%。
而微軟的Deep Speed Chat面世,或許意味著這一情況從商業(yè)的角度來看將大幅改善。
記者注意到,目前在Azure云上訓(xùn)練一個(gè)OPT-13B模型(一種類似于GPT系列的大型語言模型)只需要9小時(shí),而OPT-30B模型也只需18個(gè)小時(shí),這兩種訓(xùn)練分別花費(fèi)不到300美元和600 美元。
即使是當(dāng)前開源領(lǐng)域,參數(shù)最大的OPT-175B,訓(xùn)練時(shí)長(zhǎng)也僅需20個(gè)小時(shí),其訓(xùn)練價(jià)格也在5000美元左右。要知道此前千億參數(shù)領(lǐng)域的模型訓(xùn)練,其成本均在百萬級(jí)美元。
對(duì)于此次微軟下場(chǎng)推出的這款重磅服務(wù),有業(yè)內(nèi)人士將之比喻為幾十年前家庭電腦的普及。
“現(xiàn)在我們每個(gè)人擁有一臺(tái)自己的電腦是稀松平常的事情,”一位業(yè)內(nèi)人士認(rèn)為,正是這種基礎(chǔ)建設(shè)的普及,推動(dòng)了整個(gè)互聯(lián)網(wǎng)時(shí)代的到來,“而如今,一場(chǎng)新的基礎(chǔ)建設(shè)已將拉開大幕。”
(文章來源:上海證券報(bào))
關(guān)鍵詞: