時(shí)間:2023-05-21|瀏覽:239
蕭簫 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI
你還在苦惱如何給優(yōu)化器調(diào)整更好的參數(shù)嗎?現(xiàn)在,谷歌大腦搞出了一個(gè)新的優(yōu)化器VeLO,無需手動(dòng)調(diào)整任何超參數(shù),直接用就行。
與其他人工設(shè)計(jì)的算法如Adam、AdaGrad等不同,VeLO完全基于AI構(gòu)造,能夠很好地適應(yīng)各種不同的任務(wù)。并且,效果也更好。論文作者之一Lucas Beyer將VeLO與其他“重度”調(diào)參的優(yōu)化器進(jìn)行了對(duì)比,性能不相上下。
VeLO是如何打造的?在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,優(yōu)化器(optimizer)是必不可少的一部分。但AI模型應(yīng)用已經(jīng)很廣泛了,訓(xùn)練AI模型用的優(yōu)化器卻仍然是人工設(shè)計(jì)的,這聽起來多少有點(diǎn)不合理。
于是谷歌大腦的研究人員靈機(jī)一動(dòng):為什么不用AI來做一個(gè)優(yōu)化器呢?
VeLO的原理基于元學(xué)習(xí)的思路,即從相關(guān)任務(wù)上學(xué)習(xí)經(jīng)驗(yàn),來幫助學(xué)習(xí)目標(biāo)任務(wù)。相比遷移學(xué)習(xí),元學(xué)習(xí)更強(qiáng)調(diào)獲取元知識(shí),它是一類任務(wù)上的通用知識(shí),可以被泛化到更多任務(wù)上去。
基于這一思想,VeLO也會(huì)吸收梯度并自動(dòng)輸出參數(shù)更新,無需任何超參數(shù)調(diào)優(yōu),并自適應(yīng)需要優(yōu)化的各種任務(wù)。
在架構(gòu)上,AI優(yōu)化器整體由LSTM(長短期記憶網(wǎng)絡(luò))和超網(wǎng)絡(luò)MLP(多層感知機(jī))構(gòu)成。其中每個(gè)LSTM負(fù)責(zé)設(shè)置多個(gè)MLP的參數(shù),各個(gè)LSTM之間則通過全局上下文信息進(jìn)行相互協(xié)作。
訓(xùn)練上,AI優(yōu)化器采用元訓(xùn)練的方式,以參數(shù)值和梯度輸出需要更新的參數(shù)。經(jīng)過4000個(gè)TPU月(一塊TPU運(yùn)行4000個(gè)月的計(jì)算量)的訓(xùn)練,集各種優(yōu)化任務(wù)之所長后,VeLO終于橫空出世。結(jié)果表明,VeLO在83個(gè)任務(wù)上的加速效果超過了一系列當(dāng)前已有的優(yōu)化器。
值得一提的是,這次VeLO也被部署在JAX中,谷歌是真的很大力推廣這個(gè)新框架了。
目前VeLO已經(jīng)開源,有興趣的朋友可以去試試這個(gè)新的AI優(yōu)化器。
參考鏈接: [1]https://twitter.com/jmes_harrison/status/1593422054971174912 [2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb [3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg