• 加載中...
  • 加入收藏
  • 網(wǎng)站地圖
手機版 掃一掃
北京高校

北京大學(xué)-騰訊協(xié)同創(chuàng)新實驗室關(guān)于分布式機器學(xué)習(xí)體系A(chǔ)ngel的研究取得緊張進展

時間:2017年06月27日 信息來源:北京大學(xué) 點擊: 加入收藏 】【 字體:

日前,《國家科學(xué)評論》(National Science Review,NSR)在線發(fā)表了由北京大學(xué)信息科學(xué)技術(shù)學(xué)院、高可信軟件技術(shù)教育部重點實驗室崔斌教授課題組與騰訊數(shù)據(jù)平臺部合作撰寫的論文《一種新型大規(guī)模分布式機器學(xué)習(xí)體系A(chǔ)ngel》(Angel: a new large-scale machine learning system,DOI: 10.1093/nsr/nwx018)。這是首篇刊登在NSR的信息科學(xué)領(lǐng)域研究論文。

文章回顧了學(xué)術(shù)界和工業(yè)界近期共同關(guān)注的機器學(xué)習(xí)體系,偏重介紹了Angel體系的設(shè)計思想和實現(xiàn)細節(jié),并通過對多個大規(guī)模數(shù)據(jù)集上不同機器學(xué)習(xí)算法和體系的比較,驗證了Angel體系在分布式機器學(xué)習(xí)方面的有用性。

現(xiàn)有的機器學(xué)習(xí)體系都是針對不同類型的機器學(xué)習(xí)義務(wù)而搭建的。數(shù)據(jù)流體系Hadoop和Spark適用于通用的數(shù)據(jù)處理義務(wù)和構(gòu)建機器學(xué)習(xí)流水線,但缺乏參數(shù)共享機制,存在單點瓶頸性能題目;圖計算體系GraphLab、GraphX和Tux2等將機器學(xué)習(xí)計算抽象成圖結(jié)構(gòu),可行使圖結(jié)構(gòu)的特征加速,但只適合具有稀少圖結(jié)構(gòu)的算法;深度學(xué)習(xí)體系TensorFlow、MXNet和Caffe2等行使參數(shù)服務(wù)器或全局歸約進行分布式神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,可行使GPU對神經(jīng)網(wǎng)絡(luò)的計算加速,但缺乏對稀少圖結(jié)構(gòu)的優(yōu)化和支撐。

由北京大學(xué)-騰訊協(xié)同創(chuàng)新實驗室開發(fā)的開源體系A(chǔ)ngel(源代碼見https://github.com/Tencent/angel)兼顧工業(yè)界的高可用性和學(xué)術(shù)界的創(chuàng)新性,集成和優(yōu)化多種機器學(xué)習(xí)算法,是一個基于參數(shù)服務(wù)器理念的分布式機器學(xué)習(xí)框架,使機器學(xué)習(xí)算法在高維度模型上輕松運行。它圍繞模型共享的核生理念,將高維度的大模型合理地切分到多個參數(shù)服務(wù)器節(jié)點,并通過高效的模型更新接口、運算函數(shù)和多變的同步協(xié)議實現(xiàn)各種高效的機器學(xué)習(xí)算法。得益于優(yōu)秀的設(shè)計,Angel既能自力運行、高效實行多種機器學(xué)習(xí)算法,也能作為參數(shù)服務(wù)器服務(wù),支撐Spark和現(xiàn)有深度學(xué)習(xí)框架,并為其加速。聯(lián)合課題組基于工業(yè)界的海量數(shù)據(jù),反復(fù)實踐和調(diào)優(yōu),使得Angel具有廣泛的適用性和穩(wěn)固性,模型維度越高,上風(fēng)越顯明。經(jīng)過在真實數(shù)據(jù)集上的對比,Angel在多種機器學(xué)習(xí)算法上的性能優(yōu)于XGBoost、Spark、Petuum、TensorFlow等常用機器學(xué)習(xí)體系,已被應(yīng)用于騰訊視頻點擊展望和廣告保舉等現(xiàn)實營業(yè)中。

北京大學(xué)-騰訊協(xié)同創(chuàng)新實驗室關(guān)于分布式機器學(xué)習(xí)體系A(chǔ)ngel的研究取得緊張進展

Angel體系框架

Angel目前基于Java和Scala開發(fā),將來還將加入Python等多種語言接口,使用更便捷,且參數(shù)服務(wù)器服務(wù)能力會進一步提拔,支撐圖計算和深度學(xué)習(xí)框架。

編輯:山石

?

北京大學(xué)函授報名北京大學(xué)成人高考報名

?

(作者:佚名 編輯:南開大學(xué))
上一篇:分子醫(yī)學(xué)研究所程和平課題組發(fā)現(xiàn)“線粒體炫”調(diào)控神經(jīng)元突觸水平的長時程記憶
下一篇:北京大學(xué)鄧宏魁及柴真研究組在Cell Stem Cell雜志上發(fā)表緊張研究成果建立細胞譜系重編程的新方法
相關(guān)新聞

我有話說

新文章

門文章