媒體報道
關注實在智能最新動態,把握行業前沿
AI算法平臺是如何煉成的|實在智能RPA學院
2020-04-21 05:06:13
隨著機器學習和深度學習等技術的突破,人工智能相關技術被廣泛的應用到了各行各業。但是要將學術界、工業界先進的算法模型和實踐經驗,要快速的應用到自己的業務場景中還是需要做很多工作。為了能個快速的進行算法相關實驗,在實際的工業場景中落地,就需要一個具有高性能,可復用和能靈活迭代的算法平臺。同時,對于一些本身沒有算法經驗的團隊或則個人,也可以使用算法平臺,讓各種人工智能的算法服務于自己的需求,對于所有人而言,人工智能都將變得唾手可得。要打造一個滿足當前需求的算法平臺,需要從計算性能,平臺易用性,滿足真實業務場景需求等不同的方面進行考量,文本將帶你了解如何打造一個面向AI的算法平臺。算法平臺簡介算法平臺的核心是模型+快速上線,因此算法平臺的核心也是這兩個模塊。但是整個算法平臺將有很多模塊構成。可快速調用的模型庫,擁有XGBoost、GBDT、text-CNN、bert等主流的機器學習和深度學習模型。可以根據業務場景靈活拖拽各種復雜的數據預處理和特征工程操作。底層計算平臺,為了滿足大數據計算的問題,使用spark提供分布式流處理框架保證在較短的時間內計算出相應的結果。當實驗完成后,可以一鍵導出當前的預測流進行上線工作,不需要重新編寫相關代碼進行上線工作,一鍵完成。自由的算法組件開放,平臺本身只提供通用的常見的一些算法模型和特征工程組件,可以根據自己的業務需求編寫相應代碼并部署上線。深度學習中的神經網絡結構,可以根據用戶的需求自行拖拽,集成了常見的CNN、RNN、LSTM和Dense等不同的網絡層。算法平臺計算引擎算法平臺的計算引擎基于用于大數據實時計算的Spark框架。Spark是加州大學伯克利分校AMP實驗室(Algorithms, Machines, and People Lab)開發通用內存并行計算框架。Spark在2013年6月進入Apache成為孵化項目,8個月后成為Apache頂級項目,速度之快足見過人之處,Spark以其先進的設計理念,迅速成為社區的熱門項目,圍繞著Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等組件,也就是BDAS(伯克利數據分析棧),這些組件逐漸形成大數據處理一站式解決平臺。Spark是在借鑒了MapReduce之上發展而來的,繼承了其分布式并行計算的優點并改進了MapReduce明顯的缺陷,具體如下:首先,Spark把中間數據放到內存中,迭代運算效率高。MapReduce中計算結果需要落地,保存到磁盤上,這樣勢必會影響整體速度,而Spark支持DAG圖的分布式并行計算的編程框架,減少了迭代過程中數據的落地,提高了處理效率。其次,Spark容錯性高。Spark引進了彈性分布式數據集RDD (Resilient Distributed Dataset) 的抽象,它是分布在一組節點中的只讀對象集合,這些集合是彈性的,如果數據集一部分丟失,則可以根據“血統”(即充許基于數據衍生過程)對它們進行重建。另外在RDD計算時可以通過CheckPoint來實現容錯,而CheckPoint有兩種方式:CheckPoint Data,和Logging The Updates,用戶可以控制采用哪種方式來實現容錯。最后,Spark更加通用。不像Hadoop只提供了Map和Reduce兩種操作,Spark提供的數據集操作類型有很多種,大致分為:Transformations和Actions兩大類。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort和PartionBy等多種操作類型,同時還提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。另外各個處理節點之間的通信模型不再像Hadoop只有Shuffle一種模式,用戶可以命名、物化,控制中間結果的存儲、分區等。算法平臺模型庫算法平臺模型庫主要包括三部分:是由平臺提供的通用算法庫可以由用戶自主拖拽網絡結構構建的算法庫由用戶自行編寫代碼上傳發布上線的算法庫和市面上的大多數機器學習平臺類似,我們平臺也提供了一些常用的算法,和主流的數據預處理和特征工程等操作,對于很多AI應用人員或則一些非AI類企業,可以使用算法平臺自動進行模型訓練、數據分析和特征工程。對于很多AI從業者和企業,可以快速獲得AI能力,賦能于自己的業務場景,不需要過多的關注于算法本身的實現機制,就可以通過拖拽的方式,可視化的實現各種算法在自己業務場景中的應用。隨著深度學習的快速發展,其在圖像,自然語言處理以及語音等相關領域都表現出了非常良好的性能。而深度學習的實現往往依賴于不同的神經網絡層,算法平臺將提供各種基礎網絡層,如果一些擁有算法能力的團隊和個人,可以根據自己實際的業務場景,拖拽網絡層,得到當前場景下的最優算法。算法多種多樣,加上各種數據預處理和特征工程相關的操作,有成千上萬種,不可能都由平臺提供,還有一些涉及到具體的業務場景的操作也不可能提前集成在算法平臺上。這個時候就可以提供用戶自行開發組件,根據一定的代碼規范,可以使用python開發自己的組件并進行上線,可以進行自己算法的研究,也可以設計更滿足自己的業務場景的相關數據處理和特征工程組件。算法模型一鍵上線當在算法平臺完成了模型的調試或則開發之后,需要部署上線。因為線上環境和本地環境不同,在傳統的算法平臺,如果需要上線相應的模型,數據預處理等操作需要在線上環境進行重新實現,這對于開發人員即是工作量很大的事情也同時也可能會產生一些不必要的bug。因為當前算法平臺支持一件導出預測pipeline到線上環境。在算法平臺進行訓練的時候,算法平臺后臺就會生成相應的訓練pipeline和預測pipeline,這個對于用戶本身是沒有感知的,當完成訓練并得到相應的可以上線的模型后,可以使用一鍵上線功能,就可以省去本身需要在線上環境中再重新實現的相關功能需求。寫在最后為了降低算法在實際應用場景中的使用門檻,完成模型的快速訓練上線。實際中的算法平臺會打通數據平臺,和打標平臺和線上環境進行一整個流程的工作,工作流程圖如下圖所示:為了降低算法在實際應用場景中的使用門檻,完成模型的快速訓練上線。實際中的算法平臺會打通數據平臺,和打標平臺和線上環境進行一整個流程的工作,工作流程圖如下圖所示:(重要的話說2遍)該圖出自作者,UI請假燙頭打造數據到算法模型的全流程大閉環,可以真正的將Al能力體現在各種業務場景中,而算法平臺正是其中最重要的一環,也是打通全鏈路的關鍵節點,所以一個好的算法平臺可以起到很好地保障作用。例如這樣:
相關新聞
實在智能RPA學院|少年,看你骨骼清奇,送你一份AI武林秘籍:知識圖譜
2020-04-20 21:50:38
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實現
2020-04-21 10:04:19
實在智能攜手衢州市柯城區打造“企鏈保”智能企服平臺
2020-04-20 20:50:05
免費領取更多行業解決方案
立即咨詢

