LinkedIn在GitHub釋出容易使用,且不容易產生臭蟲的Java機器學習函式庫Dagli,內含大量開箱即用的靜態模型,方便開發者建置機器學習應用。

LinkedIn解釋開發Dagli的原因,他們看到現存許多機器學習工具,包括深度學習函式庫TensorFlow、PyTorch、DeepLearning4J和CNTK,或是用於超大型工作管線的Spark、Kubeflow,以及用來開發通用模型的scikit-learn和ML.NET等,官方提到,這些工具所產生的模型,在未來發展和維護都非常複雜,進而產生長期的技術負擔。

因此他們發布了Dagli,要來解決模型技術債的問題,Dagli是一個適用於Java和其他JVM語言的開源機器學習函式庫,開發者可以用來編寫抗臭蟲、可讀、可修改、可維護且易於部署的模型工作管線,Dagli能良好地支援現代機器架構,高效地使用多核CPU以及GPU,在單機上訓練機器學習模型。

無論是經驗豐富的機器學習工程師,抑或是才剛接觸機器學習的開發者,都能夠使用Dagli開發機器學習模型,對資深機器學習工程師來說,Dagli提供一個簡便的方法,以開發高效能且生產就緒的模型,該模型能夠接受長期維護,並在需要時進行擴充,能夠與現在基於JVM技術的堆疊整合。

而對於剛接觸機器學習的工程師而言,Dagli提供直觀好用的API,可結合熟悉的JVM工具使用,並且避免發生常見的邏輯錯誤。Dagli可將模型工作管線定義為有向無環圖(DAG),同時用於訓練和預測,開發者不需要單獨實作訓練用工作管線,以及預測用工作管線。

Dagli使用簡單可讀的工作管線定義,還有大量的靜態類型與不可變性,從根本設計上,杜絕大部分潛在的邏輯錯誤,而且Dagli提供高度可移植性,用戶可將其用在伺服器、Hadoop、CLI、IDE,以及任何JVM上下文環境。

由於Dagli可將整個工作管線當作一個物件,進行序列化及反序列化,因此非常容易進行部署,而且還提供了大量可立即使用的工作管線元件,包括神經網路、邏輯回歸、交叉驗證和FastText等,在速度表現上,Dagli支援高度平行化的多執行緒訓練和預測,對工作管線進行最佳化,並以小批次處理提升效能。


熱門新聞

Advertisement