靈雀云云原生解決方案白皮書
靈雀云ACP 5G專網(wǎng)解決方案
靈雀云云原生技術(shù)轉(zhuǎn)型參考設(shè)計(jì)
英特爾? 精選開源云解決方案
查看所有內(nèi)容
云原生技術(shù)落地調(diào)研報(bào)告-央國企
云原生技術(shù)落地調(diào)研報(bào)告-金融篇
傳統(tǒng)企業(yè)云原生落地調(diào)研報(bào)告
第4期傳統(tǒng)行業(yè)云原生調(diào)研報(bào)告
第3期傳統(tǒng)行業(yè)云原生調(diào)研報(bào)告
第2期傳統(tǒng)行業(yè)云原生調(diào)研報(bào)告
第1期傳統(tǒng)行業(yè)云原生調(diào)研報(bào)告
查看所有內(nèi)容
企業(yè)高管IT戰(zhàn)略指南-平臺(tái)工程
企業(yè)應(yīng)用現(xiàn)代化行動(dòng)指南
企業(yè)高管IT戰(zhàn)略指南-微服務(wù)
企業(yè)高管IT戰(zhàn)略指南-DevOps
企業(yè)高管IT戰(zhàn)略指南-容器與K8s
查看所有內(nèi)容
云原生標(biāo)準(zhǔn)體系白皮書
云原生安全和使用報(bào)告
云原生安全現(xiàn)狀報(bào)告
央國企-云原生技術(shù)實(shí)踐案例匯編
央國企云原生落地實(shí)用指南
金融-云原生技術(shù)實(shí)踐案例匯編
云原生安全和使用報(bào)告
金融云原生落地實(shí)用指南
查看所有內(nèi)容
Kubeflow-chart是一款由靈雀云自主研發(fā)的開源MLOps 工具,它可以簡化開源Kubeflow在Kubernetes上部署的步驟,幫助企業(yè)免去調(diào)研、部署、運(yùn)維、 應(yīng)用遷移、應(yīng)用適配等成本,極大程度地降低企業(yè)應(yīng)用Kubeflow的成本。
Kubeflow-chart使用Helm Chart方式定制了Kubeflow的安裝方式,使用一個(gè)命令 (helm install) 即可完成Kubeflow和其依賴組件的安裝,包括dex, cert-manager, istio, knative-serving 等。
此外,Kubeflow-chart將常見的配置項(xiàng),如鏡像地址,認(rèn)證配置信息,默認(rèn)賬戶,依賴組件安裝開關(guān)等常用配置項(xiàng)抽出,只需要更改values.yaml文件, 即可完成kubeflow對(duì)不同K8s環(huán)境完成部署,同時(shí)提供values-cn.yaml免去在國內(nèi)開發(fā)者對(duì)鏡像下載的困擾。Kubeflow-chart可以幫助開發(fā)者輕松實(shí) 現(xiàn)在Kubernetes上快速方便地部署、學(xué)習(xí)、使用、管理當(dāng)前最流行的機(jī)器學(xué)習(xí)軟件。
靈雀云云原生MLOps以及其開源工具kubeflow-chart,致力于最大程度地降低企業(yè)應(yīng)用AI能力的門檻,使企業(yè)獲得高效、低成本、規(guī)范化、可追溯的AI應(yīng)用開發(fā)以及上線流程,幫助企業(yè)快速應(yīng)用云原生機(jī)器學(xué)習(xí)技術(shù),構(gòu)建高效、穩(wěn)定、可擴(kuò)展的MLOps平臺(tái)。
靈雀云云原生MLOps相較于其他MLOps開源工具,具備以下亮點(diǎn):
●非侵入開發(fā)模式:支持非侵入式的、可視化的工作流編排開發(fā)環(huán)境,不需要改造原先工程代碼即可應(yīng)用MLOps能力。 可視化分布式:支持在可視化工作流開發(fā)時(shí),直接配置多種形式的分布式訓(xùn)練 多租戶和配額:和ACP聯(lián)動(dòng)的可視化多租戶資源配額(CPU, GPU, vGPU)管理能力
●虛擬GPU:支持使用GPUManager管理的虛擬GPU資源
●調(diào)度器:使用Volcano增強(qiáng)分布式訓(xùn)練任務(wù)的調(diào)度器(支持TFJob, PytorchJob, MPIJob, 和通用 Argo 工作流) 實(shí)驗(yàn)追蹤:集成MLFlow代替 Kubeflow實(shí)驗(yàn)追蹤和可視化實(shí)驗(yàn)比對(duì)
●數(shù)據(jù)標(biāo)注:集成label studio聯(lián)動(dòng)S3存儲(chǔ)完成可視化數(shù)據(jù)標(biāo)注
●SQL訓(xùn)練:集成SQLFlow ,使用SQL語言完成模型訓(xùn)練和預(yù)測
●大模型:在數(shù)據(jù)存儲(chǔ)、分布式訓(xùn)練、模型存儲(chǔ)等MLOps關(guān)鍵環(huán)節(jié),支持對(duì)大模型的存儲(chǔ)和調(diào)用中文界面:支持中文界面
●國產(chǎn)硬件支持:支持 arm64 架構(gòu)的各種國產(chǎn)CPU和部分國產(chǎn)GPU案例教程:內(nèi)置大量中文案例和教程N(yùn)otebook,快速上手
●高性能:內(nèi)置IntelTensorflow,NeralCompressor,GPUManager,Triton等工具充分發(fā)揮訓(xùn)練、推理的性能 高可用:支持平臺(tái)高可用,發(fā)布的推理服務(wù)高可用
企業(yè)級(jí)云原生MLOps在多種應(yīng)用方向均可以發(fā)揮其功能,包括傳統(tǒng)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí),甚至超大規(guī)模語言模型、對(duì)話AI等。目前平臺(tái)包含了4個(gè)主要功能板塊:
● 數(shù)據(jù)集管理
● 機(jī)器學(xué)習(xí)開發(fā)
● 模型訓(xùn)練
● 模型/推理服務(wù)
