华为 A800-9000 服务器 离线安装MindX DL 可视化环境+监控

MindX DL Sample主要应用于企业的数据中心或超算中心机房中,针对不同的应用场景为客户提供AI深度学习端到端解决方案。

传统行业:用户无自建深度学习平台,希望能够提供简单易用、软硬件一体化的深度学习平台。

互联网和安防行业:用户有自建深度学习平台,希望提供适配客户深度学习平台的开源插件,快速上线昇腾系列AI处理器的深度学习。

超算中心和公有云行业:用户无AI深度学习集群,希望提供大规模AI深度学习集群、支持超高密部署、整柜交付,缩短项目交付周期,加速业务上线,节省安装部署及调测成本。

图片

说明:此文档需要先将基础kubernetes环境下的DL搭建完成,参考《华为 A800-9000 服务器 离线安装MindX DL》

一、 修改ansible配置文件

二、下载基础镜像

三、配置NGINX镜像配置

四、安装前端所需工具,并编译前端代码

五、修改TJM配置文件

六、修改MMS配置文件

七、自动化安装,SHELL回显略

八、拉去训练镜像

https://ascendhub.huawei.com/#/index

九、构建jupyter-notebook镜像

十、构建tensorboard镜像

十一、构建mindinsight镜像

图片

十二、配置Grafana

打开Prometheus地址 》 选择“Status > Targets” 》 当kubenetes-cadvisor下的“Endpoint”状态为“UP”时,记录“Labels”下的job值,该值为cadvisor所在节点的nodeName,下方文件中的“nodeName”批量替换成此名称。

图片

查看pod:

关于

https://www.oiox.cn/

https://www.oiox.cn/index.php/start-page.html

CSDN、GitHub、51CTO、知乎、开源中国、思否、掘金、简书、华为云、阿里云、腾讯云、哔哩哔哩、今日头条、新浪微博、个人博客

全网可搜《小陈运维》

文章主要发布于微信公众号

最后更新于