智能云软件下载 HP AI开发平台测评:多用户协同开发模型和算力资源管理有力工具 HP AI开发平台实战测评:多用户协同开发与算力资源管理全解析 现在,人工智能已经不再是遥不可及的概念,而是真正融入了企业的战略规划中。算力作为AI应用的基石,它的发展直接推动了整个人工智能系统的快速演进,成为最核心的要素。 随着科技不断进步,获取算力的方式也越来越多样。目前,公有云和数据中心(私有云)是两大主流选择。但对于中小型AI开发团队来说,这两种方式都存在不少问题。比如,团队的AI模型训练往往是阶段性的,而按次付费使用公有云算力,累积起来成本不菲,相比之下,一次性购买一台GPU工作站可能更划算。而自建私有数据中心,不仅需要批量购买GPU服务器,还得搭建标准机房、部署高带宽网络,并增加专业IT维护人员,这对中小团队来说简直是奢侈。 从中小型AI开发团队的实际需求来看,降本增效是他们评估解决方案的关键因素。这意味着算力设备不仅要满足团队需求、支持共享使用,还得部署简单、操作容易,省时省力省空间。正因如此,数据科学工作站的出现,恰好满足了这些实实在在的需求。 数据科学工作站是PC形态的桌面超级计算机。相比普通PC,它支持双路Intel®至强®铂金/金牌等系列处理器和主板芯片、海量内存、大容量SATA硬盘,以及多块NVIDIA®高端RTX™专业级显卡,足以应对算法训练等AI工作流程中的强大算力需求,以及图形应用中的海量浮点运算和3D渲染等苛刻要求。 与公有云或数据中心相比,数据科学工作站不仅性价比更高、部署更简单,而且噪音低,中小型AI开发团队可以直接在办公区进行协同开发,非常方便。 惠普最近升级的HP Z8 G4数据科学工作站,凭借强大的性能、稳定可靠的安全性,以及全方位的系统和软件支持,在专业工作环境下为用户提供了绝佳的高性能计算解决方案。 同时,惠普还推出了基于Docker+Kubernetes的人工智能容器云平台——HP AI开发平台。这个平台能够高效管理、调度和监控异构资源,提供从模型开发、训练到部署的完整流程和工具,广泛适用于教育、科研、金融、医疗、能源等各个行业,能极大降低AI入门门槛,提升创新和研发效率。 为了让中小型AI开发团队更全面地了解HP Z8 G4数据科学工作站和HP AI开发平台在团队协作中的价值,智东西公开课AI教研团队联合两位Kaggle Grandmaster,模拟真实开发场景,对HP AI开发平台的功能应用及其在HP Z8 G4上的使用体验进行了深入评测和项目实验。 智东西公开课AI教研团队主要负责在HP Z8 G4数据科学工作站上安装HP AI开发平台,并作为管理员进行资源管理。两位Kaggle Grandmaster则基于分配的资源,协同完成基于数据集CASIA-SURF的人脸活体检测,以及基于数据集STS-B的自然语言文本分类两项实验。 这两位Kaggle Grandmaster分别是专注自然语言处理领域的算法工程师吴远皓和从事医疗AI算法研发的算法工程师沈涛。吴远皓已参加超过20场Kaggle竞赛,获得8枚金牌,并于2019年成为Kaggle Competitions Grandmaster,全球最高排名第36位。沈涛在Kaggle上共获得11块金牌,荣获Kaggle Grandmaster称号,全球最高排名第8位。 在详细介绍HP AI开发平台的功能和实验之前,我们先来了解一下本次使用的HP Z8 G4数据科学工作站的核心参数: 图表0.0.1 再来看看3块NVIDIA A5000显卡安装好后的实际样子。下图中的“三条金色模块”就是NVIDIA A5000显卡。 图表0.0.2 下图是HP Z8 G4数据科学工作站实际工作的场景: 图表0.0.3 1、HP AI开发平台功能全解 这一部分,我们将带大家了解HP AI开发平台的安装过程和架构组成,并重点介绍它为开发者提供的模型训练、数据存储、任务镜像,以及为管理者提供的用户权限、监控中心、系统设置等特色功能。 先来看看HP AI开发平台的安装。安装包是适用于Unix和类Unix系统的.run格式文件,整个过程分三步,超级简单: 第一步,在Ubuntu系统的终端中,输入:“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可开始安装。 第二步,安装成功后,会显示:“Please visit htp://192.168.88.80:5678 to continue installation.”。这时在浏览器输入网址,就能看到平台环境正在初始化。 第三步,平台环境初始化完成后,会自动跳转到登录界面,输入账号密码就能登录。下图就是HP AI开发平台的首页: 图表 1.0.1 1、平台架构 图表 1.1.1 1.1、基础设施层 基础设施层以X86服务器和专业工作站为载体,通过GPU、CPU等提供高性能加速计算,支持TCP/IP和InfiniBand高速网络互联,以及NFS和GlusterFS两种存储格式。 1.2、资源调度层 采用容器化技术管理底层资源,并利用Kubernetes(K8s)进行容器编排调度。 1.3、应用服务层 应用服务层支持主流的TensorFlow、Caffe、PyTorch和MxNet等机器学习框架,以及完整的机器学习处理流程,实现资源操作自动化。 1.4、业务领域层 通过支持自然语言处理、图像识别和语音识别等任务,满足金融、教育、医疗、制造等行业场景的AI开发需求。 2、特色功能 2.1、模型训练 2.1.1、任务列表 任务管理界面,有“任务训练”、“交互式开发”、“可视化”、“模型部署”四个功能页。管理员用户可以查看和管理所有用户的训练任务,包括任务训练、交互式开发、可视化、模型部署等。 图表 1.2.1 查看任务 可以看到所有用户所有任务的简要配置信息,比如任务名称、所属用户、执行器、分区、资源配额、创建时间等。点击“任务训练”、“交互式开发”、“可视化”、“模型部署”可以展示不同类型的任务。 比如在交互式任务“interactive14871”中,可以看到任务节点、用户名、执行器、分区名称、资源配置、任务优先级、运行状态、创建时间、空闲时间等。 图表 1.2.2 点击“详情”可以进一步查看任务的基本信息、资源配置、应用信息和状态等。 图表 1.2.3 删除任务 点击“删除”按钮就能删除正在运行的任务。 需要注意的是,在“任务训练”中的任务,点击“删除”只会删除运行中的训练任务,记录不会被删除,也不会占用CPU、GPU、内存等资源,其他类型任务删除后不保留记录。 查询用户任务 在界面右侧输入框中输入要查找的用户名,回车就能查找。 2.1.2、任务统计 管理员可以对HP AI开发平台中各分区任务进行统计。查看分区中已计划、已完成、运行中、暂停中的任务数量以及资源占用信息。“任务统计”帮助管理员了解各分区用户在一段时间内使用任务训练的情况。 图表1.2.4 根据日期统计任务 管理员可以选择指定日期,统计从指定日期到当前时间的任务数量及资源占用情况。 图表 1.2.5 2.1.3、任务队列 点击左侧菜单“任务队列”,进入任务队列界面,分别显示优先级为“高”、“普通”、“低”的三种任务。 图表1.2.6 2.2、数据存储 HP AI开发平台支持基于NFS的分布式存储方式,满足用户对数据安全和性能的要求。丰富的数据管理、分享功能极大方便了使用。 2.2.1、数据卷 管理员可以创建NFS卷,对卷进行管理操作,查看卷的使用情况。 图表1.2.7 查看“NFS”卷列表 可以看到NFS数据卷列表及每个数据卷的服务器地址、共享目录、挂载权限、状态和描述。 图表 1.2.8 创建NFS卷 点击“创建NFS卷”按钮,进入NFS卷创建界面。 图表 1.2.9 NFS名词参数解释 图表 1.2.10 查看卷使用情况 管理员在数据卷列表页面点击卷名称后,该数据卷的总使用情况和各用户使用情况都会显示在此页面。 图表 1.2.11 2.2.2、公共数据 公共数据是所有HP AI开发平台用户都可以访问的数据。管理员可以上传公共数据并进行管理,普通用户只有复制到私有数据和下载的权限。 图表 1.2.12 创建目录 用户可以在“公共数据”页面点击“创建目录”来创建自己的目录。名称不能包含以下字符”, ‘|’, ‘’, ‘?’, ‘,’,’/’,’ ‘, 长度在1~50个字符,创建成功会有提示,否则失败。 图表 1.2.13 上传数据 将本地文件上传到“公共数据”中。适合小文件上传。 图表 1.2.14 刷新 如果对文件进行了增删改操作,点击“刷新”按钮更新文件状态和属性。 文件列表:文件及文件夹管理 针对文件列表里的每个文件和文件夹,都有相应的管理功能,如重命名、下载、复制、查看文件大小、删除等,针对文件还有在线查看功能,方便管理员管理。 图表 1.2.15 2.3、任务镜像 2.3.1、公共镜像 由管理员上传的镜像是公共镜像,所有用户都能看到并使用。管理员在“下载镜像”中下载和上传的镜像都在此界面管理。管理员可以对公共镜像进行设置删除、二次更新制作镜像及查看镜像详细信息等操作。 图表 1.2.16 上传镜像 管理员在镜像仓库页面,也可以上传公共镜像。 2.3.2、镜像仓库 管理员在镜像仓库页面,可以查看各用户的私有镜像,或上传公共镜像。 查看镜像仓库 上传镜像 管理员用户在镜像仓库页面,也可以上传公共镜像。 查看镜像仓库 在镜像仓库列表中,点击任意用户名,就能进入用户的镜像仓库查看私有镜像。 图表 1.2.19 2.3.3、下载镜像 点击“下载镜像”,进入以下界面,有“Docker Hub”、“HP机器学习镜像”和“NVIDIA镜像”三个功能页面。用户可以根据需要从Docker官方镜像仓库、HP机器学习镜像仓库和NVIDIA镜像仓库下载指定镜像。 图表 1.2.20 HP机器学习镜像 此功能页预留了官方制作好的镜像,包括Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu等11个镜像系统。每个镜像版本完整,与官方机器学习框架Release保持一致,用户可直接使用。 图表 1.2.21 NVIDIA镜像 允许用户查看NGC镜像列表,下载使用NGC上NVIDIA提供的镜像。 图表 1.2.22 2.4、用户权限 2.4.1、用户 点击左侧菜单“用户权限-用户”,进入用户管理界面。管理员用户可以创建、删除、编辑用户,以及配置分区、存储卷和资源配额等,对用户的CPU、GPU、内存和存储配额进行设定,限制用户能使用的资源数量。用户的数据存储空间相互隔离,每个用户只能访问各自空间中的数据,无法越界访问未授权数据。 图表 1.2.23 查看用户 在用户管理界面,可以查看每个用户的手机号码、邮箱地址、创建时间、创建人、修改时间、修改人、绑定的分区以及用户组名。 图表1.2.24 点击“操作”按钮 -> 查看数据卷与配额,可以查看用户的资源配额限定情况。 图表 1.2.25 点击“查看关联角色”。 图表 1.2.26 点击“修改用户信息”,可对已有用户的手机号、邮箱、用户组、分区和配额进行修改。 图表 1.2.27 点击“重置密码”,可重置用户密码。管理员可以通过两种方式重置密码:一种是系统自动生成密码,只需点击“重置密码”按钮就能在界面上看到新密码;另一种是手动修改密码,输入两遍新密码,点击“提交”即可。 表 1.2.28 点击“删除”,可删除用户。 2.4.2、用户组 修改默认配额 管理员可以点击用户列表页面上的“修改默认配额”按钮,来修改创建用户时默认的可使用资源配额,比如CPU、GPU、内存、存储和任务数量的默认配额。 图表 1.2.30 创建用户 点击“创建用户”按钮,进入“创建用户”界面,需要填写用户的基本信息和配置用户组、数据卷、分区等参数。CPU、GPU、内存、存储等参数默认使用默认配额中的配置。 图表 1.2.38 2.4.2、用户组 管理员在用户组页面,可以查看、创建和删除用户组。 图表 1.2.32 查看用户组 点击“查看关联角色”,显示该用户组的所有角色。 图表 1.2.33 点击“查看该组用户”,显示该用户组的所有用户。 图表 1.2.34 创建用户组 管理员在用户组列表页面,点击“创建用户组”按钮进入创建用户组界面,输入用户组名(长度1-20个字符,不能包含字符”, ‘|’, ‘’, ‘?’, ‘,’,’/’),选择不同模块的权限,最后点击“提交”创建新用户组。点击“取消”取消创建,回到用户组列表页面。 图表 1.2.35 各个功能模块不同角色的权限参照下表: 图表 1.2.36 2.5、监控中心 2.5.1、仪表盘 仪表盘提供了多维度和多层次的监控信息,使系统使用透明、可追踪。管理员在左侧菜单栏中选择仪表盘,即可查看节点和分区的资源使用情况。 节点查看 点击节点页面的“查看”,可以针对某个节点监控信息进行查看。 图表 1.2.38 分区查看 点击分区页面的“查看”,可以针对某个分区监控信息进行查看。 1、资源创建与分配 2.5.2、监控报表 在当前界面可以选择HP AI开发平台的节点、分区等选项来监控资源利用情况,呈现可视化图表。 图表 1.2.40 2.5.3、实时信息 在当前界面可以选择HP AI开发平台GPU用途分布、GPU使用概况、GPU使用分布等可视化图表。 图表 1.2.41 管理员可以查看GPU的用途分布统计(任务训练、交互式使用、可视化、空闲使用)。 管理员可以查看GPU的分区使用统计(总共使用,每个分区使用)。 管理员可以查看GPU的用户使用统计(总共使用,每个用户使用)。 管理员可以查看节点GPU使用概况(总数、空闲、已占用),以及每一块GPU卡的使用率和显存使用率。 2.5.4、历史统计 在当前界面可以查看HP AI开发平台用户资源使用统计图表。 图表 1.2.42 2.6、系统设置 GPU配置 在当前界面可以选择HP AI开发平台GPU类型、切片数量。 图表 1.2.43 输入切片数量,点击“确认”后,即可为GPU切片。 图表 1.2.44 2、实验:人脸活体检测和自然语言文本分类 在这一部分,智东西公开课AI教研团队将作为管理员,分配不同的账户资源给两位Kaggle Grandmaster进行模型开发实验,并在平台后端监测相应的资源使用情况和反馈。 1、资源创建与分配 1.1、创建分区kaggle 图表 2.1.1 图表 2.1.2 1.2、创建用户组viewers 图表 2.1.3 图表 2.1.4 1.3、创建用户master1、master2 图表 2.1.5 图表 2.1.6 2、实验一:基于数据集CASIA-SURF的人脸活体检测 2.1、实验说明 该部分实验由Kaggle Grandmaster沈涛完成。 人脸活体检测是人脸识别过程中的一个重要环节。它对人脸识别过程中可能出现的照片、视频、面具、头套、头模等欺骗手段进行检测,对于身份验证的安全性至关重要。从技术发展上看,人脸活体检测可以分为两大类:传统的人工特征模式识别方法和近年来兴起的深度学习方法。目前,深度学习方法在识别准确性上已有较大优势。 很多人脸识别系统利用可见光人脸图像进行活体检测,但识别性能容易受到光照条件的影响。同时,基于可见光光谱的识别方式也很难应对常见的伪造攻击。使用多模态数据进行活体检测建模,能有效缓解这些问题。融合多种成像设备的图像信息,比如可见光、近红外和深度图像等,既能提升模型的识别性能,也能减少光照条件对性能的干扰。 本次实验,我们使用HP AI开发平台,搭建并训练深度学习模型,用于人脸活体检测。数据集采用了CASIA-SURF集合。该数据集合含有人脸可见光图、近红外和深度图三种模态信息,包含了1000个个体样本的21000段视频。采集设备是英特尔的RealSense立体相机。 模型结构方面,我们会实验多种不同架构,包括CNN类型的架构FaceBagNet模型,MLP类的架构(如VisionPermutator、MLPMixer等),还有近期非常热门的Vision Transformer(ViT)模型,并比对这些模型在该任务上的性能。 图表 2.2.1 2.2、实验流程 2.2.1、环境配置 (1)进入实验平台,新建交互任务Terminal,选择合适的镜像,需要包含实验所需的软件库(PyTorch、OpenCV等)。实验平台首页展示了目前的资源状态:正在执行的任务数量,可分配的资源等。 图表2.2.2 (2)左侧栏选择“模型开发”-“交互式开发”,并且点击红色框指定的新建按钮。 图表2.2.3 (3)进一步选择Terminal,设置密码(用于后续ssh登陆),选择内存大小,CPU,GPU数量。根据实验需要设置。我们选取内存32G,16核CPU,和一颗A5000型号的GPU用于本次实验。 图表2.2.4 (4)最下方可以选择本地实验使用的镜像环境,该平台提供了公用的基础镜像,我们也可以配置自己的私有镜像环境。 图表2.2.5 (5)创建成功后,会显示正在运行的应用。此时可以用过命令“ssh -p 25875 root@192.168.88.80”远程连接进行创建好的环境。 图表2.2.6 2.2.2、实验运行 如图所示,模型已经开始训练,单卡A5000下,训练效率很高,一个epoch只需要不到一分钟的时间。同时GPU的占用率一直保持在80-90%。模型的log文件和最终的模型文件都会存储在对应的Models路径下。在训练开始时,终端开始打印log,训练过程中GPU的占用率在80-90%。 2.3、实验结果 为了有效对比多个模型的性能,我们使用该平台训练了多个不同结构、不同参数的模型。我们在验证集合上测试了模型性能,使用了ACER(Average ClassificationError Rate)指标。指标越低,说明模型性能越好。 下表展示了单一模态下,各个模型的性能比较。整体上看,使用深度图数据的模型,会显著优于其他两种单一模态模型。FaceBagNet、ConvMixer和MLPMixer都有比较好的性能。 同时我们测试了三种patch size下,两种多模态建模模型的性能,FaceBagNetFusion的效果在各个参数下都显著优于ViT模型。相比于表2.2.7中的数据,多模态建模的结果均优于单一模态的建模结果。 图表2.2.8 2.4、实验感受 Q1:你在本次实验中训练了多个不同结构和不同参数的模型,管理员分配给你的2/3分区资源是否满足了训练要求? 沈涛:我的实验主要依赖GPU算力,对CPU和内存的需求相对较少。NVIDIA A5000 GPU的单卡训练效率已经足够高,如果使用混合精度训练等技术,效率会进一步提升。 Q2:你在本次实验中进行了私有镜像的上传,是否顺畅?镜像使用中有没有遇到兼容性或不稳定等问题? 沈涛:我以公共镜像为基础制作了私有镜像。具体来说,我先申请了基于基础镜像的命令行的交互任务,并在任务中安装了我所需的工作环境,并将环境保存为新的私有镜像,后续可以直接使用。整个使用过程比较顺畅,没有出现问题。 Q3:HP AI开发平台提供的是Web端GUI交互界面,基于你的使用感受,你认为是否能够降低普通开发者的使用门槛和难度? 沈涛:上述Q2中的私有镜像保存操作就是在GUI交互界面完成的,这一点就比较方便,对于普通开发者,省去了Docker命令行操作,降低了使用门槛。同时,整个计算资源利用率的实时展示,任务的申请,都可以通过比较简单地交互可以完成,整体上便捷一些。 Q4:对比公有云、数据中心和本地PC,你觉得通过工作站进行模型训练的优势有哪些? 沈涛:相比于公有云,数据中心,使用工作站进行模型训练会在使用上更加便捷,数据模型都在工作站本地,减少了来回传输的过程,使用上也会更加稳定。相比于本地PC,工作站的计算性能会更强,散热会更好,能支持长时间的高负荷工作。 Q5:对于中小型AI开发团队来说,工作站+HP AI开发平台的算力提供和管理方式是否是一个不错的选择? 沈涛:对于非大规模AI模型(需要大规模分布式训练)的开发,该方式已经能够满足正常开发需求。 3、实验二:基于数据集STS-B的自然语言文本分类 3.1、实验说明 该部分实验由Kaggle Grandmaster吴远皓完成。 本次实验通过经典的自然语言文本分类数据集STS-B来体验HP AI开发平台。 STS-B数据集包含8628个英语句子对,其中训练集5749条,验证集1500条,测试集1379条,数据集文本来源于报纸、论坛和图片题注。该数据集也是The General Language Understanding Evaluation (GLUE)benchmark的一个子任务。 图表 2.3.1 实验目的是模型需要给出两个句子的相似性度量,任务的评价指标是Pearson相关系数。 3.2 、实验流程 3.2.1、环境配置 登录HP AI开发平台,在“模型训练”-