智能云软件下载 HP AI开发平台测评：多用户协同开发模型和算力资源管理有力工具|武汉广告公司｜品牌全案策划｜活动执行｜瑞兴金广告设计制作

智能云软件下载 HP AI开发平台测评：多用户协同开发模型和算力资源管理有力工具

HP AI开发平台实战测评：多用户协同开发与算力资源管理全解析

现在，人工智能已经不再是遥不可及的概念，而是真正融入了企业的战略规划中。算力作为AI应用的基石，它的发展直接推动了整个人工智能系统的快速演进，成为最核心的要素。随着科技不断进步，获取算力的方式也越来越多样。目前，公有云和数据中心（私有云）是两大主流选择。但对于中小型AI开发团队来说，这两种方式都存在不少问题。比如，团队的AI模型训练往往是阶段性的，而按次付费使用公有云算力，累积起来成本不菲，相比之下，一次性购买一台GPU工作站可能更划算。而自建私有数据中心，不仅需要批量购买GPU服务器，还得搭建标准机房、部署高带宽网络，并增加专业IT维护人员，这对中小团队来说简直是奢侈。从中小型AI开发团队的实际需求来看，降本增效是他们评估解决方案的关键因素。这意味着算力设备不仅要满足团队需求、支持共享使用，还得部署简单、操作容易，省时省力省空间。正因如此，数据科学工作站的出现，恰好满足了这些实实在在的需求。数据科学工作站是PC形态的桌面超级计算机。相比普通PC，它支持双路Intel®至强®铂金/金牌等系列处理器和主板芯片、海量内存、大容量SATA硬盘，以及多块NVIDIA®高端RTX™专业级显卡，足以应对算法训练等AI工作流程中的强大算力需求，以及图形应用中的海量浮点运算和3D渲染等苛刻要求。与公有云或数据中心相比，数据科学工作站不仅性价比更高、部署更简单，而且噪音低，中小型AI开发团队可以直接在办公区进行协同开发，非常方便。惠普最近升级的HP Z8 G4数据科学工作站，凭借强大的性能、稳定可靠的安全性，以及全方位的系统和软件支持，在专业工作环境下为用户提供了绝佳的高性能计算解决方案。同时，惠普还推出了基于Docker+Kubernetes的人工智能容器云平台——HP AI开发平台。这个平台能够高效管理、调度和监控异构资源，提供从模型开发、训练到部署的完整流程和工具，广泛适用于教育、科研、金融、医疗、能源等各个行业，能极大降低AI入门门槛，提升创新和研发效率。为了让中小型AI开发团队更全面地了解HP Z8 G4数据科学工作站和HP AI开发平台在团队协作中的价值，智东西公开课AI教研团队联合两位Kaggle Grandmaster，模拟真实开发场景，对HP AI开发平台的功能应用及其在HP Z8 G4上的使用体验进行了深入评测和项目实验。智东西公开课AI教研团队主要负责在HP Z8 G4数据科学工作站上安装HP AI开发平台，并作为管理员进行资源管理。两位Kaggle Grandmaster则基于分配的资源，协同完成基于数据集CASIA-SURF的人脸活体检测，以及基于数据集STS-B的自然语言文本分类两项实验。这两位Kaggle Grandmaster分别是专注自然语言处理领域的算法工程师吴远皓和从事医疗AI算法研发的算法工程师沈涛。吴远皓已参加超过20场Kaggle竞赛，获得8枚金牌，并于2019年成为Kaggle Competitions Grandmaster，全球最高排名第36位。沈涛在Kaggle上共获得11块金牌，荣获Kaggle Grandmaster称号，全球最高排名第8位。在详细介绍HP AI开发平台的功能和实验之前，我们先来了解一下本次使用的HP Z8 G4数据科学工作站的核心参数：图表0.0.1 再来看看3块NVIDIA A5000显卡安装好后的实际样子。下图中的“三条金色模块”就是NVIDIA A5000显卡。图表0.0.2 下图是HP Z8 G4数据科学工作站实际工作的场景：图表0.0.3 1、HP AI开发平台功能全解这一部分，我们将带大家了解HP AI开发平台的安装过程和架构组成，并重点介绍它为开发者提供的模型训练、数据存储、任务镜像，以及为管理者提供的用户权限、监控中心、系统设置等特色功能。先来看看HP AI开发平台的安装。安装包是适用于Unix和类Unix系统的.run格式文件，整个过程分三步，超级简单：第一步，在Ubuntu系统的终端中，输入：“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可开始安装。第二步，安装成功后，会显示：“Please visit htp://192.168.88.80:5678 to continue installation.”。这时在浏览器输入网址，就能看到平台环境正在初始化。第三步，平台环境初始化完成后，会自动跳转到登录界面，输入账号密码就能登录。下图就是HP AI开发平台的首页：图表 1.0.1 1、平台架构图表 1.1.1 1.1、基础设施层基础设施层以X86服务器和专业工作站为载体，通过GPU、CPU等提供高性能加速计算，支持TCP/IP和InfiniBand高速网络互联，以及NFS和GlusterFS两种存储格式。 1.2、资源调度层采用容器化技术管理底层资源，并利用Kubernetes（K8s）进行容器编排调度。 1.3、应用服务层应用服务层支持主流的TensorFlow、Caffe、PyTorch和MxNet等机器学习框架，以及完整的机器学习处理流程，实现资源操作自动化。 1.4、业务领域层通过支持自然语言处理、图像识别和语音识别等任务，满足金融、教育、医疗、制造等行业场景的AI开发需求。 2、特色功能 2.1、模型训练 2.1.1、任务列表任务管理界面，有“任务训练”、“交互式开发”、“可视化”、“模型部署”四个功能页。管理员用户可以查看和管理所有用户的训练任务，包括任务训练、交互式开发、可视化、模型部署等。图表 1.2.1 查看任务可以看到所有用户所有任务的简要配置信息，比如任务名称、所属用户、执行器、分区、资源配额、创建时间等。点击“任务训练”、“交互式开发”、“可视化”、“模型部署”可以展示不同类型的任务。比如在交互式任务“interactive14871”中，可以看到任务节点、用户名、执行器、分区名称、资源配置、任务优先级、运行状态、创建时间、空闲时间等。图表 1.2.2 点击“详情”可以进一步查看任务的基本信息、资源配置、应用信息和状态等。图表 1.2.3 删除任务点击“删除”按钮就能删除正在运行的任务。需要注意的是，在“任务训练”中的任务，点击“删除”只会删除运行中的训练任务，记录不会被删除，也不会占用CPU、GPU、内存等资源，其他类型任务删除后不保留记录。查询用户任务在界面右侧输入框中输入要查找的用户名，回车就能查找。 2.1.2、任务统计管理员可以对HP AI开发平台中各分区任务进行统计。查看分区中已计划、已完成、运行中、暂停中的任务数量以及资源占用信息。“任务统计”帮助管理员了解各分区用户在一段时间内使用任务训练的情况。图表1.2.4 根据日期统计任务管理员可以选择指定日期，统计从指定日期到当前时间的任务数量及资源占用情况。图表 1.2.5 2.1.3、任务队列点击左侧菜单“任务队列”，进入任务队列界面，分别显示优先级为“高”、“普通”、“低”的三种任务。图表1.2.6 2.2、数据存储 HP AI开发平台支持基于NFS的分布式存储方式，满足用户对数据安全和性能的要求。丰富的数据管理、分享功能极大方便了使用。 2.2.1、数据卷管理员可以创建NFS卷，对卷进行管理操作，查看卷的使用情况。图表1.2.7 查看“NFS”卷列表可以看到NFS数据卷列表及每个数据卷的服务器地址、共享目录、挂载权限、状态和描述。图表 1.2.8 创建NFS卷点击“创建NFS卷”按钮，进入NFS卷创建界面。图表 1.2.9 NFS名词参数解释图表 1.2.10 查看卷使用情况管理员在数据卷列表页面点击卷名称后，该数据卷的总使用情况和各用户使用情况都会显示在此页面。图表 1.2.11 2.2.2、公共数据公共数据是所有HP AI开发平台用户都可以访问的数据。管理员可以上传公共数据并进行管理，普通用户只有复制到私有数据和下载的权限。图表 1.2.12 创建目录用户可以在“公共数据”页面点击“创建目录”来创建自己的目录。名称不能包含以下字符”, ‘|’, ‘’, ‘?’, ‘,’，’/’，’ ‘, 长度在1~50个字符，创建成功会有提示，否则失败。图表 1.2.13 上传数据将本地文件上传到“公共数据”中。适合小文件上传。图表 1.2.14 刷新如果对文件进行了增删改操作，点击“刷新”按钮更新文件状态和属性。文件列表：文件及文件夹管理针对文件列表里的每个文件和文件夹，都有相应的管理功能，如重命名、下载、复制、查看文件大小、删除等，针对文件还有在线查看功能，方便管理员管理。图表 1.2.15 2.3、任务镜像 2.3.1、公共镜像由管理员上传的镜像是公共镜像，所有用户都能看到并使用。管理员在“下载镜像”中下载和上传的镜像都在此界面管理。管理员可以对公共镜像进行设置删除、二次更新制作镜像及查看镜像详细信息等操作。图表 1.2.16 上传镜像管理员在镜像仓库页面，也可以上传公共镜像。 2.3.2、镜像仓库管理员在镜像仓库页面，可以查看各用户的私有镜像，或上传公共镜像。查看镜像仓库上传镜像管理员用户在镜像仓库页面，也可以上传公共镜像。查看镜像仓库在镜像仓库列表中，点击任意用户名，就能进入用户的镜像仓库查看私有镜像。图表 1.2.19 2.3.3、下载镜像点击“下载镜像”，进入以下界面，有“Docker Hub”、“HP机器学习镜像”和“NVIDIA镜像”三个功能页面。用户可以根据需要从Docker官方镜像仓库、HP机器学习镜像仓库和NVIDIA镜像仓库下载指定镜像。图表 1.2.20 HP机器学习镜像此功能页预留了官方制作好的镜像，包括Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu等11个镜像系统。每个镜像版本完整，与官方机器学习框架Release保持一致，用户可直接使用。图表 1.2.21 NVIDIA镜像允许用户查看NGC镜像列表，下载使用NGC上NVIDIA提供的镜像。图表 1.2.22 2.4、用户权限 2.4.1、用户点击左侧菜单“用户权限-用户”，进入用户管理界面。管理员用户可以创建、删除、编辑用户，以及配置分区、存储卷和资源配额等，对用户的CPU、GPU、内存和存储配额进行设定，限制用户能使用的资源数量。用户的数据存储空间相互隔离，每个用户只能访问各自空间中的数据，无法越界访问未授权数据。图表 1.2.23 查看用户在用户管理界面，可以查看每个用户的手机号码、邮箱地址、创建时间、创建人、修改时间、修改人、绑定的分区以及用户组名。图表1.2.24 点击“操作”按钮 -> 查看数据卷与配额，可以查看用户的资源配额限定情况。图表 1.2.25 点击“查看关联角色”。图表 1.2.26 点击“修改用户信息”，可对已有用户的手机号、邮箱、用户组、分区和配额进行修改。图表 1.2.27 点击“重置密码”，可重置用户密码。管理员可以通过两种方式重置密码：一种是系统自动生成密码，只需点击“重置密码”按钮就能在界面上看到新密码；另一种是手动修改密码，输入两遍新密码，点击“提交”即可。表 1.2.28 点击“删除”，可删除用户。 2.4.2、用户组修改默认配额管理员可以点击用户列表页面上的“修改默认配额”按钮，来修改创建用户时默认的可使用资源配额，比如CPU、GPU、内存、存储和任务数量的默认配额。图表 1.2.30 创建用户点击“创建用户”按钮，进入“创建用户”界面，需要填写用户的基本信息和配置用户组、数据卷、分区等参数。CPU、GPU、内存、存储等参数默认使用默认配额中的配置。图表 1.2.38 2.4.2、用户组管理员在用户组页面，可以查看、创建和删除用户组。图表 1.2.32 查看用户组点击“查看关联角色”，显示该用户组的所有角色。图表 1.2.33 点击“查看该组用户”，显示该用户组的所有用户。图表 1.2.34 创建用户组管理员在用户组列表页面，点击“创建用户组”按钮进入创建用户组界面，输入用户组名（长度1-20个字符，不能包含字符”, ‘|’, ‘’, ‘?’, ‘,’，’/’），选择不同模块的权限，最后点击“提交”创建新用户组。点击“取消”取消创建，回到用户组列表页面。图表 1.2.35 各个功能模块不同角色的权限参照下表：图表 1.2.36 2.5、监控中心 2.5.1、仪表盘仪表盘提供了多维度和多层次的监控信息，使系统使用透明、可追踪。管理员在左侧菜单栏中选择仪表盘，即可查看节点和分区的资源使用情况。节点查看点击节点页面的“查看”，可以针对某个节点监控信息进行查看。图表 1.2.38 分区查看点击分区页面的“查看”，可以针对某个分区监控信息进行查看。 1、资源创建与分配 2.5.2、监控报表在当前界面可以选择HP AI开发平台的节点、分区等选项来监控资源利用情况，呈现可视化图表。图表 1.2.40 2.5.3、实时信息在当前界面可以选择HP AI开发平台GPU用途分布、GPU使用概况、GPU使用分布等可视化图表。图表 1.2.41 管理员可以查看GPU的用途分布统计（任务训练、交互式使用、可视化、空闲使用）。管理员可以查看GPU的分区使用统计（总共使用，每个分区使用）。管理员可以查看GPU的用户使用统计（总共使用，每个用户使用）。管理员可以查看节点GPU使用概况（总数、空闲、已占用），以及每一块GPU卡的使用率和显存使用率。 2.5.4、历史统计在当前界面可以查看HP AI开发平台用户资源使用统计图表。图表 1.2.42 2.6、系统设置 GPU配置在当前界面可以选择HP AI开发平台GPU类型、切片数量。图表 1.2.43 输入切片数量，点击“确认”后，即可为GPU切片。图表 1.2.44 2、实验:人脸活体检测和自然语言文本分类在这一部分，智东西公开课AI教研团队将作为管理员，分配不同的账户资源给两位Kaggle Grandmaster进行模型开发实验，并在平台后端监测相应的资源使用情况和反馈。 1、资源创建与分配 1.1、创建分区kaggle 图表 2.1.1 图表 2.1.2 1.2、创建用户组viewers 图表 2.1.3 图表 2.1.4 1.3、创建用户master1、master2 图表 2.1.5 图表 2.1.6 2、实验一：基于数据集CASIA-SURF的人脸活体检测 2.1、实验说明该部分实验由Kaggle Grandmaster沈涛完成。人脸活体检测是人脸识别过程中的一个重要环节。它对人脸识别过程中可能出现的照片、视频、面具、头套、头模等欺骗手段进行检测，对于身份验证的安全性至关重要。从技术发展上看，人脸活体检测可以分为两大类：传统的人工特征模式识别方法和近年来兴起的深度学习方法。目前，深度学习方法在识别准确性上已有较大优势。很多人脸识别系统利用可见光人脸图像进行活体检测，但识别性能容易受到光照条件的影响。同时，基于可见光光谱的识别方式也很难应对常见的伪造攻击。使用多模态数据进行活体检测建模，能有效缓解这些问题。融合多种成像设备的图像信息，比如可见光、近红外和深度图像等，既能提升模型的识别性能，也能减少光照条件对性能的干扰。本次实验，我们使用HP AI开发平台，搭建并训练深度学习模型，用于人脸活体检测。数据集采用了CASIA-SURF集合。该数据集合含有人脸可见光图、近红外和深度图三种模态信息，包含了1000个个体样本的21000段视频。采集设备是英特尔的RealSense立体相机。模型结构方面，我们会实验多种不同架构，包括CNN类型的架构FaceBagNet模型，MLP类的架构（如VisionPermutator、MLPMixer等），还有近期非常热门的Vision Transformer（ViT）模型，并比对这些模型在该任务上的性能。图表 2.2.1 2.2、实验流程 2.2.1、环境配置（1）进入实验平台，新建交互任务Terminal，选择合适的镜像，需要包含实验所需的软件库（PyTorch、OpenCV等）。实验平台首页展示了目前的资源状态：正在执行的任务数量，可分配的资源等。图表2.2.2 （2）左侧栏选择“模型开发”-“交互式开发”，并且点击红色框指定的新建按钮。图表2.2.3 （3）进一步选择Terminal，设置密码（用于后续ssh登陆），选择内存大小，CPU，GPU数量。根据实验需要设置。我们选取内存32G，16核CPU，和一颗A5000型号的GPU用于本次实验。图表2.2.4 （4）最下方可以选择本地实验使用的镜像环境，该平台提供了公用的基础镜像，我们也可以配置自己的私有镜像环境。图表2.2.5 （5）创建成功后，会显示正在运行的应用。此时可以用过命令“ssh -p 25875 root@192.168.88.80”远程连接进行创建好的环境。图表2.2.6 2.2.2、实验运行如图所示，模型已经开始训练，单卡A5000下，训练效率很高，一个epoch只需要不到一分钟的时间。同时GPU的占用率一直保持在80-90%。模型的log文件和最终的模型文件都会存储在对应的Models路径下。在训练开始时，终端开始打印log，训练过程中GPU的占用率在80-90%。 2.3、实验结果为了有效对比多个模型的性能，我们使用该平台训练了多个不同结构、不同参数的模型。我们在验证集合上测试了模型性能，使用了ACER（Average ClassificationError Rate）指标。指标越低，说明模型性能越好。下表展示了单一模态下，各个模型的性能比较。整体上看，使用深度图数据的模型，会显著优于其他两种单一模态模型。FaceBagNet、ConvMixer和MLPMixer都有比较好的性能。同时我们测试了三种patch size下，两种多模态建模模型的性能，FaceBagNetFusion的效果在各个参数下都显著优于ViT模型。相比于表2.2.7中的数据，多模态建模的结果均优于单一模态的建模结果。图表2.2.8 2.4、实验感受 Q1：你在本次实验中训练了多个不同结构和不同参数的模型，管理员分配给你的2/3分区资源是否满足了训练要求？沈涛：我的实验主要依赖GPU算力，对CPU和内存的需求相对较少。NVIDIA A5000 GPU的单卡训练效率已经足够高，如果使用混合精度训练等技术，效率会进一步提升。 Q2：你在本次实验中进行了私有镜像的上传，是否顺畅？镜像使用中有没有遇到兼容性或不稳定等问题？沈涛：我以公共镜像为基础制作了私有镜像。具体来说，我先申请了基于基础镜像的命令行的交互任务，并在任务中安装了我所需的工作环境，并将环境保存为新的私有镜像，后续可以直接使用。整个使用过程比较顺畅，没有出现问题。 Q3：HP AI开发平台提供的是Web端GUI交互界面，基于你的使用感受，你认为是否能够降低普通开发者的使用门槛和难度？沈涛：上述Q2中的私有镜像保存操作就是在GUI交互界面完成的，这一点就比较方便，对于普通开发者，省去了Docker命令行操作，降低了使用门槛。同时，整个计算资源利用率的实时展示，任务的申请，都可以通过比较简单地交互可以完成，整体上便捷一些。 Q4：对比公有云、数据中心和本地PC，你觉得通过工作站进行模型训练的优势有哪些？沈涛：相比于公有云，数据中心，使用工作站进行模型训练会在使用上更加便捷，数据模型都在工作站本地，减少了来回传输的过程，使用上也会更加稳定。相比于本地PC，工作站的计算性能会更强，散热会更好，能支持长时间的高负荷工作。 Q5：对于中小型AI开发团队来说，工作站+HP AI开发平台的算力提供和管理方式是否是一个不错的选择？沈涛：对于非大规模AI模型（需要大规模分布式训练）的开发，该方式已经能够满足正常开发需求。 3、实验二：基于数据集STS-B的自然语言文本分类 3.1、实验说明该部分实验由Kaggle Grandmaster吴远皓完成。本次实验通过经典的自然语言文本分类数据集STS-B来体验HP AI开发平台。 STS-B数据集包含8628个英语句子对，其中训练集5749条，验证集1500条，测试集1379条，数据集文本来源于报纸、论坛和图片题注。该数据集也是The General Language Understanding Evaluation (GLUE)benchmark的一个子任务。图表 2.3.1 实验目的是模型需要给出两个句子的相似性度量，任务的评价指标是Pearson相关系数。 3.2 、实验流程 3.2.1、环境配置登录HP AI开发平台，在“模型训练”-

智能云软件下载 HP AI开发平台测评：多用户协同开发模型和算力资源管理有力工具

HP AI开发平台实战测评：多用户协同开发与算力资源管理全解析

🚀 2025汽车营销实战大全：37套爆款方案，轻松打造现象级广告！

🔥 5大品牌实战案例曝光！中网创信如何引爆市场增长

魅族微博视频广告引爆流量：单日播放量突破3000万！

饥饿经济学揭秘：生存本能如何让你心甘情愿当“高价冤大头”

颠覆想象！AI绘图神器：动嘴画图，一句话生成爆款广告（教程内附）

震撼揭秘！西班牙公益广告如何用创意引爆校园欺凌反思

HP AI开发平台实战测评：多用户协同开发与算力资源管理全解析

猜你喜欢

🚀 2025汽车营销实战大全：37套爆款方案，轻松打造现象级广告！

🔥 5大品牌实战案例曝光！中网创信如何引爆市场增长

魅族微博视频广告引爆流量：单日播放量突破3000万！

饥饿经济学揭秘：生存本能如何让你心甘情愿当“高价冤大头”

颠覆想象！AI绘图神器：动嘴画图，一句话生成爆款广告（教程内附）

震撼揭秘！西班牙公益广告如何用创意引爆校园欺凌反思