目前Filecoin挖矿以集群为主流形式,越大型的集群越需要较强的运维能力。Filecoin为了保证网络的稳定和长久,设计了复杂的证明系统和经济模型,一旦集群出现故障将会面临着算力丢失或质押罚没的风险,因此运维能力是至关重要的。
运维流程化
随着业务的发展,运维逐渐发展为一个独立的服务。对于Filecoin而言,流程化的运维可以理清业务脉络,通过优化升级提高集群的效率和稳定性,最终带来收益的稳定增长。
资源评估:对于整个运维体系来讲,业务最开始的环节是进行资源的评估,当下能够投入的资源情况,比如带宽、服务器等。
资产管理:在资产评估完成后,运维方会制定初步的运维方案,所有的资产会被录入管理。运维资产可以分为硬件资产与虚拟资产,比如交换机、服务器、存储磁盘等等都属于硬件资产,虚拟服务器、IP资源等等都属于虚拟资产。同时,运维工程师会借助CMDB资产管理系统对所有资产进行管理和配置,以便于对资产使用展示一目了然。
集群部署:集群部署就像是组装家用电脑一样,先将硬件安装好然后安装系统和软件。当资产理清后可以进行集群的部署,部署主要分为两部分:硬件与软件。硬件部署包括IDC机房、服务器、网络带宽等的部署,IDC机房的部署可以根据标准来实施。在硬件IDC机房部署完成后进行软件部署,将运行的程序组件即可。
运维支撑:集群部署完成且可以正常运转之后,运维工作的重头戏才刚刚开始。Filecoin复杂的证明系统和经济模型要求集群需要7*24小时不间断运转,异构集群的运维也有更高的要求,因此工具化、流程化的作业方式对于运维工程师来讲事半功倍。原力区通过自研的CMDB资产管理系统、定风珠以及其它监控工具实现数据的实时监测,保障集群的稳定运行。以下是运维支撑的一些惯用工具:
- CMDB资产管理系统:通过自研的CMDB资产管理系统可以整合集群的资产信息,理清硬件、软件之间的逻辑关系,准确及时的同步消息,从而让工程师可以全局管控整个集群;
- 数据管理、监控器:对集群的数据进行监控,可以实现数据的实时监控,包括硬件、业务、任务、服务的运行状况;
- 运维优化:当集群稳定运行后,通过集群运行的状态和数据监控来进一步进行优化,提升集群的性能。
总之而言,形成闭环的集群管理,配合一系列自研工具的使用,是运维工程师们维护Filecoin挖矿节点运行稳定的必备能力。