1.运维入门篇


为什么要写本文章

本文章旨在让大家理解数据中心的一些运维基础知识(从建立数据中心到如何生产),本文章涵盖了几乎80%的基础运维知识。希望大家认真阅读,记住: 不用刻意去学习,好多知识都是在不经意间学会的。

概念篇(摸鱼篇)


概念篇(摸鱼篇)

什么是云计算

云计算

‌云计算(‌Cloud Computing)是一种基于互联网的相关服务增加、使用和交付模式,通过互联网提供动态、可扩展的虚拟化资源。云计算的核心在于将计算资源、存储资源和网络资源等抽象为一个“云”,并通过网络按需提供服务。‌12

云计算不仅仅是分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术的混合演进结果。它通过多部服务器组成的系统进行处理和分析,使用户可以在很短的时间内完成对数以万计的数据处理。

云计算具有以下特点:

  • 按需使用和付费:用户可以根据自己的需求,随时申请和释放计算资源,并按照实际使用量支付费用。
  • 动态扩展:云计算资源可以根据需求快速扩展或缩减,提供高度的灵活性和弹性。(云的基础是虚拟机,可以灵活扩容/缩容)
  • 多租户共享:多个用户可以共享同一套物理资源,通过多租户技术保证安全性和隔离性。
  • 虚拟化技术:云计算通过虚拟化技术将物理资源转化为虚拟资源,实现资源的动态分配和管理。

云计算的应用非常广泛,包括‌企业数据中心的运行、超级计算任务、存储和计算工作等。未来,只需一台笔记本或手机,就可以通过网络服务实现各种需求,极大地提高了工作效率和便利性。

概念篇(摸鱼篇)

什么是数据中心?

数据中心即互联网数据中心(Internet Data Center),是算力的载体。

我们可以将数据中心理解为一个超大规模的机房,存放了大量服务器、存储设备、网络设备,以及其他相关物理基础设施。

各设备和模块之间协同工作,提供强大的计算能力、存储能力和网络连接能力。

数据中心的三大基础结构分别是计算、存储和网络。

计算

采用高性能CPU、显卡(GPU)、大容量内存和高速存储的服务器是数据中心的计算主力军,拥有强大算力,满足各类高性能应用的需求。

CPU负责逻辑判断、数据运算和控制调度等任务,CPU的计算能力决定了服务器的整体性能。

GPU是专门设计用于高效并行处理大量数据的处理器。在大规模并行计算场景下,GPU能极大地提升计算效率,适用于图形渲染、深度学习、科学计算等领域。

据国外研究机构统计,2023年全球数据中心GPU总出货量达到了385万颗,相比2022年的267万颗增长了44.2%。

除此之外,还有FPGA和ASIC,是根据特定应用需求进行半定制或全定制设计的AI芯片,专业性更强、算力更高、功耗更低。

存储

数据中心的存储设备包括硬盘、磁盘阵列、分布式存储系统,以及NAS、SAN等外挂式网络存储。

数据中心的存力决定了数据的实际存储量和可用性,对于数据长期保存的完整性和安全性至关重要。

网络

数据中心的网络设备包括交换机、路由器、防火墙等,是数据中心内部与外部互联互通的基础设施,确保数据能在计算节点、存储设备以及外部用户之间高效安全地传输。当面对庞大业务量时,网络设备能够满足数据中心内大规模、高并发的数据传输需求,同时兼顾网络的管理效率和安全性,为数据中心内部所有设备提供稳定可靠的数据通信。在数据中心的网络架构中,较为常见的是叶脊网络,具有可扩展性、高可靠性和高性能。叶脊网络由叶交换机(Leaf Switch)和脊交换机(Spine Switch)组成。叶交换机用于连接服务器和存储设备,脊用于连接叶交换机,是网络的骨干。

 

其他相关物理基础设施

除了以上介绍的三大基础结构,数据中心还拥有电力、制冷、安防、消防等系统,提供综合管理和运维功能。各个系统协同作用,确保数据中心稳定运行,全方位保障数据中心内的设备和数据安全。
概念篇(摸鱼篇)

什么是DDoS攻击?

分布式拒绝服务攻击(DDoS)可以使很多的计算机在同一时间遭受到攻击,使攻击的目标无法正常使用,分布式拒绝服务攻击已经出现了很多次,导致很多的大型网站都出现了无法进行操作的情况,这样不仅仅会影响用户的正常使用,同时造成的经济损失也是非常巨大的。 

分布式拒绝服务攻击方式在进行攻击的时候,可以对源IP地址进行伪造,这样就使得这种攻击在发生的时候隐蔽性是非常好的,同时要对攻击进行检测也是非常困难的,因此这种攻击方式也成为了非常难以防范的攻击。

一个完整的DDoS攻击体系由攻击者、主控端、代理端和攻击目标四部分组成。主控端和代理端分别用于控制和实际发起攻击,其中主控端只发布命令而不参与实际的攻击,代理端发出DDoS的实际攻击包。对于主控端和代理端的计算机,攻击者有控制权或者部分控制权.它在攻击过程中会利用各种手段隐藏自己不被别人发现。真正的攻击者一旦将攻击的命令传送到主控端,攻击者就可以关闭或离开网络.而由主控端将命令发布到各个代理主机上。这样攻击者可以逃避追踪。每一个攻击代理主机都会向目标主机发送大量的服务请求数据包,这些数据包经过伪装,无法识别它的来源,而且这些数据包所请求的服务往往要消耗大量的系统资源,造成目标主机无法为用户提供正常服务。甚至导致系统崩溃。

DDoS攻击的分类

针对网络层的攻击: 

攻击源(傀儡机)向受害者系统发送大量的数据流,导致被攻击者的带宽满载,影响小的则降低受害者提供的服务,影响大的则使整个网络带宽持续饱和,以至于网络服务瘫痪,典型的攻击类型有UDP洪水攻击,ICMP洪水攻击。

部分攻击也行也会对受害主机的网络协议栈产生巨大压力,比如SYN Flood攻击与ACK Flood攻击,是利用TCP三次握手的漏洞实现的。

简单理解: 去饭店吃饭,攻击者叫了几千个人到你店里,但是不点菜不付款,导致新来的顾客无法正常点菜,达到拒绝服务的效果。

针对应用层的攻击:

由于服务器接收到客户的访问请求后需要应用层处理(比如访问网站,网站服务器收到请求后需要进行查数据库,渲染页面等一系列操作),处理过程是要耗费CPU,内存等资源的,一台服务器的资源是有限的,如果此时有大量模拟正常访问的请求会导致系统资源满载,达到拒绝服务攻击的效果。常见的有CC攻击(即使用傀儡机发送大量正常请求,次数流量可能并不大但是被攻击服务器已经由于无法应对这些请求而宕机)。

简单理解:去饭店吃饭,几百个人一个人点一百个菜,厨师累死。

概念篇(摸鱼篇)

什么是服务器?

服务器是一个很广泛的概念,可以从软件层面以及硬件层面理解。

软件层面:

从职能上泛指能够对外提供服务的主机,举个例子:玩联机游戏时的游戏服务器为你提供服务,离开他整个系统就无法运行。

硬件层面:

泛指符合国际标准,能够正常安装在机架上的具有计算能力的硬件设备,常见的服务器有1U 2U 4U等高度。

服务器本身也是一台电脑,有CPU/内存/硬盘等硬件,只不过比起家用电脑具有一些独有的特性,请参考后续章节。

image.png

2cad2cef2c4cf046a493d186b09c955.jpg

拥有一台自己的服务器(服务器基础知识)

本章会带领你从了解服务器,拆解服务器,配置服务器几个方面入手,带你更深程度了解什么是服务器。

拥有一台自己的服务器(服务器基础知识)

服务器PK家用机的六宗罪-冗余/可靠/灵活/经济/性能/扩展性

首先我们要理解服务器的重要性,服务器是一台365x24不断工作的机器,全年无休的牛马(996算什么 007才是日常操作),但是因为是硬件设备难免会因为过度劳累而产生损坏,所以服务器一般具有如下特性:

1.有ECC功能的内存

ECC内存,即应用了能够实现错误检查和纠正技术(ECC)的内存条。一般多应用在服务器图形工作站上,这将使整个电脑系统在工作时更趋于安全稳定。ECC是“Error Checking and Correcting”的简写,中文名称是“错误检查和纠正”。

简单说就是如果内存损坏,他能够在一定程度上将损坏数据修复过来,避免数据错误。

2.双路电源

电源就承担着给整套系统供电的职责,如果电源产生损坏则整套系统都会无法正常运行,此外还会有数据中心电力断开的情况,所以一般为了避免这种情况,服务器都是配置双电源,此时如果单个电源产生损坏在一定程度上可以维持系统正常运行,但是还是推荐产生故障后对故障组件立即更换。

3.多网口网卡

服务器担任着重要的职责,网络同等重要。如果网卡产生损坏则会影响服务器整体对外提供服务。但网卡本身是不具有冗余特性的,所以可以在接入多条网线的情况下再对交换机/路由器等设备进行相关配置实现冗余。

此外一些业务有隔离需求,一般需要业务网卡与管理网卡分离,此时就需要用到多网卡。

4.RAID

作为承载数据存储职责的存储设备,如果数据产生丢失,非但会导致业务停止,严重的时候还会造成经济损失。(试想一下一个商城服务器数据丢了,交易订单全无),RAID就是为了应对这一场景,RAID可以对同一数据同时写入两个盘,当一个硬盘损坏时另一个硬盘的数据还在,此时更换掉损坏硬盘数据会自动同步到新硬盘。此功能需要服务器配备RAID卡。

5.冗余风扇

服务器由于体积小,性能高,散热就显得尤为重要,服务器自身散热主要靠服务器内部风扇。由于风扇在服务器内部,不方便更换,一般会设计冗余风扇,即多装几个,哪怕坏了一个其余也能承载起服务器的散热任务,此时只需要找合适时机对服务器进行停机更换硬件即可。

5.IPMI/带外管理

一个数据中心可能有成百上千台服务器,如果人工一台台巡检,成本会非常高,故障处理也不及时,可能会造成严重后果,所以服务器一般都配备IPMI口(带外管理口,各厂商叫法不一样,比如华为叫做iBMC/iMana,DELL叫做IDRAC,HP叫做ILO等),这个端口相当于独立于服务器之外的一个子系统,能实时采集服务器的健康状态和告警信息,结合外部告警系统,服务器故障时可以通过告警系统主动推送的方式告知,运维经济实惠。此外IPMI还有开关机/查看服务器实时屏幕等功能,更是进一步降低了运维成本。

6.热插拔

除了CPU/内存这种系统运作的核心部件之外,其他部件(比如硬盘,电源)都是可以热插拔的,当硬件产生故障时,可以直接模块化更换,更换简单快捷经济实惠,无需复杂拆机,新手3天就能上手。

7.性能

服务器一般支持双路CPU,也就是安装两个CPU同时计算,也支持高达8根以上内存条;家用机一般只能装一个CPU,2-4根内存条,所以整体看来服务器性能要比家用机高一些。此外服务器CPU都是多核心设计,能更好满足业务并发请求。

8.扩展性

与家用电脑不一样,服务器除了上文中提到的内存条之外,PCIE接口也要比家用电脑多,PCIE是现有扩展设备主要的接入方式(比如加网卡/显卡都是需要PCIE的)

拥有一台自己的服务器(服务器基础知识)

和家用机做朋友的几个理由(服务器不抢饭系列)

前面提到,服务器也是一个通用计算机,不过他是经过特殊设计的,在冗余性/可靠性都是有优化的,那我们能不能买台服务器放在家里呢?这篇文章将会给你答案。

1.CPU设计

服务器和家用机一样都有CPU,但是服务器上应用程序一般对多核优化,主频较低,家用机上核心不一定多,但是主频一般都比较高(玩过游戏都知道主频的重要性)

2.内存设计

大家都在说CPU超频/内存超频能够提升性能,但是这种操作会降低硬件的稳定性,反之,频率低了相对会比较稳定,服务器为了稳定性内存频率一般不会达到像家用机这么高的级别。

3.噪音

服务器作为一个高密度高性能的设备,散热纯靠暴力风扇吹,噪音不亚于坐直升机(我也没坐过 听他们说的),听久了轻则耳鸣头痛,重则精神紊乱。

4.成本

模块化虽然降低了硬件损坏更换(运维)的成本,但是模块化的设计则会增加成本,服务器主要为模块化设计,成本比家用机高,家用不需要这种设计。

5.显卡

除了专用的显卡服务器之外,服务器由于密度高,一般不会给PCIE留太多空间,一般能满足常用硬件的安装(网卡,HBA卡)就足矣,对于三风扇的燃气灶(360长度的显卡),要装进服务器里是难上加难。

所以整体来说,家用机和服务器都有各自的设计特点,大家可以根据需求去选择。

拥有一台自己的服务器(服务器基础知识)

机房很吵,我耳朵受不了;运维好累,我不想天天跑(IPMI篇)

数据中心作为一个专门托管服务器的地方,在里面可能有成百上千台服务器,如果我要给服务器安装系统/开关机,是不是还要跑很远去机房?我是不是每天都需要对服务器进行巡检?

Ohhh no,我跑路了!

其实并不用这样,运维架构足够合理,运维服务器就和吃饭一样简单。在这里我们就要了解到服务器的一个东西:IPMI

IPMI(智能平台管理接口),Intelligent Platform Management Interface 的缩写。原本是一种Intel架构的企业系统的周边设备所采用的一种工业标准。IPMI亦是一个开放的免费标准,用户无需支付额外的费用即可使用此标准。
IPMI 能够横跨不同的操作系统、固件和硬件平台,可以智能的监视、控制和自动回报大量服务器的运作状况,以降低服务器系统成本。

听不懂不要紧,用一张图解释(图为DELL的IDRAC,不同厂商的叫法不同)

image.png

如图所示,我们可以简单了解到IPMI的几个功能(从上往下)

服务器:这里就像是一个汇总页面,每个硬件的状态,服务器的版本,装的什么系统,上面都有写。

日志: 服务器什么时候硬件报错了,什么时候重启了都会有日志

电源/热: 远程开关机

虚拟控制台: 这个是个好东西,能直接看到服务器的屏幕,与扛着显示器去电脑面前无异,此外这个还有虚拟媒体功能,比如你要装系统,可以用这个模拟光驱挂载自己的系统镜像去安装。(哦对 这东西还能配置BIOS呢,硬件级的)

太懒了,下面几个作用不大,自己了解。

回到下面的硬件这一栏,在这里我们甚至可以看到放的什么型号的处理器,放的什么型号的内存,以及识别到什么内存,电源信息,以及他们的状态等等,这些在家用机可是不拆机看不到的~

image.png

image.png

image.png

再向下,在存储这一栏,我们可以对RAID,当前硬盘进行管理/监控

此处留到后面RAID这一再讲....

除此之外,IPMI还可以对接其他系统,比如监控系统,当硬件故障了,主动报警。

所以 IPMI这么多功能,他在哪里呢?

一般位于服务器后面有一个专门的,不同于正常网口的网口,上面一般会写IDRAC/IPMI/MGMT等你可能不知道的所有字样

如图:

image.pngimage.png

image.png

最后 让我们学会

e6c43aca52d662e81a4e04b7cec0f64.jpg

拥有一台自己的服务器(服务器基础知识)

如何选择一台适合自己的服务器?(服务器分类/特性篇)

什么?你已经想要一台属于自己的服务器了?那下面的内容你可得好好听。

1.服务器高度

数据中心作为一个寸土寸金的地方,我们选购服务器首先要注意的是高度。

服务器在机柜里差不多是这样排列的:

【缺一个机柜图】

可见服务器是按照一定的小格子放在机柜里的,这些小格子就是服务器的高度

服务器的高度通常以“U”为单位,1U等于1.75英寸。常见的服务器高度有1U、2U、3U、4U等,这个是国际标准哦。

【缺一个1U 2U 4U服务器的图】

除此之外,还有2U4节点的机器,占用2U的空间,其实小小的2U空间里面装了4台小服务器。但是麻雀虽小五脏俱全,和那些大服务器在功能上是没差异的。

【缺一个2U4节点的图】

2.应用场景

一般根据应用场景不同,我们选购不同的服务器,比如说我们需要放很多硬盘,那1U这么薄放不了几个,厂商设计的时候自然就不会设计太多硬盘位,所以我们可以考虑用2U的服务器。如果我们单纯需要一个算力,1U可能是更加选择,具体要参考应用场景。

3.扩展性

1U,2U4节点服务器是为高密度计算设计,简单说就是相同高度里能放更多的机器,至于PCIE什么的,想想空间就知道了。所以如果你对扩展性有需求,那就考虑下机器内部空间吧(对了,360长的显卡就别想了,服务器不想当做游戏机)。

4.配置

服务器的算力是配置决定的,比如CPU厂商每代都会发布很多型号的CPU,用于不同的需求,这个要仔细考虑。

5.功耗

数据中心一般会对服务器有电力限制,如果超出电力就要额外付费(和三大运营商一样),这也是要考虑的一个地方。至于服务器用了多少电,主要取决于配置,具体你的服务器跑起来用了多少电力,那就上一节IPMI见。

6.冗余性

一些入门级别服务器,比如DELL R410,是不支持双电源的。这个也需要考虑。

拥有一台自己的服务器(服务器基础知识)

服务器到了,我该如何组装?需要升级,我该如何更换配件?(拆机篇)

拥有一台自己的服务器(服务器基础知识)

服务器到了,快来调优你的服务器吧(BIOS篇)

拥有一台自己的服务器(服务器基础知识)

不好,某男子居然由于硬盘损坏丢掉了珍藏已久的...(RAID篇)

拥有一台自己的服务器(服务器基础知识)

开始使用吧!(装系统篇)

带你选择一个适合自己的数据中心


带你选择一个适合自己的数据中心

我不是土豪,为什么我要把服务器放数据中心(可靠性篇)

带你选择一个适合自己的数据中心

数据中心机柜里都有什么?(机柜篇)

带你选择一个适合自己的数据中心

我该如何把自己的服务器上到机柜里?(上架强迫症篇)

带你选择一个适合自己的数据中心

番外篇: 什么是高防?我需要高防吗?(高防篇)

如何正确驾驭操作系统(应用基础篇)


如何正确驾驭操作系统(应用基础篇)

规划你的硬盘分区(硬盘分区系列)

如何正确驾驭操作系统(应用基础篇)

如何对你的系统做一个完整的备份(镜像篇)

如何正确驾驭操作系统(应用基础篇)

Linux与Windows有什么区别?服务器推荐什么系统?(系统选择篇)

如何正确将Windows的坑踩平(Windows使用篇)


如何正确将Windows的坑踩平(Windows使用篇)

Windows是个很有个性的系统(桌面版/服务器版)

如何正确将Windows的坑踩平(Windows使用篇)

如何正确规划我的Windows硬盘(硬盘分区)

如何正确将Windows的坑踩平(Windows使用篇)

我的Windows打不开程序,提示VC什么什么错误怎么办?(运行库篇)

如何正确将Linux盘包浆(Linux使用篇)

如何正确将Linux盘包浆(Linux使用篇)

Linux为什么没C盘D盘?谁给我删了?(目录结构篇)

如何正确将Linux盘包浆(Linux使用篇)

我如何安装自己需要的软件?(包管理器篇)

如何正确将Linux盘包浆(Linux使用篇)

为什么我的Linux包管理器提示出错?(换源篇)

如何正确将Linux盘包浆(Linux使用篇)

系统/数据分离,我该怎么做?(磁盘分区/挂载篇)

如何正确将Linux盘包浆(Linux使用篇)

闲聊篇(Linux这么麻烦为什么大家都喜欢?我该怎么学好Linux)

让我们一起fly~(上云篇)

让我们一起fly~(上云篇)

为什么要上云?我需要上云吗(基础篇)

让我们一起fly~(上云篇)

云应该如何运维呢?(Hyper-V篇)

现代运维技术

现代运维技术

服务器集中管理(DCIM篇)

现代运维技术

服务器集中监控(SNMP篇)

现代运维技术

大量云如何管理(云管系统)

现代运维技术

别忘了最终目的(财务系统篇)