集群 vs 负载均衡 vs 分布式

2020/07/26

在“高并发、海量数据、分布式、NoSql、云计算……”概念满天飞的年代,相信不少朋友都听说过甚至常与人提起“集群、负载均衡、分布式”等,但不是所有人都有机会真正接触到这些技术,也不是所有人都真正理解了这些“听起来很牛的”技术名词。

集群(Cluster)

所谓集群是指一组独立的计算机系统构成的一个松耦合的多处理器系统,它们之间通过网络实现进程间的通信。通俗一点来说,就是让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份。

负载均衡(Load Balance)

网络的负载均衡是一种动态均衡技术,常见的实现方式是通过一些工具实时地分析数据包,掌握网络中的数据流量状况,把任务合理均衡地分配出去。这种技术基于现有网络结构,提供了一种扩展服务器带宽和增加服务器吞吐量的廉价有效的方法,加强了网络数据处理能力,提高了网络的灵活性和可用性。

日常生活中到处都能看到“负载均衡”,一个超市的收营员高峰期只能服务 10 位顾客,当做活动时有 20 位顾客需要服务的话可能就会排长队,这样购物体验将会很差(就像客户抱怨系统/网站访问太慢)。最简单的办法就是再招个营业员,重新开通一个出口。负载均衡的核心就是“分摊压力”。

集群分类

负载均衡集群(Load Balance Cluster)

把负载压力根据某种算法合理分配到集群中的每一台计算机上,以减轻主服务器的压力,降低对主服务器的硬件和软件要求。

一共有四兄弟开裁缝铺,生意特别多,一个人做不下来,老是延误工期,于是四个兄弟商量:老大接订单, 三个兄弟来干活。客户多起来之后,老大根据一定的原则(policy)根据三兄弟手上的工作量来分派新任务。

高可靠性集群(High Availability Cluster)

利用集群管理软件,当主服务器故障时,备份服务器能够自动接管主服务器的工作,并及时切换过去,以实现对用户的不间断服务。

两兄弟开早餐铺,生意不大,但是每天早上 7 点到 9 点之间客户很多并且不能中断。为了保证 2 个小时内这个早餐铺能够保证持续提供服务,两兄弟商量几个方法:

  • 方法一:平时老大做生意,老二这个时间段在家等候,一旦老大无法做生意了,老二就出来顶上,这个叫做 Active/Standby(双机热备)。

  • 方法二:平时老大做生意,老二这个时候就在旁边帮工,一旦老大无法做生意,老二就马上顶上,这个叫做 Active/Passive(双机双工)。

  • 方法三:平时老大卖包子,老二也在旁边卖豆浆,老大有问题,老二就又卖包子,又卖豆浆,老二不行了,老大就又卖包子,又卖豆浆。这个叫做 Active/Active(双机互备)。

包子叫做 application package,互相照应叫做 heartbeat,顶替对方工作叫做 failover/takeover。如果两个兄弟突然都瞎了聋了,不知道现在对方到底是否正在干活,都认为自己要顶对方的工作,这个叫做 brain-split,然后需要第三者,比如他们的老爹来解决问题,这个叫做 tier-breaker,或者让他们两个的媳妇过来拉走其中一个,这个叫做 fency。

高性能计算集群(high Performance Computing Cluster)

即充分利用集群中的每一台计算机的资源,实现复杂运算的并行处理,通常用于科学计算领域,比如基因分析、化学分析等。

10 个兄弟一起做手工家具生意,一个客户来找他们的老爹要求做一套非常复杂的仿古家具,一个人做也可以做,不过要做很久很久,为了 1 个星期就交出这一套家具,10 个兄弟决定一起做。

老爹把这套家具的不同部分分开交给儿子们作,然后每个儿子都在做木制家具的加工,最后拼在一起叫货。

老爹是 scheduler 任务调度器,儿子们是 compute node,他们做的工作叫做作业。

分布式(Distributed)

集群:同一个业务,部署在多个服务器上。分布式:一个业务分拆成多个子业务,或者本身就是不同的业务,部署在不同的服务器上。

参考

http://server.it168.com/a2018/0530/3206/000003206114.shtml

Post Directory