扁鹊三兄弟的启示,保证系统稳定的秘诀

一、稳定性的重要性

1. 公司收益的角度

        从公司收益的视角审视,系统不稳定可能会引发直接损失。例如,当系统突然出现故障导致交易中断时,可能造成交易款项的紊乱、资金的滞留或损失,这不但会阻碍当前交易的顺利完成,还可能诱发一系列财务纠纷与赔偿事宜。同时,订单损失亦不容小觑。系统的不稳定会导致客户下单失败、订单处理延迟或出错,促使客户取消订单,进而影响公司的业务量。长此以往,必将对公司的盈利能力和发展前景形成沉重打击。

 

2. 用户体验的角度

        从用户体验的角度出发,系统不稳定可能引发热搜,带来社会舆论的巨大压力。如今社交媒体发达,用户在遭遇系统故障时极易在网络上表达不满,引发广泛的关注和讨论。这不仅会损害公司的品牌形象,还可能导致潜在客户对公司的产品或服务产生疑虑。此外,用户对系统的信任感会大幅降低,他们会对公司的技术实力和服务质量产生质疑。这种不稳定还会直接影响用户的使用,比如页面加载缓慢、功能无法正常使用、数据丢失等问题,都会令用户感到沮丧和不满,进而降低用户的忠诚度和使用频率。

 

二、故障的种类

        常见的系统故障种类多样,涵盖变更类、容量类、依赖类、固件类和安全类等。

1. 变更类故障

变更类故障通常是由于系统更新、配置更改或软件升级过程中出现的错误导致的。比如,在更新系统版本时,新的代码可能与原有的系统架构不兼容,或者配置参数设置不当,从而引发系统功能异常或性能下降。

 

2. 容量类故障

        容量类故障往往是因为系统无法承受预期的负载而产生的。随着业务的增长,如果系统没有及时进行扩容或优化,当访问量突然大幅增加时,系统可能会出现响应迟缓、服务中断甚至崩溃的情况。

 

3. 依赖类故障

        依赖类故障则是由于外部依赖的服务或组件出现问题而影响到整个系统的正常运行。例如,系统依赖的第三方接口出现故障、网络延迟过高或者外部数据源不可用,都可能导致系统的部分或全部功能无法正常使用。

 

4. 固件类故障

        固件类故障涉及硬件设备的固件问题,比如硬件驱动程序的错误、固件版本过旧或存在漏洞,可能导致硬件设备工作异常,进而影响系统的稳定性。

 

5. 安全类故障

        安全类故障包括黑客攻击、数据泄露、恶意软件感染等安全事件。这些问题不仅会导致系统瘫痪,还可能造成用户数据的丢失和泄露,给公司和用户带来巨大的损失。

 

三、系统可用性指标

        系统可用性可以通过特定的指标来精确衡量,其中一个重要的公式为:可用性 = MTTR / (MTTF + MTTR) 。在这个公式中,分母是 MTTF(Mean Time To Failure,平均故障间隔时间)加上 MTTR(Mean Time To Repair,平均修复时间),分子是 MTTR。

        以一个具体的例子来说,如果一个系统平均每运行 60 分钟就会出现一次故障,那么 MTTF 就是 60 分钟。而每次修复故障需要 10 分钟,那 MTTR 就是 10 分钟。根据上述公式,该系统的可用性约为 14.29% 。

        此外,常提及的“N 个 9”也是衡量系统可用性的重要指标。

  • 3 个 9:99.9%的可用性,意味着(1 - 99.9%)× 365 × 24 = 8.76 小时,即系统每年的停机时间不得超过 8.76 小时。

  • 4 个 9:99.99%的可用性,(1 - 99.99%)× 365 × 24 = 0.876 小时 = 52.6 分钟,表明系统每年的停机时间不能超过 52.6 分钟。

  • 5 个 9:99.999%的可用性,(1 - 99.999%)× 365 × 24 × 60 = 5.26 分钟,意味着系统每年的停机时间不能超过 5.26 分钟。

 

四、如何提升系统稳定性

        在探讨如何提升系统稳定性之前,先为大家分享一则有趣的故事——扁鹊三兄弟的故事。

        魏文王曾问扁鹊:“你们兄弟三人都是医生,谁的医术最高明?”扁鹊回答:“大哥医术最高,二哥其次,我最差。”魏文王感到疑惑,惊讶地问:“那为什么只有你名动天下,他们两个一点名气都没有?” 扁鹊解释道:““我大哥的医术之高,可以防患于未然,一个人的病未起之时,他一望气色便知,然后用药将其调理好,所以天下人都以为他不会治病,他便一点名气都没有。我二哥的能耐,是能治病初起之时,防止别人酿成大病。病人刚开始感冒咳嗽时,他就用药将人治好了,所以我二哥的名气仅止于乡里,被人认为是治小病的医生。我呢,就因为医术最差。所以一定要等到这个人病入膏肓、奄奄一息,然后下虎狼之药,起死回生。所以都以为我的医术最高明,名气传遍诸侯各国。想想看,像我大哥这样治病,人的元气丝毫不伤,我二哥治病,这个人元气稍有破损就补回来了,像我这么治病呢,命是捞回来了,可元气大伤,您说,我们家谁医术明?”

b840e06246bf495ab18e42a23e56e3c5.jpeg

        这个故事与提升系统稳定性存在奇妙的关联,提升系统稳定性的关键举措——事前预防、及时发现、快速恢复,恰好能够与扁鹊三兄弟相对应,且看以下解析。

 

1. 扁鹊大哥——防患于未然,降低故障发生的可能性

b88b67b98fe14ca0a1a7a6fb1e180ad8.webp

        扁鹊大哥在病未发作时就将其消除,我们在提升系统稳定性时,也要向扁鹊大哥学习,全力做好预防与控制工作,将故障发生的可能性扼杀在萌芽中。为此,我们需要做到如下几点。

1.1 研发阶段

1.1.1 隔离

        在系统设计时,确保不同功能之间互不干扰。比如,将核心业务逻辑与非关键的辅助功能进行分离,即使辅助功能出现问题,也不会影响核心业务的正常运行。

 

1.1.2 幂等

        无论重复多少次,结果都应保持一致。例如,在电商系统中,多次提交相同的订单请求,系统都应只处理一次,避免重复下单造成混乱。

 

1.1.3 限流

        当流量过大时,自动拦截部分请求,以保护服务的稳定性和可用性。比如,设定每秒处理的最大请求数,超过限制的请求将被暂时缓存或拒绝。

 

1.1.4 兼容性

        在系统升级或引入新代码时,要确保新旧代码能够和谐共存。例如,在更新数据库结构时,要考虑到对旧数据的兼容处理,确保系统在升级过程中不会丢失或错误处理原有数据。

 

1.2 测试阶段

1.2.1 功能测试

        严格检验新开发的功能是否符合预期。涵盖功能的完整性、准确性、性能等方面,确保新功能在各种场景下都能正常工作。

 

1.22 回归测试

        通过对已有功能的重新测试,确保新代码确保新代码不影响至少不负面影响已有逻辑。

 

1.2.3 兼容性测试

        验证在新功能加入后,系统是否能正常运行。例如,测试新的操作系统版本与应用程序的兼容性。

 

1.2.4 压力测试

        在新功能上线之前,进行压力测试,评估系统是否能够承受预期的业务流量。最好是能把线上实际的流量录制下来,在待上线的代码上进行流量回放。

 

1.3 上线阶段

1.3.1 发布顺序

        明确各个服务的先后发布顺序。某些基础服务必须先上线,其他依赖于它的服务才能正常运行。

 

1.3.2 灰度策略

        逐步让新变化生效,如同让身体逐步适应新的环境或变化。比如,先让一小部分用户使用新功能,收集反馈并进行优化,然后再逐步扩大使用范围,降低问题的影响面。

 

2. 扁鹊二哥——一叶落而知秋,提升故障的发现速度

997a939f26be405d8033e9699f354b9c.jpeg

        扁鹊二哥在病症刚出现时就能迅速治愈,我们也要具备如他一般敏锐的洞察力和快速的反应能力,能够在系统出现小问题时就及时察觉并解决,防止问题进一步恶化。为此,我们需要做到以下几点。

 

2.1 研发环节

2.1.1 关键逻辑添加日志

        在编写代码时添加关键的日志。比如,最基础的对异常捕获后的日志,能够记录下系统出现异常时的具体情况;对下游服务调用的日志,可以追踪服务之间的交互过程;出入参日志,有助于了解数据的输入和输出情况;业务关键流程的日志,能够监控重要业务的执行过程。通过这些丰富的日志信息,一旦出现问题,就能迅速定位到故障点。

 

2.1.2 打点

        系统主动上报数据到监控系统。比如,在电商网站中,实时上报用户的浏览行为、购买行为等数据,通过对这些数据的监控和分析,能够及时发现潜在的问题,如用户购买转化率突然下降、页面浏览时长异常等。

 

2.2 运行环节

2.2.1 监控报警

        配置全面的监控,涵盖系统的各个层面和关键指标,搭配上恰到好处的报警规则,当系统指标超过预设的阈值,如 CPU 使用率过高、内存占用过大、网络延迟增加等,能够及时发出警报通知相关人员,以便迅速采取措施。

 

2.2.2 日常巡检:

        周期性主动探测各种链路是否正常,就像定期对身体进行全面的体检。比如,每天定时检查数据库连接是否正常、网络通信是否稳定、服务器负载是否均衡等,及时发现潜在的问题。

 

2.2.3 数据核对

        上下游系统的单据进行核对,发现单系统内的潜在 bug 。比如,核对订单系统和库存系统之间的数据一致性,确保订单的处理和库存的更新准确无误。

 

3. 扁鹊——动如雷霆,提升故障恢复速度

2b7a08810f734041a39fb374807e9352.webp

        扁鹊在病情严重时能够采取果断措施使其康复,我们在系统出现严重问题时,也要迅速采取有效的恢复措施,使其尽快恢复正常运行。为此我们需要做到如下几点。

 

3.1 研发阶段

3.1.1 工具建设

        针对系统中可能存在的各种问题,预先开发检测或修复的工具,如同家中会常备一些常见疾病的药品一样。例如,开发修复数据库一致性的工具、优化系统性能的工具等,在出现问题时能够迅速使用这些工具进行处理。

 

3.1.2 容灾切换

        在系统设计时,考虑到可能出现的严重问题,提前规划好快速切换流量和设施的方案。比如,建立备份数据库、备用服务器等,在主系统出现故障时能够快速切换,确保服务的连续性。

 

3.1.3 降级开关

        在发生异常情况时,能够灵活地绕开或忽略某些非关键的错误情况,保证系统的核心功能不受影响。例如,在支付系统出现故障时,可以先暂停一些高级支付方式,只保留最基本的支付渠道,确保交易能够继续进行。

 

3.1.4 流控设置

        通过对流量设置合理的上限,保护系统自身不被突然涌入的流量击垮。比如,根据系统的处理能力和资源状况,设定每秒或每分钟能够处理的最大请求数量,当流量超过上限时,进行适当的限流措施,以保证系统的稳定性。

 

3.2 运行阶段

3.2.1 限流

        根据系统的实时运行状况和负载情况,动态调整流量限制策略。比如,当发现系统资源紧张时,进一步收紧流量限制;而当系统资源充足时,适当放宽限制,以提高系统的服务能力。

 

3.2.2 禁用

        当某台机器出现严重问题,可能对整个系统造成更大影响时,直接让其停止提供服务。这样可以迅速隔离问题源,避免问题的扩散。例如,如果某台服务器频繁出现故障或响应异常,立即将其从服务集群中禁用,以保障整体系统的稳定。

 

3.2.3扩容

        当流量持续上涨,现有资源无法满足需求时,快速扩充机器资源来抗住流量压力。比如,通过增加服务器数量、扩展存储容量等方式,提升系统的处理能力。

 

3.2.4 回滚

        当发现线上变更导致了问题时,能够迅速撤销之前的变更操作。因为系统中的变更可能多种多样,每一种变更都需要提前规划好回滚方案,确保在出现问题时能够快速消除影响,恢复到之前稳定的状态。

 

总结

        总之,提升系统稳定性,我们要借鉴扁鹊三兄弟的智慧,像扁鹊大哥一样在事前减少故障数量,像扁鹊二哥一样在问题还小时快速发现,像扁鹊一样在出现问题时迅速恢复。多管齐下,从预防、发现到恢复,全方位保障系统的稳定健康运行。

b641c1d0c3fc4763a8a61a8720a8c855.png

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/775611.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET MVC-razor编写-2-svg中使用js+添加事件监听

环境:win10 效果 初始状态: 鼠标移入某个text(比如KS primer)时,text和连接的线条与箭头都变色: 鼠标移出时回复正常。 如果是移入另一种红色的text(比如Cell Sceening Tag)&…

Using a text embedding model locally with semantic kernel

题意:在本地使用带有语义核(Semantic Kernel)的文本嵌入模型 问题背景: Ive been reading Stephen Toubs blog post about building a simple console-based .NET chat application from the ground up with semantic-kernel. Im…

HexPlane: A Fast Representation for Dynamic Scenes一种动态场景的快速表示方法

Abstract 动态三维场景的建模与再现是三维视觉领域的一个具有挑战性的课题。先前的方法基于 NERF 并依赖于隐式表示这是缓慢的,因为它需要许多 MLP 评估,限制真实世界的应用程序。我们展示了动态三维场景可以明确地表示为六个平面的学习功能&#xff0c…

【重磅】万能模型-直接能换迪丽热巴的模型

万能模型,顾名思义,不用重新训练src,直接可以用的模型,适应大部分原视频脸 模型用法和正常模型一样,但可以跳过训练阶段!直接到合成阶段使用该模型 本模型没有做Xseg,对遮挡过多的画面不会自动适…

信创-系统架构师认证

随着国家对信息技术自主创新的战略重视程度不断提升,信创产业迎来前所未有的发展机遇。未来几年内,信创产业将呈现市场规模扩大、技术创新加速、产业链完善和国产化替代加速的趋势。信创人才培养对于推动产业发展具有重要意义。应加强高校教育、建立人才…

2.4章节python中字符串类型

在Python中,字符串(String)是一种基本的数据类型,用于表示文本信息。字符串可以包含字母、数字、标点符号或任何Unicode字符。Python中的字符串是不可变的,这意味着一旦创建了字符串,就不能更改字符串中的字…

2007年下半年软件设计师【上午题】试题及答案

文章目录 2007年下半年软件设计师上午题--试题2007年下半年软件设计师上午题--答案2007年下半年软件设计师上午题–试题

YOLOV++ 详解 | 网络结构、代码解析、YOLOV 论文阅读、初识 VID

前言 代码地址:https://github.com/YuHengsss/YOLOV 本文网络结构按 YOLOV SwinTiny 绘制,不同的模型主要差异在于 Backbone,VID 相关的部分基本相同。 Predict Input 代码基于 vid_demo。首先会读取视频中的所有帧(只能用短视频…

亚马逊跟卖ERP的自动调价功能,能够简易地批量设置价格规则。

跟卖的智能调价 跟卖智能调价简单说是可以上调,下调就是怎么说?上调就是它根靠根据市场最低的价格情况进行去上调。 然后添加指定条件,到工具栏找到指定条件,点击添加指定条件。 然后选择店铺,比如选择店铺&#xf…

p-tuning算法介绍及其pytorch代码实现

P-tuning介绍 代码实现 import torch from transformers import BertTokenizer, BertForSequenceClassification import matplotlib.pyplot as plt import matplotlib.ticker as tickertokenizer BertTokenizer.from_pretrained(bert-base-chinese) model BertForSequenceCl…

Games101学习笔记 Lecture 15: Ray Tracing 3 (Light Transport Global Illumination)

Lecture 15: Ray Tracing 3 (Light Transport & Global Illumination 一、BRDF 双向反射分布函数定义 二、反射方程 Reflection Equation三、渲染方程1.重写反射方程2.当其他的点反射的radiance作为入射 一、BRDF 双向反射分布函数 定义 计算不同的反射方向上会分布多少能…

竹云实力入选《现代企业零信任网络建设应用指南报告》代表性厂商

2024年7月3日,国内网络安全媒体安全牛正式发布《现代企业零信任网络建设应用指南报告(2024版)》。竹云凭借在零信任领域创新性的产品方案和优异的市场表现,实力入选代表性厂商。 伴随着云计算、AI、大数据等技术的发展,远程办公、业务协同、…

遗漏知识点

什么是RAII? RAII是Resource Acquisition Is Initialization(wiki上面翻译成 “资源获取就是初始化”)的简称,是C语言的一种管理资源、避免泄漏的惯用法。利用的就是C构造的对象最终会被销毁的原则。RAII的做法是使用一个对象&am…

西门子PLC1200--与电脑S7通讯

硬件构成 PLC为西门子1211DCDCDC 电脑上位机用PYTHON编写 二者通讯用网线,通讯协议用S7 PLC上的数据 PLC上的数据是2个uint,在DB1,地址偏移分别是0和2 需要注意的是DB块要关闭优化的块访问,否则是没有偏移地址的 PLC中的数据内…

VCS+Vivado联合仿真BUG

场景: 在vcsvivado联合仿真过程中,对vivado导出的shell脚本修改,修改某些source文件路径,vcs编译时会报Permission Denied。 问题描述 对shell脚本修改如下: 修改仅为注释掉某一行,下面变为source文件新…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【20】认证服务04—SSO单点登录

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【20】认证服务04—SSO单点登录 xxl-sso多系统-单点登录单点登录流程原理图单点登录流程简单实现参考 xxl-sso https://gitee.com/xuxueli0323/xxl-sso xxl-sso是开源的一个单点登录框架 …

交换机基本原理

文章目录 前言一、交换机的转发行为二、交换机的转发原理1.MAC地址表2.交换机初始状态3.学习MAC地址4.ARP协议5.交换机转发数据帧6.目标主机回复 三、华为交换机基本命令1.VRP视图分层2.命令行补全3.命令行帮助4.配置设备名称5.命令等级6.用户界面7.配置console认证8.配置用户界…

Ubuntu系统复制文件到共享文件夹出错

1、问题描述 Ubuntu系统复制文件到共享文件夹时,出现拼接文件时出错:输入/输出错误。 使用cp命令: cp -Rf XXX YYY 也是出错: cp: 写入 xxx 出错: 输入/输出错误 2、查看磁盘空间 查看磁盘空间,显示空间还有剩余…

Day05-组织架构-角色管理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.组织架构-编辑部门-弹出层获取数据2.组织架构-编辑部门-编辑表单校验3.组织架构-编辑部门-确认取消4.组织架构-删除部门5.角色管理-搭建页面结构6.角色管理-获取数…

第一次的pentest show总结

第一次的pentest show总结 前言 开始之前,我特别感谢TryHackMe(英)、HackTheBox(美)、zero-point security(英)、offsec(美)等平台,使我们能够通过网络以线上的方式学习与练习,打破传统线下各地区教育资源差异大的限制,对网络教…