聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

系统可靠性怎么做?

2020-05-24 23:23 浏览: 306 次 我要评论(0 条) 字号:

一个复杂单机系统的可靠性如何做?抛去各种理论不谈,最常用的手段之一就是采用Watchdog/Monitor机制来进行实时监控。如果是多机系统,那么通常的整体可靠性做法就是HA了。

对于单个Watchdog机制而言,可以参考Android的Watchdog设计。
Android中的软件Watchdog:https://blog.csdn.net/jinzhuojun/article/details/46552397
Android SystemServer中WatchDog机制介绍:https://www.jianshu.com/p/5e8c0cb1a58e
Android SSWD(system server Watchdog)工作原理:https://blog.csdn.net/abm1993/article/details/82107801

如果不清楚Watchdog是什么,这里有一点定义引用,具体可以参考链接:

Watchdog的中文的“看门狗”,有保护的意思。最早引入Watchdog是在单片机系统中,由于单片机的工作环境容易受到外界磁场的干扰,导致程序“跑飞”,造成整个系统无法正常工作,因此,引入了一个“看门狗”,对单片机的运行状态进行实时监测,针对运行故障做一些保护处理,譬如让系统重启。这种Watchdog属于硬件层面,必须有硬件电路的支持。
Linux也引入了Watchdog,在Linux内核下,当Watchdog启动后,便设定了一个定时器,如果在超时时间内没有对/dev/Watchdog进行写操作,则会导致系统重启。通过定时器实现的Watchdog属于软件层面。
Android设计了一个软件层面Watchdog,用于保护一些重要的系统服务,当出现故障时,通常会让Android系统重启。由于这种机制的存在,就经常会出现一些system_server进程被Watchdog杀掉而发生手机重启的问题。

Watchdog机制以及问题分析:https://duanqz.github.io/2015-10-12-Watchdog-Analysis

不管是单机还是多机,都有很多开源,比如Collectd、Icinga2、Netdata、TDGK、Zabbix等监控系统,Linux-HA、Keepalived、Pacemaker、Corosync、Zookeeper等集群组件。这可以根据具体业务情况,做进一步的判断与选择。

Over~

参考:
1,https://en.wikipedia.org/wiki/Fault_detection_and_isolation
2,https://en.wikipedia.org/wiki/Watchdog_timer
3,https://www.usenix.org/conference/nsdi20/presentation/lou
4,https://zhuanlan.zhihu.com/p/113707910
5,https://www.silabs.com/community/blog.entry.html/2019/06/18/kernel_201_implementingasoftwarewatchdog-37UJ



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复