LinkedIn开源Cruise Control:一个Kafka集群自动化运维新利器
Kafka近年来日渐流行,LinkedIn的1800台Kafka服务器每天处理2万亿个消息。虽说Kafka运行得十分稳定,但要大规模运行Kafka,在运维方面仍然面临巨大的挑战。每天都会有broker崩溃,导致集群工作负载不均衡。SRE团队需要花费大量的时间和精力来重分配分区,以便让集群重新恢复均衡。 自动化因此变得十分重要,这也就是为什么我们要开发Cruise Control:持续监控Kafk....

【教程免费下载】Linux集群和自动化运维
前言 为什么要写这本书 笔者从事系统运维和网站架构设计的工作已有10多年,现在在一家外企担任云平台架构师。云计算是现在的主流技术,未来也有很好的发展趋势,云计算的流行对于传统的运维知识体系来说,其实也造成了冲击,有很多读者经常向笔者咨询工作中的困惑,比如从事系统运维工作3~5年后就不知道该如何继续学习和规划自己的职业生涯了。因此笔者想通过此书,跟大家分享一下自己的工作经验和心得(包括传统运维...
Linux集群和自动化维3.8 小结
3.8 小结 Fabric作为Python开发的轻量级运维工具,小块头却有大智慧,熟练掌握其用法能够解决工作中的很多自动 化运维需求,这应该也是它受到运维人员和开发人青睐的原因。大家可以通过在开发环境和线上环境的应用 示例,熟悉掌握相关用法,然后将其应用于自己的系统自动化运维环境。
Linux集群和自动化维3.7.2 线上环境中的Fabric应用实例
3.7.2 线上环境中的Fabric应用实例 笔者线上的核心业务机器统一都是AWS EC2主机,机器数量较多,每个数据中心都部署了Fabric跳板机(物理拓扑图可参考图3-3),系统为Amazon Linux,内核版本为3.14.34-27.48.amzn1.x86_64,Python版本为Python 2.6.9。 如果公司项目组核心开发人员离职,线上机器就都要更改密钥,由于密钥一般是以组的.....
Linux集群和自动化维3.6.3 Fabric的核心API
3.6.3 Fabric的核心API Fabric的核心API主要有7类:带颜色的输出类(color output)、上下文管理类(context managers)、装饰器类(decorators)、网络类(network)、操作类(operations)、任务类(tasks)、工具类(utils)。 Fabric提供了一组操作简单但功能强大的fabric.api命令集,简单地调用这些API.....
Linux集群和自动化维3.6 轻量级自动化运维工具Fabric介绍
3.6 轻量级自动化运维工具Fabric介绍 笔者公司目前的数据中心采用的是分布式部署方案,在全球多地都有数据中心。数据中心采用的是AWS EC2机器,在核心的数据中心里,EC2机器的数量比较多,基本上每个数据中心都在运行着几百台AWS EC2机器,而且业务繁忙的时候,会通过AWS AMI(Amazon系统映像)直接上线几十台相同业务的EC2机器,它们的机器类型、系统应用和配置文件基本上都是一.....
Linux集群和自动化维3.3 Python的版本说明
3.3 Python的版本说明 关于Python的版本需要重点说明下,Python的2.x版本和3.x版本的差异还是很大的,语法上也有很多是完全不一样的,这里以线上环境说明。在线上环境中,暂时还是只用Python 2.7版本,具体原因如下: 由于历史原因,笔者公司业务系统的Python代码是基于Python 2.7版本开发的,如果向Python3.x版本移植的话工作量太大,而且不能保证系统的...
Linux集群和自动化维2.6.5 自动化类脚本
2.6.5 自动化类脚本 1.批量生成账户脚本 在内网开发环境中,有时需要为开发组的同事批量生成账户,如果手动添加的话会非常麻烦,这时可以写一段Shell脚本来自动完成这项工作。在首次登录时密码均是统一的,在移交给开发人员使用时让他们自行更改即可,脚本代码如下(此脚本在CentOS 5.8 / 6.4 x86_64下均已测试通过): #!/bin/bash #此脚本应用于开发环境下批量生成用...
Linux集群和自动化维2.6.4 开发类脚本
2.6.4 开发类脚本 业务需求在不断地变化,有时候互联网上的开源方案并不能全部解决,这个时候就需要自己写一些开发类的脚本来满足工作中的需求了,虽然很多时候脚本都可以独立运行,但笔者的做法还是尽量将其return结果写成Nagios能够识别的格式,以便配合Nagios发送报警邮件和信息。 1.监测redis是否正常运行 笔者接触的线上NoSQL业务主要是redis数据库,多用于处理大量数据的高.....
Linux集群和自动化维2.6.3 监控类脚本
2.6.3 监控类脚本 在生产环境下,服务器的稳定情况会直接影响公司的生意和信誉,可见其有多重要。所以,我们需要即时掌握服务器的状态,我们一般会在机房部署Nagios-Server作为监控程序,然后用Shell和Python根据业务需求开发监控插件,实时监控线上业务。 1. Nginx负载均衡服务器上监控Nginx进程的脚本 由于笔者公司电子商务业务网站前端的Load Balance用到了Ng.....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
开发与运维
集结各类场景实战经验,助你开发运维畅行无忧
+关注