Nginx生产环境平滑升级

一.背景

最近遇到一个比较尴尬而又实际的问题,那就是我们生产环境使用的Nginx是Centos6的老古董。业务需求需要加载Nginx的一个模块来实现,但是版本太老了,需要Nginx1.18之后才能支持,而我们的是Nginx1.12。 那升级Nginx是我们要做的事情。但是在生产环境你要考虑的东西很多,不像测试服,Nginx停掉服务,重新编译新的版本再启动。 我们线上的服务需要不间断地提供服务,否则会对业务产生经济损失. 那有什么方案能平滑升级Nginx版本呢?

二.升级方案

其实官方早就针对Nginx平滑升级做足了功夫,基本原理就是,启动新的Nginx(master+worker)进程,之后给旧的master进程发送-USER2指令,这样就能同时让新版和旧版本进程同时接收处理请求。之后我们再发送-WINCH给旧进程,让它停止工作服务(关闭所有旧worker进程,但是旧的master进程没关,防止后面你遇到问题回滚). 如果确认新Nginx没问题,那么再手动Kill旧的master进程即可完成平滑升级.

三.操作流程

1.查看-旧版本【nginx 1.12.2】进程信息

1
2
3
4
5
6
7
[root@k8s-master nginx-1.12.2]# ps aux | grep 'nginx' | grep -v '7月' | grep -v 'grep'

root     15180  0.0  0.0  46136   920 ?        Ss   17:22   0:00 nginx: master process ./nginx-1.12.2/sbin/nginx

nobody   15181  0.0  0.1  46584  4344 ?        S    17:22   0:00 nginx: worker process

主要进程pid:  15180  worker进程15181

2. nginx -V查看旧版本nginx的编译参数

[root@k8s-master nginx-1.12.2]# nginx-1.12.2/sbin/nginx.old.1.12 -V

1
2
3
4
5
6
7
8
9
10
11
12
13
nginx version: nginx/1.12.2

built by gcc 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC)

built with OpenSSL 1.0.2k-fips  26 Jan 2017

TLS SNI support enabled

configure arguments: --prefix=nginx-1.12.2 --with-pcre=/root/nginx-test/pcre-8.45/ --with-http_stub_status_module --with-http_gzip_static_module --with-http_ssl_module --with-stream

[root@k8s-master nginx-1.12.2]#

如果make或者./configure报错,可以尝试安装:  yum install -y gcc-c++

3.备份旧版本二进制nginx程序, mv nginx nginx.old

1
  mv nginx nginx.old

4.此时我们下载【nginx1.20.2】新版本重新编译,按照旧版本的编译参数(或者自己新增编译模块)

5.拷贝新生成的二进制nginx, 移动到之前旧版本的nginx路径覆盖.

1
2
3
4
5
   ./configure --prefix=/usr/local/ --with-stream  xxxx[模块列表]

   make

   make install

6.发送nginx -USR2 15180(旧版nginx主进程)进行替换,此时存在4个进程. 2个旧版nginx进程 2个新版nginx进程

此时请求经过测试是负载均衡到这2个master上.

请求2次,第一次负载到新的master,第二次负载到旧的master.

7.确认升级成功,-WINCH 信号 停止旧版master接收新的请求(此时旧版本nginx master进程没死,只是停止接收新的请求)

script
1
kill -winch 15180

旧版nginx只剩下master进程, 子进程不存在了.

此时多次访问URL, 不会出现负载均衡的情况了.

没有再出现hello world

8.若要回退版本也很简单,发送 kill -HUP 15180(旧nginx master进程)即可

此时旧版和新版nginx都在负载均衡. 把新版本nginx master kill掉即可.

此时新版nginx已经kill -QUIT 即可.