公司的微信公众号项目,架构是使用了nginx负载均衡,随着几次的推广活动,用户从原来的1万增长到了现在的3万,在这个时候问题就出现了,每次推广活动或者推送图文消息,就会出现崩溃的情况,持续半个小时。这个问题很严重,导致流失了很多用户。
一开始的时候我考虑是数据库的问题,因为平时数据库的查询速度就比较慢,并且负载均衡分发到两台服务器都是用同一个数据库,数据库出了问题,合情合理。但是无奈把数据库迁移到另外一台服务器之后,查询速度并没有什么改善。静下心来反思自己先入为主的观念可能影响了判断。然后看到微信公众号的告警排查指南。说有可能是nginx的问题。于是决定检查一下nginx的错误日志。果然在推广时间段内查找到大量的Too many open files日志。
找到问题那就好解决了。百度一下。在下面链接找到了解决方法 (这样引用作者不会告我把) 增大linux单线程可打开最大文件句柄。,并且顺带修改一下nginx的最大链接数。
问题原因。linux默认单线程打开的最大文件数不能超过1024。而nginx的实现机制是单线程轮询机制,也就是说,虽然很多链接,但是其实是在一个线程里面运行得。
我把原因告知技术总监,想让他协助我修改linux配置,因为服务器是多项目共用的,无奈他说以前他遇过这个问题,交给他就行了。又没有了show time~~