问题
在我们之前的《基于texlive定制chemfig化学式转换Python服务镜像》定制的pdflatex在线转换的镜像已经运行在生产环境了,但是最近总有人反馈服务跑着跑着就慢了,本来一秒内能出结果的数据,居然用了十几秒,遂受不了了
分析与定位
pdflatex执行了texlive的转换命令,此命令执行cpu单核瞬间会拉致近100%,然后在瞬间恢复,之前测试过相对复杂的表达式,执行时间应当都会在2秒内结束,于是通过kubectl进入pod里面看下情况,ps发现有些驻留的pdflatex进程,有许多已经运行了几小时到几天不等变成僵尸进程了,kill之后服务立马恢复,但是运行几天又会出现,texlive咱也不熟,手动调用也复现不了,决定迂回解决。
方案有二:
1、设置命令超时时间,过期杀死
2、定时轮询pdflatex进程,超过30秒直接干掉
容器环境下是基于alpine linux,超时用的subprocess.Popen方式实现,但是open里的cmd就是不执行,永远timeout,不知咋回事,时间紧,问题严重本次解决是同构第二种方式实现的
解决
每一分钟检查一下进程列表,获取pdflatex相关进程,判断其运行时间,超过30秒则直接kill,代码如下:
import timeimport psutilimport schedimport loggingschedule = sched.scheduler(time.time, time.sleep)logging.basicConfig(level=logging.DEBUG,filename=\'schedule.log\',filemode=\'a\',format=\'%(asctime)s - %(pathname)s[line:%(lineno)d] - %(levelname)s: %(message)s\')def process_checker(inc):currentTime = time.time()logging.info("pdflatex进程检查……")pids = psutil.pids()for pid in pids:p = psutil.Process(pid)if p.name().find("pdflatex") > -1:print(p.create_time())p.create_time()second = currentTime - p.create_time()if second > 30:logging.info("进程运行超时:" + str(second) + "秒,关闭进程,进程名称:" + p.name())p.terminate()else:logging.info("进程运行时间:" + str(second) + "秒,进程名称:" + p.name())schedule.enter(inc, 0, process_checker, (inc,))def timerRunner(inc=60):schedule.enter(0, 0, process_checker, (inc,))schedule.run()timerRunner(60)if __name__ == \'__main__\':print("启动进程清理任务")
修改启动脚本,把这个schedule一起启动即可