千万数之中,千万年之中,时间无涯的荒野里,偏偏要找到你。
当前,各种软硬件系统越来越庞大和先进,但是系统的异常还是时不时地在发生。很多外在、内在的因素导致了异常的出现,如流量的突涨、系统一个组件的失效、一次运维误操作、一个代码上线的引发的未知漏洞等等。运维工程师需要对从对系统运行的各项数据指标的采集、监控,查看系统的状态,并且需要及时发现可能存在的异常和对相关原因作出判断。当系统越来越庞大时,我们不可能全部依靠人工来进行这些工作。当异常发生时,如何第一时间自动感知?如何对当前的异常做一个初步的定位?由于各种指标的监控数据往往以时间序列的形式展现,这就涉及到时间序列的异常检测问题,而在大数据时代,运用相关的数据挖掘和机器学习相关工具做到异常发现和诊断越来越智能化,是运维平台开发者一个重要的工作。 Continue reading “时序数据的异常检测——大数据运维应用”