0 引言
近年来,由于系统安全、运行效率以及全寿命周期费用等多方面的需求,我国复杂装备维护保障部门已经在装备维修管理方面有了长足的进步。在实施保障服务过程中,计算机管理信息系统都积累了大量的、以不同形式存储的数据资料。由于这些资料十分繁杂,要从中发现有价值的信息或知识,预测装备运行故障率,为维修决策提供数据支持,是非常艰巨的任务。
贝叶斯网络[1]作为一种直观、高效、可靠的数据挖掘分类预测工具,在不确定性研究和应用领域一直得到极大的重视。Friedman等人[2]在比较了朴素贝叶斯分类器 (nave-Bayes, NB) 和无监督贝叶斯网络分类器 (general Bayesian network, GBN) 分类能力及模型复杂度的基础上,提出了一种新型的树型朴素贝叶斯分类器 (tree augmented nave-Bayes, TAN),通过与决策树C4.5比较,证明可以取得较好的分类效果。Cheng等人[3]提出了一种基于条件互信息的贝叶斯网络学习方法并应用于分类器的构建,实验结果证明其建立的贝叶斯网络朴素贝叶斯分类器 (BN augmented nave-Bayes, BAN) 和GBN能够达到很好的分类精度。Madden[4]提出了一种全新的部分贝叶斯网络 (partial Bayesian network, PBN) 结构,并详细描述了网络的构建规则。PBN以分类节点为核心,直接搜索其马尔可夫覆盖(Markov blanket, MB)节点并加入网络,与其他贝叶斯网络分类器的比较证明其在某些领域能够取得更好的分类效果。但是,由于故障数据集的多样性,研究人员往往需要针对实际案例和数据集进行具体分析才能找到最合适的模型和建模方法。Baesens等人[5]就利用NB、TAN、GBN、Multinet等多种贝叶斯网络分类算法来预测客户消费生命周期内,长期客户的消费趋势坡度,即后续购买欲望的概率,通过与C4.5、LDA、QDA等传统分类算法的比较,表明了GBN最能满足实际预测的要求。
1 贝叶斯网络分类器及建模
应用贝叶斯网络分类器进行分类主要分成两阶段:第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和概率分布参数学习;第二阶段是贝叶斯网络分类器的推理,即计算类节点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。
1.1 常用贝叶斯分类网络模型
1)NB分类器
NB分类器[6]是最简单的一种情形,如图1所示。其假定各特征变量X在给定目标变量C时,是相对独立的,即P(X1=x1,…,Xn=xn|C=cl)=∏ni=1P(Xi=xi|C=cl),而通过机器学习可以很容易得到各特征变量的条件概率分布P(Xi=xi|C=cl)。因此,当输入一组特征变量观测值(X1=x1,…,Xn=xn)时,可以利用贝叶斯公式计算目标变量的后验分布,实现目标变量分类。其计算公式为
P(C=cl|X1=x1,…,Xn=xn)=P(C=cl)P(X1=x1,…,Xn=xn|C=cl)/P(X1=x1,…,Xn=xn)=P(C=cl)∏ni=1P(Xi=xi|C=cl)/P(X1=x1,…,Xn=xn)(1)
虽然各变量条件独立的假设在许多应用领域未必能完全满足,但这种简化的贝叶斯分类器在许多实际应用中往往得到了较好的分类精度。
2)TAN分类器
TAN分类器[2]对NB分类器进行了扩展,通过计算特征变量两两之间的条件互信息I(Xi;Xj|C),描述了当给定C时,Xj向Xi提供的信息量。其中条件互信息的定义如下:
I(Xi;Xj|C)=∑xi,xj,clP(Xi=xi,Xj=xj,C=cl)×
log(P(Xi=xi,Xj=xj|C=cl)/(P(Xi=xi|C=cl)P(Xj=xj|C=cl)))(2)
TAN利用特征变量间的互信息,松弛了各特征变量条件独立假设,允许特征变量所对应的节点构成一棵树,能够得到更好的分类效果,如图1所示。
3)GBN分类器
GBN是一种无监督的贝叶斯网络分类器,与前两类贝叶斯网络分类器有较大区别。在网络构建过程中,前两类分类器中均将目标变量作为一个特殊的节点,即是各特征节点的父节点。而GBN中将目标变量作为一普通节点,利用通用的贝叶斯网络学习算法建立关于所有变量的贝叶斯网络。本文使用EQ算法[7]在可行的贝叶斯网络等价类结构中搜索最优结构,并采用最短描述长度(minimum description length, MDL)评分函数[8]评价候选贝叶斯网络表述及还原原始数据的能力。在评分函数DL(BN,D)=DLgraph(G)+DLtable(Θ)+DLdata(D)中,DLgraph(G)表示描述一个待评分贝叶斯网络结构G所需的字符数,DLtable(Θ)代表了描述此贝叶斯网络节点间条件概率分布Θ的存储量,DLdata(D)表示利用贝叶斯网络存储训练数据集D所需位数。可以看到,前两项代表了所得贝叶斯网络的复杂度,结构越复杂存储容量越大;后一项衡量了贝叶斯网络的准确度,而MDL在两者之间进行了很好的平衡,避免了过度拟合。最后,以目标节点为中心搜索最优贝叶斯网络的MB节点如图1所示。在给定MB时,目标节点条件独立于MB之外的所有节点,大大降低了贝叶斯网络分类器模型的复杂度。
1.2 基于贝叶斯网络的产品故障分类模型建模方法
目前在产品故障预测领域有两种主要的预测技术。应用最广的、效果最明显的一种是利用当前产品状态感应参数以及现阶段运行任务剖面来预测部件的有效剩余寿命;第二种方法是利用产品状态参数和任务剖面来预测产品在规定的运行时间段(如下一个检查周期)内,无故障运行的概率[9]。在本文中,笔者更关注某一产品家族中的某种配置产品投入到不同市场时,有效预测其运行故障率等级及分布,以便于为维修备件供应管理、维修人员配置、维修策略决策及产品运行能力优化提供有效的理论支持。基于贝叶斯网络的产品故障分类模型的基本建模步骤如下:
a)对于生产企业的整个产品家族,确定其中第i系列的产品为故障率分类研究对象Pi(i=1,2,…)。
b)针对每个要分析的产品系列Pi,从历史故障数据库中搜索与产品系列代码相匹配的故障信息(包括产品配置使用状态信息集合C,故障率等级R等参数),搜索到的故障信息标记为Dij=(Cij,Rij),j=1,2,…,n。
c)为了避免过度拟合,使模型对新数据有较好的分类精度,把Di按照2/3和1/3的比例随机抽样,分别形成训练故障数据集Ditrain和测试故障数据集Ditest。
d)基于训练故障数据集Ditrain,采用上述NB、TAN和GBN等算法构建贝叶斯网络结构G并计算先验条件概率参数Θ。
e)利用测试故障数据集Ditest验证并评价所构建的各种贝叶斯网络分类器的准确度及可靠度。
f)选出分类效果最好的模型作为最终产品故障率等级分类模型,输入新的产品配置使用状态信息集合Cnew,利用模型计算其目标节点的后验概率分布即可得到其故障率等级Rnew。
2 实例研究
2.1 实例数据
本文的研究案例数据来自于法国某装备制造企业,记录了在某一个调查周期内,同一系列装备在各种配置及使用环境下的故障率级别。其目标变量是故障率类别,特征变量包括用户国家、产品类型、使用类别、空调系统、动力装置和变速箱配置,各变量的具体取值及描述如表1所示。出于商业秘密缘故,某些特征变量的取值通过特殊映射方式作了相应替换,但未改变其实际分布。最后,为了进行有效验证,根据建模步骤c)进一步将所有的故障数据随机分割,其2/3作为训练数据集,剩下的1/3作为测试数据集用于验证最终分类模型的分类效果。表2列出了故障数据集的特性。
2.2 评价标准
目前,评价分类模型最有效的方式就是混淆矩阵。混淆矩阵的定义如下:P=[pij](i,j=1,2,…,n)。其中:n表示目标变量的类别数;pij表示分类器将属于i类的对象划入j类的记录数,当i=j时,pij表示划分正确的记录数,模型总体分类精度为total=(∑ni=1pii)/(∑ni=1∑nj=1pij)。另外,本文还定义准确度Pij=pij/∑nx=1pix(i,j=1,2,…,n)和可靠度Rij=pij/∑ny=1pyj(i,j=1,2,…,n)两个参数来详细描述灵敏度(true-positive rate)、特异度(true-negative rate)、误判率(false-positive rate)和漏判率(false-negative rate)分布。
针对本实例数据目标变量的二分性,本文引入ROC(receiver operating characteristic)曲线用于分类效果的分析与评价。其基本原理是通过目标变量判别阈值的移动,获得多对灵敏度和误判率取值。然后以灵敏度为纵轴,以误判率为横轴,连接各点绘制曲线并计算曲线下的面积。将绘成的曲线与斜45°的直线对比,若差不多重合,说明特征变量对目标变量的判断价值很差;若越远离斜45°的直线即曲线下的面积越大,说明特征变量对目标变量的判断价值越好,即根据特征量可以较为正确地判断目标变量[10]。
2.3 结果分析
利用BayesiaLab [11]仿真软件,按照1.2节所示的建模方法建立了基于NB、CBN和GBN算法的分类器模型,并测试了其分类结果。为了与其他通用分类器对比,本文也利用同样的数据集建立了决策树C4.5并测试其分类效果。所有贝叶斯分类器的网络结构模型如图2所示,分类结果混淆矩阵列表如表3所示,贝叶斯分类器的ROC曲线如图3所示。
从上述结果可以看到,表现最差的是NB网络,分类精度只有70.89%,这是因为某些特征变量之间存在强烈的关联关系,而NB忽略了这些关联;C4.5表现一般,与其他的贝叶斯网络分类器有一定差距;GBN模型结构最简单,但是忽略了太多的特征变量,性能也只能算中等;而TAN由于考虑了变量间的关联,能取得最好的分类结果,总体分类精度达到81.01%,其ROC曲线下面积也与表现最好的GBN相差不大。
3 结束语
针对装备在不同配置及使用环境条件下运行的故障率级别预测问题,本文比较分析了NB、TAN和GBN等贝叶斯网络产品故障率分类模型。实例分析结果证明TAN与其他的贝叶斯网络分类器及传统的决策树C4.5分类器相比,在提高分类准确度的同时有效降低了两类错误率,能够满足维修备件供应管理、维修人员配置、维修策略决策及产品运行能力优化等后续工作需求。
参考文献:
[1]JENSEN F V. An introduction to Bayesian networks [M]. London: UCL Press, 1996.
[2]FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers [J]. Machine Learning, 1997,29:131-163.
[3]CHENG Jie, GREINER R. Comparing Bayesian network classifiers[C]//Proc of the 15th Annual Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 1999:101-108.
[4]MADDEN M G. A new Bayesian network structure for classification tasks[C]//Proc of the 13th Irish International Conference on Artificial Intelligence and Cognitive Science. London: Springer-Verlag, 2002: 203-208.
[5]BAESENS B, VERSTRAETEN G, POEL D van den, et al. Baye-sian network classifiers for identifying the slope of the customer lifecycle of long-life customers [J]. European Journal of Operational Research, 2004, 156(2):508-523.
[6]DUDA R O, HART P E. Pattern classification and scene analysis [M]. New York:Wiley, 1973.
[7]MUNTEANU P, BENDOU M. The EQ framework for learning equivalence classes of Bayesian networks[C]//Proc of IEEE International Conference on Data Mining. Washington DC: IEEE Computer Society, 2001: 417-424.
[8]FRIEDMAN N, GOLDSZMIDT M. Learning Bayesian networks with local structure[C]//Proc of the 12th Annual Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 1996: 252-262.
[9]JARDINE A K S, LIN D, BANJEVIC D. A review on machinery diagnostics and prognostics implementing condition-based maintenance [J]. Mechanical Systems and Signal Processing, 2006,20(7):1483-1510.
[10]BAMBER D. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph [J]. Journal of Mathematical Psychology, 1975,12: 387-415.
[11]Bayesia Limited Company. BayesiaLab academic edition[BP/OL]. (2008) [2008-12-25]. htttp://www.bayesia.com.