您所在位置: 首页 > 期刊 > 过刊浏览 > 内科学> 《中国老年学杂志》> 2012年11月31卷22期>文章> 文章详情

基于ARIMAX模型的海西州地区高血压月发病率预测

首席医学网      2012年07月22日 14:25:55 Sunday  
 
  加入收藏夹   官方投稿信息

作者:党红刚 马亮亮1     作者单位:1 攀枝花学院计算机学院 (天水师范学院数学与统计学院,甘肃 天水 741001)

【摘要】  目的 探讨ARIMAX模型在时间序列资料中的应用,建立海西州地区高血压月发病率的预测模型。方法 利用时间序列分析方法对海西州地区2001年1月至2007年12月高血压月发病率数据进行了分析。利用主成分分析法分析出了气象因素中对高血压月发病率影响最大的两个因素:月平均气温和月平均气压,并将这两个因素作为引入ARIMA模型中的回归项。经过数据平稳化、模型识别确立了15种ARIMA模型和15种ARIMAX模型,并借助于AIC和SC准则,选出了最佳模型ARIMA(4,1,5和ARIMAX(4,1,5)。最后,对两个模型进行了模型诊断检验,并选出了最优模型ARIMAX(4,1,5),通过模型预测,确保了所建ARIMAX(4,1,5)模型的合理性。结果 与传统的趋势模型和ARIMA模型相比,ARIMAX模型的拟合效果更佳,ARIMAX(4,1,5)模型预测值的动态趋势和实际情况基本一致,整体效果不错,实际值都落入了预测值的可信区间范围,结果比较理想。结论 ARIMAX(4,1,5)模型可作为海西州地区高血压月发病率的预测模型,且通过此模型可帮助了解高血压月发病率的发展趋势,有重点地对高血压进行健康防治工作,有效地降低高血压对人们的危害,保障生活质量。

【关键词】  ARIMA模型;ARIMAX模型;主成分分析;模型识别;残差独立性检验;高血压

 高血压不仅是一个独立的疾病,同时它又作为心脑血管疾病的重要危害因素,导致心、脑、肾等重要器官的损害和相关疾病的发生。最常见的如:脑中风、心肌梗死和肾衰竭。我国成人中高血压病患病率为3%~10%,平均7.8%。在查阅对高血压病因研究的历史文献时就会发现,研究人员已经注意到:①高血压与缺氧存在密切的联系;②高血压与血流变存在密切联系。血脂代谢紊乱是高血压病人当中较为普遍的现象,但是它是伴随高血压一起产生的,而不是病因。高血压的根源是自由基长期泛滥、甚至愈演愈烈的结果。另外,缺氧应该降低所有涉及脂肪代谢的组织的功能,这可能是脂肪代谢紊乱的另一个重要原因。本文拟通过ARIMAX模型对高血压月发病率时间序列分析,以更好地认识和及时预防高血压,从而保障生活质量。

  1 基础数据和统计学方法

  1.1 病历资料的来源

  全部发病资料取自青海海西州第一人民医院。经过核对、补漏,从而保证资料的准确和完整。

  1.2 统计学方法

  运用SPSS11.5整理分析2001年1月至2007年12月海西州地区高血压发病资料,统计出了海西州地区高血压月发病率,通过ARIMAX模型,研究ARIMAX模型在高血压月发病率预测中的应用,探讨海西州地区高血压月发病率的发展趋势和季节性变动规律,了解人群在各个时间段的高血压发病特征,为高血压的防治工作提供一定的数学依据。

  2 理论与模型介绍

  2.1 基本理论

  ARIMAX模型指带回归项的ARIMA模型,又称扩展的ARIMA模型。回归项的引入有利于提高模型的预测效果。引入的回归项一般是与预测对象(即被解释变量)相关程度较高的变量。

  2.2 ARIMA模型

  如果一个回归方程的误差是一个ARMA过程或ARIMA过程,则称此模型为带有ARMA误差的回归模型。该模型的数学表示为yt=Xt-bβ+Nt(1)X为输入序列或解释变量序列,b为滞后参数,如果b为零,则输入序列的效应即时反映在y序列上;如果b大于零,则表示输入序列的效应经过b个时滞后才在序列上体现。β为回归系数或回归系数向量,Nt为系统噪声,如果Nt为ARMA噪声,即Nt=φ-1(β)θ(B)εt,其中εt为白噪声,此模型则称为附加ARMA噪声的回归模型,简称为ARIMAX模型。

  3 ARIMAX模型的应用

  3.1 预测方法的比较与选择

  为了准确预测海西州地区高血压月发病率的发展趋势,使所建模型满足统计方法理论的要求,建模之前,先对传统的趋势模型外推预测法(简称传统法)与BOX-Jenkins的ARIMA模型外推预测法(简称B-J法)进行比较与选择。传统法与B-J法都属于时间序列分析方法,都是通过分析现象(变量)随时间而发展变化的特征,以现象(变量)的历史统计资料建立时间序列模型(或带回归项的时间序列模型)外推预测的方法。

  传统法建模的基本思想是:事物的变化是渐近式而不是跳跃式的,影响事物的过去、现在和将来的因素往往是不变或变化不大的,具有连贯性和类推性,一旦这种稳定性被定量描述出来,就可以从时间序列的过去值预测其将来值;B-J法建模的基本思想是:事物的变化受多种因素的影响,具有很大的随机性,时间序列单个变量值的出现具有不确定性,但整个时间序列的变化却有一定的规律性,除了很少量的情况外,时间序列中按时间先后顺序排列的变量值之间几乎都具有依赖关系或自相关性,这种自相关性表现了事物发展的延续性,它一旦被定量地描述出来,就可以从时间序列的过去值和现在值去预测其将来值。

  B-J法特别适合在辨别时间序列资料的典型特征十分困难和复杂情况下的预测,它往往能提供比传统法较多的信息,理论上也比较完善。这种方法在选择模型时,不必事先确定时间序列资料的典型特征,只需要事先假设一个可能适用的模式,然后可以按照一定程序反复识别改进,以求得一个较满意的模型。对于海西州地区的高血压月发病率数据,运用散点图法和差分法对其进行分析,很难预测高血压月发病率变化的固定模式,即使采用传统法拟合直线或指数曲线等趋势模型,都存在有自相关,预测结果与实际状况差距较大,故选择B-J法拟合ARIMA形式和ARIMAX模型进行预测。

  3.2 主成分分析的应用

  在医学中,影响高血压月发病率的因素有很多种,除了生理因素、心理因素外,还与外界环境因素存在一定的关系。下利用主成分分析法对海西州地区影响高血压月发病率的气象因素(月平均气温、月平均气压、月相对湿度)进行分析,从其中选出对高血压月发病率影响较大的因素。

  为方便期间,将2001年1月到2007年12月之间的月份用t=1,2…,84表示,高血压月发病率用yt表示,月平均气温、月平均气压、月相对湿度分别用xt、zt和ht表示。将xt、zt和ht进行主成分分析,得到主成分分析的统计信息如表1所示。第一主成分xt的特征根为1.391,大于1,它解释了总变异的46.375%;第二主成分的特征根为0.996,接近于1,它解释了总变异的33.191%。前两个主成分的累计贡献率为79.567%,解释了总变异的绝大部分信息,故宜取前两个主成分。

  3.3 模型选择

  根据以上分析,决定以与高血压月发病率最密切相关的气象因素(月平均气温、月平均气压)作为引入ARIMA模型中的回归项。根据海西州地区高血压月发病率原始数据资料,运用Eviews软件进行数据平稳化处理、模型识别,得出了序列yt可以建立的15个ARIMA模型: ARIMAARIMA(1,1,1)、ARIMA(1,1,2)、 ARIMA(1,1,4)、ARIMA(1,1,5)、ARIMA(1,1,8)、ARIMA(2,1,1)、ARIMA(2,1,2)、ARIMA(2,1,4)、ARIMA(2,1,5)、ARIMA(2,1,8)、ARIMA(4,1,1)、ARIMA(4,1,2)、ARIMA(4,1,4)、ARIMA(4,1,5)、ARIMA(4,1,8)和15个相对应的的ARIMAX模型。下借助于信息准则(AIC和SC)对上述模型重新进行模型识别,各模型的评价结果如表2所示。模型和模型的AIC和SC值最小,故为最佳模型。表1 主成分统计信息表表2 各模型不同准则下的评价结果

  3.4 模型建立

  下对序列(y分别建立ARIMA(4,1,5)模型和ARIMAX(4,1,5)模型,根据参数估计值得到所建模型对应的数学表达式分别为:(1+1.400 837β+1.307 166β2+1.283 425β3+0.455 691β4+(1-β)yt=1-0.344 206β+0.485277β2+0.371 184β3+0.819 165β4+0.422 124β5)(2);(1+0.470 266β0.593 777β2+0.622 361β3+0.274 436β4)(1+β)yt+0.002 462(1+β)xt+0.000 057(1+β)zt+(1+0.644 612β+0.259 108β2+0.282 801β3+0.941 441β4+0.000 057(1+β)zt(1+0.644 612β+0.259 108β2+0.282 801β3+0.941 441β4+0.273 149β5)(3)。

  3.5 模型诊断检验

  对建立的模型(4)和模型(5)进行残差独立性检验,并从两个模型中选出最优模型,检验结果分别如表3、表4所示。ARIMZX(4,1,5)模型和ARIMZX(4,1,5)模型调整后的样本决定系数分别为0.909 198和0.913 834,说明ARIMZX(4,1,5)模型和ARIMZX(4,1,5)模型的拟合效果都较好,两个模型残差独立性检验通过,且ARIMZX(4,1,5)模型更优。故选择ARIMAX(4,1,5)为预测高血压月发病率模型。表3 ARIMA(4,1,5)模型残差独立性检验结果表4 ARIMAX模型残差独立性检验结果

  3.6 模型预测

  利用ARIMAX(4,5)模型,对海西州地区2001年1月到2007年12月的高血压月发病率作出预测,结果见图1。模型预测值的动态趋势与实际情况基本一致,整体效果不错,实际值都处于预测值的可信区间范围内。图1 ARIMAX(4,1,5)模型的实际拟合残差序列结果

  4 结 论

  本结果表明在ARIMA模型中引入回归项后,得到的ARIMAX模型拟合效果更好,且用ARIMZX(4,1,5)模型预测值的动态趋势与实际情况基本一致,实际值都落入了预测值的可信区间范围内,结果比较理想,因此,用ARIMZX(4,1,5)模型预测海西州地区高血压月发病率是可行的。

  疾病发病率是疾病预防工作所参考的重要指标之一。如果能够得到较为精确的高血压发病率,则能为高血压的预防工作提供科学的参考依据。ARIMAX模型可在一定程度上排除人们的主观任意性,使疾病发病率的预测转向数学化、科学化、人工智能化。

  从论文分析和案例应用角度可以看出,通过采用ARIMAX模型对高血压月发病率进行预测研究,取得了令人较为满意的预测效果,预测值与实际值整体上比较接近,较传统的可靠性预计和可靠性试验评价结果有了大幅提高,与新的可靠性预计与预测法相比,该法预测精度也有一定的提高。

  高血压的发病病因是比较复杂的。高血压病的初期可没有任何自觉症状。部分患者出现类似神经衰弱的临床表现,由于过份关注自己的病情或对脑卒中发作的恐惧,而表现出焦虑不安、忧虑、疑病观念或死亡恐怖。当血压急剧增高出现高血压危象或者高血压脑病时,出现的意识障碍以朦胧状态、谵妄状态或精神错乱状态为多见,伴有恐怖性幻觉、片断的妄想,定向力不良,思维不连贯及精神运动兴奋、冲动、自伤、伤人等行为。某些患者不产生意识障碍,而表现为幻觉妄想状态,幻觉与妄想内容常相互联系,妄想缺乏系统性,虽然对症状缺乏批判能力,但与环境接触良好。精神症状的出现往往可使原有的高血压加重,如果意识障碍持续存在或不断加重时,预后不良。高血压病因不明,与发病有关的因素有:年龄、食盐、体重、遗传、环境与职业。发病率有随年龄增长而增高的趋势,40岁以上者发病率高;摄入食盐多者,高血压发病率高;肥胖者发病率高;大约半数高血压患者有家族史,可能与遗传性肾排钠缺陷有关;有噪音的工作环境,过度紧张的脑力劳动均易发生高血压,城市中的高压发病率高于农村。由于种种原因,使得该病的防治任务长期而艰巨,相应地对其发病情况的预测预测成为重要的医学研究课题之一。

  本文中的数据是近7年的海西州地区的资料,海西州既是我国西北高原地区,又是我国少数民族聚集的地区,做好该地区高血压月发病率的预测对高原少数民族地区人民的健康有重要的意义。

【参考文献】
    1 吴庚申,梁 平,龙新峰.基于ARMA的汽轮机转子振动故障序列的预测〔J〕.华南理工大学学报(自然科学版),2005;33(7):67-73.

  2 田金方,张小斐.干预ARIMA模型及其在我国人口总量预测中的实证研究〔J〕.数理统计与管理,2007;27(2):263-7.

  3 李瑞莹,康 锐.基于ARMA模型的故障率预测方法研究〔J〕.系统工程与电子技术,2008;30(8):1588-91.

  4 曾勇红,王锡凡,冯宗建.基于混合自回归滑动平均潜周期模型的短期电价预测〔J〕.西安交通大学学报,2008;42(2):185-8.

  5 胡学锋.ARIMAX模型在居民储蓄存款预测中的应用〔J〕.财经问题研究,2001;1(3):70-2.

  6 孙 奕,贾翠平,覃世龙.儿童伤害住院费用ARIMA预测模型研究〔J〕.数理统计与管理,2007;26(6):1124-8.

  7 胡军华,唐德善.时间序列模型在径流长期预报中的应用研究〔J〕.人民长江,2006;37(2):40-1.

  8 贾春生.ARIMA模型在马尾松毛虫发生面积预测中的应用〔J〕.安徽农业科学,2007;35(19):5672-3.

  9 欧廷皓.基于ARMA模型的房地产价格指数预测〔J〕.统计与决策,2007;7(5):92-3.

  10 杨 宇.基于ARMA模型对地价指数的预测〔J〕.统计与决策,2007;5(1):40-1.

  11 潘晓君.中国棉花产量的时间序列预测模型〔J〕.统计与决策,2007;9(1):59.

  12 孙玉环.ARMA模型在测算重大突发事件影响中的应用〔J〕.统计与决策,2006;7(1):24-6.

  13 易丹辉.数据分析与EViews应用〔M〕.北京:中国统计出版社,2005:106-34.

  14 马亮亮,田富鹏.基于脑梗死相关因素的逐步回归分析〔J〕.南阳理工学院学报,2009;1(3):114-6.

  15 马亮亮,田富鹏.基于糖尿病相关因素的主成分分析〔J〕.长春大学学报,2009;19(8):61-3.

  16 马亮亮,田富鹏.基于肺水肿相关因素的因子分析〔J〕.河北北方学院学报,2009;25(4):53-5.

  17 马亮亮,田富鹏.基于季节模型的海西州地区肾炎发病情况研究〔J〕.北京联合大学学报,2009;23(3):66-8.

  18 马亮亮,田富鹏.基于PDL模型的海西州地区脑出血发病情况研究〔J〕.湖南文理学院学报,2009;21(3):17-9.

  19 马亮亮,田富鹏.肺水肿与民族因素间的多元线性回归分析〔J〕.黄冈师范学院学报,2009;29(6):1-3.

  (编辑 张 慧)

  订阅登记:

请您在下面输入常用的Email地址、职业以便我们定期通过邮箱发送给您最新的相关医学信息,感谢您浏览首席医学网!

邮箱:    专业:    职称:      

医学期刊医学会议医学专区医学护理