AIC = (-2)ln(模型的极大似然函数) + 2(模型的独立参数个数)
一、AIC准则的产生
(1)最终预报误差
对于自回归AR(k)AR(k)AR(k)模型,用前kkk期观测值的线性组合拟合当期序列取值,通过选择回归系数使得预测误差达到最小,即选择合适的aia_iai,使得
sk2=1N∑(yn−a0−a1yn−1−⋯−akyn−k)2s_k^2 = \\frac1N\\sum(y_n-a_0-a_1y_{n-1}-\\cdots – a_ky_{n-k})^2sk2=N1∑(yn−a0−a1yn−1−⋯−akyn−k)2达到最小。
用预报误差的平均值来评价模型拟合的优劣,将其称为最终预报误差FPE=E(yn−a^k0−a^k1yn−1−⋯−a^kkyn−k)2FPE =E(y_n-\\hat{a}_{k0}-\\hat{a}_{k1}y_{n-1}-\\cdots – \\hat{a}_{kk}y_{n-k})^2FPE=E(yn−a^k0−a^k1yn−1−⋯−a^kkyn−k)2因此模型的阶数kkk的选择问题就等价为FPEFPEFPE的极小化问题
赤池弘次已经提出,对于AR(k)AR(k)AR(k)模型,FPE(k)=N+kN−k(γ(0)−∑i=1kϕ^iγi)FPE(k) = \\frac{N+k}{N-k}(\\gamma(0) – \\sum_{i=1}^k \\hat{\\phi}_i \\gamma _i)FPE(k)=N−kN+k(γ(0)−i=1∑kϕ^iγi)
(2)K-L距离(相对熵)
熵的概念来源于信息论,一般用于衡量信源发出的信息中包含的不确定性的大小,计算公式为H=−∑i=1Np(xi)⋅logp(xi)H=-\\sum_{i=1}^Np(x_i)\\cdot \\mathrm{log}p(x_i)H=−i=1∑Np(xi)⋅logp(xi)根据熵可以计算出用估计的概率分布近似代替原始数据分布时损失的信息。
K-L距离(相对熵):
设ppp为实际概率分布,qqq为估计的概率分布,则K-L距离为D(P∣∣Q)=E(logP(X)Q(X))=∫p(x)logP(x)Q(x)dxD(P||Q)=E(\\mathrm{log}\\frac{P(X)}{Q(X)})=\\int p(x)\\mathrm{log}\\frac{P(x)}{Q(x)}dxD(P∣∣Q)=E(logQ(X)P(X))=∫p(x)logQ(x)P(x)dx,当进行拟合时,希望两分布之间的K-L距离越小越好。
(3)AIC的产生
① 极大似然估计的本质
设因变量YYY具有条件概率密度函数f(y∣θ)f(y|\\theta)f(y∣θ),当使用极大似然法进行参数估计时,实际上是选择使得似然函数L(θ)=f(y1∣θ)⋯f(yN∣θ)L(\\theta) =f(y_1|\\theta)\\cdots f(y_N|\\theta)L(θ)=f(y1∣θ)⋯f(yN∣θ)达到最大的估计值θ^\\hat{\\theta}θ^作为参数值。
由于N→∞N\\to \\inftyN→∞时,1N∑lnf(yi∣θ)→Elnf(Y∣θ)\\frac1N \\sum lnf(y_i|\\theta)\\to Elnf(Y|\\theta)N1∑lnf(yi∣θ)→Elnf(Y∣θ)。因此θ^\\hat{\\theta}θ^也是使得 Elnf(Y∣θ)Elnf(Y|\\theta)Elnf(Y∣θ)达到最大的估计值。
设YYY的真实分布为g(y)=f(y∣θ0)g(y)=f(y|\\theta_0)g(y)=f(y∣θ0),则K-L距离:D(g(⋅)∣∣f(⋅∣θ))=∫g(y)lng(y)f(y∣θ)dy=Elng(Y)−Elnf(Y∣θ)D(g(\\cdot)||f(\\cdot|\\theta))= \\int g(y)\\mathrm{ln}\\frac{g(y)}{f(y|\\theta)}dy=E\\mathrm{ln}g(Y)-E\\mathrm{ln}f(Y|\\theta)D(g(⋅)∣∣f(⋅∣θ))=∫g(y)lnf(y∣θ)g(y)dy=Elng(Y)−Elnf(Y∣θ)因此θ^\\hat{\\theta}θ^即等价于使K-L距离达到最小的参数估计,这也是极大似然法的本质。
② 参数估计量的评价准则
类比FPEFPEFPE准则,用E[D(g∣∣f(∣θ^))]E[D(g||f(|\\hat{\\theta}))]E[D(g∣∣f(∣θ^))]衡量参数估计量的好坏。(这里可以复习一下条件期望的知识),由于Elng(Y)E\\mathrm{ln}g(Y)Elng(Y)为常数,因此只考虑E[Elnf(Y∣θ^)]E[E\\mathrm{ln}f(Y|\\hat{\\theta})]E[Elnf(Y∣θ^)]。
③ AIC准则的导出
设λ=maxl(θ0)maxl(θ^)\\lambda = \\frac{\\max l(\\theta_0)}{\\max l(\\hat{\\theta})}λ=maxl(θ^)maxl(θ0),则当N→∞N\\to \\inftyN→∞时,−2lnλ→χ2(k)-2\\mathrm{ln}\\lambda \\to \\chi^2(k)−2lnλ→χ2(k),kkk为θ\\thetaθ的维数。
由于E(χ2(k))=kE(\\chi^2(k))=kE(χ2(k))=k,因此2l(θ^)2l(\\hat{\\theta})2l(θ^)比2l(θ0)2l(\\theta_0)2l(θ0)平均多kkk,则可以导出AIC准则。
当模型为高斯过程时,FPEFPEFPE与AIC准则等价。
(4)AIC准则的评价
- AIC准则的第一部分是极大似然函数的对数,是从样本信息对总体信息的反映程度即模型拟合情况考虑的;第二部分是对模型复杂度的惩罚,达到满足模型有效性和可靠性条件下参数个数最少。它既考虑了模型的拟合情况,又考虑了复杂度的影响,采用在同等拟合优度条件下参数最少的模型作为估计模型。
- AIC准则突破了以往仅从模型拟合情况的评价标准,其出发点是最小化K-L距离(相对熵),需要同时满足有效性、可靠性和经济性。AIC值越小,估计概率分布越接近真实分布。
- 大样本条件下,AIC准则中第二部分的惩罚较小,第一项起主导作用,最优模型不收敛于真实情况。
从FPEFPEFPE准则到AIC准则的变化实际上是从预测值差异最小到预测分布差异最小的质的变化。
二、AIC准则的应用
- 模型定阶和模型选择
- 独立性检验
列联表独立性检验中,对数似然函数为l=∑i∑jn(i,j)lnp(i,j) l = \\sum_i \\sum_j n(i,j) \\mathrm{ln} p(i,j)l=i∑j∑n(i,j)lnp(i,j)当对模型没有限制时,取p(i,j)=n(i,j)/Np(i,j) = n(i,j)/Np(i,j)=n(i,j)/N可得最大似然函数值,且参数p(i,j)p(i,j)p(i,j)中可自由取值的个数为rc−1rc-1rc−1,此时AIC信息量为AIC1=(−2)∑i∑jn(i,j)lnn(i,j)N+2⋅(rc−1) AIC_1=(-2)\\sum_i \\sum_j n(i,j) \\mathrm{ln} \\frac{n(i,j)}{N}+2\\cdot (rc – 1)AIC1=(−2)i∑j∑n(i,j)lnNn(i,j)+2⋅(rc−1)当对模型有独立性限制时,p(i,j)=p(i,⋅)p(⋅,j),∑ip(i,⋅)=1,∑jp(⋅,j)=1 p(i,j) = p(i, \\cdot) p(\\cdot,j), \\sum_{i}p(i,\\cdot) = 1,\\sum_{j} p(\\cdot, j) = 1p(i,j)=p(i,⋅)p(⋅,j),i∑p(i,⋅)=1,j∑p(⋅,j)=1因此可自由取值的参数个数为(r−1)(c−1)(r-1)(c-1)(r−1)(c−1),且取p(i,j)=N(i,⋅)N⋅N(⋅,j)Np(i,j) = \\frac{N(i,\\cdot)}{N}\\cdot \\frac{N(\\cdot,j)}{N}p(i,j)=NN(i,⋅)⋅NN(⋅,j)时似然函数值达到最大,相应地可以计算出AIC2AIC_2AIC2。
若AIC2<AIC1AIC_2 <AIC_1AIC2<AIC1则应当采用有独立性约束模型。
相比χ2\\chi^2χ2独立性检验,AIC准则不需要主观决定显著性水平的值,因此AIC准则可以用于统计分析自动化 - 方差分析
主要考虑方差分析模型中交互效应显著性问题。
AIC=Nln(残差平方和)+2(自由度) AIC = N\\mathrm{ln} (残差平方和) + 2(自由度) AIC=Nln(残差平方和)+2(自由度) - 因子分析模型
利用AIC准则确定公共因子的个数,使得公共因子既能解释原始变量较多的信息,又不会因为公共因子过多而造成解释信息冗余、增加解释既有因子的复杂度,同时减少了根据贡献率选择公共因子个数时的主观性作用。
AIC=−2ln(l(θ))+2(参数个数) AIC = -2 \\mathrm{ln} (l(\\theta)) + 2(参数个数) AIC=−2ln(l(θ))+2(参数个数)其中,ln(l(θ))=−12N[ln∣Σk∣+tr(Σk−1S)] \\mathrm{ln} (l(\\theta))= -\\frac1 2 N[\\mathrm{ln} |\\Sigma_k| + tr(\\Sigma_k^{-1}S)] ln(l(θ))=−21N[ln∣Σk∣+tr(Σk−1S)] S=1N∑(yi−yˉ)(yi−yˉ)′ S = \\frac1 N \\sum (y_i – \\bar {y})(y_i-\\bar{y})\’S=N1∑(yi−yˉ)(yi−yˉ)′ Σk=AKAK′+Dk\\Sigma_k = A_KA_K\’ + D_k Σk=AKAK′+Dk
参考文献:
[1] 李子奈.计量经济学模型方法论的若干问题[J].经济动态,2007(10):22-30.
[2] 陈晓峰.AIC准则及其在计量经济学中的应用研究[D].天津:天津财经大学,2012.
[3] 刘璋温.赤池信息量准则 AIC 及其意义[J].数学的实践与认识,1980(03):64-72.