統計學中,主成分回歸(PCR)是一種基於主成分分析(PCA)的回歸分析方法。更確切地說,PCR用於估計標準線性回歸模型中的未知參數。
PCR不是直接將因變量與解釋變量進行回歸,而是將解釋變量的主成分作為回歸量。一般只使用所有主成分的一個子集用於回歸,因此PCR是一種正則化過程,也是一種收縮估計量。
方差更高的主成分(基於解釋變量樣本方差-協方差矩陣對應更大特徵值的特徵向量)被選為回歸量。不過,要預測結果,低方差的主成分可能也很重要,在某些情況下甚至更重要。[1]
PCR的主要用途之一是克服多重共線性問題,這是說多個解釋變量接近共線。[2]PCR可在回歸步驟中排除一些低方差主成分,從而恰當地處理這種情況。另外,由於通常只對所有主成分的一個子集進行回歸,PCR可大幅降低基礎模型的參數數,從而降維。這在使用高維協變量時尤為有用。通過適當選擇用於回歸的主成分,PCR還可根據假定模型有效地預測輸出。
PCR法可總結為三步:
- 1.
對解釋變量的測得設計矩陣進行PCA,得到主成分,然後(通常)根據一些適當標準,從獲得的主成分中選擇子集,供進一步使用。
- 2.
用普通最小二乘法,在選定主成分上線性回歸輸出的測得向量,得到估計回歸係數向量(維數等於選定的主成分數)。
- 3.
用PCA負載(與選定主成分對應的特徵向量)將該向量變換回實際協變量標量,得到最終PCR估計量(維數等於協變量總數),以估計表徵原始模型的回歸係數。
數據表示:令
表示觀測的輸出,
表示測得協變量對應的設計矩陣,其中
、
表示測得樣本的大小和協變量數量。
的每行
表示
維協變量的一組觀測值,
的相應項表示相應的觀測結果。
數據預處理:假設
及
的
列已經中心化,經驗均值均為0。中心化這步至關重要(至少對
的列而言),因為PCR將對
使用的PCA on
對數據是否中心化十分敏感。
基礎模型:在中心化之後,對
上的
的標準高斯-馬爾可夫線性回歸模型可表為:
其中
表示回歸係數的未知參數向量,
表示隨機誤差向量,
、
則表示未知方差參數
目標:主要目標是根據數據,為參數
獲得有效估計量
。一種常用方法是普通最小二乘法,假設
的列滿秩,從而有
的無偏估計量:
。PCR是另一種估計
的方法。
PCA步驟:PCR首先要對中心化矩陣
進行PCA。為此,令
表示
的奇異值分解,其中
表示
的非負奇異值,
、
都是正交規範集向量,列向量分別表示
的左右奇異向量。
主成分:
給出了
的譜分解,其中
表示
的非負特徵值(也叫做主值),
的列則表示對應的特徵向量的正交規範集。接着,
、
分別表示第
個主成分與跟第
大的主成分值
相對應的第
個主成分方向(或PCA負載)。
衍生協變量:
,記
為
矩陣,其正交列包含
的前
列。記
為以前
個主成分為列的
矩陣。
可看做是用變換後的協變量
得到的設計矩陣,而非原始協變量
。
PCR估計量:記
表示 響應向量
在設計矩陣
上用普通最小二乘法得到的估計回歸係數向量。那麼,
都有基於前
個主成分的
的最終PCR估計量:
得到PCR估計量的擬合過程包括將響應向量在導出設計矩陣
上回歸。後者
都有正交列,因為主成分互相正交。因此在回歸中,對作為協變量的
個選定主成分聯合進行多元線性回歸,相當於對作為協變量的
個選定主成分分別進行獨立單變量線性回歸。
當選擇所有主成分回歸(
),PCR估計量便等同於普通最小二乘法估計量。因此
。從
和
是正交矩陣的觀測事實,不難看出這點。
,
的方差由下式給出:

特別地:

因此
都有:

因此
都有:

其中
,表明對稱方陣
是非負定的。於是,與普通最小二乘估計的線性形式相比,任何給定PCR估計量的線性形式都有更低的方差。
多重共線性條件下,指多個協變量高度相關,因此可從其他協變量以非平凡的精度進行線性預測。因此,設計矩陣
與這些協變量對應的列趨於線性相關,於是
趨於秩虧,失去列滿秩結構。更定量地講,這時
的較小特徵值會非常接近
。上述方差表達式表明,極小特徵值對最小二乘估計量產生最大的方差擴大效應,因此在接近0時會嚴重破壞估計量的穩定性。這可以通過排除極小特徵值對應的主成分得到的PCR估計,得到有效解決。
PCR也可用於降維:記
為任意列正交的
矩陣。假設現在我們想通過秩
線性變換
(
)來近似每個協變量觀測值
,那麼可以證明

在
(前
個主成分方向為列組成的矩陣)和
(對應的
維衍生協變量)時取最小值。因此
維主成分提供了觀測設計矩陣
的秩為
的最佳線性近似,對應的重建誤差為

因此,可通過選擇
值(即要使用的主成分數),通過對
的特徵值累積和進行適當閾值處理,實現降維。由於較小特徵值對累積和的貢獻並不大,因此只要不超過所需的閾值限制,便可放棄相應的主成分。同樣標準也可用於解決多重共線性問題:只要保持閾值限制,就可忽略較小特徵值對應的主成分。
由於PCR估計量通常只使用一部分主成分進行回歸,因此可視作某種正則化。更具體地說,
,PCR估計量
都可表示以下約束最小化問題的正則化解:

約束可等價寫作

其中
![{\displaystyle V_{(p-k)}=\left[\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\right]_{p\times (p-k)}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5fc1491586b4d3f4de9bb21381bd1dbb3e2c3766)
因此,當擇一部分主成分回歸時,所得PCR估計量是基於硬形式的正則化,將所得解約束在選定主成分方向的列空間,因此限制其與被排除方向正交。
給定如上述的約束最小化問題,考慮下面的推廣:

其中
表示任何階為
的列滿秩矩陣。令
表示對應的解,則

則約束矩陣
的最優選擇就是相應估計量
達到最小預測誤差:[3]

其中

很明顯,由此得到的最優估計量
就是基於前
個主成分的PCR估計量
。
由於普通最小二乘估計量對
無偏,所以有

其中MSE表示均方誤差。現在,若對某個
,我們還有
,那麼對應的
也將是
的無偏估計量,就有

我們已經知道

這就意味着對特定的
有:

所以,用均方誤差為標準的話,對應的
是比
更有效的
的估計量。另外,與
的相同線性形式相比,對應
的任何給定線性形式的均方誤差也更小。
現在假設,對給定的
,那麼對應的
對
就是有偏的。但由於

仍然是可能的,尤其是當
使被排除主成分對應較小特徵值時,從而導致較小的偏。
為確保PCR作為
估計值的效率與性能,Park (1981) [3]提出了以下用於回歸的主成分選擇標準:當且僅當
時,排除第
個主成分。在實際應用中,還需要估計未知的模型參數
與
。總的來說,可以用從原始完整模型得到的無約束最小二乘法進行估計。Park (1981)提供了一套稍加修改的估計值,可能更適合這一目的。[3]
與基於
特徵值累積和的標準不同,上述標準可能更適合解決多重共線性問題與降維,實際上是試圖讓輸出和協變量都參與到回歸的主成分選擇之中,以提高PCR估計值的預測與估計效率。其他目的相似的選擇主成分方法基於交叉驗證,或馬洛斯CP值等。通常,主成分的選擇還基於其與輸出的相關程度。
總的來說,PCR本質上是收縮估計量,通常保留了高方差主成分(對應
的較大特徵值)作為模型中的協變量,並捨棄剩餘的低方差成分(對應
的較小特徵值)。這就對低方差成分產生了分離收縮,清除了其在原始模型中的貢獻。相對地,嶺回歸估計量則通過其構造中固有的正則化參數,產生平滑收縮。雖然它不會捨棄任何一個成分,但會以連續的方式對所有成分產生收縮效應,因此低方差成分的收縮程度高於高方差成分。Frank & Friedman (1993)[4]認為,就預測本身而言,與具有離散收縮效應的PCR估計量相比,嶺估計量具有平滑收縮效應,可能是更好的選擇。
此外,主成分是從
的特徵分解中得到的,只涉及解釋變量的觀測值。因此,以這些主成分為協變量得到的PCR估計量不一定具有令人滿意的預測性能。偏最小二乘回歸(PLS)估計量與之比較相似,試圖通過自身的構造解決這問題。PLS也用低維的衍生協變量,但是在輸出和協變量中獲得的。PCR在協變量空間中尋找高方差方向,而PLS則尋找對預測結果最有用的方向。
2006年,有人提出了經典PCR的一種變體,即監督PCR。[5]這種方法的精神與PLS類似,試圖根據結果和協變量標準,獲得低維衍生協變量。首先進行簡單線性回歸(單變量回歸),其中結果向量分別對
個協變量逐一回歸。然後,對某個
,選擇與結果最相關的
個協變量(基於對應估計回歸係數的顯著程度)供進一步使用。然後進行上述傳統PCR,但只基於與選定協變量觀測值對應的
設計矩陣。使用的協變量數:
及隨後使用的主成分數:
一般通過交叉驗證選擇。
上述經典PCR法基於經典PCA,並考慮了根據協變量的線性回歸結果預測模型。這方法可以很容易地推廣到核機設置,即回歸函數不一定是協變量的線性函數,而可以屬於與任意(可以非線性)對稱正定核有關的再⽣核希爾伯特空間。核函數選為線性核時便有線性回歸模型,是這種設置的特例。
總的來說,在核機設置下,協變量向量首先被映射到所選核函數的高維(可能是無限維)特徵空間中。這樣得到的映射叫做特徵映射,每個坐標(也叫做特徵元)對應協變量的一個特徵(無所謂線性與否)。然後,假設回歸函數是這些特徵元的線性組合,則核機設置依賴的回歸模型本質上是線性的,但前提是預測量不再是原始協變量集,而由特徵映射所得協變量的特徵元的向量(可能是無限維)給出。
但核技巧實際上可以讓我們在特徵空間中操作,而無需明確計算特徵映射。事實證明,只需計算觀測協變量向量的特徵映射之間的逐對內積即可,是由在相應協變量向量對上估值的核函數值簡單給出的。因此,得到的逐對內積可用
對稱非負定矩陣(也稱為核矩陣)表示。
核機設置中的PCR現在可用以下方式實現:首先將核矩陣(如K)相對於特徵空間適當中心化,再對中心化核矩陣(如K')進行核主成分分析,得到K'的特徵分解。然後,核PCR(通常)會從獲得的所有特徵向量中(一般通過交叉驗證)選擇一子集,在其上進行結果向量的標準線性回歸。估計的回歸係數(維度與選定特徵向量數相同)與響應所選特徵向量一起用於預測未來的觀測結果。機器學習中,這技巧也被稱為「譜回歸」。
顯然,核PCR對K'的特徵向量具有離散收縮,與前面討論過的經典PCR對主成分的離散收縮十分相似。然而,與核相關的特徵映射可能是無限維的,因此相應的主成分及其方向也可能是無限維的。所以,在核機設置下,這些量實際上往往難以處理。核PCR基本上是基於相關核矩陣的譜分解,以考慮等效的對偶表述,來解決這一問題。在線性回歸模型下(對應於選擇核函數為線性核),這相當於考慮對應的
核矩陣
的譜分解,然後將結果向量回歸到得到的
的選定特徵向量子集上。很容易看出,這等同於將結果向量回歸到相應主成分上(這時是有限維),正如經典PCR定義的那樣。因此,對線性核,基於對偶表示的核PCR完全等同於基於原始公式的經典PCR。然而,對任意(可能非線性)核,由於相關特徵映射可能的無限維,這種原始公式可能會變得難以處理。因此,這時經典PCR實際上不可行,但基於對偶表示的核PCR仍有效,且在計算上可推廣。