Cesàro 矩陣序列

本文的閱讀等級:高級

給定一數列 \{a_k\}_{1}^\infty,Cesàro 數列定義為 \{\mu_k\}_{1}^\infty,其中 \mu_k\{a_1, a_2,\ldots\} 的前 k 項的平均數,如下:

\displaystyle  \mu_k=\frac{a_1+\cdots+a_k}{k},~~k\ge 1

Cesàro 數列因義大利數學家切薩羅 (Ernesto Cesàro) 而得名。若 \lim_{k\to\infty}\mu_k=\alpha,我們說數列 \{a_k\} 是可累加的 (summable),\alpha 稱為 Cesàro 極限。若數列 \{a_k\} 收斂至 \alpha,則對應的 Cesàro 數列 \{\mu_k\} 也收斂至 \alpha (證明見附註[1])。收斂性蘊含可累加性,但可累加性未必有收斂性。例如,震盪數列 \{0,1,0,1,\ldots\} 不收斂,但對應的 Cesàro 數列收斂至 1/2。Cesàro 數列可以推廣至矩陣序列。令 A 為一 n\times n 階矩陣。若 \lim_{k\to\infty}(I+A+A^2+\cdots+A^{k-1})/k 存在,則稱 A 為可累加矩陣。(如果不取平均,\sum_{k=0}^\infty A^k 稱為 Neumann 無窮級數[2]。) 若 \lim_{k\to\infty}A^k=0,我們稱 A 為收斂矩陣;若 \lim_{k\to\infty}A^k 存在 (但未必是零矩陣),則稱為廣義收斂矩陣。類似純量序列,廣義收斂矩陣蘊含可累加矩陣[3]:若 \lim_{k\to\infty}A^k 存在,則 \lim_{k\to\infty}(I+A+A^2+\cdots+A^{k-1})/k 存在,但反向命題不成立。本文探討下面兩個問題:在一般情況下,即 A 未必是廣義收斂矩陣,可累加矩陣 A 的充分與必要條件是甚麼?Cesàro 矩陣序列收斂至何矩陣 (Cesàro 極限)?

 
\sigma(A)A 的所有相異特徵值所成的集合,稱為矩陣譜 (spectrum),並令 \rho(A) 代表 A 的最大絕對特徵值,稱為譜半徑 (spectral radius),即 \rho(A)=\max_{\lambda\in\sigma(A)}\vert\lambda\vert。因此,A 的所有特徵值都位於複數平面上圓心在原點,半徑等於 \rho(A) 的圓內,稱為譜圓 (spectral circle)。開始討論之前,我們先回顧收斂矩陣與廣義收斂矩陣的充分與必要條件:

  1. A 是收斂矩陣 (即 \lim_{k\to\infty}A^k=0) 若且惟若 \rho(A)<1 (證明見“譜半徑與矩陣範數”)。
  2. A 是廣義收斂矩陣 (即 \lim_{k\to\infty}A^k 存在,但未必等於零矩陣) 若且惟若 (1) \rho(A)<1 或 (2) \rho(A)=1\lambda=1 是唯一位於單位譜圓上的特徵值且 \lambda=1 的代數重數等於幾何重數。若發生情況 (2),\lim_{k\to\infty}A^k=P 是沿著行空間 C(I-A) 至零空間 N(I-A) 的投影矩陣 (證明見“廣義收斂矩陣”)。

 
可累加矩陣的充分與必要條件非常類似收斂矩陣的充分與必要條件:A 是可累加矩陣若且惟若 (1) \rho(A)<1 或 (2) \rho(A)=1 且每一個位於單位譜圓上的特徵值 \lambda\vert\lambda\vert=1,的代數重數等於幾何重數。

 
我們先推導可累加矩陣的必要條件。令 n\times n 階矩陣 A 的 Jordan 矩陣為 J=M^{-1}AM。因為

\displaystyle  \frac{I+J+\cdots+J^{k-1}}{k}=M^{-1}\left(\frac{I+A+\cdots+A^{k-1}}{k}\right)M

A 是可累加矩陣等價於 J 是可累加矩陣。再者,Jordan 矩陣 J 是 Jordan 分塊 J_\ast(\lambda) 所組成的分塊對角矩陣,形式如下:

\displaystyle  J=\begin{bmatrix}  \ddots&&\\  &J_\ast(\lambda)&\\  &&\ddots  \end{bmatrix}

其中

\displaystyle  J_\ast(\lambda)=\begin{bmatrix}  \lambda&1&&\\  &\ddots&\ddots&\\  &&\ddots&1\\  &&&\lambda  \end{bmatrix}

Jordan 矩陣 J 的冪矩陣 J^mm\ge 1,係由 Jordan 分塊的冪矩陣 J_\ast(\lambda)^m 組成的分塊對角矩陣,可知 J 是可累加矩陣等價於每一 J_\ast(\lambda) 皆為可累加矩陣。

 
設 Jordan 分塊 J_\ast(\lambda)q\times q 階,q\ge 1,寫出 J_\ast(\lambda) 的冪矩陣 (見“Jordan 分塊”)

\displaystyle  J_\ast(\lambda)^m=\begin{bmatrix}  \lambda^m&m\lambda^{m-1}&\frac{m(m-1)\lambda^{m-2}}{2!}&\cdots&\binom{m}{q-1}\lambda^{m-q+1}\\  ~&\lambda^m&m\lambda^{m-1}&\ddots&\vdots\\    ~&~&\ddots&\ddots&\frac{m(m-1)\lambda^{m-2}}{2!}\\[0.3em]    ~&~&~&\lambda^m&m\lambda^{m-1}\\    ~&~&~&~&\lambda^m    \end{bmatrix}

\rho(A)>1,則存在至少一 Jordan 分塊 J_\ast(\lambda),其中 \vert\lambda\vert>1。考慮 Cesàro 矩陣序列

\displaystyle  S(\lambda,k)=\frac{I_q+J_\ast(\lambda)+\cdots+J_\ast(\lambda)^{k-1}}{k},~k\ge 1

計算 S(\lambda,k) 的第 i 個主對角元,1\le i\le q,如下:

\displaystyle\begin{aligned}  (S(\lambda,k))_{ii}&=\left(\frac{I+J_\ast(\lambda)+\cdots+J_\ast(\lambda)^{k-1}}{k}\right)_{ii}\\  &=\frac{1+\lambda+\cdots+\lambda^{k-1}}{k}\\  &=\frac{1}{k}\left(\frac{1-\lambda^k}{1-\lambda}\right)=\frac{1}{1-\lambda}\left(\frac{1}{k}-\frac{\lambda^k}{k}\right).\end{aligned}

k\to\infty\vert \lambda\vert>1 使數列 \{\lambda^k/k\}_{1}^{\infty} 不收斂,故 \{S(\lambda,k)\}_{1}^{\infty} 亦不收斂。換句話說,A 是可累加矩陣的必要條件為 \rho(A)\le 1。根據收斂矩陣的充要條件,\rho(A)<1 等價於 \lim_{k\to\infty}A^k=0 (A 收斂至 0,自然是可累加矩陣),接下來我們只要考慮 \rho(A)=1 的情況即可。

 
假設 \lambda\in\rho(A)\vert\lambda\vert=1。分開兩種情況討論 (1) \lambda\neq 1,(2) \lambda=1。如果 \lambda\neq 1 且指標 (index) 大於 1,也就是說,最大的 Jordan 分塊 J_\ast(\lambda)q\times q 階,q>1 (見“Jordan 形式大解讀 (上)”)。因為 J_\ast(\lambda)^m 的所有主對角上標元 (即 (i,i+1) 元) 皆為 m\lambda^{m-1}

\displaystyle  (M(\lambda,k))_{i,i+1}=\left(\frac{I+J_\ast(\lambda)+\cdots+J_\ast(\lambda)^{k-1}}{k}\right)_{i,i+1}=\frac{0+1+2\lambda+\cdots+(k-1)\lambda^{k-2}}{k}

設上式分子為 d=1+2\lambda+\cdots+(k-1)\lambda^{k-2},則

\displaystyle  (1-\lambda)d=1+\lambda+\lambda^2+\cdots+\lambda^{k-2}-(k-1)\lambda^{k-1}=\frac{1-\lambda^{k-1}}{1-\lambda}-(k-1)\lambda^{k-1}

解出

\displaystyle  d=\frac{1-k\lambda^{k-1}+(k-1)\lambda^k}{(1-\lambda)^2}

故得

\displaystyle  (M(\lambda,k))_{i,i+1}=\frac{1}{(1-\lambda)^2}\left(\frac{1}{k}-\lambda^{k-1}(1-\lambda)-\frac{\lambda^k}{k}\right)

k\to\infty\vert\lambda\vert=1\lambda\neq 1 使數列 \{\lambda^{k-1}\}_1^\infty 震盪不收斂。換句話說,若 \lambda\neq 1 位於單位譜圓且指標大於 1,則 A 不為可累加矩陣。對於第二種情況,若 \lambda=1 且指標大於 1,則當 k\to\infty

\displaystyle  (M(\lambda,k))_{i,i+1}=\frac{1+2+\cdots+(k-1)}{k}=\frac{k(k-1)}{2k}=\frac{k-1}{2}\to\infty

合併以上結果,若 A 是可累加矩陣並有特徵值 \lambda 使得 \vert\lambda\vert=1,則 \lambda 的指標必須等於 1,Jordan 分塊 J_\ast(\lambda)1\times 1 階,也就是說,\lambda 的代數重數等於幾何重數。

 
接著推導可累加矩陣的充分條件。若 \rho(A)<1,則 A 是收斂矩陣,推知 A 是可累加矩陣。若 \rho(A)=1 並有特徵值 \lambda 使得 \vert\lambda\vert=1 且指標為 1,則對應的 Jordan 分塊 J_\ast(\lambda)1\times 1 階。當 k\to\infty

\displaystyle  M(\lambda,k)=\frac{1+\lambda+\cdots+\lambda^{k-1}}{k}=\left\{\begin{array}{ll}  \frac{1}{1-\lambda}\left(\frac{1}{k}-\frac{\lambda^k}{k}\right)\to 0&\text{if~}\vert\lambda\vert=1,~\lambda\neq 1, \\  1&\text{if~}\lambda=1.  \end{array}\right.

上式表明 J_\ast(\lambda) 是可累加矩陣,也就證明 A 是可累加矩陣。

 
上述可累加矩陣的充要條件推導過程已揭示 Cesàro 極限的算法。若 A 是可累加矩陣,則每一 q\times q 階 Jordan 分塊 J_\ast(\lambda) 也是可累加矩陣使得

\displaystyle  \lim_{k\to\infty}M(\lambda,k)=\lim_{k\to\infty}\frac{I+J_\ast(\lambda)+\cdots+J_\ast(\lambda)^{k-1}}{k}  =\left\{\begin{array}{ll}  0_{q\times q}&\text{if~}\vert\lambda\vert<1\\  0_{1\times 1}&\text{if~}\vert\lambda\vert=1,\lambda\neq 1\\  1_{1\times 1}&\text{if~}\lambda=1.  \end{array}\right.

這說明可累加矩陣 A 的 Jordan 形式具有下列分塊形式:

\displaystyle  J=\begin{bmatrix}  I_\beta&0\\  0&K  \end{bmatrix}

其中 \beta 是特徵值 \lambda=1 的代數重數,(n-\beta)\times(n-\beta) 階分塊 K 的特徵值 \lambda 滿足 \vert \lambda\vert<1\vert\lambda\vert=1\lambda\neq 1,指標皆為 1。我們知道 K 是可累加矩陣並收斂至 0,故 A 的 Cesàro 極限為

\displaystyle\begin{aligned}  \lim_{k\to\infty}\frac{I+A+\cdots+A^{k-1}}{k}&=  \lim_{k\to\infty}M\left(\frac{I+J+\cdots+J^{k-1}}{k}\right)M^{-1}\\  &=\lim_{k\to\infty}M\frac{1}{k}\left(\begin{bmatrix}  I_\beta&0\\  0&I_{n-\beta}  \end{bmatrix}+\begin{bmatrix}  I_\beta&0\\  0&K  \end{bmatrix}+\cdots+\begin{bmatrix}  I_\beta^{k-1}&0\\  0&K^{k-1}  \end{bmatrix}\right)M^{-1}\\  &=M\begin{bmatrix}  I_\beta&0\\  0&0  \end{bmatrix}M^{-1}.  \end{aligned}

可累加矩陣 A 的 Cesàro 極限正是 \lim_{k\to\infty}A^k (見“廣義收斂矩陣”),即沿著行空間 C(I-A) 至零空間 N(I-A) 的投影矩陣。

 
最後舉一個 Cesàro 矩陣序列在馬可夫鏈 (Markov chain) 的應用。假設一隨機系統有 n 個狀態,記為 S=\{1,2,\ldots,n\},例如,一隻老鼠在一迷宮的 n 個房間隨機移動。在離散時間 t,令隨機變數 X(t)=1 若老鼠出現在房間 jX(t)=0 若老鼠未出現在房間 jj\in S。據此,(X(0)+X(1)+\cdots+X(k-1))/k 表示於離散時段 0\le t\le k-1,老鼠出現在房間 j 的平均次數。假設老鼠的移動符合馬可夫鏈模型 \mathbf{u}(t+1)=A\mathbf{u}(t)t\ge 0,其中 An\times n 階轉移矩陣或稱馬可夫矩陣,\mathbf{u}(t)=(P_1(t),\ldots,P_n(t))^Tn 維向量,P_j(t) 表示在時間 t 老鼠出現於房間 j 的機率 (見“利用馬可夫鏈計算擲幣事件發生的機率”)。隨機變數 X(t) 的期望值為 E[X(t)]=1\cdot P_j(t)+0\cdot (1-P_j(t))=P_j(t)。期望值 E[\cdot] 是線性算子,可得

\displaystyle\begin{aligned}  E\left[\frac{X(0)+X(1)+\cdots+X(k-1)}{k}\right]&=\frac{E[X(0)]+E[X(1)]+\cdots+E[X(k-1)]}{k}\\  &=\frac{P_j(0)+P_j(1)+\cdots+P_j(k-1)}{k}\\  &=\left(\frac{\mathbf{u}(0)+\mathbf{u}(1)+\cdots+\mathbf{u}(k-1)}{k}\right)_j\\  &=\left(\frac{\mathbf{u}(0)+A\mathbf{u}(0)+\cdots+A^{k-1}\mathbf{u}(0)}{k}\right)_j\\  &=\left(\left(\frac{I+A+\cdots+A^{k-1}}{k}\right)\mathbf{u}(0)\right)_j.  \end{aligned}

k\to\infty,老鼠出現於房間 j 的平均數的期望值趨於 \left(\lim_{k\to\infty}(I+A+\cdots+A^{k-1})/k\right)\mathbf{u}(0) 的第 j 元。最後還有一個問題必須釐清:馬可夫矩陣 A 是否為可累加矩陣?是的,馬可夫矩陣滿足 \rho(A)=1 且每一個位於單位譜圓上的特徵值 \lambda\vert\lambda\vert=1,的代數重數等於幾何重數 (見“馬可夫過程”)。

 
附註:
[1] 若 \lim_{k\to\infty}a_k=\alpha,則每一 \epsilon>0,存在一自然數 m 使得 \vert a_k-\alpha\vert<\epsilon/2,其中 k\ge m,而且存在一個實數 \beta 使得所有 k 滿足 \vert a_k-\alpha\vert<\beta。因此,對於每一 k\ge m,使用三角不等式,可得

\displaystyle\begin{aligned}  \vert \mu_k-\alpha\vert&=\left|\frac{a_1+\cdots+a_k}{k}-\alpha\right|\\  &=\frac{1}{k}\left|\sum_{i=1}^m(a_i-\alpha)+\sum_{i=m+1}^n(a_i-\alpha)\right|\\  &\le\frac{1}{k}\sum_{i=1}^m\vert a_i-\alpha\vert+\frac{1}{k}\sum_{i=m+1}^n\vert a_i-\alpha\vert\\  & <\frac{m\beta}{k}+\left(\frac{k-m}{k}\right)\frac{\epsilon}{2}\\  &<\frac{m\beta}{k}+\frac{\epsilon}{2}.  \end{aligned}

k 足夠大時,m\beta/k\le\epsilon/2,故 \vert\mu_k-\alpha\vert<\epsilon,也就是說,\lim_{k\to\infty}\mu_k=\alpha

[2] 若 \Vert A\Vert<1I-A 可逆,則

\displaystyle  (I-A)^{-1}=\sum_{k=0}^{\infty}A^k

稱為 Neumann 無窮級數 (見“Neumann 無窮級數”)。

[3] 欲證明收斂矩陣蘊含可累加性,只要將附註 [1] 的絕對值 \vert\cdot\vert 以矩陣範數 \Vert\cdot\Vert 取代即可。

廣告
本篇發表於 線性代數專欄, 數值線性代數 並標籤為 , , , , , , 。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s