LQG控制(linear–quadratic–Gaussian control)的全名是线性二次高斯控制,是控制理论中的基础最优控制问题之一。此问题和存在加性高斯白噪声的线性系统有关。此问题是要找到最佳的输出回授律,可以让二次费用函数的期望值最小化。其输出量测假设受到高斯噪声的影响,其初值也是高斯随机向量。
在“使用线性控制律”的最佳控制假设下,可以用completion-of-squares论述进行推导[1]。此控制律即为LQG控制器,就是卡尔曼滤波(线性二次状态估测器,LQE)和LQR控制器的结合。分离原理指出状态估测器和状态回授可以独立设计。LQG控制可以应用在线性时不变系统及线性时变系统,产生容易计算以及实现的线性动态回授控制器。LQG控制器本身是一个类似其受控系统的动态系统,两者有相同的维度。
根据分离原理,在一些范围较宽可能是非线性的控制器中,LQG控制器仍然是最佳的。也就是说“使用非线性控制架构不一定可以改善费用泛函的期望值”。这个版本的分离原理是随机控制的分离原理(separation principle of stochastic control)提到就算过程及输出噪声源可能是非高斯鞅,只要其系统动态是线性的,其最佳控制仍可以分离为最佳状态估测器(不再是卡尔曼滤波器)及LQR控制器[2][3]。LQR控制器也有用来控制扰动的非线性系统[4]。
考虑连续时间的线性动态系统
![{\displaystyle {\dot {\mathbf {x} }}(t)=A(t)\mathbf {x} (t)+B(t)\mathbf {u} (t)+\mathbf {v} (t),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6defe551e49b86f9162d041c69d02c243f8a9701)
![{\displaystyle \mathbf {y} (t)=C(t)\mathbf {x} (t)+\mathbf {w} (t),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6110ac75dba6bb317a493b19182cd72a57dc6d83)
其中
是系统状态变量的向量,
是控制输入向量,
是输出量测值的向量,可用在回授上。系统受到加成性的高斯系统噪声
及加成性的高斯量测噪声
所影响。给定一系统,其目标是找到一控制输入
,此控制输入在每个时间
下,和以往的量测量
有线性关系,而且此控制输入可以让以下的费用函数有最小值:
![{\displaystyle J=\mathbb {E} \left[{\mathbf {x} ^{\mathrm {T} }}(T)F{\mathbf {x} }(T)+\int _{0}^{T}{\mathbf {x} ^{\mathrm {T} }}(t)Q(t){\mathbf {x} }(t)+{\mathbf {u} ^{\mathrm {T} }}(t)R(t){\mathbf {u} }(t)\,dt\right],}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8d7c201f7e732044387764b3665083e3b2a42b5e)
![{\displaystyle F\geq 0,\quad Q(t)\geq 0,\quad R(t)>0,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c37a324e696f9bc11a54b06409af36d79ac6ca19)
其中
为期望值。最终时间(horizon)
可能是有限值或是无限值。若最终时间为无限,则费用函数的第一项
可以忽略,和问题无关。而为了要让费用函数为有限值,会定义费用函数为
。
求解上述LQG问题的LQG控制器可以用以下方程表示:
![{\displaystyle {\dot {\hat {\mathbf {x} }}}(t)=A(t){\hat {\mathbf {x} }}(t)+B(t){\mathbf {u} }(t)+L(t)\left({\mathbf {y} }(t)-C(t){\hat {\mathbf {x} }}(t)\right),\quad {\hat {\mathbf {x} }}(0)=\mathbb {E} \left[{\mathbf {x} }(0)\right],}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6226fa6b6cc6f0f19d753b32710a484daab47c09)
![{\displaystyle {\mathbf {u} }(t)=-K(t){\hat {\mathbf {x} }}(t).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a6f0b0aa28f28a556f3821c753060de24bad390d)
矩阵
称为卡尔曼增益(Kalman gain),和第一个方程卡尔曼滤波有关。在时间
,滤波器会根据过去量测及输入来产生状态
的估测值
。卡尔曼增益
是根据
、二个和白色高斯噪声有关密度矩阵
、
及最后的
来计算。这五个矩阵会透过以下的矩阵Riccati微分方程来决定卡尔曼增益:
![{\displaystyle {\dot {P}}(t)=A(t)P(t)+P(t)A^{\mathrm {T} }(t)-P(t)C^{\mathrm {T} }(t){\mathbf {} }W^{-1}(t)C(t)P(t)+V(t),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f89dbab902f3c162d1e676b6105eb745a6353b9a)
![{\displaystyle P(0)=\mathbb {E} \left[{\mathbf {x} }(0){\mathbf {x} }^{\mathrm {T} }(0)\right].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/300e67733a5d956fd287398d14556364d4b5a3de)
假设其解
,则卡尔曼增益等于
![{\displaystyle {\mathbf {} }L(t)=P(t)C^{\mathrm {T} }(t)W^{-1}(t).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d66c6504568f7848209953be614d87b3197cd1d1)
矩阵
称为回授增益(feedback gain)矩阵,是由
及
矩阵,透过以下的矩阵Riccati微分方程来决定
![{\displaystyle -{\dot {S}}(t)=A^{\mathrm {T} }(t)S(t)+S(t)A(t)-S(t)B(t)R^{-1}(t)B^{\mathrm {T} }(t)S(t)+Q(t),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/43e6a65debaf5acd678160dd306eabbdb19fac85)
![{\displaystyle {\mathbf {} }S(T)=F.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ec06a2cff3b629e6bfc5072ea4c536c7c1495c2e)
假设其解
,回授增益等于
![{\displaystyle {\mathbf {} }K(t)=R^{-1}(t)B^{\mathrm {T} }(t)S(t).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8e7fb4eac9522683e03eb26be4fe9a3ef8babd79)
观察上述二个矩阵Riccati微分方程,第一个沿时间从前往后算,而第二个是沿时间从后往前算,这称为“对偶性”。第一个矩阵Riccati微分方程解了线性平方估测问题(LQE),第二个矩阵Riccati微分方程解了LQR控制器问题。这二个问题是对偶的,合起来就解了线性平方高斯控制问题(LQG),因此LQG问题分成了LQE问题以及LQR问题,且可以独立求解,因此LQG问题是“可分离的”。
当
和噪声密度矩阵
,
不随时间变化
,且
趋于无限大时,LQG控制器会变成非时变动态系统。此时上述二个矩阵Riccati微分方程会变成代数Riccati方程。
离散时间的LQG控制问题和连续时间下的问题相近,因此以下只关注其数学式。
离散时间的线性系统方程为
![{\displaystyle {\mathbf {x} }_{i+1}=A_{i}\mathbf {x} _{i}+B_{i}\mathbf {u} _{i}+\mathbf {v} _{i},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e6c69d13b665c60fef24f5bfc75a5c1dffb5dbbf)
![{\displaystyle \mathbf {y} _{i}=C_{i}\mathbf {x} _{i}+\mathbf {w} _{i}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1d9aaa37c2a1af673acbe7b82eec670205f1c4b1)
其中
是离散时间,
是离散时间高斯白噪声过程,其共变异数矩阵为
。
要最小化的二次费用函数为
![{\displaystyle J=\mathbb {E} \left[{\mathbf {x} }_{N}^{\mathrm {T} }F{\mathbf {x} }_{N}+\sum _{i=0}^{N-1}(\mathbf {x} _{i}^{\mathrm {T} }Q_{i}\mathbf {x} _{i}+\mathbf {u} _{i}^{\mathrm {T} }R_{i}\mathbf {u} _{i})\right],}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0c8cda1b782781f08c3fe8fe753df29a07dfeedc)
![{\displaystyle F\geq 0,Q_{i}\geq 0,R_{i}>0.\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0498be42968098c02db88921e99eb3df2246875b)
离散时间的LQG控制器为
,
![{\displaystyle \mathbf {u} _{i}=-K_{i}{\hat {\mathbf {x} }}_{i}.\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8fec6d89c9c590bb47c60531a93b694b54a8d10b)
卡尔曼增益等于
![{\displaystyle {\mathbf {} }L_{i}=P_{i}C_{i}^{\mathrm {T} }(C_{i}P_{i}C_{i}^{\mathrm {T} }+W_{i})^{-1},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/29e6b0b2b4fdfa84fd9d8179611a006693149e95)
其中
是由以下依时间往前进的矩阵Riccati差分方程所决定:
![{\displaystyle P_{i+1}=A_{i}\left(P_{i}-P_{i}C_{i}^{\mathrm {T} }\left(C_{i}P_{i}C_{i}^{\mathrm {T} }+W_{i}\right)^{-1}C_{i}P_{i}\right)A_{i}^{\mathrm {T} }+V_{i},P_{0}=\mathbb {E} \left({\mathbf {x} }_{0}-{\hat {\mathbf {x} }}_{0}\right)\left({\mathbf {x} }_{0}-{\hat {\mathbf {x} }}_{0}\right)^{\mathrm {T} }.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c2c0aa880a601ad552247003788dc5dad04a968b)
回授增益矩阵为
![{\displaystyle {\mathbf {} }K_{i}=(B_{i}^{\mathrm {T} }S_{i+1}B_{i}+R_{i})^{-1}B_{i}^{\mathrm {T} }S_{i+1}A_{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1fc11aabfb9956589ef79d8a6f48d73961d96507)
\
其中
是由以下时间从后往前算的矩阵Riccati差分方程所决定:
![{\displaystyle S_{i}=A_{i}^{\mathrm {T} }\left(S_{i+1}-S_{i+1}B_{i}\left(B_{i}^{\mathrm {T} }S_{i+1}B_{i}+R_{i}\right)^{-1}B_{i}^{\mathrm {T} }S_{i+1}\right)A_{i}+Q_{i},\quad S_{N}=F.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1332d5e62d5c5a3c5af7026c39d49da7a6dad87c)
若问题中所有的矩阵都是非时变的,且时间长度
趋近无穷大,则离散时间的LQG控制器就是非时变的。此时矩阵Riccati差分方程可以用离散时间的代数Riccati方程取代。可以决定非时变的离散线性二次估测器,以及非时变的离散LQR控制器。为了让费用是有限值,会用
来代替
。
在传统LQG设置中,当系统维度很大时,实现LQG控制器会有困难。降阶LQG问题(reduced-order LQG problem)也称为固定阶数LQG问题(fixed-order LQG problem)先设置了LQG控制的状态数。因为分离原理已不适用,此问题会更不容易求解,而且其解也不唯一。即使如此,降阶LQG问题已有不少的数值算法[5][6][7][8]可以求解相关的最佳投影方程(optimal projection equations)[9][10],其中建构了局部优化的降阶LQG问题的充份及必要条件[5]。
LQG优化本身不确保有良好的鲁棒性[11],需要在设计好LQG控制后,另外确认闭回路系统的鲁棒稳定性。为了提升系统的鲁棒性,可能会将一些系统参数由确定值改假设是随机值。相关的控制问题会更加复杂,会得到一个类似的最佳控制器,只有控制器参数不同[6]。
- ^ Karl Johan Astrom. Introduction to Stochastic Control Theory 58. Academic Press. 1970. ISBN 0-486-44531-3. .
- ^ Anders Lindquist. On Feedback Control of Linear Stochastic Systems. SIAM Journal on Control. 1973, 11: 323––343. .
- ^ Tryphon T. Georgiou and Anders Lindquist. The Separation Principle in Stochastic Control, Redux. IEEE Transactions on Automatic Control. 2013, 58 (10): 2481––2494. doi:10.1109/TAC.2013.2259207. .
- ^ Athans M. The role and use of the stochastic Linear-Quadratic-Gaussian problem in control system design. IEEE Transaction on Automatic Control. 1971, AC–16 (6): 529–552. doi:10.1109/TAC.1971.1099818.
- ^ 5.0 5.1 Van Willigenburg L.G.; De Koning W.L. Numerical algorithms and issues concerning the discrete-time optimal projection equations. European Journal of Control. 2000, 6 (1): 93–100. doi:10.1016/s0947-3580(00)70917-4. Associated software download from Matlab Central (页面存档备份,存于互联网档案馆).
- ^ 6.0 6.1 Van Willigenburg L.G.; De Koning W.L. Optimal reduced-order compensators for time-varying discrete-time systems with deterministic and white parameters. Automatica. 1999, 35: 129–138. doi:10.1016/S0005-1098(98)00138-1. Associated software download from Matlab Central (页面存档备份,存于互联网档案馆).
- ^ Zigic D.; Watson L.T.; Collins E.G.; Haddad W.M.; Ying S. Homotopy methods for solving the optimal projection equations for the H2 reduced order model problem. International Journal of Control. 1996, 56 (1): 173–191. doi:10.1080/00207179208934308.
- ^ Collins Jr. E.G; Haddad W.M.; Ying S. A homotopy algorithm for reduced-order dynamic compensation using the Hyland-Bernstein optimal projection equations. Journal of Guidance Control & Dynamics. 1996, 19 (2): 407–417. doi:10.2514/3.21633.
- ^ Hyland D.C; Bernstein D.S. The optimal projection equations for fixed order dynamic compensation. IEEE Transaction on Automatic Control. 1984, AC–29 (11): 1034–1037. doi:10.1109/TAC.1984.1103418.
- ^ Bernstein D.S.; Davis L.D.; Hyland D.C. The optimal projection equations for reduced-order discrete-time modeling estimation and control. Journal of Guidance Control and Dynamics. 1986, 9 (3): 288–293. doi:10.2514/3.20105.
- ^ Green, Michael; Limebeer, David J. N. Linear Robust Control. Englewood Cliffs: Prentice Hall. 1995: 27. ISBN 0-13-102278-4.