最新要闻
- 快看点丨30年老律师用ChatGPT旁征博引:结果被骗得禁止执业!
- WinXP问世22年后 黑客发布离线激活算号器:强大程度被低估了
- 见证历史!国产大飞机C919首航顺利降落
- 西藏拉萨:藏式克朗球协会正式成立
- 微软宣布Windows全球用户超10亿!Win11是史上最可靠操作系统 快看
- 特斯拉陶琳:谣言层出不穷、原因之一是流量至上
- 中国经济信心说丨人口高质量发展 从直面每个家庭的实际困难开始
- 世界微资讯!2023 Sun Simiao TCM International Forum kicks off in China's Shaanxi
- 注意防范 7省市将现大到暴雨:部分地区有雷暴大风或冰雹-环球关注
- 快资讯丨直播:国产大飞机C919商业首飞!网友感叹中国人终于要坐上国产大飞机
- 时隔10年 索尼全新PS掌机Q公布!电池续航很堪忧
- 青海省内外贸易实现快速增长_新动态
- 一代网民青春记忆 天涯回应无法访问:拖欠多年电信IDC费已无法协商
- 周鸿祎训练数字人代替演讲!直言有危机感 不想被数字人“干掉”
- 全球视讯!《小美人鱼》北美票房第一
- 省社保中心一行调研株洲经开区社保系统数据迁移工作
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
深入分析:近端梯度下降法、交替方向乘子法、牛顿法
写在前面
本文主要围绕近端梯度下降法(Proximal Gradient Descent)、交替方向乘子法(Alternating Direction Method of Multipliers)、牛顿法来结合实际的案例进行推导分析,主打一个面向对象。
近端梯度下降法
**PGD (Proximal Gradient Descent) **,称为近端梯度优化法,近端指的是局部区域,在损失函数曲线上的一个泰勒展开点的近端或附近。近端梯度优化则是损失函数曲线上的一个点附近进行泰勒展开,通过执行梯度优化寻找局部最优解。
为什么要提出PGD?与L1范数相关的稀疏问题求解中,L1范数不是处处可导(在零点不可导),无法使用梯度下降法。因此不难发现,其主要用于解决目标函数中存在可微和不可微函数的情况,如sgn函数。
【资料图】
在近端梯度求解时,会遇到绝对值求导的问题,绝对值求导结果为符号函数Sgn(x)
,这个过程需要分情况讨论,因此会形成软阈值算子。在下面的例子中,\(x\)即为关于\(b\)的软阈值。
因此在含L1范数的稀疏编码关于近端梯度下降算法的求解问题中,面临迭代软阈值优化分析,故这类问题也称为迭代软阈值算法(ISTA,Iterative Shrinkage Thresholding Algorithm)。
在这里,将近端梯度算法有关的算法做一个归类,针对问题:\(x=\underset{x}{\arg\min}g(x)+h(x)\),如果函数\(g(x)\)是可微的凸函数,\(h(x)\)是不可微的凸函数,那么可以根据\(h(x)\)将近端梯度算法表示为以下几种:
- 如果\(h(x)=0\),则近端梯度算法退化为一般的梯度下降算法
- 如果\(h(x)=I_C(x)\),则近端梯度算法称为投影梯度下降算法,其中示性函数\(I_C(x)=\begin{cases}0,&x\in C\\ \infty,&x\notin C\end{cases}\)
- 如果\(h(x)=\lambda \Vert x\Vert_1\),则近端梯度算法称为迭代软阈值算法。
标准Lasso问题(PGD)
针对问题:\(min_{x} g(x)+h(x)=min_{x}\frac{1}{2}||Ax-b||_2^2+\lambda||x||_1\),我们需要令其能够转化为\((x-b)^2\)的形式,因此,我们可以选择在\(x_0\)处泰勒展开(令\(\nabla^{2}g(x_{0})=\frac{1}{t}\)),则有:
\(\begin{aligned}g(x)&\approx g(x_0)+\nabla g(x_0)(x-x_0)+\frac{1}{2}\nabla^2g(x_0)(x-x_0)^2=g(x_0)+\nabla g(x_0)(x-x_0)+\frac{1}{2t}(x-x_0)^2\end{aligned}\)
那么,Lasso问题等价为:
\(min_{x}~g(x)+h(x) \approx min ~g(x_0)+\nabla g(x_0)(x-x_0)+\frac{1}{2t}(x-x_0)^2+h(x)\\ =min\frac{1}{2t}[x-x_0+t\nabla g(x_0)]^2+h(x)={min}_{x}\frac{1}{2t}||x-(x_{0}-t\nabla g(x_{0})||_{2}^{2}+h(x)=m i n\frac{1}{2t}||x-z||_{2}^{2}+h(x)\)
至此,我们可以得到\(z=x_{0}-t\nabla g(x_{0})\),即\(g(x)\)梯度下降的形式,此时如果代入\(h(x)=\lambda \Vert x\Vert_1\),我们就不难发现这个式子和开篇的类似,因此,我们可以得到Lasso问题的解为\(x=\boldsymbol{S}_{\lambda}\left( \boldsymbol{z} \right)\)
近端算子则可以表示为:\(prox_{t,h(\cdot)}(z)=\arg\min\frac12||x-z||_2^2+t\cdot h(x)\)
因此,近端梯度下降的迭代过程可以表示为如下:先对\(g(x)\)进行梯度下降求解\(z^{(k+1)}=x^{(k)}--t\nabla g(x_{(k)})\),再代入\(x^{(k+1)}=prox_{t,h(\cdot)}(z^{(k+1)})=\boldsymbol{S}_{\lambda}\left( \boldsymbol{z^{(k+1)}} \right)\)
标准Lasso问题(ISTA)
Lasso (Least Absolute Shrinkage and Selection Operatior),最小绝对收缩选择算子,本质是给解向量增加L1范数约束,使向量的元素尽可能稀疏。
给定目标函数如下:
\[\min _{\beta ,\alpha}\frac{1}{2}\lVert \boldsymbol{y}-\boldsymbol{X}\beta \rVert _{2}^{2}+\lambda \lVert \alpha \rVert _1, \boldsymbol{s}.\boldsymbol{t}. \beta -\alpha =0\]引入中间变量\(w\),如下:
\[\boldsymbol{L}\left( \alpha ,\beta ,\rho \right) =\frac{1}{2}\lVert \boldsymbol{y}-\boldsymbol{X}\beta \rVert _{2}^{2}+\lambda \lVert \alpha \rVert _1++\frac{\rho}{2}\lVert \beta -\alpha +\boldsymbol{w} \rVert _{2}^{2}-\frac{\rho}{2}\lVert \boldsymbol{w} \rVert _{2}^{2}\]下面分别对\(L\)关于\(\alpha,\beta\)和\(\rho\)项求极值点分析。
1、首先,对式中与\(\beta\)有关项进行偏导分析,详细过程如下(懒得描绘,直接看推导过程吧):
\[\min _{\beta}\frac{1}{2}\lVert \boldsymbol{y}-\boldsymbol{X}\beta \rVert _{2}^{2}+\frac{\rho}{2}\lVert \beta -\alpha +\boldsymbol{w} \rVert _{2}^{2}=\min _{\beta}\frac{1}{2}\beta ^T\boldsymbol{X}^T\boldsymbol{X}\beta -\boldsymbol{y}^T\boldsymbol{X}\beta +\frac{\rho}{2}\beta ^T\beta -\rho \left( \alpha -\boldsymbol{w} \right) ^T\beta \\\boldsymbol{l}_1=\boldsymbol{y}^T\boldsymbol{X}\beta \rightarrow \frac{\partial \boldsymbol{l}_1}{\partial \beta}=\boldsymbol{X}^T\boldsymbol{y}\\\boldsymbol{l}_2=\frac{1}{2}\beta ^T\boldsymbol{X}^T\boldsymbol{X}\beta \rightarrow \frac{\partial \boldsymbol{l}_2}{\partial \beta}=\boldsymbol{XX}^T\beta \\\boldsymbol{l}_3=\frac{\rho}{2}\beta ^T\beta \rightarrow \frac{\partial \boldsymbol{l}_3}{\partial \beta}=\rho \beta \\\boldsymbol{l}_4=\rho \left( \alpha -\boldsymbol{w} \right) ^T\beta \rightarrow \frac{\partial \boldsymbol{l}_4}{\partial \beta}=\rho \left( \alpha -\boldsymbol{w} \right) \\\boldsymbol{XX}^T\beta -\boldsymbol{X}^T\boldsymbol{y}+\rho \beta -\rho \left( \alpha -\boldsymbol{w} \right) =0\\\left( \boldsymbol{XX}^T+\rho \boldsymbol{I} \right) \beta -\boldsymbol{X}^T\boldsymbol{y}-\rho \left( \alpha -\boldsymbol{w} \right) =0\\\beta ^{\left( \boldsymbol{l}+1 \right)}=\left( \boldsymbol{XX}^T+\rho \boldsymbol{I} \right) ^{-1}\left[ \boldsymbol{X}^T\boldsymbol{y}+\rho \left( \alpha ^{\left( \boldsymbol{l} \right)}-\boldsymbol{w}^{\left( \boldsymbol{l} \right)} \right) \right]\]2、其次,对式中与\(\alpha\)有关项进行偏导分析,详细过程如下:
\[\min _{\alpha}\lambda \lVert \alpha \rVert _1+\frac{\rho}{2}\lVert \beta -\alpha +\boldsymbol{w} \rVert _{2}^{2}=\min _{\alpha}\lambda \lVert \alpha \rVert _1+\frac{\rho}{2}\left( -2\alpha ^T\beta +\alpha ^T\alpha -2\alpha ^T\boldsymbol{w} \right) \\\lambda \partial \lVert \alpha \rVert _1-\rho \beta +\rho \alpha -\rho \boldsymbol{w}=0\\\frac{\lambda}{\rho}\partial \lVert \alpha \rVert _1+\alpha =\beta +\boldsymbol{w}\\\left\{ \begin{array}{c}\alpha +\frac{\lambda}{\rho}=\beta +\boldsymbol{w},\alpha >0\\\alpha \in \left[ \beta +\boldsymbol{w}-\frac{\lambda}{\rho},\beta +\boldsymbol{w}+\frac{\lambda}{\rho} \right]\\\alpha -\frac{\lambda}{\rho}=\beta +\boldsymbol{w},\alpha <0\\\end{array} \right. \\\alpha ^{\left( \boldsymbol{l}+1 \right)}=\boldsymbol{S}_{\frac{\lambda}{\rho}}\left( \beta ^{\left( \boldsymbol{l}+1 \right)}+\boldsymbol{w}^{\left( \boldsymbol{l} \right)} \right)\]3、最后,更新\(w\)项:\(w^{(l+1)}=w^{(l)}+\beta^{(l)}-\alpha^{(l)}\)
混合Lasso问题(ISTA)
这个案例选自国防科大ISAR高分辨成像的1篇文章ADMM-Net,其主要引入了卷积算子来解决传统LASSO-成像问题中忽略了弱散射中心与强散射中心的关系导致的弱散射点成像不显著问题。其给定的目标函数如下:
\[\min _X\,\, \frac{1}{2}\lVert \boldsymbol{Y}-\boldsymbol{AX} \rVert _{F}^{2}+\lambda \lVert \frac{1}{\boldsymbol{C*X}+\epsilon}\bigodot{\boldsymbol{X}} \rVert_1\]上式中,\(C\)为卷积核,\(*\)为二维卷积,\(\epsilon\)为任意极小值,\(\bigodot\)为矩阵哈达玛积。下面通过引入中间变量\(Z=X\)来解耦合卷积过程的两项表达式,考虑中间变量后的目标函数如下:
\[\min _{X,\boldsymbol{Z},\boldsymbol{B}}\,\,\frac{1}{2}\lVert \boldsymbol{Y}-\boldsymbol{AX} \rVert _{F}^{2}+\lambda \lVert \frac{1}{\boldsymbol{CX}+\epsilon}\bigodot{\boldsymbol{Z}} \rVert_1 ,\boldsymbol{s}.\boldsymbol{t}. \boldsymbol{X}-\boldsymbol{Z}=0\]下面,我们将上式改写为增广拉格朗日方程的形式:
\[\boldsymbol{L}\left( \boldsymbol{X},\boldsymbol{Z},\boldsymbol{B} \right) =\frac{1}{2}\lVert \boldsymbol{Y}-\boldsymbol{AX} \rVert _{F}^{2}+\lambda \lVert \frac{1}{\boldsymbol{CX}+\epsilon}\bigodot{\boldsymbol{Z}} \rVert_1 +\left< \boldsymbol{B},\boldsymbol{X}-\boldsymbol{Z} \right> +\frac{\mu}{2}\lVert \boldsymbol{X}-\boldsymbol{Z} \rVert _{F}^{2}\]我们对上述目标函数\(\boldsymbol{L}\left( \boldsymbol{X},\boldsymbol{Z},\boldsymbol{B} \right) \)关于变量\(X\),\(Z\)和\(B\)分别求偏导,可以得到如下表达式:
1、首先,对关于\(X\)的项更新:
\[-\boldsymbol{A}^H\left( \boldsymbol{Y}-\boldsymbol{AX} \right) +\boldsymbol{B}+\mu \left( \boldsymbol{X}-\boldsymbol{Z} \right) =0\\\left( \boldsymbol{A}^HA+\mu \boldsymbol{I} \right) \boldsymbol{X}=\boldsymbol{A}^H\boldsymbol{Y}-\boldsymbol{B}+\mu \boldsymbol{Z}\\\boldsymbol{X}=\left( \boldsymbol{A}^HA+\mu \boldsymbol{I} \right) ^{-1}\left( \boldsymbol{A}^H\boldsymbol{Y}-\boldsymbol{B}+\mu \boldsymbol{Z} \right)\]2、再次,对关于\(Z\)的项更新:
\[\lambda \partial \lVert \boldsymbol{Z} \rVert \cdot \lVert \frac{1}{\boldsymbol{CX}+\epsilon} \rVert_1 -\mu \left( \boldsymbol{X}-\boldsymbol{Z} \right) -\boldsymbol{B}=0\\\frac{\lambda \lVert \frac{1}{\boldsymbol{CX}+\epsilon} \rVert_1}{\mu}\partial \lVert \boldsymbol{Z} \rVert +\boldsymbol{Z}=\boldsymbol{X}-\frac{\boldsymbol{B}}{\mu}\\\boldsymbol{Z}=\boldsymbol{S}_{\lVert \frac{\lambda}{\mu \left( \boldsymbol{CX}+\epsilon \right)} \rVert_1}\left( \boldsymbol{X}-\frac{\boldsymbol{B}}{\mu} \right)\]3、最后,对关于\(B\)项的更新:
\[\boldsymbol{B}^{\left( \boldsymbol{l}+1 \right)}=\boldsymbol{B}^{\left( \boldsymbol{l} \right)}+\mu \left( \boldsymbol{X}^{\boldsymbol{l}+1}-\boldsymbol{Z}^{\boldsymbol{l}+1} \right)\]交替方向乘子法
交替方向乘子法的主要思想为将大问题拆解为若干子问题进行迭代求解。
原子范数软阈值AST推导
单快拍
在范数对偶问题证明中,有噪声版本下的单快拍原子范数软阈值问题可以表示为:
\(\begin{array}{ll}\text{minimize}_{t,u,x,Z}&\frac{1}{2}\|x-y\|_2^2+\frac{\tau}{2}(t+u_1)\\ \text{subject to}&Z=\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\\ &Z\succeq0.\end{array}\)
下面给出具体的变量迭代过程:
1、首先需要将上述有约束条件的原问题表述为增广拉格朗日方程形式,如下所示:
\(\begin{array}{c}\mathcal{L}_\rho(t,u,x,Z,\Lambda)=\dfrac{1}{2}\|x-y\|_2^2+\dfrac{\tau}{2}(t+u_1)+\left\langle\Lambda,Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\rangle+\dfrac{\rho}{2}\left\|Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\|_F^2\end{array}\)
其中,\(\Lambda^l=\begin{bmatrix}\Lambda_{0}^l&\lambda_{1}^l\\ \lambda_{1}^{l*} & \Lambda_{n+1,n+1}^l\end{bmatrix}\),\(Z^l=\begin{bmatrix}Z_{0}^l&z_{1}^l\\ z_{1}^{l*} & Z_{n+1,n+1}^l\end{bmatrix}\)
2、下面依次对变量\(x\),\(t\),\(u\)依次迭代更新:
2.1 首先提取关于\(x\)项的表达式,\(\dfrac{1}{2}\|x-y\|_2^2+\left\langle\Lambda,Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\rangle+\dfrac{\rho}{2}\left\|Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\|_F^2\)
其偏导为\(-2\lambda_1^l+2\rho(x-z_1^l)+x-y=0,\)那么有\(x^{l+1}=\frac{y+2\lambda_1^l+2\rho z_1^l}{1+2\rho}\).
2.2 其次提取关于\(t\)项的表达式,\(\dfrac{\tau}{2}(t+u_1)+\left\langle\Lambda,Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\rangle+\dfrac{\rho}{2}\left\|Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\|_F^2\)
其偏导为\(\frac{\tau}{2}-\Lambda_{n+1,n+1}^l+\rho t-\rho Z_{n+1,n+1}^l=0\),那么有\(t^{l+1}=\frac{1}{\rho}(\rho Z_{n+1,n+1}{l}+\Lambda_{n+1,n+1}^l-\tau/2)\).
2.3 其次提取关于\(u\)项的表达式,\(\dfrac{\tau}{2}(t+u_1)+\left\langle\Lambda,Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\rangle+\dfrac{\rho}{2}\left\|Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\|_F^2\)
其偏导为\(\frac{\tau}{2}e_1-\Lambda_0^l+\rho(T(u)-\Z_0^l)=0\),那么有\(u^{l+1}=W\left(T^*(Z_0^l+\Lambda_0^l/\rho)-\dfrac{\tau}{2\rho}e_1\right)\),对角矩阵\(W\)满足关系\(W_{ii}=\begin{cases}\frac{1}{n}&i=1\\ \frac{1}{2(n-i+1)}&i>1\end{cases}\),\(T^*(\cdot)\)表示生成共轭转置向量.
2.4 其次提取关于\(Z\)项的表达式,\(\left\langle\Lambda,Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\rangle+\dfrac{\rho}{2}\left\|Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}\right\|_F^2\)
其可进步表示为\(\dfrac{\rho}{2}\left\|Z-\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}+\rho^{-1}\Lambda\right\|_F^2+Const\),当且仅当\(Z=\begin{bmatrix}T(u)&x\\ x^*&t\end{bmatrix}+\rho^{-1}\Lambda\)时有最小值.
因此\(Z^{l+1}=\begin{bmatrix}T(u^{l+1})&x^{l+1}\\ (x^{l+1})^*&t^{l+1}\end{bmatrix}+\rho^{-1}\Lambda^{l}\)
2.5 最后,更新拉格朗日乘子项\(\Lambda^{l+1}=\Lambda^{l}+\rho(Z^{l+1}-\begin{bmatrix}T(u^{l+1})&x^{l+1}\\ (x^{l+1})^*&t^{l+1}\end{bmatrix})\)
多快拍
在范数对偶问题证明中,有噪声版本下的多快拍原子范数软阈值问题可以表示为:
\[[\mathbf{X},\mathbf{u}]=\operatorname*{argmin}_{\mathbf{X},\mathbf{W},\mathbf{u},\mathbf{\Theta}}[\operatorname{Tr}(\mathbf{W})+\operatorname{Tr}(T(\mathbf{u}))]+\frac{1}{2}||\mathbf{Y}-X||^2_{\text{F}},s.t.\boldsymbol{\Theta}=\left[\begin{array}{cc}T(\boldsymbol{u})&X\\ \boldsymbol{X^H}&W\end{array}\right]\geq0\]下面给出具体的变量迭代过程:
1、首先需要将上述有约束条件的原问题表述为增广拉格朗日方程形式,如下所示:
\[L=\text{argmin}\frac{\tau}{2}[\mathrm{Tr}(\mathbf{W})+\mathrm{Tr}(T(\mathbf{u}))]+\frac{1}{2}||\mathbf{Y}-X||^2_\text{F}+\left\langle\mathbf{\Lambda},\mathbf{\Theta}-\left[\begin{array}{cc}T(\mathbf{u})&\mathbf{X}\\ \mathbf{X}^\mathrm{H}&\mathbf{W}\end{array}\right]\right\rangle+\frac{\rho}{2}\|\mathbf{\Theta}-\left[\begin{array}{cc}T(\mathbf{u})&\mathbf{X}\\ \mathbf{X}^\mathrm{H}&\mathbf{W}\end{array}\right]\|_{\mathbf{F}}^2\]2、下面需要依次对变量\(X,W,u,\Theta,\Lambda\)等参量分别求极值点来更新每个子问题的最优解;在正式更新前,需要展开以下几个参量表示,以更好地帮助证明推导。(下面中\(M,L\)分别表示阵元数目和快拍数目)
\[\mathbf{\Theta}=\begin{bmatrix}\mathbf{\Theta}_{T(u)}&\mathbf{\Theta}_{X}\\ {(\mathbf{\Theta}_{X})}^{H}&\mathbf{\Theta}_{W}\end{bmatrix},\mathbf{\Lambda}=\left[\begin{matrix}{\mathbf{\Lambda}_{T(\mathbf{u})}}&{\mathbf{\Lambda}_{\mathbf{X}}}\\ {\left(\mathbf{\Lambda}_{\mathbf{X}}\right)^{\mathrm{H}}}&{\mathbf{\Lambda}_{\mathbf{W}}}\end{matrix}\right]\in\mathbb{C}^{(M+L)\times(M+L)}\]上式中,\(\mathbf{\Theta}_{W},\mathbf{\Lambda}_{W}\in C^{L\times L}\),\(\mathbf{\Theta}_{T(u)},\mathbf{\Lambda}_{T(u)}\in C^{M\times M}\),\(\mathbf{\Theta}_{X},\mathbf{\Lambda}_{X}\in C^{L\times M}\)
对于\(L_1=\left\langle\mathbf{\Lambda},\mathbf{\Theta}-\left[\begin{array}{cc}T(\mathbf{u})&\mathbf{X}\\ \mathbf{X}^\mathrm{H}&\mathbf{W}\end{array}\right]\right\rangle\),我们有\(L_1=trace(\Lambda^T\{\mathbf{\Theta}-\left[\begin{array}{cc}T(\mathbf{u})&\mathbf{X}\\ \mathbf{X}^\mathrm{H}&\mathbf{W}\end{array}\right]\})\),令\(B=\mathbf{\Theta}-\left[\begin{array}{cc}T(\mathbf{u})&\mathbf{X}\\ \mathbf{X}^\mathrm{H}&\mathbf{W}\end{array}\right]\),对于\(trace(\Lambda^TB)\)关于\(B\)的偏导为\(trace(\Lambda)\),\(B\)关于\(X\)的导数为\(\left[\begin{array}{cc}O_{M\times M}&\mathbf{-I_{M\times L}}\\ \mathbf{-I_{L\times M}}&\mathbf{O_{L\times L}}\end{array}\right]\),那么对应\(L_1\)关于\(X\)的偏导为\(trace(\left[\begin{matrix}{\mathbf{-\Lambda}_{X}}&{\mathbf{-\Lambda}_{T(\mathbf{u})}}\\ {\mathbf{-\Lambda}_{\mathbf{W}}^{}}&{\mathbf{-\Lambda}_{\mathbf{X}^H}}\end{matrix}\right])\)
对于\(L_2=\frac{\rho}{2}\|\mathbf{\Theta}-\left[\begin{array}{cc}T(\mathbf{u})&\mathbf{X}\\ \mathbf{X}^\mathrm{H}&\mathbf{W}\end{array}\right]\|_{\mathbf{F}}^2\),我们有\(L_2=trace((\Theta-B)(\Theta-B)^H)=trace(\Theta\Theta^H-\Theta B^H-B\Theta^H+BB^H),\)我们对\(L_2\)关于X求偏导可以得到其偏导数为\(2\cdot trace(\{\Theta-B\}\cdot \left[\begin{array}{cc}O_{M\times M}&\mathbf{-I_{M\times L}}\\ \mathbf{-I_{L\times M}}&\mathbf{O_{L\times L}}\end{array}\right])=2trace(\left[\begin{array}{cc}X-\Theta_X&\mathbf{T_u-\Theta_{T_u}}\\ \mathbf{W-\Theta_W}&\mathbf{X^H-\Theta_{X^H}}\end{array}\right])\)
那么,我们可以得到\(L\)关于\(X\)的偏导为\(\rho(2X-2\Theta_X)-2\Lambda_X+X-Y=0\),因而在第一步迭代可以更新\(X\)如下:
\[X^{k+1}=\frac{Y+2\Lambda_X^{(k)}+2\Theta_X^{(k)}}{1+2\rho}\]3、下面,我们继续对\(L\)中关于\(W\)的项求偏导,可以得到以下形式:
\[\boldsymbol{trace}\left( \frac{\tau}{2}\boldsymbol{I}_{\boldsymbol{L}\times \boldsymbol{L}}+\left[ \begin{matrix}\Lambda _{\boldsymbol{T}\left( \boldsymbol{u} \right)}&\Lambda _{\boldsymbol{X}}\\\Lambda _{\boldsymbol{X}^H}&\Lambda _{\boldsymbol{W}}\\\end{matrix} \right] \left[ \begin{matrix}\boldsymbol{O}&\boldsymbol{O}\\\boldsymbol{O}&-\boldsymbol{I}_W\\\end{matrix} \right] +\rho \left[ \begin{matrix}\Theta _{\boldsymbol{T}\left( \boldsymbol{u} \right)}-\boldsymbol{T}_u&\Theta _X-\boldsymbol{X}\\\Theta _{X^H}-\boldsymbol{X}^H&\Theta _W-\boldsymbol{W}\\\end{matrix} \right] \left[ \begin{matrix}\boldsymbol{O}&\boldsymbol{O}\\\boldsymbol{O}&-\boldsymbol{I}_W\\\end{matrix} \right] \right)\]取迹后,我们可以得到关于\(W\)的更新式如下:
\[\frac{\tau}{2}\boldsymbol{I}_{\boldsymbol{L}\times \boldsymbol{L}}-\Lambda _{\boldsymbol{W}}+\rho \boldsymbol{W}-\rho \Theta _W=0\\\boldsymbol{W}=-\rho ^{-1}\Lambda _W+\Theta _W-\frac{\tau}{2\rho}\boldsymbol{I}_{\boldsymbol{L}\times \boldsymbol{L}}\]4、下面,我们继续对\(L\)中关于\(T(u)\)的项求偏导,可以得到其更新式如下:
\[\frac{\tau}{2}\boldsymbol{I}_{\boldsymbol{M}\times \boldsymbol{M}}+\left[ \begin{matrix}\Lambda _{\boldsymbol{T}\left( \boldsymbol{u} \right)}&\Lambda _{\boldsymbol{X}}\\\Lambda _{\boldsymbol{X}^H}&\Lambda _{\boldsymbol{W}}\\\end{matrix} \right] \left[ \begin{matrix}-\boldsymbol{I}_{M\times \boldsymbol{M}}&\boldsymbol{O}\\\boldsymbol{O}&\boldsymbol{O}\\\end{matrix} \right] +\rho \left[ \begin{matrix}\Theta _{\boldsymbol{T}\left( \boldsymbol{u} \right)}-\boldsymbol{T}_u&\Theta _X-\boldsymbol{X}\\\Theta _{X^H}-\boldsymbol{X}^H&\Theta _W-\boldsymbol{W}\\\end{matrix} \right] \left[ \begin{matrix}-\boldsymbol{I}_{M\times \boldsymbol{M}}&\boldsymbol{O}\\\boldsymbol{O}&\boldsymbol{O}\\\end{matrix} \right] =0\\\frac{\tau}{2}\boldsymbol{I}_{\boldsymbol{M}\times \boldsymbol{M}}-\Lambda _{\boldsymbol{T}_u}+\rho \left( \boldsymbol{T}_u-\Theta _{\boldsymbol{T}\left( \boldsymbol{u} \right)} \right) =0\\\boldsymbol{T}_{u}^{+}=-\frac{\tau}{2\rho}\boldsymbol{I}_{M\times \boldsymbol{M}}+\frac{1}{\rho}\Lambda _{\boldsymbol{T}\left( \boldsymbol{u} \right)}+\Theta _{\boldsymbol{T}\left( \boldsymbol{u} \right)}\]5、下面,我们继续对\(L\)中关于\(\Theta\)的项求偏导,这项比较特殊,因为我们可以将含\(\Theta\)的项转化为以下形式:
\[<\Lambda ,\Theta -\left[ \begin{matrix}\boldsymbol{T}_u&\boldsymbol{X}\\\boldsymbol{X}^H&\boldsymbol{W}\\\end{matrix} \right] >+\frac{\rho}{2}\lVert \Theta -\left[ \begin{matrix}\boldsymbol{T}_u&\boldsymbol{X}\\\boldsymbol{X}^H&\boldsymbol{W}\\\end{matrix} \right] \rVert _{F}^{2}=\frac{\rho}{2}\lVert \Theta -\left[ \begin{matrix}\boldsymbol{T}_u&\boldsymbol{X}\\\boldsymbol{X}^H&\boldsymbol{W}\\\end{matrix} \right] +\rho ^{-1}\Lambda \rVert _{F}^{2}+\boldsymbol{const}\]那么,对应我们可以得到\(\Theta\)在\(\left[ \begin{matrix}\boldsymbol{T}_u&\boldsymbol{X}\\\boldsymbol{X}^H&\boldsymbol{W}\\ \end{matrix} \right] -\rho ^{-1}\Lambda \)时取到极值点。
6、对应乘子项的更新,同单快拍中的表述。我们在上面的表述中,没有显式地写出具体的\(l+1\)和\(l\)次迭代的关系,这并不影响,可以参考单快拍算法中的步骤,这里只是为了码公式而进行了简化。
牛顿法
牛顿法是求解无约束优化问题的经典方法。
参考文献
[1] ADMM算法简介[2] 近端梯度下降
关键词:
-
深入分析:近端梯度下降法、交替方向乘子法、牛顿法
本文主要围绕近端梯度下降法(ProximalGradientDescent)、交替方向乘子法(AlternatingDirectionMethodofM
来源: 深入分析:近端梯度下降法、交替方向乘子法、牛顿法
快看点丨30年老律师用ChatGPT旁征博引:结果被骗得禁止执业!
WinXP问世22年后 黑客发布离线激活算号器:强大程度被低估了
见证历史!国产大飞机C919首航顺利降落
西藏拉萨:藏式克朗球协会正式成立
MAC中文版 Final Cut Pro X(FCPX) V10.6.6 专属视频剪辑后期工具安装教程_全球快看
微软宣布Windows全球用户超10亿!Win11是史上最可靠操作系统 快看
特斯拉陶琳:谣言层出不穷、原因之一是流量至上
中国经济信心说丨人口高质量发展 从直面每个家庭的实际困难开始
环球微动态丨Python 标准类库-因特网数据处理之Base64数据编码
世界微资讯!2023 Sun Simiao TCM International Forum kicks off in China's Shaanxi
注意防范 7省市将现大到暴雨:部分地区有雷暴大风或冰雹-环球关注
快资讯丨直播:国产大飞机C919商业首飞!网友感叹中国人终于要坐上国产大飞机
时隔10年 索尼全新PS掌机Q公布!电池续航很堪忧
青海省内外贸易实现快速增长_新动态
一代网民青春记忆 天涯回应无法访问:拖欠多年电信IDC费已无法协商
周鸿祎训练数字人代替演讲!直言有危机感 不想被数字人“干掉”
全球视讯!《小美人鱼》北美票房第一
树莓派使用HC-SR04超声波测距-环球快播报
省社保中心一行调研株洲经开区社保系统数据迁移工作
余承东:没水平的人才打价格战 靠低价的车企很难走远
环球快讯:一理想车主雨天高速路躺平开车:用饮料瓶欺骗汽车“自动驾驶”
世界观焦点:济南工程职业技术学院举办山东省2023年度第一场“课程思政研课会”
世界快资讯丨印度一官员为找手机抽空210万升水库:最终结果神仙难救
余承东:我喜欢做产品、不喜欢吹牛打广告 焦点简讯
期待!国产大飞机C919商业航班今天首飞 全球热门
高考倒计时10天!今年新增21种普通本科新专业:考生报志愿注意|速讯
学系统集成项目管理工程师(中项)系列28_后记|快资讯
世界简讯:风云岛行动翩翩红桃皇后皮肤介绍(风云岛行动女角色泳装图)
SQL基础知识扫盲_环球播资讯
每日速讯:控制结构
环球观热点:五月天演唱会场内 大爷气定神闲被围观:网友为年龄最大歌迷点赞
百万美女网红“狗头萝莉”卖煎饼被当面辱骂 持续2小时:官方回应
天天微动态丨马斯克回应多年前嘲笑比亚迪 人家很强:超越丰田 登顶中国第一
第一个淘汰油车的国家:竟然在天寒地冻的北欧-天天热消息
热门看点:华硕、宏碁库存减少近40%!PC市场终于要复苏?
阿盟包括哪些国家和地区 阿盟包括哪些国家 天天头条
全球观天下!天龙八部sf最新发布网 天龙八部cyg
每日热文:烤面包制作过程分享给你,一学就会!
justification中文意思_justification
第五章:复制
数据库保护
美国人往海里丢了200万轮胎 引发生态灾难!22年没捞干净 观天下
天天即时看!全球2亿网友为深圳野生珊瑚“接生”!
pytorch--训练分层学习率设置
AMD等对手不足为惧 NVIDIA谈竞争优势:我们成本最低_全球观焦点
幼童学动画从26楼跳下 事发时家没人:竟无生命危险 网友感慨太幸运
【环球播资讯】才能开路虎上一句是什么_才能开
文心一言 VS 讯飞星火 VS chatgpt (23)-- 算法导论4.2 5题
我的第一个项目(十四) :完成数据保存功能(前端,增查改接口)
8)排序、分组|焦点热讯
世界“太阳能之父”:未来5年世界将依赖中国光伏 世界今亮点
3秒贴好0失败 Anker iPhone幻影壳膜29元起(一年内碎膜包赔) 每日快讯
3d贴图怎么贴上去-3d贴图怎么贴_动态
多人称被苹果充电头电伤:客服称正常 都在安全范围内 世界视点
吃火锅嗓子疼 10分钟就死人?等等 真相可能和你想的不一样_天天微资讯
中国超算再次问鼎全球 超越历史最佳纪录15倍
红薯多少度会受冷害影响?_世界即时看
今日观点!MySQL的SQL语句执行流程(简述)
CPU-Z 2.06正式升级:大力支持中国兆芯x86处理器
国产虚幻5《影之刃零》火了!索尼发布会播放量第三_环球观速讯
2023春季中国南水北调中线有限公司招聘拟聘人员公示_全球热消息
Doris(二) -- 基本概念和数据表模型
GeFore GPU杀进手机市场 联发科、NVIDIA合作旗舰级处理器:回应来了
研究发现人在打盹时最具创造力:创造性比清醒受试者多78%
是谁推高了榴莲价格?网友吐槽吃不起 动辄三四百块一个 有人热衷开盲盒-速读
佛山南海:明年6月底前完成全区初高中在校学生脊柱侧弯全员筛查 天天信息
低代码的“钱景”——专业的事交给专业的人来做
composer的安装
connection reset by peer 发生了什么?|每日简讯
环球讯息:人类一败涂地 60万年薪的高级工作可被AI取代:成本只要2000多
机票价格仅919元 国产大飞机C919首航在即:万亿航空市场开启|天天日报
方力钧画袁老后续处理结果 个人简历家庭背景最贵的画价值多少具体情况详细内容介绍 全球新要闻
热点在线丨出门倒车疑油门当刹车倒进村河 一家4口不幸身亡:网友叹息
32GB DDR5只要400多 内存要跌破成本了 最快7月反转 全球新要闻
天天快看点丨特斯拉CEO马斯克:比亚迪的产品极具竞争力
世界动态:苹果7月关闭我的照片流服务:用户需尽快迁移iCloud
世界短讯!如何通过Python将JSON格式文件导入redis?
《崩坏:星穹铁道》营收超《原神》!上线10日吸金1亿美元|当前速讯
亚运走进三江源 携手辉映生态之光 天天观点
全球热点!Linux工作原理1简介
3W字吃透:微服务网关SpringCloud gateway底层原理和实操
红黑树_每日资讯
未来边缘计算:趋于分布式智能
AI也有焦虑症?专家:微调模型AI可供医生研究“精神病人” 每日短讯
当前播报:专家:印度人口将是中国三倍 成全球第一人口大国
余承东:华为必须造车 是和车企一起造最好的车 快看点
环球热文:接连失效!西丽、西乡旧改都未获批!
x86游戏逆向之实战游戏线程发包与普通发包的逆向 快看
全球热门:理解JS中数组的常见应用
索引与分片|今日看点
泺怎么读什么意思(泺怎么读)
头条:司机担心违法被拍拒给救护车让路 回应扣分怎么办引热议:网友吵翻
韩方称要做好亚运会不公平待遇准备 国内选手吐槽:不配说公平 韩服笑死人
环球热消息:科技股票十年回报率:英伟达105倍第一 马斯克四字回应
23 Windows Sever 201服务器系统的安装以及远程控制的设置与使用
特斯拉车顶维权女车主回应败诉:有一案胜诉 获赔2万元
很是震撼!古人吃剩的螺蛳壳堆成一座山 13个足球场大小
世界通讯!杨紫琼版观音菩萨引热议!《西游ABC》差评不断:豆瓣已5.6分
全球即时:越南大牌:Lipo柠檬味面包干8.9元/包抄底