ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

最优性条件

2022-08-19 12:00:57  阅读:148  来源: 互联网

标签:bar nabla 最优性 cdots 条件 quad left mathrm


非线性规划的最优解所满足的必要条件和充分条件(仅包含定理)

注意:文中很多地方的变量其实是矢量,比如方向 \(d\) 和梯度,为了方便写都没有写粗体。

一、无约束问题的最优性条件

  • 定理 7.1.1 (其它定理证明需要的基础定理)

    设函数 \(f(x)\) 在点 \(\bar{x}\) 处可微,如果存在方向 \({d}\) ,使得 \(\nabla f(\bar{{x}})^{\mathrm{T}} {d}<0\) ,则存在 \(\delta>0\) ,使得对每个 \(\lambda\in(0,\delta)\),有 \(f(\bar{x}+\lambda d)<f(\bar{x})\).

  • 定理 7.1.2 (局部极小点的一阶必要条件)

    设函数 \(f(x)\) 在点 \(\bar{x}\) 处二次可微,若点 \(\bar{x}\) 是局部极小点,则梯度 \(\nabla f(\bar{x})={0}\).

  • 定理 7.1.3 (局部极小点的二阶必要条件)

    设函数 \(f(x)\) 在点 \(\bar{x}\) 处二次可微,若点 \(\bar{x}\) 是局部极小点,则梯度 \(\nabla f(\bar{x})=\boldsymbol{0}\),且 Hesse 矩阵 \(\nabla^{2} f(\bar{x})\) 半正定.

  • 定理 7.1.4 局部极小点的二阶充分条件

    设函数 \(f(x)\) 在点 \(\bar{x}\) 处二次可微,若梯度 \(\nabla f(\bar{x})={0}\),且 Hesse 矩阵 \(\nabla^{2} f(\bar{x})\) 正定,则 \(\bar{x}\) 是局部极小点.

  • 定理 7.1.5 (函数凸性假设下,全局极小点的充要条件)

    设函数 \(f(x)\) 是定义在 \(\mathbb{R}^n\) 上的可微凸函数,\(\bar{x}\in\mathbb{R^n}\) ,则 \(\bar{x}\) 是全局极小点的充分必要条件是梯度 \(\nabla f(\bar{x})={0}\).

二、含约束问题的最优性条件

2.1 含约束的极值问题表示

有约束的极值问题

\[\begin{array}{ll} \min & f(\boldsymbol{x}) \quad {x} \in \mathbb{R}^{n} \\ \text { s.t. } & g_{i}({x}) \geqslant 0, \quad i=1, \cdots, m, \\ & h_{j}({x})=0, \quad j=1, \cdots, l, \end{array} \]

其中,\(g_{i}({x}) \geqslant 0\) 为不等式约束,\(h_{j}({x})=0\) 为等式约束,集合

\[S=\left\{{x} \mid g_{i}({x}) \geqslant 0, i=1, \cdots, m ; h_{j}({x})=0, j=1, \cdots, l\right\} \]

称为可行域

2.2 可行方向与下降方向

  • 下降方向

    设函数 \(f(x)\) 是定义在 \(\mathbb{R}^n\) 上的实函数,\(\bar{x}\in\mathbb{R^n}\) ,\(d\) 是非零向量,若存在数 \(\delta>0\) ,使得对每个 \(\lambda\in(0,\delta)\)​,都有

    \[f(\bar{x}+\lambda d)<f(\bar{x}) \]

    则称 \(d\) 是函数 \(f(x)\) 在 \(\bar{x}\) 处的下降方向。

    如果 \(f(x)\) 是可微函数,且 \(\nabla f(\bar{{x}})^{\mathrm{T}} {d}<0\) ,则根据定理 7.1.1,\(d\) 是函数 \(f(x)\) 在 \(\bar{x}\) 处的下降方向,记作

    \[F_{0}=\left\{{d} \mid {\nabla} f(\overline{{x}})^{\mathrm{T}} {d}<0\right\} \]

  • 可行方向

    设集合 \(S \subset \mathbb{R}^{n},\bar{x}\in \mathrm{cl}\;S\),\(d\) 是非零向量,若存在数 \(\delta>0\) ,使得对每个 \(\lambda\in(0,\delta)\),都有

    \[\bar{x}+\lambda d \in S \]

    则称 \(d\) 是集合 \(S\) 在 \(\bar{x}\) 处的可行方向。其中 "cl" 表示闭包。

    集合 \(S\) 在在 \(\bar{x}\) 处的可行方向组成的集合

    \[D=\{{d} \mid {d} \neq \mathbf{0}, \overline{{x}} \in \mathrm{cl}\; S, \exists \delta>0 \text {, 使得 } \forall \lambda \in(0, \delta) \text {, 有 } \overline{{x}}+\lambda {d} \in S\} \]

    称为在 \(\bar{x}\) 处的可行方向锥

  • 定理 7.2.1

    设 \(S\) 是 \(\mathbb{R}^{n}\) 中的非空集合,\(\bar{x}\in S\), \(f(x)\) 在点 \(\bar{x}\) 处可微,若 \(\bar{x}\) 是局部最优解,则 \(F_{0} \cap D=\varnothing\). 即若 \(\bar{x}\) 是局部最优解,则 \(\bar{x}\) 处的可行方向一定不是下降方向。

2.3 不等式约束问题

非线性规划问题

\[\begin{array}{ll} \min & f({x}) \\ \text { s. t. } & g_{i}({x}) \geqslant 0, \quad i=1, \cdots, m . \end{array} \]

可行域为

\[S=\left\{{x} \mid g_{i}({x}) \geqslant 0, i=1, \cdots, m\right\} \]

其约束条件在点 \(\bar{x}\in S\) 有两种情形:

  • 在点 \(\bar{x}\) 处起作用约束(下标集用 \(I\) 表示)

    \[g_{i}(\bar{x})=0, \quad i \in I \]

  • 在点 \(\bar{x}\) 处不起作用约束

    \[g_{i}(\bar{x})>0, \quad i \notin I . \]

    • 用 \(I\) 表示起作用约束下标集

      \[I=\left\{i \mid g_{i}(\bar{{x}})=0\right\} \]

    • 用 \(G_0\) 替代定理 7.2.1 中的可行方向锥 \(D\)

      \[G_{0}=\left\{{d} \mid \nabla{g_{i}}(\bar{{x}})^{\mathrm{T}} {d}>0, i \in I\right\} \]

  • 定理 7.2.2(由7.2.1变化而来)—— 最优性的几何表示

    设 \(\bar{x}\in S\), \(f(x)\) 在点 \(\bar{x}\) 处可微,\(g_i(x)(i\notin I)\) 在 \(\bar{x}\) 连续,若 \(\bar{x}\) 是局部最优解,则

    \[F_{0} \cap G_0=\varnothing \]

  • 定理 7.2.3 (Fritz John条件)—— 最优性的代数表示

    设 \(\bar{x}\in S\),\(I=\{i|g_i(\bar{x})=0\}\), \(f,g_i\in I\) 在点 \(\bar{x}\) 处可微,\(g_i(x)(i\notin I)\) 在 \(\bar{x}\) 连续,若 \(\bar{x}\) 是局部最优解,则存在不全为0的非负数 \(w_0,w_i(i\in I)\) ,使得

    \[w_{0} \nabla f(\bar{x})-\sum_{i \in I} w_{i} \nabla g_{i}(\bar{x})=0 \]

    证明需要用到 Gordan 定理,即 如果一组基的非负组合是一个凸锥,则等价为这组基的正组合表示不了原点,除非系数都是0(两个条件只有一个成立)

  • 定理 7.2.4 (Kuhn-Tucker 条件)—— K-T条件,在Fritz John条件基础上增加了起约束作用的梯度线性无关的约束规格(对约束条件的限制),以避免出现 \(w_0=0\) 的情形。

    设 \(\bar{x}\in S\)​,\(I=\{i|g_i(\bar{x})=0\}\)​, \(f,g_i\in I\)​ 在点 \(\bar{x}\)​ 处可微,\(g_i(x)(i\notin I)\)​ 在 \(\bar{x}\)​ 连续,\(\left\{\nabla g_{i}(\bar{x}) \mid i \in I\right\}\)​ 线性无关, 若 \(\bar{x}\)​ 是局部最优解,则存在非负数 \(w_i(i\in I)\)​ ,使得

    \[\nabla f(\bar{{x}})-\sum_{i \in I} w_{i} \nabla g_{i}(\bar{{x}})=\mathbf{0} \]

    若 \(g_i(x)(i\notin I)\) 在点 \(\bar{x}\) 处可微,K-T 条件可等价表示为

    \[\begin{aligned} &\nabla f(\bar{x})-\sum_{i=1}^{m} w_{i} \nabla g_{i}(\bar{{x}})=\mathbf{0}, \\ &w_{i} g_{i}(\bar{x})=0, \quad i=1, \cdots, m, \\ &w_{i} \geqslant 0, \quad i=1, \cdots, m . \end{aligned} \]

    其中,\(w_{i} g_{i}(\bar{x})=0\) 称为互补松弛条件

  • 定理 7.2.5 凸优化问题最优解的一阶充分条件

    设问题中 \(f\) 是凸函数,\(g_i(i=1,2,\cdots,m)\) 是凹函数(注意不等式约束 \(g_i\) 的符号(若是 \(g_i\le0\) ,则应该是凸函数),\(S\) 是可行域,\(\bar{x}\in S\),\(I=\{i|g_i(\bar{x})=0\}\), \(f,g_i\in I\) 在点 \(\bar{x}\) 处可微,\(g_i(x)(i\notin I)\) 在 \(\bar{x}\) 连续,K-T 条件成立,则 \(\bar{x}\) 为全局最优解。

2.4 一般约束问题

一般约束问题(含不等式和等式约束)

\[\begin{array}{ll} \min & f({x}) \\ \text { s. t. } & g_{i}({x}) \geqslant 0, \quad i=1, \cdots, m,\\ & h_{j}({x}) \geqslant 0, \quad j=1, \cdots, l. \end{array} \]

  • 正则点

    设 \(\bar{x}\) 为可行点,不等式约束中在 \(\bar{x}\) 起作用约束下标集记作 \(I\) ,如果向量组 \(\left\{\nabla g_{i}(\bar{x}), \nabla h_{j}(\bar{x}) \mid i \in I, j=1,2, \cdots, l\right\}\) 线性无关,就称 \(\bar{x}\) 为约束 \(g(x)\ge 0\) 和 \(h(x)=0\) 的正则点。

  • 可行曲线与切平面(为描述等式约束的可行移动引入)

    • 定义 7.2.4 点集 \(\left\{x=x(t) \mid t_{0} \leqslant t \leqslant t_{1}\right\}\) 称为超曲面 \(S=\{x|h(x)=0\}\) 上的一条曲线, 若对所有的 \(t\in[t_0,t_1]\) 均有\(h(x)=0\) ,则如果导数 \(x'(t)=\frac{\mathrm dx(t)}{\mathrm dt}\) 存在,则称曲线是可微的,该一阶导数是曲线在点 \(x(t)\) 处的切向量,曲面 \(S\) 在点 \(x\) 处所有可微切向量组成的集合,称为曲面 \(S\) 在点 \(x\) 的切平面,记作 \(T(x)\)。
  • 等式约束的几何表示

    设 \(\bar{x}\) 为曲面 \(S=\{x|h(x)=0\}\) 上一个正则点,则在点 \(\bar{x}\) 切平面 \(T(\bar{x})\) 等于子空间 \(H=\left\{d \mid \nabla h(\bar{x})^{\top} d=0\right\}\).

  • 定理 7.2.7 一般约束问题最优解的一阶必要条件 —— 几何表示

    设 \(\bar{x}\) 为可行点,\(I=\{i|g_i(\bar{x})=0\}\), \(f,g_i\in I\) 在点 \(\bar{x}\) 处可微,\(g_i(x)(i\notin I)\) 在 \(\bar{x}\) 连续,\(h_j(j=1,2,\cdots,l)\) 在点 \(\bar{x}\) 连续可微,\(\nabla h_j(\bar{x})(j=1,2,\cdots,l)\) 线性无关, 若 \(\bar{x}\) 是局部最优解,则在 \(\bar{x}\) 处,有

    \[F_{0} \cap G_{0} \cap H_{0}=\varnothing \]

    其中,\(F_{0},G_{0},H_{0}\) 的定义为

    \[\begin{aligned} &F_{0}=\left\{{d} \mid \nabla f(\bar{x})^{\mathrm{T}} d<0\right\}, \\ &G_{0}=\left\{{d} \mid \nabla g_{i}(\bar{x})^{\mathrm{T}} {d}>0, i \in I\right\} \\ &H_{0}=\left\{{d} \mid \nabla h_{j}(\bar{x})^{\mathrm{T}} d=0, j=1,2, \cdots, l\right\}. \end{aligned} \]

  • 定理 7.2.8 (Fritz John条件) —— 代数表示

    设 \(\bar{x}\) 为可行点,\(I=\{i|g_i(\bar{x})=0\}\), \(f,g_i\in I\) 在点 \(\bar{x}\) 处可微,\(g_i(x)(i\notin I)\) 在 \(\bar{x}\) 连续,\(h_j(j=1,2,\cdots,l)\) 在点 \(\bar{x}\) 连续可微,若 \(\bar{x}\) 是局部最优解,则存在不全为零的数 \(w_0,w_i(j\in I)\) 和 \(v_j(j=1,2,\cdots,l)\) ,使得

    \[w_{0} \nabla f(\bar{x})-\sum_{i \in I} w_{i} \nabla g_{i}(\bar{x})-\sum_{j=1}^{i} v_{j} \nabla h_{j}(\bar{x})=\mathbf{0}, \quad w_{0}, w_{i} \geqslant 0, \quad i \in I . \]

  • 定理 7.2.9 (Kuhn-Tucker 条件)—— K-T条件,在Fritz John条件基础上增加了起约束作用的梯度线性无关的约束规格(对约束条件的限制),以避免出现 \(w_0=0\) 的情形。

    设 \(\bar{x}\) 为可行点,\(I=\{i|g_i(\bar{x})=0\}\), \(f,g_i\in I\) 在点 \(\bar{x}\) 处可微,\(g_i(x)(i\notin I)\) 在 \(\bar{x}\) 连续,\(h_j(j=1,2,\cdots,l)\) 在点 \(\bar{x}\) 连续可微,向量集

    \[\left\{\nabla g_{i}(\bar{x}), \nabla h_{j}(\bar{x}) \mid i \in I, j=1, \cdots, l\right\} \]

    线性无关,若 \(\bar{x}\)​ 是局部最优解,则存在数 \(w_i(j\in I)\)​ 和 \(v_j(j=1,2,\cdots,l)\)​ ,使得

    \[\nabla f(\bar{x})-\sum_{i \in I} w_{i} \nabla g_{i}(\bar{x})-\sum_{j=1}^{i} v_{j} \nabla h_{j}(\bar{x})=\mathbf{0}, \quad w_{i} \geqslant 0, \quad i \in I . \]

    若 \(g_i(x)(i\notin I)\) 在点 \(\bar{x}\) 处可微,K-T 条件可等价表示为

    \[\begin{aligned} &\nabla f(\bar{x})-\sum_{i=1}^{m} w_{i} \nabla g_{i}(\bar{x})-\sum_{j=1}^{t} v_{j} \nabla h_{j}(\bar{{x}})=\mathbf{0} \\ &w_{i} g_{i}(\bar{x})=0, \quad i=1, \cdots, m \\ &w_{i} \geqslant 0, \quad i=1, \cdots, m, \end{aligned} \]

  • 广义 Lagrange 函数

    \[L({x}, {w}, {v})=f({x})-\sum_{i=1}^{m} w_{i} g_{i}({x})-\sum_{j=1}^{l} v_{j} h_{j}({x}) \]

    若 \(\bar{x}\) 是局部最优解,则存在 Lagrange 乘子 \(\bar{w}\ge 0\) 和 \(v\) ,使得

    \[\nabla_{x} L(\bar{x}, \bar{w}, \bar{v})=0 \]

    此时一般约束问题的一阶必要条件可表示为

    \[\begin{aligned} &\nabla_{x} L({x}, {w}, {v})=\mathbf{0}, \\ &g_{i}({x}) \geqslant 0, \quad i=1, \cdots, m, \\ &h_{j}({x})=0, \quad j=1, \cdots, l, \\ &w_{i} g_{i}({x})=0, \quad i=1, \cdots, m, \\ &w_{i} \geqslant 0, \quad i=1, \cdots, m . \end{aligned} \]

  • 定理 7.2.10 凸优化问题最优解的充分条件

    设问题中 \(f\) 是凸函数,\(g_i(i=1,2,\cdots,m)\) 是凹函数(注意不等式约束 \(g_i\) 的符号(若是 \(g_i\le0\) ,则应该是凸函数)\(h_j(j=1,2,\cdots,l)\) 是线性函数,\(S\) 是可行域,\(\bar{x}\in S\),\(I=\{i|g_i(\bar{x})=0\}\),且在 \(\bar{x}\) 处 K-T 条件成立,即存在 \(w_i\ge 0(i\in I)\) 及 \(v_j(j=1,2,\cdots,l)\) ,使得

    \[\nabla f(\bar{x})-\sum_{i \in I} w_{i} \nabla g_{i}(\bar{x})-\sum_{j=1}^{i} v_{j} \nabla h_{j}(\bar{x})=\mathbf{0}, \quad w_{i} \geqslant 0, \quad i \in I . \]

    则 \(\bar{x}\) 为全局最优解。

    注:此处关于函数凸性的假设还可以适当放宽,涉及到准凸和伪凸的概念。

  • 切锥

    设 \(S\) 是 \(\mathbb{R}^{”}\) 中一个非空集合, 点 \(\overline{\boldsymbol{x}} \in \mathrm{cl} S\), 集合 \(T=\left\{\boldsymbol{d} \mid\right.\) 存在 \({x}^{(k)} \in S, {x}^{(k)} \rightarrow \bar{{x}}\) 及 \(\lambda_{k}>0\), 使得 \(\left.{d}=\lim _{k \rightarrow \infty} \lambda_{k}\left({x}^{(k)}-\bar{{x}}\right)\right\}\), 则称 \({T}\) 为集合 \(S\) 在点 \(\bar{{x}}\) 的切锥.

  • 定理 7.2.11 (二阶必要条件)

    设 \(\bar{x}\) 是局部最优解,\(f,g_i,h_j\) 二次连续可微,并存在满足一阶必要条件的乘子 \(\bar{w}\) 和 \(\bar{v}\) ,再假设在点 \(\bar{x}\) 约束规格 \(\bar{G}=\bar{T}\) 成立,则对每一个向量 \(d\in G\),都有

    \[d^{\mathrm{T}} {\nabla}_{x}^{2} L(\bar{x}, \bar{w}, \bar{v}) {d} \geqslant 0 \]

    其中,

    \[\nabla_{x_{x}^{2}}^{2} L(\bar{x}, \bar{w}, \bar{v})=\nabla^{2} f(\bar{x})-\sum_{i=1}^{m} \bar{w}_{i} \nabla^{2} g_{i}(\bar{x})-\sum_{j=1}^{1} \bar{v}_{j} \nabla^{2} h_{j}(\bar{{x}}) \]

    是 Lagrange 函数 \(L(x,w,v)\) 在 \(\bar{x}\) 关于 \(x\) 的 Hesse 矩阵。

    集合 \(\bar G\) 为

    \[\bar{G}=\left\{d\left | \begin{array}{ll} {d} \in \mathbb{R}^{n} \\ \nabla g_{i}(\bar{x})^{\mathrm{T}} {d}=0, & i \in I \text { 且 } \bar{w}_{i}>0 \\ \nabla g_{i}(\bar{x})^{\mathrm{T}} {d} \geqslant 0, & i \in I \text { 且 } \bar{w}_{i}=0 \\ \nabla h_{j}(\bar{x})^{\mathrm{T}} {d}=0, & j=1, \cdots, l \end{array}\right\}\right. \]

  • 定理 7.2.12 (二阶充分条件)

    设 \(f,g_i,h_j\) 二次连续可微, \(\bar{x}\) 是可行点,并存在乘子 \(\bar{w}\) 和 \(\bar{v}\) 满足一阶必要条件,且对每一个向量 \(d\in G\)​,都有

    \[d^{\mathrm{T}} {\nabla}_{x}^{2} L(\bar{x}, \bar{w}, \bar{v}) {d}>0 \]

    则 \(\bar{x}\) 是严格局部最优解。

    其中,集合 \(G\) 为

    \[\bar{G}=\left\{d\left | \begin{array}{ll} d\ne 0\\ \nabla g_{i}(\bar{x})^{\mathrm{T}} {d}=0, & i \in I \text { 且 } \bar{w}_{i}>0 \\ \nabla g_{i}(\bar{x})^{\mathrm{T}} {d} \geqslant 0, & i \in I \text { 且 } \bar{w}_{i}=0 \\ \nabla h_{j}(\bar{x})^{\mathrm{T}} {d}=0, & j=1, \cdots, l \end{array}\right\}\right. \]

    • 注意:对于含等式约束优化问题的二阶极值条件,不能仅考虑 Hesse 矩阵,即便 Hesse 矩阵正定,也不一定是局部最优解。

参考链接

  • 《最优化理论与算法》(第7章 最优性条件) 陈宝林著

标签:bar,nabla,最优性,cdots,条件,quad,left,mathrm
来源: https://www.cnblogs.com/hjd21/p/16601530.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有