




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 最优化问题数学基础 为了便于学习最优化方法 本章将对与优化方法密切相关的数学知识作一简要介绍 而有些数学知识将在讲解各种算法时 随之介绍 2 1 二次型与正定矩阵 一 二次型与实对称矩阵 二次型理论在最优化设计中应用十分广泛 应用矩阵的乘法运算 二次型与实对称矩 阵紧密地联系在一起了 从而二次型的基本问题又可转化成实对称矩阵问题 二次型理论问题起源于化二次曲线和二次曲面的方程为标准形式的问题 推广到 n 维 空间中 二次超曲面的一般方程为 n i n j jiij nnnnnnn nn nnn xxa xaxxaxxa xxaxaxxa xxaxxaxaxxxf 11 2 2211 22 2 2221221 112112 2 11121 用矩阵表示可简记为 AXX x x x Axxxxxaxxxf T n i n j n njiijn 11 2 1 2121 其中矩阵 A 的元素 jiaa jiij 正是二次型的 jix x 项的系数的一半 ii a 是二次型的 2 i x 项的系数 因此 二次型和它的矩阵 A 是相互唯一决定的 且 T AA 二 正定矩阵 定义 2 1 如果二次型 n i n j T jiijn AXXxxaxxxf 11 21 对于任何一组不全为零的数 n xxx 21 恒有 0 21 AXXxxxf T n 则称 21n xxxf 正定 且二次型矩阵 A 也称为正定 简言之 一个对称矩阵 A 如果是正定的 则二次型 21n xxxf AXX T 对于所有 非零向量 X 其值总为正 类似可以给出定义 若二次型 0 21 AXXxxxf T n 则 A 为半正定矩阵 若 0 AXX T 则 A 为半负定矩阵 若二次型AXX T 既不是半正定又不是 半负定 就称矩阵 A 为不定的 矩阵 A 为正定的充要条件是它的行列式 A 的顺序主子式全部大于零 即 11121 212221112 11 2122 12 000 n n nnnn aaa aaaaa a aa aaa 由此可见 正定矩阵必然是非奇异的 例 2 1 判断矩阵 201 032 124 A 是否正定 解 013 201 032 124 08 32 24 04 A 是正定的 2 2 方向导数与梯度 一 方向导数 所谓方向导数的概念是作为偏导数的一个推广而引入的 它主要研究函数沿任一给定 方向的变化率 定义 2 2 设 1 RRf n 在点 0 X 处可微 P 是固定不变的非零向量 e是方向 P 上的 单位向量 则称极限 t XfteXf P Xf t lim 00 0 0 2 1 为函数 Xf 在点 0 X 处沿 P 方向的方向导数 式中P Xf 0 是它的记号 定义 2 3 设 1 RRf n 是连续函数 n RX 0 n RP 且0 P 若存在0 当 0 t 时都有 00 XftPXf 则称 P 为 f 在点 0 X 处的下降方向 若 00 XftPXf 则称 P 为 f 在点 0 X 处的上升方向 由以上两个定义可立刻得到如下的结论 若 0 0 P Xf 则 Xf 从 0 X 出发在 0 X 附近沿 P 方向是下降 若 0 0 P Xf 则 Xf 从 0 X 出发在 0 X 附近沿 P 方向是上升 事实上 若 0 0 P Xf 则当 0 t 充分小时 根据式 2 1 必有 0 00 t XfteXf 即 0 XfXf 其中 teXX 0 是从 0 X 出发在 P 方向上的点 说明 Xf 是下降的 同理可以说明 若 0 0 P Xf 则 Xf 是上升的 二 梯度 定义 2 4 以 Xf 的 n 个偏导数为分量的向量称为 Xf 在 X 处的梯度 记为 T n x Xf x Xf x Xf Xf 1 梯度也可以称为函数 Xf 关于向量X的一阶导数 以下几个特殊类型函数的梯度公式是常用的 1 若 cXf 常数 则 OXf 即 Oc 2 bXbT 证 设 T n T n xxxXbbbb 2121 则 n i ii T xbXb 1 于是 XbT 的第 j个分量是 njbxb x Xb x j n i ii j T j 21 1 所以 bXbT 3 XXX T 2 4 若A是对称矩阵 则 AXAXX T 2 三 梯度与方向导数之间的关系 定理 2 1 设 1 RRf n 在点 0 X 处可微 则 eXf P Xf T 0 0 其中e是P方向上的单位向量 证明在相应的数学分析中可找到 故略去 由这个定理容易得到下列结论 1 若 0 0 PXf T 则 P 的方向是函数 Xf 在点 0 X 处的下降方向 2 若 0 0 PXf T 则P的方向是函数 Xf 在点 0 X 处的上升方向 方向导数的正负决定了函数值的升降 而升降的快慢就由它的绝对值大小决定 绝对 值越大 升降的速度就越快 即 0 0 T f X f Xe P cos 1 000 XfeXfXf 上式中的等号 当且仅当e的方向与 0 Xf 的方向相同时才成立 由此可得如下重要结论 如图 2 1 所示 1 梯度方向是函数值的最速上升方向 2 函数在与其梯度正交的方向上变化率为零 3 函数在与其梯度成锐角的方向上是上升的 而在与其梯度成钝角的方向上是下降的 4 梯度反方向是函数值的最速下降方向 对于一个最优化问题 为了尽快得到最优解 在每一步迭代过程中所选取的搜索方向 P总是希望它等于或者是靠近于目标函数的负梯度 即 Xf 的方向 这样才能使函数值下降的最快 例 2 2 试求目标函数 1 2 2 2 1 xxXf 在 点 T X 30 0 处的最速下降方向 并求沿这个方 向移动一个单位长后新点的目标函数值 解解 因为 2 2 1 1 22x x f x x f 所以最速下降方向是 6 0 2 2 3 0 2 1 0 2 1 x xx x Xf 这个方向上的单位向量是 1 0 0 0 Xf Xf e 故新点是 2 0 1 0 3 0 01 eXX 对应目标函数值为 5120 22 1 Xf 2 3 海色矩阵及泰勒展式 一 海色 Hesse 矩阵 前面说过 梯度 Xf 是 Xf 关于X的一阶导数 现在要问 Xf 关于X的二阶 导数是什么 定义 2 5 设 f 1 RRn n RX 0 如果 f 在点 0 X 处对于自变量X的各分量的 二阶偏导数 2 0 1 2 ij f X ijn x x 都存在 则称函数 f 在点 0 X 处二阶可导 并且称矩阵 2 0 2 2 0 2 1 0 2 2 0 2 2 2 0 2 12 0 2 1 0 2 21 0 2 2 1 0 2 0 2 nnn n n x Xf xx Xf xx Xf xx Xf x Xf xx Xf xx Xf xx Xf x Xf Xf 是 f 在点 0 X 处的 Hesse 矩阵 在数学分析中已经知道 当 f 在点 0 X 处的所有二阶偏导数为连续时有 nji xx f xx f ijji 21 22 因此 在这种情况下 Hesse 矩阵是对称的 例 2 3 求目标函数 2 31322 2 1 2 3 3 2 4 1 432 xxxxxxxxxXf 的梯度和 Hesse 矩 图 2 1 阵 解 因为 3123 3 3 2 1 2 2 2 2 321 3 1 1 246 46 24 xxxx x f xxx x f xxxx x f 所以 3123 3 2 1 2 2 2 321 3 1 246 46 24 xxxx xxx xxxx Xf 又因为 222 2 1213 2 11213 222 21 22 2233 12222 12462 fff xxxx xx xx x fff xx xx xx 所以 13 21 312 2 1 2 2642 4122 22212 xx xx xxxx Xf 例 2 4 设 1 RbRXRa nn 求线性函数 bXaXf T 在任意点 X 处的梯度和 Hesse 矩阵 解 设 T n T n xxxXaaaa 2121 则 n i iin bxaxxxf 1 21 nia x f i i 21 2 2 aaaaXf T n 21 由式 2 2 进而知 nji xx f ji 210 2 OXf 2 nn 阶零矩阵 例 2 5 设 nn RA 是对称矩阵 1 RcRb n 求二次函数 Xf cXbAXX TT 2 1 在任意点处的梯度和 Hesse 矩阵 解 设 nnij aA T n T n xxxXbbbb 2121 则 cxbxxaxxxf n i ii n i n j jiijn 111 21 2 1 将它对各变量 21 nixi 求偏导数 得 n n j jnj n j jj n j njnj n j jj n b b xa xa bxa bxa x Xf x Xf Xf 1 111 1 bAXXf 在上式中显然 nibxa x Xf n j ijij i 21 再对它们求偏导数得 njia xx f ij ji 21 2 A aaa aaa aaa Xf nnnn n n 21 22221 11211 2 以上例子说明 n元函数求导与一元函数的求导在形式上是一致的 即线性函数的一 阶导数为常向量 其二阶导数为零矩阵 而二次函数的一阶导数为线性向量函数 二阶导 数为常矩阵 最后介绍在今后的计算中要用到的向量函数的导数 定义 2 6 设 nmn RXRRH 0 记 T m XhXhXhXH 21 如果 21 miXhi 在点 0 X 处对于自变量 T n xxxX 21 的各分量的偏导数 21 0 nj x Xh j i 都存在 则称向量函数 XH 在点 0 X 处是一阶可导的 并且称 矩阵 101010 12 202020 120 000 12 n nm n mmm n h Xh Xh X xxx h Xh Xh X xxxH X hXhXhX xxx 是 XH 在点 0 X 处的一阶导数或 Jacobi 矩阵 简记为 00 XHXH nm 由于n元函数 1 RRf n 的梯度是向量函数 T n x Xf x Xf x Xf Xf 1 所以 Xf 的一阶导数或 Jacobi 矩阵为 11211 12222 12 n n nn nnnn f Xf Xf X xxxxxx f Xf Xf X f Xxxxxxx f Xf Xf X xxxxxx 222 2 1121 222 22 2122 222 2 12 n n nnn f Xf Xf X xx xx x f Xf Xf X f Xxxxxx f Xf Xf X xxxxx 11211 12222 12 n n nn nnnn f Xf Xf X xxxxxx f Xf Xf X f Xxxxxxx f Xf Xf X xxxxxx 222 2 1121 222 22 2122 222 2 12 n n nnn f Xf Xf X xx xx x f Xf Xf X f Xxxxxx f Xf Xf X xxxxx 即 2 XfXf nn 据此 从上式得知 函数梯度的 Jacobi 矩阵即为此函数的 Hesse 矩阵 下面给出今后要用到的几个公式 1 Oc 其中c是分量全为常数的n维向量 O是 nn 阶零矩阵 2 IX 其中X是n维向量 I 是 nn 阶单位矩阵 3 AAX 其中A是 nm 阶矩阵 4 设 0 tPXft 其中 1 RRf n 1 RR 则 PtPXfPtPtPXft TT 0 2 0 二 泰勒展开式 多元函数的泰勒展开在最优化方法中十分重要 许多方法及其收敛性的证明是从它出 发的 这里给出泰勒展开定理及其证明 定理 2 2 设 1 RRf n 具有二阶连续偏导数 则 PXfPPXfXfPXf TT 2 1 2 2 3 其中 PXX 而 10 证 设 tPXft 于是 0 Xf 1 PXf 对 t 按一元函数在 0 t 点展开 得到 2 2 1 0 0 tttt 其中 10 令 1 t 于是 2 1 0 0 1 2 4 又因为 PXf T 0 PPXfPT 2 代入式 2 4 中 所以 PPXfPPXfXfPXf TT 2 1 2 式 2 3 还可以写成 2 1 22 PoPXfPPXfXfPXf TT 2 4 极小点的判定条件 函数 Xf 在局部极小点应满足什么条件 反之 满足什么条件的是局部极小点 这 是我们关心的基本问题 下面针对多元函数的情形给出各类极小点的定义 定义 2 7 对于任意给定的实数 0 满足不等式 0 XX 的X的集合称为点 0 X 的邻域 记为 0 00 XXXXN 定义 2 8 设 1 RRDf n 若存在点DX 和数 0 X DXN 都有 XfXf 则称 X为 Xf 的局部极小点 非严格 定义 2 9 设 1 RRDf n 若存在点DX 和数 0 X DXN 但 XX 都有 XfXf 则称 X为 Xf 的严格局部极小 点 定义 2 10 设 1 RRDf n 若存在点DX DX 都有 XfXf 则称 X为 Xf 在 D 上的全局极小点 非严格 定义 2 11 设 1 RRDf n 若存在点DX DX 但 XX 都有 XfXf 则称 X为 Xf 在 D 上的严格全局极小点 由以上定义看到 X是局部极小点 是指在以 X为中心的一个邻域中 Xf 在点 X处取得最小的值 而 X是全局极小点 是指在定义域 D 中 Xf 在点 X处取得最小 的值 全局极小点可能在某个局部极小点处取得 也可能在 D 的边界上取得 实际问题通 常是求全局极小点 但是直到目前为止 最优化中绝大多数方法都是求局部极小点的 解 决这一矛盾的一种方法是先求出所有的局部极小点 再求全局极小点 定理 2 3 设 1 RRDf n 具有连续的一阶偏导数 若 X是 Xf 的局部极小点 并且是 D 的内点 则 OXf 2 5 证 设e是任意单位向量 因为 X是 Xf 的局部极小点 所以存在 0 当 t 或 XNteX 时总有 XfteXf 2 6 引入辅助一元函数 teXft 此时 由式 2 6 得 0 t 又因 X是 D 的内点 所以与它对应的 0 t 是 t 的局部极小点 又根据一元函数极小点的必要条件 得到 0 0 即 0 eXf T 再由单位向量e的任意性得 OXf 这里条件 2 5 仅仅是必要的 而不是充分的 例如2121 xxxxf 在点 T X 00 处的梯度是 T f 00 但 T X 00 是双曲面的鞍点 而不是极小点 如图 2 2 所示 定义 2 12 设 1 XRRDf n 是 D 的内 点 若 OXf 则称 X为 Xf 的驻点 定理 2 4 设 1 RRDf n 具有连续二阶偏导 数 X是 D 的一个内点 若 OXf 并且 2 Xf 是正定的 则 X是 Xf 的严格局部极小 点 证 因为 2 Xf 是正定矩阵 则必存在 0 使得对于所有的 n RP 都有 2 2 PPXfPT 参看高等代数二次型理论 现在将 Xf 在点 X处按泰勒公式展开 并注意到 OXf 于是可得 2 2 2 2 1 2 2 T f Xf XXXf XXXoXX XXoXX 当X充分接近 X 但 XX 时 上式左端的符号取决于右端第一项 因此 XfXf 一般说来 这个定理仅具有理论意义 因为对于复杂的目标函数 Hesse 矩阵不易求 得 它的正定性就更难判定了 定理 2 5 若多元函数在其极小点处的 Hesse 矩阵是正定的 则它在这个极小点附近的 等值面近似地呈现为同心椭球面簇 证 设 X是多元函数的极小点 并设 Xf 是充分靠近极小点 X的一个等值面 即 XX 充分小 把 Xf 在 X点展成泰勒公式 即 2 2 1 2 T T f Xf Xf XXX XXf XXXoXX 右端第二项因 X是极小点有 OXf 而消失 如果略去第 4 项 那么 2 1 2 XXXfXXXfXf T 又因为 Xf 所以 2 1 2 XXXfXXXf T 为常数 ccXfXXXfXX T 2 2 2 7 按假设 2 Xf 正定 由二次型理论知式 2 7 是以 X为中心的椭球面方程 2 5 锥 凸集 凸锥 在本节中 给出n维 Euclid 空间 n R中的锥 凸集和凸锥的定义 以及与其相关的一些 概念和性质 一 定义与简单性质 定义 2 13 集合 n RC 若 CX 及任意的数 0 均有 CX 则称 C 为锥 图 2 2 定义 2 14 设 l XXX 21 是 n R中的l个已知点 若对于某点 n RX 存在常数 0 21 l 且 l i i 1 1 使得 l i iiX X 1 则称X是 l XXX 21 的凸组合 若 0 21 l 且 l i i 1 1 则称X是 l XXX 21 的严格凸组合 定义 2 15 集合 n RC 若 CX 1和 CX 2 以及任意的数 10 均有 CXX 21 1 则称 C 为凸集 定义 2 16 设 n Ra 且 0 a 1 Rb 则集合 nT RXbXaX 称为 n R中的 半空间 特别地 规定空集是凸集 容易验证 空间 n R 半空间 超平面 直线 点 球都是 凸集 定理 2 6 任意一组凸集的交仍然是凸集 证 设 i Ii CC 其中 I 是 i C 的下标集 i C 都是凸集 任取 CXX 21 则对于 任意 Ii 都是 i CXX 21 任取 1 0 21 且 1 21 因 i C 是凸集 有 i CXX 2211 于是 CCXX i Ii 2211 即 C 是凸集 若集合 C 为锥 C 又为凸集 则称 C 为凸锥 若 C 为凸集 也为闭集 则称 C 为闭 凸集 若 C 为凸锥 也为闭集 则称 C 为闭凸锥 由数学归纳法不难证明如下的定理 2 7 和 2 8 定理 2 7 集合 C 为凸集的充分必要条件是 CXi 及任意数 0 i 221 kki k i i 1 1 有 k i ii CX 1 定理 2 8 集合 C 为凸锥的充分必要条件是 CXi 及任意数 0 i 221 kki 均有 k i ii CX 1 定义 2 17 有限个半空间的交 bAXX 称为多面集 其中A为 nm 矩阵 b为 m维向量 例 2 6 集合 0142 212121 xxxxxxXS 为多面集 其几何表示如图 2 3 画斜线部分 在多面集的表达式中 若 0 b 则多面集 0 AXX 也是凸锥 称为多面锥 在有关凸集的理论及应用中 极点和极方向的概念 有着重要作用 定义 2 18 设C为非空凸集 CX 若X不 能表示成C中两个不同点的凸组合 换言之 若假设 21 1 XXX 10 CXX 21 必推 得21 XXX 则称X是凸集C的极点 图 2 3 按此定义 图 2 4 a 中多边形的顶点 4321 XXXX 和 5 X 是极点 而 6 X 和 7 X 不 是极点 图 2 4 b 中圆周上的点均为极点 由图 2 4 可以看出 在给定的两个凸集中 任何一 点都能表示成极点的凸组合 定义 2 19 设C为 n R中的闭凸集 P为非零向量 如果对C中的每一个X 都有射线 CPX 0 则称向量P为C的方向 又设 1 P和 2 P 是C的两个方向 若对任何正数 有 21 PP 则称1 P和 2 P 是两个不同的方向 若C的方向 P不能表示成该集合的两个不同方向的正的线性组合 则称P为C的极方向 例 2 7 如图 2 5 所示 对于集合 1221 xxxxC 凡是与向量 T 10 夹角小于或等于 45的向量 都是它的方 向 T 11 和 T 11 是C的两个极方向 C的其它方向都 能表示成这两个极方向的正线性组合 例 2 8 设 0 XbAXXC 为非空集合 P是非 零向量 证明P为C的方向的充要条件是0 P且 0 AP 证 按照定义 2 19 P为C的方向的充要条件是对每一个CX 有 CPX 0 2 8 根据集合C的定义 由式 2 8 可得 bPXA 2 9 0 PX 2 10 由于bAX 0 X及 可取任意非负数 因此由式 2 9 和式 2 10 知 0 AP 及0 P 对于有界多面集 它的每一个点可用极点的凸组合来表示 反之 由极点的凸组合表 示的点一定属于这个多面集 对此可简要说明如下 设有多面集 bAXXC 如图 2 6 a 所示 若CX 则 341 341 1 1 1 1 1 1 1 XXX XXX YXX 其中 1 1 1 均为非负数 且 1 1 1 1 即X为极点1 X 3 X 和4 X 的凸组合 反之 设 5 1i iiX X 5 1 1 i i 0 i 则 5 1i ii bAXAX 即 CX 图 2 4 图 2 5 如果多面集是无界的 那么对于该多面集中的任一点 极点除外 只用极点来表示 是不行的 还需要用极方向 如图 2 6 b 所示 这时有 131 1 PXXX 其中 是 10 中某个数 是某一个非负数 图 2 6 概括起来 有下列定理 定理 2 9 设 0 XbAXXC 为非空多面集 则有 1 极点集非空 且存在有限个极点 k XXX 21 2 极方向集合为空集的充要条件是C有界 若C无界 则存在有限个极方向 l PPP 21 3 CX 的充要条件是 k j l j jjjj PXX 11 其中 k j j 1 1 21 0kj j 21 0lj j 关于上述定理的证明参见参考文献 6 二 凸集分离定理 凸集分离定理是凸分析中最重要的定理之一 它在最优化理论和模型当中具有重要的 应用 所谓集合的分离是指对于两个集合 C1和 C2存在一个超平面 H 使得 C1在 H 的一边 而 C2在 H 的另一边 如果超平面方程为 XPT 那么对位于 H 某一边的点必有 XPT 而对位于 H 另一边的必有 XPT 定义 2 20 设 C1和 C2是 n R中的两个非空集合 XPXH T 是超平面 若 对于每一个1 CX 都有 XPT 对于每一个2 CX 都有 XPT 或情况恰好相反 则称超平面 H 分离集合 C1和 C2 定理 2 10 若 C 为闭凸集 CX 0 则存在 n Ra 0a 以及数 1 R 对 CX 有 0 XaXa TT 并且存在 CX 1 使得 1 XaT 定理 2 11 设 C 为凸集 CX 0 则存在 n Ra 0a 使得 CX 有 0 XaXa TT 定理 2 12 设 C 为闭凸集 则 C 可表为所有包含 C 的半空间的交 即 XaXC T L a 其中 0 1 aCXaXR a L Tn 上述定理的证明过程参见参考文献 6 2 6 凸函数 一 各类凸函数定义及性质 设函数 Xf 定义在凸集 C 上 其中 T n xxxX 21 定义 2 21 若存在常数 0 使得 CXX 21 以及 10 若有 2 212121 1 1 1 XXXfXfXXf 则称 Xf 为一致凸函数 若有 1 1 2121 XfXfXXf 则称 Xf 为严格凸函数 若有 1 1 2121 XfXfXXf 则称 Xf 为凸函数 定义 2 22 设 Xf 为可微函数 若 CXX 21 当 0 212 XXXf T 都有 21 XfXf 则称 Xf 为伪凸函数 定义 2 23 对 CXX 21 且 21 XfXf 以及 10 若 max 1 2121 XfXfXXf 则称 Xf 为严格拟凸函数 定义 2 24 对 CXX 21 以及 10 若 max 1 2121 XfXfXXf 则称 Xf 为拟凸函数 定义 2 25 对 CXX 21 且21 XX 以及 10 若 max 1 2121 XfXfXXf 则称 Xf 为强拟凸函数 定理 2 13 若 Xf 为一致凸函数 则 Xf 为严格凸函数 证 设 Xf 为一致凸函数 则 CXX 21 21 XX 及 10 有 2 212121 1 1 1 XXXfXfXXf 1 21 XfXf 即 Xf 为严格凸函数 定理 2 14 若 Xf 为严格凸函数 则 Xf 为凸函数 定理 2 15 设 Xf 为可微函数 若 Xf 为凸函数 则 Xf 为伪凸函数 定理 2 16 设 Xf 为伪凸函数 则 Xf 为严格拟凸函数 定理 2 17 设 Xf 为下半连续的严格拟凸函数 则 Xf 为拟凸函数 定理 2 18 若 Xf 为严格凸函数 则 Xf 为强拟凸函数 定理 2 19 设 Xf 为强拟凸函数 则 Xf 为严格拟凸函数 下半连续的定义及定理 2 14 定理 2 19 的证明过程参见参考文献 6 上述几种凸函数 有图 2 7 所示的关系 图 2 7 凸函数与凸集之间有如下关系 定理 2 20 设 1 RRCf n 其中 C 为非空凸集 若 f 是凸函数 则对于任意 实数 水平集 CXXfXD 是凸集 证 若 D 是空集 则 D 是凸集 以下设 D 非空 任取 DXX 21 则 21 XfXf 设 10 21 且 1 21 由 f 是凸函数知 122112212 fXXf Xf X 即 DXX 2211 所以 D 是凸集 判定一个函数是否为凸函数 一般说来是比较困难 但当函数可微时 有如下几个定 理可供使用 定理 2 21 设 1 RRCf n 是可微函数 其中 C 为凸集 则 1 f 为凸函数的充要条件是 CXX 21 都有 12112 XXXfXfXf T 2 11 2 f 为严格凸函数的充要条件是 CXX 21 且21 XX 都有 12112 XXXfXfXf T 证 1 先证必要性 已知 f 是 C 上的凸函数 要证式 2 11 由凸函数定义知 对满足 1 21 的任意数 10 21 都有 22112211 XfXfXXf 令 t 2 则 t 1 1 代入上式中 经移项可得 12 1121 XfXf t XfXXtXf 2 12 令 0 t 由 f 的可微性 利用一阶泰勒展式 方向导数定义及式 2 12 可得 12121 XfXfXXXf T 这就证明了式 2 11 再证充分性 任取一对数 10 21 且 1 21 考虑点2211 XXX 根据充分性假设 应有 11 T f Xf Xf XXX 22 T f Xf Xf XXX 两式分别乘以1 和2 后相加 得到 11221122 T f Xf Xf Xf XXXX 1122 fXX 由凸函数定义知 f 是 C 上的凸函数 2 充分性可依照 1 的充分性证得 下证必要性 因为严格凸函数本身是凸函数 所以 CXX 21 且21 XX 都有 12112 XXXfXfXf T 以下证明式中只能取 号 假设存在 CXX 21 且21 XX 使得 12112 XXXfXfXf T 2 12 取 2 213 XXX 由 f 的严格凸性 有 2 1 2 1 213 XfXfXf 2 13 把式 2 12 代入式 2 13 中 经整理得 13113 XXXfXfXf T 根据本定理 1 部分结论得知 此式与 f 是凸函数相矛盾 定理 2 22 设 1 RRCf n 是二次可微函数 C 为非空开凸集 则 f 为 C 上凸 函数的充要条件是 Hesse 矩阵 2 Xf 在 C 上任意点均半正定 证明略 定理 2 23 设 1 RRCf n 是二次可微函数 C 为非空凸集 若 Hesse 矩阵在 C 上任意点均正定 则 f 在 C 上为严格凸函数 证明略 需要注意 该定理的逆命题不真 例如 4 xxf 在 1 R上为严格凸函数 但是它的 Hesse 矩阵 22 12 xxf 在点 0 x 处是半正定的 二 凸规划 定义 2 26 设 1 RRCf n 其中C是非空凸集 f 是凸函数 则形式为 minXf CX 的问题称为凸规划问题 更进一步 设 210 210 n ji RXmjXhliXgXC 若 l ggg 21 都是 n R上的凸函数 m hhh 21 都是 n R上的线性函数 则容易验 证 C 是凸集 事实上 因为 l ggg 21 都是凸函数 根据定理 2 20 集合 liRXXgXC n ii 21 0 也都是凸集 此外 超平面 mjRXXhXP n jj 21 0 也都是凸集 显然 C 是 ml PPPCCC 2121 的交集 根据定理 2 6 C 是凸集 于是 在这种情况下 凸规划问题又可表示成如下形式 min 01 2 01 2 i j f X g Xil s t hXjm 如下定理指明凸规划的一个重要性质 定理 2 24 设 X是凸规划问题的局部极小点 1 若 f 是凸函数 则 X是凸规划问题全局极小点 2 若 f 是严格凸函数 则 X是凸规划问题的唯一全局极小点 证 1 使用反证法 假设 X不是全局极小点 则必存在CZ 使 得 XfZf 对于Z与 X的任意凸组合 21 XZX 其中 10 21 且 1 21 根据 f 的凸性 有 21 21 XfZfXZfXf 2 1 XfXfXf 由此看到 当 0 1 充分小时 X充分接近 X 注意到此时也有 XfXf 而这 与 X是局部极小点相矛盾 因此 X必是全局极小点 2 假设 X不是唯一全局极小点 必存在CX 但 XX 使 得 XfXf 考虑中点 CXXX 2 1 2 1 由 f 的严格凸性 有 2 1 2 1 2 1 2 1 XfXfXfXXfXf 此式与 X为全局极小点相 矛盾 这就证明了唯一性 定义 2 27 形式为 cXbAXXXf TT 2 1 2 14 的函数称为n元二次函数 其中 nnnnn n n b b b b aaa aaa aaa A 2 1 21 22221 11211 这里的 A 是对称矩阵 即 jiij aa 若 A 为正定 则称 2 14 为正定二次函数 注意到 AXf 2 由定理 2 23 知 正定二次函数是严格凸函数 在最优化算法构造中它起着特殊的作用 定义 2 28 形式为 dHX PQX ts cXbAXXXf TT 2 1 min 2 15 的问题称为二次规划问题 其中Q是 nm 矩阵 H是 nl 矩阵 若 A 为半正定或正定 则称 2 15 为二次凸规划问题 本书不作专门讨论 解 2 7 约束问题的最优性条件 所谓最优性条件就是最优化问题的目标函数与约束函数在最优点处满足的充要条 件 这种条件对于最优化算法的终止判定和最优化理论推证都是至关重要的 最优性必要 条件是指在最优点处满足哪些条件 充分条件是指满足哪些条件的点是最优点 本节仅讲 述最基本的结论 一 约束最优解 对约束优化问题的求解 其目的是在由约束条件所规定的可行域 D 内 寻求一个目标 函数值最小的点 X及其函数值 Xf 这样的解 XfX 称为约束最优解 约束最 优点除了可能落在可行域 D 内的情况外 更常常是在约束边界上或等式约束曲面上 因此 它的定义及它的一阶必要条件与无约束优化问题不同 一 约束优化问题的类型 一 约束优化问题的类型 约束优化问题根据约束条件类型的不同分为三种 其数学模型如下 1 不等式约束优化问题 IP 型 min 01 2 i f X s t g Xil 2 16 2 等式约束优化问题 EP 型 min 01 2 j f X s t hXjm 3 一般约束优化问题 GP 型 min 01 2 01 2 i j f X g Xil s t hXjm 二 约束优化问题的局部解与全局解 二 约束优化问题的局部解与全局解 按一般约束优化问题 其可行域为 210 210 mjXhliXgXD ji 若对某可行点 X存在0 当 X与它邻域的点X之距离 XX 时 总有 XfXf 则称 X为该约束优化问题的一个局部最优解 下面以一个简单例子说明 设有 09 2 02 1 min 2 2 2 1 2 2 2 2 1 xxXh xXg ts xxXf 该问题的几何图形如图2 8 所示 从图上的目标函数等值线和不等式约束与等式约束的函数 曲线可写出它的两个局部最优解 TT XX 05 01 2 1 这是因为在 1 X 点邻域的任 一满足约束的点X 都有 1 XfXf 同理 2 X 亦然 图 2 8 对某些约束优化问题 局部解可能有多个 在所有的局部最优解中 目标函数值最小 的那个解称为全局最优解 在上例中 由于 16 4 2 1 XfXf 所以全局最优解为 1 1 XfX 由此可知 约束优化问题全局解一定是局部解 而局部解不一定是全局解 这与无约 束优化问题是相同的 二 约束优化问题局部解的一阶必要条件 对于约束 现在进一步阐明起作用约束与不起作用约束的概念 一般的约束优化问题 其约束包含不等式约束 liXgi 210 和等式约 束 mjXhj 210 在可行点 k X 处 如果有 0 ki Xg 则该约束 Xgi 称可 行点 k X 的起作用约束 而如果有 0 ki Xg 则该约束 Xgi 称可行点 k X 的不起作用 约束 对于等式约束 0 Xhj 显然在任意可行点处的等式约束都是起作用约束 在某个可行点 k X 处 起作用约束在 k X 的邻域内起到限制可行域范围的作用 而不起 作用约束在 k X 处的邻域内就不产生影响 因此 应把注意力集中在起作用约束上 一 一 IP 型约束问题的一阶必要条件型约束问题的一阶必要条件 图 2 9 所示为具有三个不等式约束的二维最优化问题 图 2 9 图 2 9 a 是最优点 X在可行域内部的一种情况 在此种情形下 X点的全部约束 函数值 Xgi 均大于零 321 i 所以这组约束条件对其最优点 X都不起作用 换 句话说 如果除掉全部约束 其最优点也仍是同一个 X点 因此这种约束优化问题与无 约束优化问题是等价的 图 2 9 b 所示的约束最优点 X在 1 Xg 的边界曲线与目标函 数等值线的切点处 此时 0 0 0 3 2 1 XgXgXg 所以 1 Xg 是起作 用约束 而其余的两个是不起作用约束 既然约束最优点 X是目标函数等值线与 1 Xg 边界的切点 则在 X点处目标函数 的梯度 Xf 与约束函数梯度矢量 1 Xg 必共线 而且方向一致 若取非负乘子 0 1 则在 X处存在如下关系 0 1 1 XgXf 另一种情况如图 2 9 c 所示 当前迭代点 k X 在两约束交点上 该点目标函数的梯度矢 量 k Xf 夹于两约束函数的梯度矢量 21kk XgXg 之间 显然 在 k X 点邻近的可 行域内部不存在目标函数值比 k Xf 更小的可行点 因此 点 k X 就是约束最优点 记作 X 由图可知 此时 k X 点目标函数的梯度 k Xf 可表达为约束函数梯度 1k Xg 和 2k Xg 的线性组合 若用 X代替 k X 即有 2 2 1 1 XgXgXf 成立 且式中的乘子 1 和 2 必为非负 总结以上各种情况 最优解的一阶必要条件为 210 0 0 2 1 1 iXg XgXf i i i i 对于 2 16 IP 型约束问题的一阶必要条件讨论如下 设最优点 X位于 j个约束边界的汇交处 则这j个约束条件组成一个起作用的约束 集 按上面的分析 对于 X点必有下式成立 jiXg XgXf i i j i ii 210 0 0 1 2 17 但是在实际求解过程中 并不能预先知道最优点 X位于哪一个或哪几个约束边界的汇交 处 为此 把l个约束全部考虑进去 并取不起作用约束的相应乘子为零 则最优解的一 阶必要条件应把式 2 17 修改为 liXg Xg XgXf ii i i l i ii 210 0 0 0 1 2 18 式 2 18 为 IP 型问题约束最优解的一阶必要条件 它与式 2 17 等价 因为在 X下 对于起作用约束 必有 liXgi 210 使式 2 18 中的第四式成立 对于不 起作用约束 虽然 0 Xgi 而必有 0 i 可见式 2 18 与式 2 17 等价 二 二 EP 型约束问题的一阶必要条件型约束问题的一阶必要条件 图 2 10 所示为具有一个等式约束条件的二维化问题 其数学模型为 0 min Xhts Xf 在该问题中 等式约束曲线 0 Xh 是它的可行域 而且目标函数等值线 CXf 与约 束曲线 0 Xh 的切点 X是该约束问题的最优解 图 2 10 在 X点处 目标函数的梯度 Xf 与约束函数的梯度 Xh 共线 因此 在最优 点 X处一定存在一个乘子 u 使得 0 XhuXf 成立 对于一般的n维等式约束优化问题 其数学模型为 min 01 2 j f X s t hXjm 则 X为其解的一阶必要条件为 1 0 01 2 m jj j j f XuhX hXjm 三 三 GP 型约束问题解的一阶必要条件型约束问题解的一阶必要条件 由上述不等式约束优化与等式约束优化问题的一阶必要条件 可以推出一般约束优化 问题的条件 设n维一般约束优化问题的数学模型为 mjXh liXg ts Xf j i 210 210 min 2 19 则 X为其解的一阶必要条件应为 mjXh liXg Xg XhuXgXf j ii i i l i m j jjii 210 210 0 0 0 11 2 20 函数 l i m j jjii XhuXgXfuXL 11 称为关于问题 2 19 的广义拉格朗日函数 式中 T l 21 T m uuuu 21 为拉格朗日乘子 由于引入拉格朗日函数 条件 2 20 中的第一式可写为 0 uXL X 四 四 Kuhn T cker 条件 简称条件 简称 K T 条件 条件 在优化实用计算中 常常需要判断某可行迭代点 k X 是否可作为约束最优点 X输出而 结束迭代 或者对此输出的可行结果进行检查 观察它是否已满足约束最优解的必要条件 这种判断或检验通常借助于TK 条件进行的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城乡一体化发展中的集体土地房屋互换协议
- 青少年暑期社会实践劳动就业合作协议
- 环保节能设备项目人员变动与职责调整合同
- 集团内部项目贷款资金监管及使用规范协议
- 集团子公司间长期投资借款合同
- 2025年租房合同简易版
- 2025年建筑工程类水利三类人员项目负责人(B证)-专职安全生产管理人员(C证)参考题库含答案解析(5卷)
- 2025年建筑工程类交安三类人员项目负责人(B证)-企业主要负责人(A证)参考题库含答案解析(5卷)
- 2025年学历类自考公共课高等数学基础-数论初步参考题库含答案解析(5卷)
- 2025年学历类自考公共课计算机应用基础-经济法概论参考题库含答案解析(5卷)
- (2025年标准)灵活用工协议书
- 台球厅合伙协议合同范本
- 发廊租工位合同协议模板
- 女装销售店长培训课件
- 服装厂质检知识培训内容课件
- 2025浙江省旅游投资集团人才招聘17人(第四批)考试模拟试题及答案解析
- 2025年潍坊市中考物理真题卷(含答案)
- 酒管专业导论考试题及答案
- 2025外研社小学英语四年级上册单词表(带音标)
- 2025至2030中国体育赛事行业市场发展分析及发展前景与投资报告
- 上消化道出血药物指导
评论
0/150
提交评论