|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Квадратичные функции и сопряженные направленияВажной идеей, которая привела к разработке методов с высокой (почти ньютоновской) скоростью сходимости без вычисления вторых производных, оказалось использование взаимно сопряженных направлений поиска минимума. Вначале мы рассмотрим этот подход применительно к минимизации квадратичных функций, поскольку полученные здесь результаты дают строгое теоретическое обоснование метода сопряженных направлений. Два вектора u и v в N-мерном пространстве называются сопряженными относительно симметричной положительно определенной матрицы A, если имеет место соотношение . (13) Легко показать, что если в N-мерном пространстве найдено N взаимно сопряженных (относительно некоторой матрицы A) векторов v1, v2, ¼, vN, то они линейно независимы. Отсюда вытекают два следствия: 1) В N-мерном пространстве нельзя построить более N взаимно сопряженных направлений; 2) Сопряженные векторы могут служить базисом, т. е. любое перемещение в N-мерном пространстве можно представить в виде суммы перемещений вдоль N взаимно сопряженных направлений. Пусть F(x) – квадратичная функция N переменных, представленных вектором x. Используя матричную запись, ее можно в общем случае представить в виде , (14) где A – симметричная матрица коэффициентов квадратичных членов, b – вектор коэффициентов линейных членов, c – скалярная постоянная. Дифференцируя (14) по x, получим вектор градиента: . (15) Равенство градиента нулю является условием, определяющим стационарную точку: . (16) В зависимости от свойств матрицы A это может быть точка минимума, максимума или седловая точка. В частности, если A является положительно определенной, решение уравнения (16) соответствует точке минимума. Итак, будем предполагать, что A – симметричная положительно определенная матрица. Обозначим x*радиус-вектор точки минимума функции (14). Очевидно, x*удовлетворяет уравнению (16), т. е. . (17) Таким образом, точное положение минимума квадратичной функции может быть найдено за один шаг путем решения системы линейных уравнений (16). В этом смысле минимизация функции (14) не представляет проблемы. Однако, данная задача интересует нас не сама по себе, а как модель для построения алгоритма поиска минимума функции общего вида. Возьмем произвольную начальную точку x0 и вычислим в этой точке градиент g0: g0=Ax0+b. (18) Поступая так же, как в методе скорейшего спуска, проведем от точки x0 одномерный поиск минимума вдоль направления антиградиента -g0, т. е. найдем точку x1=x0-a0g0, где a0 – коэффициент, соответствующий расстоянию от x0 до x1, выраженному в единицах длины вектора g0 (см. уравнение (9) в разделе 2.1.2). Значение a0 определяется из условия, что x1 отвечает минимуму F(x) по направлению g0, т. е. , . (19) Вычислим новый вектор градиента в найденной точке x1: g1=Ax1+b=A·(x0-a0g0)+b=g0-a0Ag0 (20) Если бы мы решали задачу с помощью метода скорейшего спуска, далее следовало бы провести поиск минимума вдоль направления -g1 и т. д. Вместо этого на втором шаге используем направление поиска, сопряженное к направлению первого шага -g0 относительно матрицы A: (x2-x1)¢Ag0=0 (21) (сравните (21) с уравнением (13)). Уравнение (21) фактически определяет (N-1)-мерное подпространство в пространстве N‑мерных векторов x, так как удовлетворяющие ему точки x2 лежат в гиперплоскости, проходящей через точку x1 и ортогональной к вектору Ag0. Заметим, что наша конечная цель — точка минимума x*— также лежит в этой гиперплоскости. Действительно, подставив в (21) вместо x2 выражение (17), получим: (-A-1b-x1)¢Ag0=-b¢A-1Ag0-x1¢Ag0=-(b+Ax1)¢g0=-g1¢g0. Так как g1 — вектор градиента в точке минимума, найденной при поиске вдоль направления g0, то g0 и g1 взаимно ортогональны (мы уже обсуждали это обстоятельство при рассмотрении метода скорейшего спуска — см. рис. 7), т. е. g1¢g0=0. Следовательно, точка x*удовлетворяет уравнению (21), и ее можно достичь, не выходя за пределы гиперплоскости. Среди всех возможных направлений поиска, лежащих в (N-1)-мерном подпространстве, выберем наиболее близкое к g1 — проекцию p1 градиента на гиперплоскость (21). Будем искать ее в виде p1=g1+b0g0, (22) где b0 – подлежащий определению числовой коэффициент. Так как p1 лежит в гиперплоскости (21), он должен быть ортогональным к Ag0, т. е. p1¢Ag0=(g1+b0g0)¢Ag0=0, откуда . (23) Проводя поиск от точки x1 вдоль направления -p1, найдем точку относительного минимума x2=x1-a1p1. Подставляя это x2 в выражение (14) для функции F(x) и приравнивая нулю производную по a1, найдем (24) аналогично тому, как это было сделано на первом шаге для a0 (уравнение (19)). Для поиска минимума от точки x2 выберем направление p2, сопряженное с двумя предыдущими направлениями перемещения, т. е. с g0 и p1, причем получим его как проекцию градиента g2=Ax2+b на гиперплоскость N-2 измерений, ортогональную к векторам Ag0 и Ap1. Точки этой гиперплоскости, помимо уравнения (21), удовлетворяют также уравнению (x3-x2)¢Ap1=0. (25) Новая (N-2)-мерная гиперплоскость целиком принадлежит предыдущей гиперплоскости (N-1) измерений. Учитывая, что градиент в точке x2 ортогонален направлению поиска минимума p1, легко показать, что точка x*удовлетворяет не только уравнению (21), но и (25), и ее можно достичь, оставаясь в (N-2)-мерном подпространстве. Направление движения p2 будем искать в виде p2=g2+b1p1, (26) причем коэффициент b1 определим из условия принадлежности p2 рассматриваемой гиперплоскости, т. е. его ортогональности вектору Ap1 (ортогональность p2 и Ag0 обеспечивается автоматически независимо от выбора b1): . (27) Коэффициент a2, определяющий смещение точки относительного минимума x3 от x2 по направлению -p2, найдем по формуле, аналогичной (24): . (28) Поступая дальше аналогичным образом, построим направления поиска p3, ¼, pN, каждое из которых является сопряженным для всех предыдущих. Эти направления лежат во вложенных подпространствах уменьшающейся размерности, содержащих искомую точку минимума. Следовательно, на N‑м шаге задача сведется к поиску в одномерном подпространстве, в результате чего будет достигнута точка x*(если только ее не удалось найти еще раньше, на одном из предыдущих шагов). Таким образом, рассмотренный алгоритм гарантирует нахождение точного минимума квадратичной функции N переменных не более чем за N шагов. Его называют методом сопряженных направлений. Часто можно также встретить название «метод сопряженных градиентов», поскольку направления поиска являются линейными комбинациями векторов градиента, вычисленных в точках последовательных приближений. Однако, последнее название не вполне точно, так как сопряжены не сами градиенты, а их проекции на подпространства уменьшающейся размерности. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.) |