From 682e0379e0659335de111cd95a6fc7c420588a80 Mon Sep 17 00:00:00 2001
From: =?utf8?q?J=C3=A9r=C3=B4me=20Benoit?= <jerome.benoit@piment-noir.org>
Date: Sun, 4 Nov 2018 15:49:42 +0100
Subject: [PATCH] Begin the real work on SQP method.
MIME-Version: 1.0
Content-Type: text/plain; charset=utf8
Content-Transfer-Encoding: 8bit

Signed-off-by: JÃ©rÃ´me Benoit <jerome.benoit@piment-noir.org>
---
 rapport/ProjetOptimRO.tex | 92 +++++++++++++++++++++++++++++++++++++--
 1 file changed, 88 insertions(+), 4 deletions(-)

diff --git a/rapport/ProjetOptimRO.tex b/rapport/ProjetOptimRO.tex
index f206114..5fc4678 100644
--- a/rapport/ProjetOptimRO.tex
+++ b/rapport/ProjetOptimRO.tex
@@ -42,7 +42,7 @@
 \newtheorem{Cor}[Th]{Corollaire}
 \newtheorem{Rmq}{Remarque}
 
-\newcommand{\norme}[1]{\left\Vert #1\right\Vert}
+\newcommand{\norme}[1]{\left\Vert #1 \right\Vert}
 
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
@@ -206,6 +206,15 @@ Si la modÃ©lisation de la problÃ¨matique $ \mathcal{P} $ est considÃ©rÃ©e comme
 \subsection{Quelques dÃ©finitions annexes}
 
 DÃ©finissons quelques notions supplÃ©mentaires de base nÃ©cessaires Ã  la suite :
+\begin{Def}
+ On dÃ©finit le Lagrangien associÃ© Ã  $ \mathcal{P} $ par :
+ $$ \begin{array}{r c l}
+   L : \mathbb{R}^n \times \mathbb{R}^q \times \mathbb{R}_+^p & \longrightarrow & \mathbb{R}                                                                                                      \\
+   (x,\lambda,\mu)                                            & \longmapsto     & L(x,\lambda,\mu) = J(x) + \sum\limits_{i=0}^{q} \lambda_i h_i(x) + \sum\limits_{j=0}^{p} \mu_j g_j(x)           \\
+                                                              &                 & L(x,\lambda,\mu) = J(x) + \langle \lambda,h(x) \rangle_{\mathbb{R}^q} + \langle \mu,g(x) \rangle_{\mathbb{R}^p}
+  \end{array} $$
+ oÃ¹ lâon note $ \lambda $  et $ \mu $ les vecteurs de coordonnÃ©es respectives $ (\lambda_1,\ldots,\lambda_q) $ et $ (\mu_1,\ldots,\mu_p) $.
+\end{Def}
 \begin{Def}
  Soient $ \mathbb{R}^n $ un espace topologique, $ A \subset \mathbb{R}^n $ et $ x^\ast \in \mathbb{R}^n $.
  \newline
@@ -281,11 +290,16 @@ DÃ©finissons quelques notions supplÃ©mentaires de base nÃ©cessaires Ã  la suite
 \begin{Prop}
  \begin{enumerate}
   \item $ H[f](x^\ast) $ est une matrice symÃ©trique (ThÃ©orÃ¨me de symÃ©trie de Schwarz).
-  \item On a le dÃ©veloppement de Taylor-Young Ã  l'ordre 2 suivant :
+  \item On a le dÃ©veloppement de Taylor-Young Ã  l'ordre 2 en $ x^\ast $ suivant :
         $$ f(x^\ast + v) = f(x^\ast) + \langle \nabla f(x^\ast),v \rangle + \frac{1}{2} v^\top H[f](x^\ast) v + \varepsilon(v) $$
+        ou
+        $$ f(x^\ast + v) = f(x^\ast) + \langle \nabla f(x^\ast),v \rangle + \frac{1}{2} \langle H[f](x^\ast)v,v \rangle + \varepsilon(v) $$
         avec $ \frac{|\varepsilon(v)|}{\norme{v}} \rightarrow 0 $ quand $ \norme{v} \rightarrow 0 $.
  \end{enumerate}
 \end{Prop}
+\begin{proof}
+ Elle repose entiÃ¨rement sur deux autres thÃ©orÃ¨mes dont les preuves sont connues et de la rÃ©Ã©criture de formulation de rÃ©sultat.
+\end{proof}
 
 \subsection{Conditions d'existence d'un extremum}
 
@@ -338,6 +352,8 @@ Dans ce projet, nous nous proposons d'Ã©tudier une des mÃ©thodes d'optimisation
 
 \section{Methode de descente}\label{descente}
 
+Nous supposons que le domaine des contraintes de $ \mathcal{P} $ est un ouvert de $ \mathbb{R}^n $ (c'est Ã  dire que nous n'avons pas de contraintes) et $ J $ est une fonction dÃ©finie sur $ \mathbb{R}^n $ Ã  valeurs rÃ©elles supposÃ©e diffÃ©rentiable, voire mÃªme deux fois diffÃ©rentiable. Les conditions nÃ©cessaires dâoptimalitÃ© du premier et du second ordre expriment le fait quâil nâest pas possible de âdescendreâ Ã  partir dâun point de minimum (local ou global). Cette observation va servir de point de dÃ©part Ã  lâÃ©laboration des mÃ©thodes dites de descente.
+
 Partant dâun point $ x_0 \in \mathbb{R}^n $ arbitrairement choisi, un algorithme de descente va chercher Ã  gÃ©nÃ©rer une suite dâitÃ©rÃ©s $ (x_k)_{k \in \mathbb{N}} $ de $ \mathbb{R}^n $ dÃ©finie par :
 $$ x_{k+1} = x_k + s_kd_k $$ oÃ¹ $ s_k \in \mathbb{R}_{+}^{*},d_k \in \mathbb{R}^n $ et avec
 $$ \forall k \in \mathbb{N} \ J(x_{k+1}) \leq J(x_k) $$
@@ -479,7 +495,7 @@ L'Ã©tude plus dÃ©taillÃ©e de diffÃ©rents algorithmes de descente qui utilisent d
 
 \section{MÃ©thode Newtonienne}
 
-Lâalgorithme de Newton en optimisation est une application directe de lâalgorithme de
+Les hypothÃ¨ses sur $ \mathcal{P} $ de la section prÃ©cÃ©dente restent les mÃªmes dans cette section. Lâalgorithme de Newton en optimisation est une application directe de lâalgorithme de
 Newton pour la rÃ©solution dâÃ©quations du type : $ F(x) = 0 $. En optimisation sans contrainte,
 lâalgorithme de Newton cherche les solutions de lâÃ©quation :
 $$ \nabla J(x) = 0, $$
@@ -487,10 +503,78 @@ autrement dit, les points critiques de la fonction $ J $ Ã  minimiser.
 \newline
 En supposant $ J $ de classe $ \mathcal{C}^2 $ et la matrice hessienne $ H[J](x_k) $ inversible, une itÃ©ration de lâalgorithme de Newton sâÃ©crit :
 $$ x_{k+1} = x_k - H[J](x_k)^{-1} \nabla J(x_k), $$
-oÃ¹ $ d_k = -H[J](x_k)^{-1} \nabla J(x_k) $ est appelÃ©e direction de Newton.
+oÃ¹ $ d_k = -H[J](x_k)^{-1} \nabla J(x_k) $ est appelÃ©e direction de Newton. La direction $ d_k $ est Ã©galement lâunique solution du problÃ¨me :
+$$ \underset{d \in \mathbb{R}^n}{\mathrm{argmin}} \ J(x_k) + \langle \nabla J(x_k),d \rangle + \frac{1}{2}\langle H[J](x_k)d,d \rangle $$
+Autrement dit, $ d_k $ est le point de minimum global de lâapproximation de second ordre de
+$ J $ au voisinage du point courant $ x_k $.
+A condition que la matrice $ H[J](x_k) $ soit dÃ©finie positive Ã  chaque itÃ©ration, la mÃ©thode
+de Newton est bien une mÃ©thode de descente Ã  pas fixe Ã©gal Ã  $ 1 $ . Les propriÃ©tÃ©s remarquables de cet algorithme sont :
+
+\begin{tabular}{|p{20em}|p{20em}|}
+ \hline
+ Avantages                                                                                           & InconvÃ©nients                                                                                                                                                     \\
+ \hline
+ sa convergence quadratique (le nombre de dÃ©cimales exactes est multipliÃ© par 2 Ã  chaque itÃ©ration). &                                                                                                                                                                   \\
+ \hline
+                                                                                                     & les difficultÃ©s et le coÃ»t de calcul de la hessienne $ H[J](x_k) $ : lâexpression analytique des dÃ©rivÃ©es secondes est rarement disponible dans les applications. \\
+ \hline
+                                                                                                     & le coÃ»t de rÃ©solution du systÃ¨me linÃ©aire $ H[J](x_k )(x_{k+1} - x_k) = \nabla J(x_k) $.                                                                          \\
+ \hline
+                                                                                                     & lâabsence de convergence si le premier itÃ©rÃ© est trop loin de la solution, ou si la    hessienne est singuliÃ¨re.                                                  \\
+ \hline
+                                                                                                     & pas de distinction entre minima, maxima et points stationnaires.                                                                                                  \\
+ \hline
+\end{tabular}
+\newline
+La question que lâon se pose est donc : comment forcer la convergence globale de lâalgorithme de Newton ? LâidÃ©e des mÃ©thodes de type Newton consiste Ã  reprendre
+lâalgorithme de Newton en remplaÃ§ant les itÃ©rations par :
+$$ x_{k+1} = x_k - s_k H_k^{-1} \nabla J(x_k), $$
+oÃ¹
+\begin{itemize}
+ \item la matrice $ H_k $ est une approximation de la hessienne $ H[J](x_k) $.
+ \item $ s_k > 0 $ est le pas calculÃ© par une recherche linÃ©aire bien choisie.
+\end{itemize}
+Plusieurs questions se posent alors :
+\begin{itemize}
+ \item Comment dÃ©terminer une matrice $ H_k $ qui soit une âbonneâ approximation de la hessienne Ã  lâitÃ©ration $ k $ sans utiliser les informations de second ordre et garantir que $ H_k^{-1} \nabla J(x_k) $ soit bien une direction de descente de $ J $ en $ x_k $, sachant que la direction de Newton, si elle existe, nâen est pas nÃ©cessairement une ?
+ \item Comment conserver les bonnes propriÃ©tÃ©s de lâalgorithme de Newton ?
+\end{itemize}
+Nous ne rÃ©pondrons pas Ã  ces questions qui sont hors du cadre de ce projet. Cette section permet de rendre compte de la filiation entre la mÃ©thode PQS et celle Newtonienne.
 
 \section{MÃ©thode PQS (ou SQP)}
 
+Nous supposons les fonctions $ J,g,h $ Ã  valeurs rÃ©elles et de classe $ \mathcal{C}^1 $.
+Trouver une solution dâun problÃ¨me dâoptimisation sous contraintes fonctionnelles consiste
+Ã  dÃ©terminer un point optimal $ x^\ast $ et des multiplicateurs associÃ©s $ (\lambda^\ast,\mu^\ast) $. Deux grandes familles de mÃ©thodes peuvent Ãªtre dÃ©finies pour la rÃ©solution des problÃ¨mes dâoptimisation sous contraintes : les mÃ©thodes primales et les mÃ©thodes duales. Les approches primales se concentrent sur la dÃ©termination du point $ x^\ast $, les multiplicateurs $ (\lambda,\mu) $ ne servant souvent quâÃ  vÃ©rifier lâoptimalitÃ© de $ x^\ast $. Les mÃ©thodes duales quant Ã  elles mettent lâaccent sur la recherche dâun multiplicateur en travaillant sur un problÃ¨me dâoptimisation dÃ©duit du problÃ¨me initial par \textit{dualitÃ©}.
+
+\subsection{Algorithmes newtoniens}
+
+Les algorithmes newtoniens sont basÃ©s sur la linÃ©arisation dâÃ©quations caractÃ©risant les solutions que lâon cherche, fournies par les conditions dâoptimalitÃ© dâordre $ 1 $. Ces algorithmes sont \textit{primaux-duaux} dans le sens oÃ¹ ils gÃ©nÃ¨rent Ã  la fois une suite primale $ (x_k )_{k \in \mathbb{N}} $ convergeant vers une solution $ \overline{x} $ du problÃ¨me considÃ©rÃ©, et une suite gÃ©omÃ©trique duale $ (\lambda^k)_{k \in \mathbb{N}} $ de multiplicateurs convergeant vers un multiplicateur optimal $ \overline{\lambda} $ associÃ© Ã  $ \overline{x} $.
+
+\subsection{Algorithme PQS}
+
+\subsubsection{Contraintes dâÃ©galitÃ©}
+
+ConsidÃ©rons un problÃ¨me dâoptimisation diffÃ©rentiable $ \mathcal{P} $ avec contraintes dâÃ©galitÃ© :
+$$
+ \mathcal{P} \left \{
+ \begin{array}{r}
+  \displaystyle\min_{x \in \mathbb{R}^n} J(x) \\
+  h(x) = 0
+ \end{array}
+ \right .
+$$
+oÃ¹ $ J: \mathbb{R}^n \longrightarrow \mathbb{R} $ et $h: \mathbb{R}^n \longrightarrow \mathbb{R}^q$ sont supposÃ©es au moins diffÃ©rentiables.
+\newline
+Les conditions dâoptimalitÃ© de Lagrange (ou \textit{KKT}) sâÃ©crivent :
+$$ \nabla L(x,\lambda) = 0 \iff \nabla J(x) + \sum\limits_{i=0}^{q} \lambda_i \nabla h_i(x) = 0 $$
+donc $ \mathcal{P} $ devient :
+$$ \begin{pmatrix}
+ \nabla J(x) + \sum\limits_{i=0}^{q} \lambda_i \nabla h_i(x) \\
+ h(x)
+ \end {pmatrix} = 0 $$
+Pour rÃ©soudre ce systÃ¨me dâÃ©quations, utilisons la mÃ©thode de Newton dont une itÃ©ration sâÃ©crit ici :
+
 \bibliographystyle{plain}
 \bibliography{stdlib_sbphilo}
 
-- 
2.34.1