From 7590f4bb3c2432c43c58e6f4480c03bc324d7dfc Mon Sep 17 00:00:00 2001
From: =?utf8?q?J=C3=A9r=C3=B4me=20Benoit?= <jerome.benoit@piment-noir.org>
Date: Tue, 6 Nov 2018 20:55:34 +0100
Subject: [PATCH] Add the example to run the SQP algorithm.
MIME-Version: 1.0
Content-Type: text/plain; charset=utf8
Content-Transfer-Encoding: 8bit

Add some definitions.

Signed-off-by: JÃ©rÃ´me Benoit <jerome.benoit@piment-noir.org>
---
 rapport/ProjetOptimRO.tex | 111 +++++++++++++++++++++++++++++++++-----
 1 file changed, 99 insertions(+), 12 deletions(-)

diff --git a/rapport/ProjetOptimRO.tex b/rapport/ProjetOptimRO.tex
index 6ffc1f6..925282d 100644
--- a/rapport/ProjetOptimRO.tex
+++ b/rapport/ProjetOptimRO.tex
@@ -233,7 +233,11 @@ DÃ©finissons quelques notions supplÃ©mentaires de base nÃ©cessaires Ã  la suite
  $ A \subset \mathbb{R}^n $ est un fermÃ© $ \iff A = \overline{A} $.
 \end{Rmq}
 \begin{Def}
- Soient une fonction $ f: \mathbb{R}^n \longrightarrow \mathbb{R} $ et $ x^\ast \in \mathbb{R}^n $.
+ Soient $ f : \mathbb{R}^n \longrightarrow \mathbb{R} $ et $ S \subset \mathbb{R}^n $. On dÃ©finit $ \mathrm{argmin} $ de $ f $ sur $ S $ par :
+ $$ \underset{x \in S}{\mathrm{argmin}} f(x) = \{ x \in \mathbb{R}^n \ | \ x \in S \land \forall y \in S \ f(y) \geq f(x) \} $$
+\end{Def}
+\begin{Def}
+ Soient une fonction $ f : \mathbb{R}^n \longrightarrow \mathbb{R} $ et $ x^\ast \in \mathbb{R}^n $.
  \newline
  On dit que $ f $ est continue en $ x^\ast $ si
  $$ \forall \varepsilon \in \mathbb{R}_{+}^{*} \ \exists \alpha \in \mathbb{R}_{+}^{*} \ \forall x \in \mathbb{R}^n \ \norme{x - x^\ast} \leq \alpha \implies |f(x) - f(x^\ast)| \leq \varepsilon $$
@@ -250,7 +254,7 @@ DÃ©finissons quelques notions supplÃ©mentaires de base nÃ©cessaires Ã  la suite
  cette dÃ©rivÃ©e.
 \end{Def}
 \begin{Def}
- Soient une fonction $ f: \mathbb{R}^n \longrightarrow \mathbb{R} $
+ Soient une fonction $ f : \mathbb{R}^n \longrightarrow \mathbb{R} $
  et $ x^\ast, h \in \mathbb{R}^n $.
  \newline
  On dit que $ f $ est diffÃ©rentiable en $ x^\ast $ si il existe une application linÃ©raire $ d_{x^\ast}f $ de $ \mathbb{R}^n $ dans $ \mathbb{R} $ telle que
@@ -304,8 +308,8 @@ DÃ©finissons quelques notions supplÃ©mentaires de base nÃ©cessaires Ã  la suite
 
 \subsection{Conditions d'existence d'un extremum}
 
-On peut dÃ©montrer que $ \mathcal{C }$ est un ensemble fermÃ© de $ \mathbb{R}^n $ si $ g $ et $ h $ sont continues.
-On peut en dÃ©duire que si $ J $ est continue, $ \mathcal{C } $ est un ensemble fermÃ© et bornÃ© de $ \mathbb{R}^n $.
+On peut dÃ©montrer que $ \mathcal{C}$ est un ensemble fermÃ© de $ \mathbb{R}^n $ si $ g $ et $ h $ sont continues.
+On peut en dÃ©duire $ \mathcal{C} $ est un ensemble fermÃ© et bornÃ© de $ \mathbb{R}^n $.
 \begin{Th}[ThÃ©orÃ¨me de Weierstrass]
  Soient $ \mathcal{C} \neq \emptyset \subset \mathbb{R}^n $ un fermÃ© bornÃ© et $ f : \mathcal{C} \longrightarrow \mathbb{R} $ une fonction continue.
  \newline
@@ -314,7 +318,7 @@ On peut en dÃ©duire que si $ J $ est continue, $ \mathcal{C } $ est un ensemble
  \newline
  De la mÃªme faÃ§on, il existe un maximum global de $ J $ sur $ \mathcal{C} $.
 \end{Th}
-On en dÃ©duit que $ \mathcal{P} $ admet au moins une solution dans le cas oÃ¹ $ J, g ,h $ sont continues \cite{LJK,RON}. L'Ã©tude de la convexitÃ© de $ J $ sur $ \mathcal{C} $ permet d'explorer l'unicitÃ© de la solution \cite{LJK,RON}.
+Si $ J $ est continue, on en dÃ©duit que $ \mathcal{P} $ admet au moins une solution dans le cas oÃ¹ $ J, g ,h $ sont continues \cite{LJK,RON}. L'Ã©tude de la convexitÃ© de $ J $ sur $ \mathcal{C} $ permet d'explorer l'unicitÃ© de la solution \cite{LJK,RON}.
 
 \subsection{Conditions de caractÃ©risation d'un extremum}
 
@@ -322,7 +326,7 @@ Dans le cas oÃ¹ $ J, g, h $ sont continÃ»ment diffÃ©rentiable et ses dÃ©rivÃ©es
 \newline
 On peut en dÃ©duire que une condition nÃ©cessaire et suffisante pour que $ x^\ast \in \mathring{\mathcal{C}} $ soit un des extremums locaux de $ J $ est que $ \nabla J(x^\ast) = 0 $. Mais si $ x^\ast \in \overline{\mathcal{C}}\setminus\mathring{\mathcal{C}} $ (la frontiÃ¨re de $ \mathcal{C} $) alors $ \nabla J(x^\ast) $ n'est pas nÃ©cessairement nul. Il sera par consÃ©quent nÃ©cessaire de trouver d'autres caratÃ©risations d'un extremum local \cite{FEA,WAL}.
 
-\subsubsection{Conditions de Karuch-Kuhn-Tucker}\label{KKT}
+\subsubsection{Conditions nÃ©cessaires de Karuch-Kuhn-Tucker ou \textit{KKT}}\label{KKT}
 
 \begin{Th}
  Soient $ x^\ast \in \mathbb{R}^n $, $ I = \{ 1,\ldots,p \} $ et $ J = \{ 1,\ldots,q \} $.
@@ -336,12 +340,26 @@ On peut en dÃ©duire que une condition nÃ©cessaire et suffisante pour que $ x^\as
  et
  $$ \forall i \in I \ \exists \mu_i \in \mathbb{R}_{+} \land \forall j \in J \ \exists \lambda_j \in \mathbb{R} \ \nabla J(x^\ast) + \sum_{i \in I}\mu_i{\nabla g_i(x^\ast)} + \sum_{j \in J}\lambda_j{\nabla h_j(x^\ast)} = 0 \land \forall i \in I \ \mu_i \nabla g_i(x^\ast) = 0 $$
  On appelle $ (\mu_i)_{i \in I}$ les multiplicateurs de Kuhn-Tucker et $ (\lambda_j)_{j \in J}$ les multiplicateurs de Lagrange.
+ \newline
+ On nomme Ã©galement les conditions \textit{KTT} conditions nÃ©cessaires d'optimalitÃ© du premier ordre.
 \end{Th}
 \begin{proof}
  Elle repose sur le lemme de Farkas \cite{FEA,RON}.
 \end{proof}
 Il est Ã  noter que une condition d'Ã©galitÃ© peut se rÃ©presenter par deux conditions d'inÃ©galitÃ© : $ \forall x \in \mathbb{R}^n \ \forall i \in \{ 1,\ldots,q \} \ h_i(x) = 0 \iff h_i(x) \leq 0 \land h_i(x) \geq 0 $ \cite{FEA}, ce qui peut permettre de rÃ©Ã©crire le problÃ¨me $ \mathcal{P} $ en Ã©liminant les contraintes d'Ã©galitÃ©s et change la forme des conditions \textit{KKT} Ã  vÃ©rifier mais rajoute $ 2q $ conditions d'inÃ©galitÃ©s et donc $ 2q $ multiplicateurs de Kuhn-Tucker.
+\begin{Def}
+ On appelle un point admissible $ x^\ast \in \mathcal{C} $ un point critique de $ \mathcal{P} $ si il statisfait les conditions \textit{KKT}.
+\end{Def}
 
+\subsubsection{Conditions suffisantes du deuxiÃ¨me ordre}
+
+\begin{Th}
+ Les conditions suffisantes en plus de celles \textit{KKT} pour que $ x^\ast \in \mathcal{C} $ soit un minimum local de $ J $ sont :
+ \begin{enumerate}[label=(\roman*)]
+  \item relÃ¢chement complÃ©mentaire dual\footnote{La dÃ©finition de cette notion ne sera pas donnÃ©e car elle n'est pas nÃ©cessaire pour l'Ã©tude de la mÃ©thode PQS.} strict en $ x^\ast $.
+  \item $ \forall v \in \mathbb{R}^n \land v \neq 0 \ \langle H_x[L](x^\ast,\lambda,\mu)v,v \rangle > 0 $.
+ \end{enumerate}
+\end{Th}
 
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 
@@ -459,7 +477,7 @@ IllustrÃ©es par les mÃ©thodes de descente de gradient, aucune de ces deux strat
 \end{Def}
 \begin{Def}
  Dans le cas oÃ¹ $ J $ est diffÃ©rentiable sur $ \mathcal{C} $, on dit que un algorithme de descente converge ssi
- $$ \lim\limits_{k \rightarrow +\infty} \norme{\nabla J(x_k)} = 0 $$
+ $$ \forall x_0 \in \mathbb{R}^n \lim\limits_{k \rightarrow +\infty} \norme{\nabla J(x_k)} = 0 $$
 \end{Def}
 
 \subsubsection{Principe de dÃ©monstration de convergence}
@@ -472,7 +490,19 @@ En sommant ces inÃ©galitÃ©s pour $ k $ variant de $ 0 $ Ã  $ N - 1 $, on obtient
 $$ \forall N \in \mathbb{N} \ J(x_0) - J(x_N) \geq c \sum_{i=0}^{N-1}\norme{\nabla J(x_i)}^2 $$
 Si $ J $ est bornÃ©e infÃ©rieurement, alors nÃ©cessairement $ J(x_0 ) - J(x_N) $ est majorÃ©e et donc la somme partielle est majorÃ©e, et donc la sÃ©rie $ (\sum\limits_{i=0}^{N-1}\norme{\nabla J(x_i)}^2)_{N \in \mathbb{N}} $ converge, ce qui implique :
 $$ \lim\limits_{k \rightarrow +\infty} \norme{\nabla J(x_k)} = 0 $$
-L'Ã©tude plus dÃ©taillÃ©e de diffÃ©rents algorithmes de descente qui utilisent diffÃ©rentes mÃ©thodes de recherche linÃ©aire pour optimiser $ \varphi $ et le choix d'une direction ainsi que leurs convergences sort du cadre de ce projet.
+\begin{Def}
+ On considÃ¨re $ (x_n)_{n \in \mathbb{N}} $, la suite des itÃ©rÃ©s donnÃ©s par un algorithme convergent. On note $ x^\ast $ la limite de la suite $ (x_n)_{n \in \mathbb{N}} $ et on suppose que $ x_k \neq x^\ast $, pour tout $ k \in \mathbb{N} $. La convergence de lâalgorithme est alors dite :
+ \begin{itemize}
+  \item linÃ©aire si l'erreur dÃ©croÃ®t linÃ©airement i.e. :
+        $$ \exists \tau \in ]0,1[ \ \lim_{k \rightarrow +\infty} \frac{\norme{x_{k+1} - x^\ast}}{\norme{x_k - x^\ast}} = \tau $$
+  \item superlinÃ©aire si :
+        $$ \lim_{k \rightarrow +\infty} \frac{\norme{x_{k+1} - x^\ast}}{\norme{x_k - x^\ast}} = 0 $$
+  \item d'ordre $ p $ si :
+        $$ \exists \tau \geq 0 \ \lim_{k \rightarrow +\infty} \frac{\norme{x_{k+1} - x^\ast}}{\norme{x_k - x^\ast}^p} = \tau $$
+        En particulier, si $ p = 2 $, la convergence est dite quadratique.
+ \end{itemize}
+\end{Def}
+L'Ã©tude plus dÃ©taillÃ©e de diffÃ©rents algorithmes de descente qui utilisent diffÃ©rentes mÃ©thodes de recherche linÃ©aire pour optimiser $ \varphi $ ainsi que leurs convergences sort du cadre de ce projet.
 
 \section{MÃ©thode Newtonienne}
 
@@ -521,7 +551,7 @@ Nous ne rÃ©pondrons pas Ã  ces questions qui sont hors du cadre de ce projet. Ce
 
 \section{MÃ©thode PQS (ou SQP)}
 
-Nous supposons les fonctions $ J,g,h $ Ã  valeurs rÃ©elles et de classe $ \mathcal{C}^1 $. Trouver une solution dâun problÃ¨me dâoptimisation sous contraintes fonctionnelles consiste Ã  dÃ©terminer un point optimal $ x^\ast $ et des multiplicateurs associÃ©s $ (\lambda^\ast,\mu^\ast) $. Deux grandes familles de mÃ©thodes peuvent Ãªtre dÃ©finies pour la rÃ©solution des problÃ¨mes dâoptimisation sous contraintes : les mÃ©thodes primales et les mÃ©thodes duales. Les approches primales se concentrent sur la dÃ©termination du point $ x^\ast $, les multiplicateurs $ (\lambda,\mu) $ ne servant souvent quâÃ  vÃ©rifier lâoptimalitÃ© de $ x^\ast $. Les mÃ©thodes duales quant Ã  elles mettent lâaccent sur la recherche dâun multiplicateur en travaillant sur un problÃ¨me dâoptimisation dÃ©duit du problÃ¨me initial par \textit{dualitÃ©}.
+Nous supposons les fonctions $ J,g,h $ Ã  valeurs rÃ©elles et de classe $ \mathcal{C}^1 $. Trouver une solution dâun problÃ¨me dâoptimisation sous contraintes fonctionnelles consiste Ã  dÃ©terminer un point optimal $ x^\ast $ et des multiplicateurs associÃ©s $ (\lambda^\ast,\mu^\ast) $. Deux grandes familles de mÃ©thodes peuvent Ãªtre dÃ©finies pour la rÃ©solution des problÃ¨mes dâoptimisation sous contraintes : les mÃ©thodes primales et les mÃ©thodes duales. Les approches primales se concentrent sur la dÃ©termination du point $ x^\ast $, les multiplicateurs $ (\lambda,\mu) $ ne servant souvent quâÃ  vÃ©rifier lâoptimalitÃ© de $ x^\ast $. Les mÃ©thodes duales quant Ã  elles mettent lâaccent sur la recherche des multiplicateurs en travaillant sur un problÃ¨me dâoptimisation dÃ©duit du problÃ¨me initial par \textit{dualitÃ©}.
 
 \subsection{Algorithmes Newtoniens}
 
@@ -566,7 +596,7 @@ $$ \begin{pmatrix}
   h(x_k)
  \end{pmatrix}  $$
 oÃ¹ $ D_h(x) $ dÃ©signe la matrice jacobienne de lâapplication $ h : \mathbb{R}^n \longrightarrow \mathbb{R}^q $ dÃ©finie par :
-$$ D_h(x)^\top = \begin{bmatrix} \nabla h_1(x)\ldots\nabla h_q(x) \end{bmatrix} $$
+$$ D_h(x)^\top = \begin{bmatrix} \nabla h_1(x)^\top\ldots\nabla h_q(x)^\top \end{bmatrix} $$
 Posons : $ H_k = H_x[L](x_k,\lambda_k), \ d = x_{k+1} - x_k $ et $ \mu = \lambda_{k+1} $. L'itÃ©ration s'Ã©crit donc :
 $$ \begin{pmatrix}
   H_k      & D_h(x_k)^\top \\
@@ -580,7 +610,7 @@ $$ \begin{pmatrix}
  \end{pmatrix} $$
 et est bien dÃ©finie Ã  condition que la matrice $ H_x[L](x_k,\lambda_k) $ soit inversible. Ce sera le cas si :
 \begin{enumerate}[label=(\roman*)]
- \item Les colonnes $ \nabla h_1(x_k),\ldots,\nabla h_q(x_k) $ de $ D_h(x_k)^\top $ sont linÃ©airement indÃ©pendants : câest lâhypothÃ¨se de qualification des contraintes.
+ \item Les colonnes $ \nabla h_1(x_k)^\top,\ldots,\nabla h_q(x_k)^\top $ de $ D_h(x_k)^\top $ sont linÃ©airement indÃ©pendants : câest la condition premiÃ¨re de \textit{KTT} ou condition de qualification des contraintes.
  \item Quel que soit $ d \neq 0 $ tel que $ D_h(x_k)d = 0, \ d^\top H_k d > 0 $ : câest la condition suffisante dâoptimalitÃ© du second ordre dans le cas de contraintes dâÃ©galitÃ©.
 \end{enumerate}
 Revenons Ã  lâitÃ©ration. Elle sâÃ©crit encore :
@@ -656,8 +686,14 @@ $$
 $$
 oÃ¹ $ J: \mathbb{R}^n \longrightarrow \mathbb{R} $, $g: \mathbb{R}^n \longrightarrow \mathbb{R}^p$ et $h: \mathbb{R}^n \longrightarrow \mathbb{R}^q$ sont supposÃ©es au moins diffÃ©rentiables.
 \newline
-Selon le mÃªme principe quâavec contraintes dâÃ©galitÃ© seules, on linÃ©arise les contraintes et on utilise une approximation quadratique du Lagrangien :
+Selon le mÃªme principe quâavec contraintes dâÃ©galitÃ© seules, on linÃ©arise les contraintes et on utilise une approximation quadratique du Lagrangien Ã  l'aide de dÃ©veloppements de Taylor-Young en $ x_k $ et $ (x_k,\lambda_k,\mu_k) $ respectivement :
 $$ L(x,\lambda,\mu) = J(x) + \lambda^\top g(x) + \mu^\top h(x), \ \lambda \in \mathbb{R}_+^p \land \mu \in \mathbb{R}^q $$
+Soit Ã  l'ordre 2 pour le Lagrangien :
+$$ L(x,\lambda,\mu) \approx L(x_k,\lambda_k,\mu_k) + \nabla L(x_k,\lambda_k,\mu_k)^\top (x - x_k) + \frac{1}{2} (x - x_k)^\top H[L](x_k,\lambda_k,\mu_k) (x - x_k) $$
+et Ã  l'ordre 1 pour les contraintes :
+$$ g(x) \approx g(x_k) + \nabla g(x_k)^\top(x - x_k) $$
+$$ h(x) \approx h(x_k) + \nabla h(x_k)^\top(x - x_k) $$
+En posant $ d = x - x_k $ et $ H_k = H[L](x_k,\lambda_k,\mu_k) $, on obtient le sous problÃ¨me quadratique $ \mathcal{PQ}_k $ :
 
 \hrulefill
 \newline
@@ -692,6 +728,57 @@ Afin que le sous-programme quadratique $ \mathcal{PQ}_k $ admette une unique sol
 \newline
 Etant une mÃ©thode newtonienne, lâalgorithme PQS converge localement quadratiquement pourvu que les points initiaux  $ (x_0,\lambda_0 ) $ (resp. $ (x_0,\lambda_0,\mu_0) $) soient dans un voisinage dâun point stationnaire $ \overline{x} $ et de ses multiplicateurs associÃ©s $ \overline{\lambda} $ (resp. $ (\overline{\lambda},\overline{\mu}) $). Bien entendu, il est possible de globaliser lâalgorithme en ajoutant une Ã©tape de recherche linÃ©aire.
 
+\subsection{StratÃ©gie d'approximation de la hessienne}
+
+\subsubsection{Ãquation de sÃ©cante et approximation}
+
+L'approximation $ H_k $  de la hessienne du Lagrangien peut Ãªtre obtenu par la relation :
+$$ \nabla L(x_{k+1},\lambda_{k+1},\mu_{k+1}) - \nabla L(x_{k},\lambda_{k+1},\mu_{k+1}) \approx H[L](x_{k+1},\lambda_{k+1},\mu_{k+1})(x_{k+1} - x_k) $$
+On construit une approximation $ H_{k+1} $ de $ H[L](x_{k+1},\lambda_{k+1},\mu_{k+1}) $ comme solution de lâÃ©quation :
+$$ H_{k+1}(x_{k+1} - x_k) = \nabla L(x_{k+1},\lambda_{k+1},\mu_{k+1}) - \nabla L(x_{k},\lambda_{k+1},\mu_{k+1}) $$
+appelÃ©e Ã©quation de sÃ©cante ou Ã©quation de quasi-Newton.
+\newline
+De faÃ§on similaire, on peut construire une approximation $ B_{k+1} $ de $ H[L](x_{k+1},\lambda_{k+1},\mu_{k+1})^{-1} $ comme solution de lâÃ©quation :
+$$ B_{k+1}(\nabla L(x_{k+1},\lambda_{k+1},\mu_{k+1}) - \nabla L(x_{k},\lambda_{k+1},\mu_{k+1})) = x_{k+1} - x_k $$
+Dans les deux cas, les Ã©quations de quasi-Newton forment un systÃ¨me sous-dÃ©terminÃ© Ã  $ n $ Ã©quations et $ n^2 $ inconnues. Il existe donc une infinitÃ© de matrices $ H_{k+1} $ pouvant convenir.
+\newline
+Une stratÃ©gie commune est de calculer $ (x_{k+1},\lambda_{k+1},\mu_{k+1}) $ pour une matrice $ H_k $ donnÃ©e et faire une mise Ã  jour de $ H_k $ de rang 1 ou 2 :
+$$ H_{k+1} = H_k + U_k $$
+
+\subsubsection{Mises Ã  jour DFP et BFGS}
+
+\subsection{Exemple d'utilisation de PQS}
+
+ConsidÃ©rons le problÃ¨me $ \mathcal{P} $ suivant :
+$$
+ \mathcal{P} \left \{
+ \begin{array}{l}
+  \displaystyle\min_{(x,y,z) \in \mathbb{R}^3} J(x,y,z) = x^2 + y^2 + z^2 -r^2       \\
+  g(x,y,z) = (g_1(x,y,z), g_2(x,y,z)) = (x^2 + y^2 - r_1^2, x^2 + z^2 -r_2^2) \leq 0 \\
+ \end{array}
+ \right .
+$$
+oÃ¹ $$ (r,r_1,r_2) \in \mathbb{R}_+^3. $$
+Les hypothÃ¨ses : $ J $ et $ g $ sont de classe $ \mathcal{C}^2 $.
+\newline
+Le Lagrangien de $ \mathcal(P) $ : $ L(x,y,z,\lambda) = $
+\newline
+Le gradient de $ J $ : $ \nabla J(x,y,z) = (\frac{\partial J}{\partial x}(x,y,z),\frac{\partial J}{\partial y}(x,y,z),\frac{\partial J}{\partial z}(x,y,z)) = $
+\newline
+Le gradient de $ g $ : $ \nabla g(x,y,z) = (\nabla g_1(x,y,z),\nabla g_2(x,z,z)) = $
+\newline
+La matrice hessienne de $ J $ : $ H[J](x,y,z) =
+ \begin{pmatrix}
+  \frac{\partial^2 J}{\partial^2 x}         & \frac{\partial^2 J}{\partial x\partial y} & \frac{\partial^2 J}{\partial x\partial z} \\
+  \frac{\partial^2 J}{\partial y\partial x} & \frac{\partial^2 J}{\partial^2 y}         & \frac{\partial^2 J}{\partial y\partial z} \\
+  \frac{\partial^2 J}{\partial z\partial x} & \frac{\partial^2 J}{\partial z\partial y} & \frac{\partial^2 J}{\partial^2 z}         \\
+ \end{pmatrix} =
+ \begin{pmatrix}
+   &  & \\
+   &  & \\
+   &  & \\
+ \end{pmatrix} $
+
 \bibliographystyle{plain}
 \bibliography{stdlib_sbphilo}
 
-- 
2.34.1