From 8000c0391c30285ee48cc3bd58504de6986c474a Mon Sep 17 00:00:00 2001
From: =?utf8?q?J=C3=A9r=C3=B4me=20Benoit?= <jerome.benoit@piment-noir.org>
Date: Sat, 3 Nov 2018 23:31:50 +0100
Subject: [PATCH] Add a section on descent methods.
MIME-Version: 1.0
Content-Type: text/plain; charset=utf8
Content-Transfer-Encoding: 8bit

Signed-off-by: JÃ©rÃ´me Benoit <jerome.benoit@piment-noir.org>
---
 rapport/ProjetOptimRO.tex  | 184 ++++++++++++++++++++++++++++++++++---
 rapport/stdlib_sbphilo.bib |   7 ++
 2 files changed, 180 insertions(+), 11 deletions(-)

diff --git a/rapport/ProjetOptimRO.tex b/rapport/ProjetOptimRO.tex
index a0867ac..40b3e41 100644
--- a/rapport/ProjetOptimRO.tex
+++ b/rapport/ProjetOptimRO.tex
@@ -6,6 +6,7 @@
 
 \usepackage{latexsym}
 \usepackage{amsmath}
+\usepackage{amsthm}
 \usepackage{mathtools}
 \usepackage{amssymb}
 \usepackage[utf8]{inputenc}
@@ -157,6 +158,10 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \chapter{Introduction gÃ©nÃ©rale}
 
+L'objectif de ce chapitre est de faire un bref rappel des dÃ©finitions, notions et rÃ©sultats essentiels en recherche opÃ©rationnelle ainsi que en mathÃ©matiques nÃ©cessaires Ã  l'Ã©tude de la mÃ©thode PQS.
+\newline
+Elle est loin d'Ãªtre exhaustive mais devrait suffire dans le cadre de ce projet.
+
 \vspace{.5em}
 
 \section{Qu'est-ce que la recherche opÃ©rationnelle?}
@@ -176,7 +181,7 @@ DÃ©finissons le problÃ¨me central $ \mathcal{P} $ que se propose de rÃ©soudre la
  La problÃ¨matique $ \mathcal{P} $ se dÃ©finit par :
  $$
   \mathcal{P} \left \{
-  \begin{array}{r c l}
+  \begin{array}{r}
    \displaystyle\min_{x \in \mathbb{R}^n} J(x) \\
    g(x) \leq 0                                 \\
    h(x) = 0
@@ -270,20 +275,20 @@ Autrement dit $ x^\ast $ est un minimum global de $ J $ sur $ \mathcal{C} $.
 \newline
 De la mÃªme faÃ§on, il existe un maximum global de $ J $ sur $ \mathcal{C} $.
 \end{Th}
-On en dÃ©duit que $ \mathcal{P} $ admet au moins une solution dans le cas oÃ¹ $ J, g ,h $ sont continues. L'Ã©tude de la convexitÃ© de $ J $ permet d'explorer l'unicitÃ© de la solution \cite{LJK}.
+On en dÃ©duit que $ \mathcal{P} $ admet au moins une solution dans le cas oÃ¹ $ J, g ,h $ sont continues \cite{LJK,RON}. L'Ã©tude de la convexitÃ© de $ J $ sur $ \mathcal{C} $ permet d'explorer l'unicitÃ© de la solution \cite{LJK,RON}.
 
 \subsection{Conditions de caractÃ©risation d'un extremum}
 
-Dans le cas oÃ¹ $ J, g, h $ sont continÃ»ment diffÃ©rentiable et ses dÃ©rivÃ©es sont continues (c'est Ã  dire de classe $ \mathcal{C}^1 $), la recherche du mimimum consiste Ã  faire une descente par gradient de $ J $ sur $ \mathcal{C} $ avec comme critÃ¨re d'arrÃªt : $ x_i = \displaystyle\min_{x \in \mathcal{C}} J(x) \iff \forall \varepsilon \in \mathbb{R}_{+}^{*} \ \norme{\nabla J(x_i)} < \varepsilon $, $ i \in \mathbb{N} $ \cite{FEA}.
+Dans le cas oÃ¹ $ J, g, h $ sont continÃ»ment diffÃ©rentiable et ses dÃ©rivÃ©es sont continues (c'est Ã  dire de classe $ \mathcal{C}^1 $), la recherche du mimimum consiste Ã  faire une descente par gradient [section \ref{descente}] de $ J $ sur $ \mathcal{C} $ avec comme critÃ¨re d'arrÃªt : $ x_i = \displaystyle\min_{x \in \mathcal{C}} J(x) \iff \forall \varepsilon \in \mathbb{R}_{+}^{*} \ \norme{\nabla J(x_i)} < \varepsilon $, $ i \in \mathbb{N} $ \cite{FEA}.
 \newline
 On peut en dÃ©duire que une condition nÃ©cessaire et suffisante pour que $ x^\ast \in \mathring{\mathcal{C}} $ soit un des extremums locaux de $ J $ est que $ \nabla J(x^\ast) = 0 $. Mais si $ x^\ast \in \overline{\mathcal{C}}\setminus\mathring{\mathcal{C}} $ (la frontiÃ¨re de $ \mathcal{C} $) alors $ \nabla J(x^\ast) $ n'est pas nÃ©cessairement nul. Il sera par consÃ©quent nÃ©cessaire de trouver d'autres caratÃ©risations d'un extremum \cite{FEA,WAL}.
 
-\subsubsection{Conditions de Kuhn-Tucker et Lagrange}
+\subsubsection{Conditions de Karuch-Kuhn-Tucker}\label{KKT}
 
 \begin{Th}
 Soient $ x^\ast \in \mathbb{R}^n $, $ I = \{ 1,\ldots,p \} $ et $ J = \{ 1,\ldots,q \} $.
 \newline
-Une condition nÃ©cessaire pour que $ x^\ast \in \mathcal{C}$ soit un minimum local est :
+Les conditions nÃ©cessaires pour que $ x^\ast \in \mathcal{C}$ soit un minimum local de $ J $ sont :
 \newline
 \newline
 \centerline{$ \{ \nabla g_1(x^\ast),\ldots,\nabla g_p(x^\ast),\nabla h_1(x^\ast),\ldots,\nabla h_q(x^\ast) \} $ sont linÃ©airement indÃ©pendants.}
@@ -293,19 +298,176 @@ et
 $$ \forall i \in I \ \exists \mu_i \in \mathbb{R}_{+} \land \forall j \in J \ \exists \lambda_j \in \mathbb{R} \ \nabla J(x^\ast) + \sum_{i \in I}\mu_i{\nabla g_i(x^\ast)} + \sum_{j \in J}\lambda_j{\nabla h_j(x^\ast)} = 0 \land \forall i \in I \ \mu_i \nabla g_i(x^\ast) = 0 $$
 On appelle $ (\mu_i)_{i \in I}$ les multiplicateurs de Kuhn-Tucker et $ (\lambda_j)_{j \in J}$ les multiplicateurs de Lagrange.
 \end{Th}
-Il est Ã  noter que une condition d'Ã©galitÃ© peut se rÃ©presenter par deux conditions d'inÃ©galitÃ© : $ \forall x \in \mathbb{R}^n \ \forall i \in \{ 1,\ldots,q \} \ h_i(x) = 0 \iff h_i(x) \leq 0 \land h_i(x) \geq 0 $.
+\begin{proof}
+Elle repose sur le lemme de Farkas.
+\end{proof}
+Il est Ã  noter que une condition d'Ã©galitÃ© peut se rÃ©presenter par deux conditions d'inÃ©galitÃ© : $ \forall x \in \mathbb{R}^n \ \forall i \in \{ 1,\ldots,q \} \ h_i(x) = 0 \iff h_i(x) \leq 0 \land h_i(x) \geq 0 $ \cite{FEA}, ce qui peut permettre de rÃ©Ã©crire le problÃ¨me $ \mathcal{P} $ en Ã©liminant les contraintes d'Ã©galitÃ©s et change la forme des conditions \textit{KKT} Ã  vÃ©rifier mais rajoute $ 2q $ conditions d'inÃ©galitÃ©s et donc $ 2q $  multiplicateurs de Kuhn-Tucker.
+
+
+%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+
+\chapter{MÃ©thode de programmation quadratique sÃ©quentielle}
+
+Dans ce projet, nous nous proposons d'Ã©tudier une des mÃ©thodes d'optimisation non linÃ©aire avec contraintes nommÃ©e programmation quadratique sÃ©quentielle ou PQS.
+
+\vspace{.5em}
+
+\section{Methode de descente}\label{descente}
+
+Partant dâun point $ x_0 \in \mathbb{R}^n $ arbitrairement choisi, un algorithme de descente va chercher Ã  gÃ©nÃ©rer une suite dâitÃ©rÃ©s $ (x_k)_{k \in \mathbb{N}} $ de $ \mathbb{R}^n $ dÃ©finie par :
+$$ x_{k+1} = x_k + s_kd_k $$ oÃ¹ $ s_k,d_k \in \mathbb{R}^n $ et avec
+$$ \forall k \in \mathbb{N} \ J(x_{k+1}) \leq J(x_k) $$
+Un tel algorithme est ainsi dÃ©terminÃ© par deux Ã©lÃ©ments Ã  chaque Ã©tape $ k $ : le choix de la direction $ d_k $ appelÃ©e direction de descente, et le choix de la taille du pas $ s_k $ Ã  faire dans la direction $ d_k $. Cette Ã©tape est appelÃ©e \textit{recherche linÃ©aire}.
+
+\subsection{DÃ©finition d'une direction de descente}
+
+Un vecteur $ d \in \mathbb{R}^n $ est une direction de descente pour $ J $ Ã  partir dâun point $ x_0 \in \mathbb{R}^n $ si $ t \longmapsto f(x_0 + td) $ est dÃ©croissante en $ t = 0 $, câest-Ã -dire :
+$$ \exists \eta \in \mathbb{R}_{+}^{*} \ \forall t \in ]0,\eta] \ J(x_0 + td) < J(x_0) $$
+Il est donc important dâanalyser le comportement de la fonction $ J $ dans certaines direc-
+tions.
+\begin{Prop}
+Soient $ J : \mathbb{R}^n \longrightarrow \mathbb{R} $ diffÃ©rentiable et $ d \in \mathbb{R}^n $.
+\newline
+d est un vecteur de descente de $ J $ en $ x_0 \in \mathbb{R}^n $ ssi :
+$$ \nabla J(x_0)^\top d < 0 $$
+De plus
+$$ \forall \beta < 1 \in \mathbb{R}_{+} \ \exists \eta \in \mathbb{R}_{+}^{*} \ \forall t \in ]0,\eta] \ J(x_0 + td) < J(x_0) + t\beta \nabla J(x_0)^\top d < J(x_0) $$
+\end{Prop}
+\begin{proof}
+Elle s'effectue en utilisant le dÃ©veloppement de Taylor-Young de lâapplication $ t \longmapsto f(x_0 + td) $ Ã  lâordre 1.
+\end{proof}
+Cette derniÃ¨re inÃ©galitÃ© garantit une dÃ©croissance minimum de la fonction $ J $ dans la
+direction $ d $ et peut se traduire par : la dÃ©croissance de la fonction $ J $, en effectuant un pas de longueur $ t $ dans la direction $ d $ , est au moins Ã©gale Ã  la longueur du pas multipliÃ©e par une fraction de la pente. Le schÃ©ma gÃ©nÃ©ral dâun algorithme de descente est alors le suivant :
+
+\hrulefill
+\newline
+ALGORITHME DE DESCENTE MODÃLE.
+\newline
+\textit{EntrÃ©es}: $ J : \mathbb{R}^n \longrightarrow \mathbb{R} $ diffÃ©rentiable, $ x_0 \in \mathbb{R}^n $ point initial arbitraire.
+\newline
+\textit{Sortie}: une approximation de la solution du problÃ¨me : $ \displaystyle\min_{x \in \mathbb{R}^n} J(x) $.
+\begin{enumerate}
+ \item $ k := 0 $
+ \item Tant que "test dâarrÃªt" non satisfait,
+ \begin{enumerate}
+  \item Trouver une direction de descente $ d_k $ telle que : $ \nabla J(x_k)^\top d_k < 0 $.
+  \item \textit{Recherche linÃ©aire} : Choisir un pas $ s_k > 0 $ Ã  faire dans cette direction et tel que : $$ J(x_k + s_kd_k) < J(x_k) $$.
+  \item Mise Ã  jour : $ x_{k+1} = x_k + s_kd_k; \ k := k + 1 $.
+ \end{enumerate}
+ \item Retouner $ x_k $.
+\end{enumerate}
+
+\hrulefill
+
+\subsection{Choix de la direction de descente}
+
+Une fois la thÃ©orie bien maÃ®trisÃ©e, calculer une direction de descente est relativement
+simple. Dans le cas diffÃ©rentiable, il existe deux grandes stratÃ©gies de choix de direction de
+descente :
+\begin{itemize}
+ \item la stratÃ©gie de Cauchy : $ d_k = -\nabla J(x_k) $, conduisant aux \textit{algorithmes de gradient}.
+ \item la stratÃ©gie de Newton : $ d_k = -H[J](x_k)^{-1} \nabla J(x_k) $, conduisant aux \textit{algorithmes Newtoniens}.
+\end{itemize}
+Remarquons que si $ x_k $ est un point stationnaire ($ \nabla J(x_k) = 0 $) non optimal alors toutes ces directions sont nulles et aucun de ces algorithmes ne pourra progresser. Ce problÃ¨me
+peut Ãªtre rÃ©solu en utilisant des approches de type rÃ©gion de confiance qui ne seront pas
+Ã©tudiÃ©es dans le cadre de ce projet.
+
+\subsection{CritÃ¨re dâarrÃªt}
+
+Soit $ x^\ast $ un minimum local du critÃ¨re $ J $ Ã  optimiser. Supposons que lâon choisisse comme test dâarrÃªt dans lâalgorithme de descente modÃ¨le, le critÃ¨re idÃ©al : "$ x_k = x^\ast $". Dans un monde idÃ©al (i.e. en supposant tous les calculs exacts et la capacitÃ© de calcul illimitÃ©e), soit lâalgorithme sâarrÃªte aprÃ¨s un nombre fini dâitÃ©rations, soit il construit (thÃ©oriquement) une suite infinie $ x_0,x_1,\ldots,x_k,\ldots $ de points de $ \mathbb{R}^n $ qui converge vers $ x^\ast $.
 \newline
+En pratique, un test dâarrÃªt devra Ãªtre choisi pour garantir que lâalgorithme sâarrÃªte
+toujours aprÃ¨s un nombre fini dâitÃ©rations et que le dernier point calculÃ© soit suffisamment
+proche de $ x^\ast $.
+
+Soit $ \varepsilon \in \mathbb{R}_{+}^{*} $ la prÃ©cision demandÃ©e. Plusieurs critÃ¨res sont Ã  notre disposition : tout dâabord (et câest le plus naturel), un critÃ¨re dâoptimalitÃ© basÃ© sur les conditions nÃ©cessaires dâoptimalitÃ© du premier ordre : en optimisation diffÃ©rentiable
+sans contrainte, on testera si
+$$ \norme{\nabla J(x_k)} < \varepsilon, $$
+auquel cas lâalgorithme sâarrÃªte et fournit lâitÃ©rÃ© courant $ x_k $ comme solution.
+
+En pratique, le test dâoptimalitÃ© nâest pas toujours satisfait et on devra faire appel Ã 
+dâautres critÃ¨res (fondÃ©s sur lâexpÃ©rience du numÃ©rique) :
+\begin{itemize}
+ \item Stagnation de la solution : $ \norme{x_{k+1} - x_k} < \varepsilon(1 + \norme{x_k}) $.
+ \item Stagnation de la valeur courante : $ |J(x_{k+1}) - J(x_k)| < \varepsilon(1 + |J (x_k)|) $.
+ \item Nombre dâitÃ©rations dÃ©passant un seuil fixÃ© Ã  lâavance : $ k < IterMax $.
+\end{itemize}
+et gÃ©nÃ©ralement une combinaison de ces critÃ¨res :
 \newline
-Dans ce projet, nous nous proposons d'Ã©tudier une des mÃ©thodes d'optimisation non linÃ©aire avec contraintes nommÃ©e programmation quadratique sÃ©quentielle.
+\newline
+CritÃ¨re dâarrÃªt =
+\begin{tabular}{l}
+ Test dâoptimalitÃ© satisfait \\
+ OU (Stagnation de la valeur courante ET Stagnation de la solution) \\
+ OU Nombre dâitÃ©rations maximum autorisÃ© dÃ©passÃ©
+\end{tabular}
 
+\subsection{La recherche linÃ©aire}
 
-%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+Supposons pour lâinstant rÃ©solu le problÃ¨me du choix de la direction de descente et intÃ©ressons nous uniquement au calcul du pas : câest la phase de recherche linÃ©aire.
+\newline
+Soit $ x_0 \in \mathbb{R}^n $ un point non critique et $ d $ une direction de descente de $ J $ en $ x_0 $. Nous cherchons Ã  calculer un pas $ s > 0 $ de sorte que :
+$$ J(x_0 + sd) < J(x_0). $$
+Le choix de ce pas rÃ©pond gÃ©nÃ©ralement Ã  deux objectifs souvent contradictoires : trouver
+le meilleur pas possible et effectuer le moins de calculs possibles. Ces deux objectifs ont
+donnÃ© naissance Ã  deux grandes familles : les algorithmes Ã  pas fixe et ceux Ã  pas optimal.
+
+\hrulefill
+\newline
+RECHERCHE LINÃAIRE : PAS FIXE. $ s_k = s_{k-1} $
+
+\hrulefill
+
+\hrulefill
+\newline
+RECHERCHE LINÃAIRE : PAS OPTIMAL. $ s_k $ solution du problÃ¨me $ \displaystyle\min_{s \in \mathbb{R}_{+}^{*}} J(x_k + sd_k) $
 
-\chapter{MÃ©thodes de programmation quadratique sÃ©quentielle}
+\hrulefill
+\newline
+IllustrÃ©es par les mÃ©thodes de descente de gradient, aucune de ces deux stratÃ©gies ne
+sâest rÃ©vÃ©lÃ©e rÃ©ellement convaincante : si la premiÃ¨re peut Ãªtre ârisquÃ©eâ du point de vue de
+la convergence, la seconde est souvent loin dâÃªtre triviale Ã  mettre en oeuvre (sauf dans le
+cas quadratique) et gÃ©nÃ©ralement inutilement coÃ»teuse : en effet, Ã  quoi bon calculer trÃ¨s
+prÃ©cisÃ©ment un pas optimal dans une direction qui nâest peut-Ãªtre pas la bonne ? (comme
+câest par exemple le cas pour la mÃ©thode de plus profonde descente). Les recherches
+linÃ©aires modernes reposent sur lâidÃ©e quâun pas de descente acceptable est un pas qui fait
+âsuffisammentâ dÃ©croÃ®tre la fonction objectif. Reste alors Ã  dÃ©finir les pas qui sont
+acceptables et ceux qui ne le sont pas.
+\begin{Def}
+ On appelle $ \varphi : s \in \mathbb{R} \longmapsto J(x + sd)$ la fonction mÃ©rite associÃ©e Ã  $ J $ en $ x $.
+\end{Def}
+\begin{Def}
+ Dans le cas oÃ¹ $ J, g, h $ sont de classe $ \mathcal{C}^1 $, on dit que un algoritme de descente converge ssi
+ $$ \lim\limits_{k \rightarrow +\infty} \norme{\nabla J(x_k)} = 0 $$
+\end{Def}
+
+\subsubsection{Principe de dÃ©monstration de convergence}
 
-\section{Optimisation}
+Une technique classique en optimisation pour obtenir des rÃ©sultats de convergence glo-
+bale consiste Ã  montrer que lâalgorithme de descente considÃ©rÃ© vÃ©rifie une inÃ©galitÃ© du
+type :
+$$ J(x_k) - J(x_{k+1}) \geq c\norme{\nabla J(x_k)}^2, $$
+oÃ¹ $ c $ est un constante rÃ©elle.
+\newline
+En sommant ces inÃ©galitÃ©s pour $ k $ variant de $ 0 $ Ã  $ N - 1 $, on obtient :
+$$ \forall N \in \mathbb{N} \ J(x_0) - J(x_N) \geq c \sum_{i=0}^{N-1}\norme{\nabla J(x_i)}^2 $$
+Si $ J $ est bornÃ©e infÃ©rieurement, alors nÃ©cessairement $ J(x_0 ) - J(x_N) $ est majorÃ©e et donc la somme partielle est majorÃ©e, et donc la sÃ©rie $ (\sum_{i=0}^{N-1}\norme{\nabla J(x_i)}^2)_{N \in \mathbb{N}} $ converge, ce qui implique :
+$$ \lim\limits_{k \rightarrow +\infty} \norme{\nabla J(x_k)} = 0 $$
+L'Ã©tude plus dÃ©taillÃ©e de diffÃ©rents algorithmes de descente qui utilisent diffÃ©rentes mÃ©thodes de recherche linÃ©aire pour optimiser $ \varphi $ et le choix d'une direction ainsi que leurs convergences sort du cadre de ce projet.
+
+\section{MÃ©thode Newtonienne}
+
+Lâalgorithme de Newton en optimisation est une application directe de lâalgorithme de
+Newton pour la rÃ©solution dâÃ©quations du type : $ F(x) = 0 $. En optimisation sans contrainte,
+lâalgorithme de Newton cherche les solutions de lâÃ©quation :
+$$ \nabla J(x) = 0, $$
+autrement dit, les points critiques de la fonction $ J $ Ã  minimiser.
+\newline
+En supposant $ J $ de classe $ \mathcal{C}^2 $ et la matrice hessienne $ H[J](x_k) $ inversible, une itÃ©ration de lâalgorithme de Newton sâÃ©crit :
+$$ x_{k+1} = x_k - H[J](x_k)^{-1} \nabla J(x_k), $$
+oÃ¹ $ d_k = -H[J](x_k)^{-1} \nabla J(x_k) $ est appelÃ©e direction de Newton.
 
-\subsubsection{Optimisation ou minimisation avec contraintes}
+\section{MÃ©thode PQS (ou SQP)}
 
 \bibliographystyle{plain}
 \bibliography{stdlib_sbphilo}
diff --git a/rapport/stdlib_sbphilo.bib b/rapport/stdlib_sbphilo.bib
index 549b8b4..6ffdc48 100644
--- a/rapport/stdlib_sbphilo.bib
+++ b/rapport/stdlib_sbphilo.bib
@@ -44,6 +44,13 @@ year="2015",
 key="<hal-01238558>"
 }
 
+@MASTERSTHESIS{RON,
+author="Aude Rondepierre",
+title="MÃ©thodes numÃ©riques pour lâoptimisation non linÃ©aire dÃ©terministe",
+school="INSA Toulouse - DÃ©partement GÃ©nie MathÃ©matique et ModÃ©lisation",
+year="2017",
+}
+
 @BOOK{Bach,
 author="Manuel BÃ¤chtold",
 title="L'interprÃ©tation de la mÃ©canique quantique, une approche pragmatique",
-- 
2.34.1