Divergence de Bregman

Illustration de la définition de la divergence de Bregman dans un espace unidimensionnel

En mathématiques, la divergence de Bregman est une mesure de la différence entre deux distributions dérivée d'une fonction potentiel U à valeurs réelles strictement convexe et continûment différentiable.

Le concept a été introduit par Lev M. Bregman (en) en 1967[1]. Par l'intermédiaire de la transformation de Legendre, au potentiel U {\displaystyle U} correspond un potentiel dual U {\displaystyle U^{*}} et leur différentiation donne naissance à deux systèmes de coordonnées duaux.

Définition

Soit U ( x ) {\displaystyle U(x)} une fonction à valeurs réelles, strictement convexe et continûment différentiable définie sur un domaine convexe fermé Ω {\displaystyle \Omega } . La divergence de Bregman d'un point x 1 {\displaystyle x_{1}} de Ω {\displaystyle \Omega } par rapport à un autre point x 0 {\displaystyle x_{0}} de Ω {\displaystyle \Omega } est :

D U ( x 1 : x 0 ) = U ( x 1 ) U ( x 0 ) U ( x 0 ) , ( x 1 x 0 ) {\displaystyle D_{U}(x_{1}:x_{0})=U(x_{1})-U(x_{0})-\langle \nabla U(x_{0}),(x_{1}-x_{0})\rangle }

Propriétés

La divergence de Bregman possède certaines des propriétés d'une distance :

  • Positivité : x , y Ω , D U ( x : y ) 0 {\displaystyle \forall x,y\in \Omega ,D_{U}(x:y)\geq 0} .
  • Séparation : x , y Ω , D U ( x : y ) = 0 x = y {\displaystyle \forall x,y\in \Omega ,D_{U}(x:y)=0\Leftrightarrow x=y} .

Par contre, la symétrie et l'inégalité triangulaire ne sont pas vérifiées, ce qui fait qu'elle n'est pas une distance.

Autres propriétés :

  • Convexité : la divergence est convexe par rapport à son premier argument.
  • Linéarité : pour deux fonctions convexes U et V à valeur réelle et un réel λ > 0 , D U + λ V ( x : y ) = D U ( x : y ) + λ D V ( x : y ) {\displaystyle \forall \lambda >0,D_{U+\lambda V}(x:y)=D_{U}(x:y)+\lambda D_{V}(x:y)} .
  • Dualité : la divergence de Bregman est de nature duale[2] : par transformation de Legendre de U {\displaystyle U} , on obtient une fonction U {\displaystyle U^{*}} dont la divergence associée D U {\displaystyle D_{U^{*}}} est symétrique par rapport à D U {\displaystyle D_{U}}  :
D U ( x : y ) = D U ( y : x ) {\displaystyle D_{U}(x:y)=D_{U^{*}}(y^{*}:x^{*})} .

Les points x et y étant exprimés selon deux systèmes de coordonnées duaux issus de la transformation de Legendre : x = U ( x ) {\displaystyle x^{*}=\nabla U(x)} et x = U ( x ) {\displaystyle x=\nabla U^{*}(x^{*})} . La divergence peut être réécrite sous la forme :

D U ( x : y ) = U ( x ) + U ( y ) x y {\displaystyle D_{U}(x:y)=U(x)+U^{*}(y^{*})-\langle x\cdot y^{*}\rangle } .

Exemples

  • La distance de Mahalanobis (et donc le carré de la distance euclidienne) est une divergence de Bregman auto-duale :
D U ( p : q ) = 1 2 i j a i j ( p i q i ) ( p j q j ) {\displaystyle D_{U}(p:q)={\frac {1}{2}}\sum _{ij}a_{ij}(p_{i}-q_{i})(p_{j}-q_{j})} ,

avec

U ( p ) = 1 2 i j a i j p i p j {\displaystyle U(p)={\frac {1}{2}}\sum _{ij}a_{ij}p_{i}p_{j}} .
  • les α-divergences popularisées par Amari[3] sont un autre exemple.

La divergence entre une distribution p par rapport à une distribution q est définie par :

D ( α ) ( p : q ) = 4 1 α 2 i 1 α 2 p i + 1 + α 2 q i p i 1 α 2 q i 1 + α 2 {\displaystyle D^{(\alpha )}(p:q)={\frac {4}{1-\alpha ^{2}}}\sum _{i}{\frac {1-\alpha }{2}}p_{i}+{\frac {1+\alpha }{2}}q_{i}-p_{i}^{\frac {1-\alpha }{2}}\cdot q_{i}^{\frac {1+\alpha }{2}}} .

La divergence duale de D ( α ) {\displaystyle D^{(\alpha )}} est D ( α ) {\displaystyle D^{(-\alpha )}} .

Par ailleurs, les α-divergences dérivent des fonctions potentiels :

U ( α ) ( p ) = 2 1 + α i p i {\displaystyle U^{(\alpha )}(p)={\frac {2}{1+\alpha }}\sum _{i}p_{i}}

et des coordonnées associées :

r i ( α ) ( p ) = 2 1 α p i 1 α 2 {\displaystyle r_{i}^{(\alpha )}(p)={\frac {2}{1-\alpha }}p_{i}^{\frac {1-\alpha }{2}}} .

On a alors la relation de dualité des transformées de Legendre :

r i ( α ) = r ( α ) U ( α ) {\displaystyle r_{i}^{(-\alpha )}=\nabla _{r^{(\alpha )}}U^{(\alpha )}} .

Par ailleurs, avec les notations introduite, la divergence peut être écrite selon sa forme canonique :

D ( α ) ( p : q ) = U ( α ) ( p ) + U ( α ) ( q ) i r i ( α ) ( p ) r i ( α ) ( q ) {\displaystyle D^{(\alpha )}(p:q)=U^{(\alpha )}(p)+U^{(-\alpha )}(q)-\sum _{i}r_{i}^{(\alpha )}(p)r_{i}^{(-\alpha )}(q)} .

Un cas particulier de α-divergence est la divergence de Kullback-Leibler

  • La distance de Itakura-Sato :
D U ( p : q ) = i p i q i log p i q i 1 {\displaystyle D_{U}(p:q)=\sum _{i}{\frac {p_{i}}{q_{i}}}-\log {\frac {p_{i}}{q_{i}}}-1} ,

avec

U ( p ) = i log p i {\displaystyle U(p)=\sum _{i}\log p_{i}} .

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Bregman divergence » (voir la liste des auteurs).
  1. L. Bregman, The relaxation method of finding the common point of convex sets and its application to the solution of problems in convex programming, USSR Computational Mathematics and Mathematical Physics, Vol. 7(3): 200--217, 1967.
  2. S. Amari, Information geometry in optimization, machine learning and statistical inference, Front. Electr. Electron. Eng. China, vol. 5(3), pp. 241-260, 2010, DOI 10.1007/s11460-010-0101-3
  3. S. Amari, H. Nagaoka, Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society, 2000 (ISBN 978-0821805312)
  • icône décorative Portail des mathématiques