Campo casuale di Markov

Un esempio di MRF. Ogni arco rappresenta una dipendenza. In questo esempio: A dipende da B e D. B dipende da A e D. D dipende da A, B ed E. E dipende da D e C. C dipende da E.

Un campo casuale (o aleatorio) di Markov (in inglese Markov random field, MRF), detto anche rete di Markov, è un insieme di variabili casuali che verificano la proprietà di Markov rispetto a un grafo non orientato che rappresenta le dipendenze fra tali variabili. In altre parole, un campo aleatorio si dice markoviano se verifica la proprietà di Markov (in una delle sue forme). L'idea trae origine dalla fisica e in particolare dal modello Sherrington-Kirkpatrick[1].

Una rete di Markov è simile a una rete bayesiana in quanto modelli grafici per rappresentare le dipendenze fra variabili; la differenza sta nel fatto che le reti bayesiane sono grafi orientati e aciclici, mentre le reti di Markov non sono orientate e possono essere cicliche. Pertanto, una rete di Markov può rappresentare dipendenze che una rete bayesiana non può rappresentare; d'altra parte, una rete di Markov non può rappresentare certe dipendenze che una rete bayesiana può rappresentare (come, ad esempio, le dipendenze indotte). Inoltre, il grafo relativo a una rete di Markov può essere finito o infinito.

Il prototipo di rete di Markov è il modello di Ising: difatti il concetto di MRF è stato introdotto proprio come generalizzazione di tale modello[2]. Nel campo dell'intelligenza artificiale, un MRF viene utilizzato come modello di riferimento per diversi problemi di medio-basso livello nell'elaborazione delle immagini e nella visione artificiale[3].

Definizione

Dato un grafo non orientato G = ( V , E ) {\displaystyle G=(V,E)} , un insieme di variabili casuali X = ( X v ) v V {\displaystyle X=(X_{v})_{v\in V}} indicizzato da V {\displaystyle V} costituisce un Markov random field rispetto a G {\displaystyle G} se esse soddisfano una delle seguenti proprietà di Markov locali:

Proprietà di coppia: due variabili non adiacenti sono condizionatamente indipendenti date tutte le altre variabili
X u X v X V { u , v } {\displaystyle X_{u}\perp \!\!\!\perp X_{v}\mid X_{V\setminus \{u,v\}}}
Proprietà locale: una variabile è condizionatamente indipendente da tutte le altre variabili dati i suoi vicini
X v X V N [ v ] X N ( v ) {\displaystyle X_{v}\perp \!\!\!\perp X_{V\setminus \operatorname {N} [v]}\mid X_{\operatorname {N} (v)}}
dove N ( v ) {\textstyle \operatorname {N} (v)} è l'insieme dei vicini di v {\displaystyle v} e N [ v ] = v N ( v ) {\displaystyle \operatorname {N} [v]=v\cup \operatorname {N} (v)} è il vicinato chiuso di v {\displaystyle v} , ossia comprende v {\displaystyle v} .
Proprietà globale: due sottoinsiemi di variabili sono condizionatamente indipendenti dato un sottoinsieme di separazione
X A X B X S {\displaystyle X_{A}\perp \!\!\!\perp X_{B}\mid X_{S}}
dove ogni percorso da un nodo in A {\displaystyle A} a un nodo in B {\displaystyle B} passa attraverso S {\displaystyle S} .

La proprietà globale è più forte della proprietà locale che, a sua volta, è più forte di quella di coppia[4]. Ad ogni buon conto, le tre proprietà di Markov sopra menzionate risultano equivalenti nel caso di distribuzioni positive[5] (quelle che assegnano alle variabili solo probabilità non nulle).

La relazione fra le tre proprietà di Markov è più chiara nella formulazione seguente:

  • prop. di coppia: per ogni coppia i , j V {\displaystyle i,j\in V} non uguali o adiacenti, X i X j | X V { i , j } {\displaystyle X_{i}\perp \!\!\!\perp X_{j}|X_{V\smallsetminus \{i,j\}}} ;
  • prop. locale: per ogni i V {\displaystyle i\in V} e J V {\displaystyle J\subset V} non contenente o adiacente a i {\displaystyle i} , X i X J | X V ( { i } J ) {\displaystyle X_{i}\perp \!\!\!\perp X_{J}|X_{V\smallsetminus (\{i\}\cup J)}} ;
  • prop. globale: per ogni coppia I , J V {\displaystyle I,J\subset V} non intersecanti o adiacenti, X I X J | X V ( I J ) {\displaystyle X_{I}\perp \!\!\!\perp X_{J}|X_{V\smallsetminus (I\cup J)}} .

Fattorizzazione in cricche

Dato che può risultare difficile stabilire se le proprietà di Markov siano verificate da un'arbitraria distribuzione di probabilità, una classe di MRF comunemente utilizzata è quella delle reti che possono essere fattorizzate in base alle cricche del grafo.

Dato un insieme di variabili casuali X = ( X v ) v V {\displaystyle X=(X_{v})_{v\in V}} , sia P ( X = x ) {\displaystyle P(X=x)} la probabilità di una particolare configurazione x {\displaystyle x} del campo X {\displaystyle X} , cioè la probabilità che le variabili casuali in X {\displaystyle X} assumano lo specifico valore in x {\displaystyle x} . Essendo X {\displaystyle X} un insieme, la probabilità di x {\displaystyle x} deve essere intesa come riferita alla distribuzione congiunta delle varie X v {\displaystyle X_{v}} .

Se tale congiunta può essere fattorizzata sulle cricche di G {\displaystyle G} , ossia

P ( X = x ) = C cl ( G ) φ C ( x C ) {\displaystyle P(X=x)=\prod _{C\in \operatorname {cl} (G)}\varphi _{C}(x_{C})}

allora X {\displaystyle X} forma un MRF rispetto a G {\displaystyle G} . Nella formula, cl ( G ) {\displaystyle \operatorname {cl} (G)} denota l'insieme delle cricche di G {\displaystyle G} . La definizione può essere scritta in modo equivalente considerando solo le cricche massimali. Le funzioni φ C {\displaystyle \varphi _{C}} sono talvolta chiamate potenziali di fattori o potenziali di cricca[note 1].

Alcuni MRF non sono fattorizzabili [6][note 2]. Un MRF può essere fattorizzato se è soddisfatta almeno una delle seguenti condizioni:

  • la densità è positiva (per il teorema di Hammersley-Clifford)
  • il grafo associato è cordale (per l'equivalenza con una rete bayesiana)

Quando esiste una tale fattorizzazione, è possibile costruire il cosiddetto grafo con fattori per la rete.

Famiglia esponenziale

Qualsiasi MRF positivo può essere scritto come famiglia esponenziale in forma canonica, con funzioni caratteristiche f k {\displaystyle f_{k}} , in modo tale che la distribuzione congiunta completa possa essere scritta come

P ( X = x ) = 1 Z exp ( k w k f k ( x { k } ) ) {\displaystyle P(X=x)={\frac {1}{Z}}\exp \left(\sum _{k}w_{k}^{\top }f_{k}(x_{\{k\}})\right)}

dove la notazione

w k f k ( x { k } ) = i = 1 N k w k , i f k , i ( x { k } ) {\displaystyle w_{k}^{\top }f_{k}(x_{\{k\}})=\sum _{i=1}^{N_{k}}w_{k,i}\cdot f_{k,i}(x_{\{k\}})}

è semplicemente un prodotto scalare sulle configurazioni del campo e Z {\displaystyle Z} è la funzione di partizione:

Z = x X exp ( k w k f k ( x { k } ) ) . {\displaystyle Z=\sum _{x\in {\mathcal {X}}}\exp \left(\sum _{k}w_{k}^{\top }f_{k}(x_{\{k\}})\right).}

Qui, X {\displaystyle {\mathcal {X}}} indica l'insieme di tutte le possibili assegnazioni di valori a tutte le variabili casuali della rete. Di solito, le funzioni f k , i {\displaystyle f_{k,i}} sono definite in modo tale da rappresentare indicatori della configurazione della cricca, ossia f k , i ( x { k } ) = 1 {\displaystyle f_{k,i}(x_{\{k\}})=1} se x { k } {\displaystyle x_{\{k\}}} corrisponde all' i {\displaystyle i} -esima configurazione possibile della k {\displaystyle k} -esima cricca ed è nulla altrimenti. Questo modello è equivalente al modello di fattorizzazione in cricche sopra indicato, se N k = | dom ( C k ) | {\displaystyle N_{k}=|\operatorname {dom} (C_{k})|} è la cardinalità della cricca e il peso di una f k , i {\displaystyle f_{k,i}} corrisponde al logaritmo del fattore di cricca corrispondente, cioè w k , i = log φ ( c k , i ) {\displaystyle w_{k,i}=\log \varphi (c_{k,i})} , dove c k , i {\displaystyle c_{k,i}} denota l' i {\displaystyle i} -esima configurazione possibile della k {\displaystyle k} -esima cricca, cioè l' i {\displaystyle i} -esimo valore nel dominio della cricca C k {\displaystyle C_{k}} .

La probabilità P {\displaystyle P} viene spesso chiamata misura di Gibbs. La formulazione di un MRF come modello logistico è possibile solo se tutti i fattori di cricca sono non nulli, cioè se a nessuno degli elementi di X {\displaystyle {\mathcal {X}}} viene assegnata una probabilità nulla. Ciò consente l'uso di operatori dell'algebra matriciale, ad esempio la traccia per ottenere il logaritmo del determinante di una matrice, data una rappresentazione matriciale del grafo, ad esempio la sua matrice di incidenza.

L'importanza della funzione di partizione Z {\displaystyle Z} risiede nel fatto che molte nozioni di meccanica statistica, come l'entropia, possono essere generalizzate direttamente al caso delle reti di Markov, favorendone così la loro comprensione a livello intuitivo. Inoltre, la funzione di partizione consente di applicare metodi variazionali nella soluzione del problema di inferenza: è possibile associare una forza motrice a una o più variabili casuali ed esplorare la reazione della rete in risposta a questa perturbazione. Quindi, ad esempio, per ogni nodo v {\displaystyle v} del grafo, si può aggiungere un termine guida J v {\displaystyle J_{v}} alla funzione di partizione ottenendo così:

Z [ J ] = x X exp ( k w k f k ( x { k } ) + v J v x v ) {\displaystyle Z[J]=\sum _{x\in {\mathcal {X}}}\exp \left(\sum _{k}w_{k}^{\top }f_{k}(x_{\{k\}})+\sum _{v}J_{v}x_{v}\right)}

Formalmente, differenziando rispetto a J v {\displaystyle J_{v}} si ottiene il valore atteso della variabile casuale x v {\displaystyle x_{v}} associata al vertice v {\displaystyle v} :

E [ X v ] = 1 Z Z [ J ] J v | J v = 0 . {\displaystyle E[X_{v}]={\frac {1}{Z}}\left.{\frac {\partial Z[J]}{\partial J_{v}}}\right|_{J_{v}=0}.}

Le funzioni di correlazione vengono calcolate allo stesso modo; la correlazione di due punti è:

C [ X u , X v ] = 1 Z 2 Z [ J ] J u J v | J u = 0 , J v = 0 . {\displaystyle C[X_{u},X_{v}]={\frac {1}{Z}}\left.{\frac {\partial ^{2}Z[J]}{\partial J_{u}\,\partial J_{v}}}\right|_{J_{u}=0,J_{v}=0}.}

Sfortunatamente, sebbene la verosimiglianza di una rete logistica di Markov sia convessa, la sua valutazione, o quella del suo gradiente, richiede di fare inferenza sul modello, il che risulta generalmente computazionalmente intrattabile (si veda la sezione "Inferenza" nel seguito).

Esempi

Caso gaussiano

Una distribuzione normale multivariata forma un MRF rispetto a un grafo G = ( V , E ) {\displaystyle G=(V,E)} se gli archi mancanti corrispondono a zeri nella matrice di precisione:

X = ( X v ) v V N ( μ , Σ ) {\displaystyle X=(X_{v})_{v\in V}\sim {\mathcal {N}}({\boldsymbol {\mu }},\Sigma )}

tale che

( Σ 1 ) u v = 0 iff { u , v } E . {\displaystyle (\Sigma ^{-1})_{uv}=0\quad {\text{iff}}\quad \{u,v\}\notin E.} [7]

Inferenza

Come per una rete bayesiana, si può calcolare la distribuzione condizionale di un insieme di nodi V = { v 1 , , v i } {\displaystyle V'=\{v_{1},\ldots ,v_{i}\}} dati i valori assegnati a un altro insieme di nodi W = { w 1 , , w j } {\displaystyle W'=\{w_{1},\ldots ,w_{j}\}} nel MRF sommando su tutte le possibili assegnazioni a u V , W {\displaystyle u\notin V',W'} ; questo procedimento è una forma di inferenza esatta. Tuttavia, l'inferenza esatta è un problema #P-completo e quindi computazionalmente intrattabile in generale. Nella pratica, tecniche di approssimazione come il MCMC e la belief propagation ciclica risultano spesso più trattabili.

Per alcune sottoclassi particolari di MRF, come quelle associate ad alberi, esistono algoritmi di inferenza polinomiali (in tempo); la scoperta di tali sottoclassi è un attivo settore di ricerca. Esistono anche sottoclassi di MRF per le quali esistono metodi efficienti d'inferenza MAP o dell'assegnazione più probabile; esempi di questo tipo di modelli comprendono le reti associative[8][9]. Un'altra sottoclasse interessante è quella dei modelli decomponibili (quando il grafo è cordale): dato che ammettono soluzioni in forma chiusa per la stima di massima verosimiglianza, è possibile scoprire una struttura coerente anche per modelli con centinaia di variabili[10].

Note

Esplicative
  1. ^ Questa terminologia può risultare un po' problematica in quanto il termine potenziale è spesso associato al logaritmo di φ C {\displaystyle \varphi _{C}} e, in meccanica statistica, log ( φ C ) {\displaystyle \log(\varphi _{C})} ha un'interpretazione diretta come energia potenziale di una configurazione x C {\displaystyle x_{C}} .
  2. ^ Un semplice esempio può essere quello di un grafo con un ciclo di 4 nodi con alcune delle energie infinite, ossia configurazioni con probabilità nulla.
Documentali
  1. ^ (EN) Sherrington, David; Kirkpatrick, Scott, Solvable Model of a Spin-Glass, in Physical Review Letters, vol. 35, n. 35, 1975, pp. 1792-1796, Bibcode:1975PhRvL..35.1792S, DOI:10.1103/PhysRevLett.35.1792.
  2. ^ (EN) Ross Kindermann e J. Laurie Snell, Markov Random Fields and Their Applications (PDF), American Mathematical Society, 1980, ISBN 978-0-8218-5001-5. URL consultato il 17 agosto 2024 (archiviato dall'url originale il 10 agosto 2017).
  3. ^ (EN) S. Z. Li, Markov Random Field Modeling in Image Analysis, Springer, 2009, ISBN 9781848002791.
  4. ^ (EN) Steffen Lauritzen, Graphical models, Clarendon Press, 1996, p. 33, ISBN 978-0198522195.
  5. ^ (EN) Daphne Koller e Nir Friedman, Probabilistic Graphical Models, MIT Press, 2009, p. 114-122, ISBN 9780262013192.
  6. ^ (EN) John Moussouris, Gibbs and Markov random systems with constraints, in Journal of Statistical Physics, vol. 10, n. 1, 1974, pp. 11–33, Bibcode:1974JSP....10...11M, DOI:10.1007/BF01011714, MR 0432132.
  7. ^ (EN) Håvard Rue e Leonhard Held, Gaussian Markov random fields: theory and applications, CRC Press, 2005, ISBN 978-1-58488-432-3.
  8. ^ (EN) Benjamin Taskar, Vassil Chatalbashev e Daphne Koller, Learning associative Markov networks, Proceedings of the Twenty-First International Conference on Machine Learning (ICML 2004), Banff, Alberta, Canada, July 4-8, 2004, ACM International Conference Proceeding Series, vol. 69, Brodley, C.E., 2004, p. 102, DOI:10.1145/1015330.1015444, ISBN 978-1581138283..
  9. ^ (EN) Duchi, John C.; Tarlow, Daniel, Elidan, Gal; Koller, Daphne, Using Combinatorial Optimization within Max-Product Belief Propagation, a cura di Schölkopf, B.; et al., Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems, Vancouver, British Columbia, Canada, December 4-7, 2006, Advances in Neural Information Processing Systems, vol. 19, MIT Press, 2006, pp. 369–376..
  10. ^ (EN) Petitjean, F.; Webb, G.I.; Nicholson, A.E., Scaling log-linear analysis to high-dimensional data (PDF), International Conference on Data Mining. Dallas, TX, USA, 2013.

Voci correlate