Belief propagation

Nel campo dell'intelligenza artificiale, l'algoritmo belief propagation, noto anche come sum–product message passing, è un algoritmo a passaggio di messaggi (message-passing) per fare inferenza su modelli grafici, quali le reti bayesiane e le reti markoviane.

L'algoritmo calcola la distribuzione marginale per ciascuno dei nodi (ossia variabili) non osservati, sotto il condizionamento di quelli osservati (ovvero le relative variabili). L'algoritmo belief propagation viene tipicamente utilizzato nei settori della teoria dell'informazione e del ragionamento automatico e, sotto il profilo empirico, si è dimostrato di successo in numerose applicazioni, fra le quali la soddisfacibilità[1].

L'algoritmo è stato proposto in prima istanza da J. Pearl nel 1982,[2] che lo ha formulato come algoritmo di inferenza esatta su alberi ed è stato poi esteso ai polialberi [3] . Pur non risultando esatto nel caso di strutture di grafo arbitrarie più complesse, esso si è dimostrato utile come algoritmo di inferenza approssimata[4].

Descrizione

Motivazione

Se X = { X i } {\displaystyle X=\{X_{i}\}} è un insieme di variabili discrete con distribuzione congiunta p {\displaystyle p} , la distribuzione marginale di un solo elemento X i {\displaystyle X_{i}} risulta semplicemente come la somma di p {\displaystyle p} su tutte le altre variabili:

p X i ( x i ) = x : x i = x i p ( x ) . {\displaystyle p_{X_{i}}(x_{i})=\sum _{\mathbf {x} ':x'_{i}=x_{i}}p(\mathbf {x} ').}

Tuttavia, al crescere del numero delle variabili questo calcolo diventa presto proibitivo: con 100 variabili binarie, si deve sommare sui 299 ≈ 6.338 × 1029 possibili valori. Sfruttando la struttura del grafo sottostante, come quella ad albero, la propagazione delle probabilità permette di calcolare le marginali in modo molto più efficiente.

Algoritmo somma-prodotto

Esistono diverse varianti dell'algoritmo per i differenti tipi di grafi (in particolare reti bayesiane e markoviane[5]). Si descriverà nel seguito la variante per grafi fattorizzati. Un grafo fattorizzato è un grafo bipartito contenente nodi corrispondenti a variabili V {\displaystyle V} e a fattori F {\displaystyle F} , con archi fra le variabili e i fattori nei quali esse occorrono. Si può quindi scrivere la congiunta come segue:

p ( x ) = a F f a ( x a ) {\displaystyle p(\mathbf {x} )=\prod _{a\in F}f_{a}(\mathbf {x} _{a})}

dove x a {\displaystyle x_{a}} è il vettore dei nodi vicini del fattore a {\displaystyle a} . Qualunque rete bayesiana o markoviana può essere rappresentata come grafo fattorizzato.

L'algoritmo prevede il “passaggio” di funzioni a valore reale, chiamate messaggi, lungo i collegamenti fra i nodi nascosti. Più precisamente, se v {\displaystyle v} è un nodo-variabile e a {\displaystyle a} è un nodo nodo-fattore connesso a v nel grafo, i messaggi da v {\displaystyle v} ad a {\displaystyle a} , (denotati da μ v a {\displaystyle \mu _{v\to a}} ) e da a {\displaystyle a} a v {\displaystyle v} ( μ a v {\displaystyle \mu _{a\to v}} ), sono funzioni a valori reali con dominio D o m ( v ) {\displaystyle Dom(v)} , l'insieme dei valori che può assumere la variabile casuale associata a v {\displaystyle v} . Tali messaggi contengono le influenze che una variabile esercita sull'altra. I messaggi vengono calcolati in base al fatto che il nodo ricevente sia un nodo-variabile o un nodo-fattore. Mantenendo la notazione precedente:

  • Un messaggio da un nodo-variabile v {\displaystyle v} a un nodo-fattore a {\displaystyle a} è il prodotto dei messaggi di tutti gli altri nodi-fattore vicini (eccetto il destinatario; viceversa, si può dire che il destinatario invia un messaggio con la funzione costante pari a 1 {\displaystyle 1} ):
x v D o m ( v ) , μ v a ( x v ) = a N ( v ) { a } μ a v ( x v ) . {\displaystyle \forall x_{v}\in Dom(v),\;\mu _{v\to a}(x_{v})=\prod _{a^{*}\in N(v)\setminus \{a\}}\mu _{a^{*}\to v}(x_{v}).}
dove N ( v ) {\displaystyle N(v)} è l'insieme dei nodi fattore vicini a v {\displaystyle v} . Se N ( v ) { a } {\displaystyle N(v)\setminus \{a\}} è vuoto, allora μ v a ( x v ) {\displaystyle \mu _{v\to a}(x_{v})} è fissato alla distribuzione uniforme su D o m ( v ) {\displaystyle Dom(v)} .
  • Un messaggio da un nodo-fattore a {\displaystyle a} a un nodo-variabile v {\displaystyle v} è il prodotto del fattore con i messaggi di tutti gli altri nodi: si marginalizzano tutte le variabili tranne quella associata a v {\displaystyle v} :
x v D o m ( v ) , μ a v ( x v ) = x a : x v = x v f a ( x a ) v N ( a ) { v } μ v a ( x v ) . {\displaystyle \forall x_{v}\in Dom(v),\;\mu _{a\to v}(x_{v})=\sum _{\mathbf {x} '_{a}:x'_{v}=x_{v}}f_{a}(\mathbf {x} '_{a})\prod _{v^{*}\in N(a)\setminus \{v\}}\mu _{v^{*}\to a}(x'_{v^{*}}).}
dove N ( a ) {\displaystyle N(a)} è l'insieme dei nodi-variabile vicini rispetto ad a. Se N ( a ) { v } {\displaystyle N(a)\setminus \{v\}} è vuoto allora μ a v ( x v ) = f a ( x v ) {\displaystyle \mu _{a\to v}(x_{v})=f_{a}(x_{v})} poiché in questo caso x v = x a {\displaystyle x_{v}=x_{a}} .

Come mostrato dalla formula precedente la marginalizzazione completa si riduce a una somma di prodotti di termini più semplici di quelli che occorrono nella distribuzione congiunta completa. Questa è la ragione per cui l'algoritmo viene chiamato a volte message passing somma-prodotto o algoritmo somma-prodotto.

In a tipica esecuzione, ciascun messaggio sarà aggiornato iterativamente a partire dai valori precedenti dei messaggi del vicinato. Per l'aggiornamento dei messaggi si possono usare diverse schedulazioni. Nel caso in cui il modello grafico sia un albero, una schedulazione ottimale converge dopo aver calcolato ogni messaggio esattamente una volta. Quando il grafo dei fattori ha dei cicli, tale schedulazione ottimale non esiste e una scelta tipica è quella di aggiornare tutti i messaggi simultaneamente a ogni iterazione.

Al momento della convergenza (se la convergenza è avvenuta), la distribuzione marginale stimata di ogni nodo è proporzionale al prodotto di tutti i messaggi dei fattori vicini (manca solo la costante di normalizzazione):

p X v ( x v ) a N ( v ) μ a v ( x v ) . {\displaystyle p_{X_{v}}(x_{v})\propto \prod _{a\in N(v)}\mu _{a\to v}(x_{v}).}

Analogamente, la distribuzione marginale congiunta stimata dell'insieme di variabili appartenenti a un dato fattore è proporzionale al prodotto del fattore e dei messaggi dalle variabili:

p X a ( x a ) f a ( x a ) v N ( a ) μ v a ( x v ) . {\displaystyle p_{X_{a}}(\mathbf {x} _{a})\propto f_{a}(\mathbf {x} _{a})\prod _{v\in N(a)}\mu _{v\to a}(x_{v}).}

Nel caso in cui il grafo dei fattori sia aciclico (ad esempio un albero o una foresta), queste distribuzioni marginali stimate convergono proprio verso le distribuzioni marginali effettive in un numero finito di iterazioni. Questo può essere dimostrato per induzione.

Note

  1. ^ A. Braunstein, M. Mézard e R. Zecchina, Survey propagation: An algorithm for satisfiability, in Random Structures & Algorithms, vol. 27, n. 2, 2005, pp. 201–226, DOI:10.1002/rsa.20057, arXiv:cs/0212002.
  2. ^ Judea Pearl, Reverend Bayes on inference engines: A distributed hierarchical approach (PDF), in AAAI-82: Pittsburgh, PA, Proceedings of the Second National Conference on Artificial Intelligence, Menlo Park, California, AAAI Press, 1982, pp. 133–136. URL consultato il 28 marzo 2009.
  3. ^ Jin H. Kim e Pearl, Judea, A computational model for combined causal and diagnostic reasoning in inference systems (PDF), in IJCAI-83: Karlsruhe, Germany, Proceedings of the Eighth International Joint Conference on Artificial Intelligence, vol. 1, 1983, pp. 190–193. URL consultato il 20 marzo 2016.
  4. ^ Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference, 2nd, San Francisco, CA, Morgan Kaufmann, 1988, ISBN 978-1-55860-479-7.
  5. ^ J.S. Yedidia, W.T. Freeman e Y., Understanding Belief Propagation and Its Generalizations, in Gerhard Lakemeyer e Bernhard Nebel (a cura di), Exploring Artificial Intelligence in the New Millennium, Morgan Kaufmann, gennaio 2003, ISBN 1-55860-811-7. URL consultato il 30 marzo 2009.