AIXI

AIXI['ai̯k͡siː] es un formalismo matemático teórico para la inteligencia general artificial . Combina la inducción de Solomonoff con la teoría de decisión secuencial . AIXI fue propuesto por primera vez por Marcus Hutter en 2000[1]​ y varios resultados con respecto a AIXI se prueban en el libro de 2005 de Hutter Universal Artificial Intelligence.[2]​ AIXI es un agente de aprendizaje por refuerzo (RL) . Maximiza las recompensas totales esperadas recibidas del entorno. Intuitivamente, considera simultáneamente todas las hipótesis (o entornos) computables. En cada paso de tiempo, analiza todos los programas posibles y evalúa cuántas recompensas genera ese programa en función de la siguiente acción que se realice. Las recompensas prometidas se ponderan luego por la creencia subjetiva de que este programa constituye el verdadero entorno. Esta creencia se calcula a partir de la duración del programa: los programas más largos se consideran menos probables, en línea con la navaja de Occam . Luego, AIXI selecciona la acción que tiene la recompensa total esperada más alta en la suma ponderada de todos estos programas.

Definición

AIXI es un agente de aprendizaje por refuerzo que interactúa con algún entorno estocástico y desconocido pero computable μ {\displaystyle \mu } . La interacción procede en pasos de tiempo, desde t = 1 {\displaystyle t=1} a t = m {\displaystyle t=m} , dónde m N {\displaystyle m\in \mathbb {N} } es la vida útil del agente AIXI. En el paso de tiempo t, el agente elige una acción a t A {\displaystyle a_{t}\in {\mathcal {A}}} (por ejemplo, un movimiento de una extremidad) y lo ejecuta en el entorno, y el entorno responde con una "percepción" e t E = O × R {\displaystyle e_{t}\in {\mathcal {E}}={\mathcal {O}}\times \mathbb {R} } , que consiste en una "observación" o t O {\displaystyle o_{t}\in {\mathcal {O}}} (por ejemplo, una imagen de cámara) y una recompensa r t R {\displaystyle r_{t}\in \mathbb {R} } , distribuidos según la probabilidad condicional μ ( o t r t | a 1 o 1 r 1 . . . a t 1 o t 1 r t 1 a t ) {\displaystyle \mu (o_{t}r_{t}|a_{1}o_{1}r_{1}...a_{t-1}o_{t-1}r_{t-1}a_{t})} , dónde a 1 o 1 r 1 . . . a t 1 o t 1 r t 1 a t {\displaystyle a_{1}o_{1}r_{1}...a_{t-1}o_{t-1}r_{t-1}a_{t}} es la "historia" de acciones, observaciones y recompensas. El entorno μ {\displaystyle \mu } por lo tanto, se representa matemáticamente como una distribución de probabilidad sobre "percepciones" (observaciones y recompensas) que dependen del historial completo, por lo que no existe la suposición de Markov (a diferencia de otros algoritmos de RL). Nótese nuevamente que esta distribución de probabilidad es desconocida para el agente AIXI. Además, nótese nuevamente que μ {\displaystyle \mu } es computable, es decir, las observaciones y recompensas que recibe el agente del entorno μ {\displaystyle \mu } puede ser calculado por algún programa (que se ejecuta en una máquina de Turing ), dadas las acciones pasadas del agente AIXI.[3]

El único objetivo del agente AIXI es maximizar t = 1 m r t {\displaystyle \sum _{t=1}^{m}r_{t}} , es decir, la suma de las recompensas desde el paso de tiempo 1 hasta m.

El agente AIXI está asociado a una política estocástica π : ( A × E ) A {\displaystyle \pi :({\mathcal {A}}\times {\mathcal {E}})^{*}\rightarrow {\mathcal {A}}} , que es la función que utiliza para elegir acciones en cada paso de tiempo, donde A {\displaystyle {\mathcal {A}}} es el espacio de todas las acciones posibles que AIXI puede tomar y E {\displaystyle {\mathcal {E}}} es el espacio de todas las "percepciones" posibles que puede producir el entorno. El entorno (o distribución de probabilidad) μ {\displaystyle \mu } también se puede considerar como una política estocástica (que es una función): μ : ( A × E ) × A E {\displaystyle \mu :({\mathcal {A}}\times {\mathcal {E}})^{*}\times {\mathcal {A}}\rightarrow {\mathcal {E}}} , donde el {\displaystyle *} es la operación estrella de Kleene . En general, en el paso de tiempo t {\displaystyle t} (que va de 1 a m), AIXI, habiendo ejecutado previamente acciones a 1 a t 1 {\displaystyle a_{1}\dots a_{t-1}} (que a menudo se abrevia en la literatura como a < t {\displaystyle a_{<t}} ) y habiendo observado la historia de las percepciones o 1 r 1 . . . o t 1 r t 1 {\displaystyle o_{1}r_{1}...o_{t-1}r_{t-1}} (que se puede abreviar como e < t {\displaystyle e_{<t}} ), elige y ejecuta en el entorno la acción, a t {\displaystyle a_{t}} , definido de la siguiente manera[4]

a t := arg max a t o t r t max a m o m r m [ r t + + r m ] q : U ( q , a 1 a m ) = o 1 r 1 o m r m 2 length ( q ) {\displaystyle a_{t}:=\arg \max _{a_{t}}\sum _{o_{t}r_{t}}\ldots \max _{a_{m}}\sum _{o_{m}r_{m}}[r_{t}+\ldots +r_{m}]\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}}

o, usando paréntesis, para eliminar la ambigüedad de las precedencias

a t := arg max a t ( o t r t ( max a m o m r m [ r t + + r m ] ( q : U ( q , a 1 a m ) = o 1 r 1 o m r m 2 length ( q ) ) ) ) {\displaystyle a_{t}:=\arg \max _{a_{t}}\left(\sum _{o_{t}r_{t}}\ldots \left(\max _{a_{m}}\sum _{o_{m}r_{m}}[r_{t}+\ldots +r_{m}]\left(\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}\right)\right)\right)}

Intuitivamente, en la definición anterior, AIXI considera la suma de la recompensa total sobre todos los "futuros" posibles hasta m t {\displaystyle m-t} el tiempo avanza (es decir, desde t {\displaystyle t} a m {\displaystyle m} ), pondera cada uno de ellos por la complejidad de los programas q {\displaystyle q} (es decir, por 2 length ( q ) {\displaystyle 2^{-{\textrm {length}}(q)}} ) consistente con el pasado del agente (es decir, las acciones ejecutadas previamente, a < t {\displaystyle a_{<t}} , y percepciones recibidas, e < t {\displaystyle e_{<t}} ) que puede generar ese futuro, y luego elige la acción que maximiza las recompensas futuras esperadas.[3]

Desglosemos esta definición para intentar entenderla completamente.

o t r t {\displaystyle o_{t}r_{t}} es el "percepto" (que consiste en la observación o t {\displaystyle o_{t}} y recompensa r t {\displaystyle r_{t}} ) recibido por el agente AIXI en el paso de tiempo t {\displaystyle t} del entorno (que es desconocido y estocástico). Similarmente, o m r m {\displaystyle o_{m}r_{m}} es la percepción recibida por AIXI en el paso de tiempo m {\displaystyle m} (el último paso de tiempo en el que AIXI está activo).

r t + + r m {\displaystyle r_{t}+\ldots +r_{m}} es la suma de las recompensas del paso de tiempo t {\displaystyle t} paso de tiempo m {\displaystyle m} , por lo que AIXI necesita mirar hacia el futuro para elegir su acción en el paso de tiempo t {\displaystyle t} .

U {\displaystyle U} denota una máquina de Turing universal monótona, y q {\displaystyle q} rangos sobre todos los programas (deterministas) en la máquina universal U {\displaystyle U} , que recibe como entrada el programa q {\displaystyle q} y la secuencia de acciones a 1 a m {\displaystyle a_{1}\dots a_{m}} (es decir, todas las acciones), y produce la secuencia de percepciones o 1 r 1 o m r m {\displaystyle o_{1}r_{1}\ldots o_{m}r_{m}} . La máquina de Turing universal U {\displaystyle U} por lo tanto, se utiliza para "simular" o calcular las respuestas o percepciones del entorno, dado el programa q {\displaystyle q} (que "modela" el entorno) y todas las acciones del agente AIXI: en este sentido, el entorno es "computable" (como se indicó anteriormente). Tenga en cuenta que, en general, el programa que "modela" el entorno actual y real (donde AIXI debe actuar) es desconocido porque el entorno actual también es desconocido.

length ( q ) {\displaystyle {\textrm {length}}(q)} es la duración del programa q {\displaystyle q} (que se codifica como una cadena de bits). Tenga en cuenta que 2 length ( q ) = 1 2 length ( q ) {\displaystyle 2^{-{\textrm {length}}(q)}={\frac {1}{2^{{\textrm {length}}(q)}}}} . Por lo tanto, en la definición anterior, q : U ( q , a 1 a m ) = o 1 r 1 o m r m 2 length ( q ) {\displaystyle \sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}} debe interpretarse como una mezcla (en este caso, una suma) sobre todos los entornos computables (que son consistentes con el pasado del agente), cada uno ponderado por su complejidad 2 length ( q ) {\displaystyle 2^{-{\textrm {length}}(q)}} . Tenga en cuenta que a 1 a m {\displaystyle a_{1}\ldots a_{m}} también se puede escribir como a 1 a t 1 a t a m {\displaystyle a_{1}\ldots a_{t-1}a_{t}\ldots a_{m}} , y a 1 a t 1 = a < t {\displaystyle a_{1}\ldots a_{t-1}=a_{<t}} es la secuencia de acciones ya ejecutadas en el entorno por el agente AIXI. Similarmente, o 1 r 1 o m r m = o 1 r 1 o t 1 r t 1 o t r t o m r m {\displaystyle o_{1}r_{1}\ldots o_{m}r_{m}=o_{1}r_{1}\ldots o_{t-1}r_{t-1}o_{t}r_{t}\ldots o_{m}r_{m}} , y o 1 r 1 o t 1 r t 1 {\displaystyle o_{1}r_{1}\ldots o_{t-1}r_{t-1}} es la secuencia de percepciones producidas por el entorno hasta el momento.

Pongamos ahora todos estos componentes juntos para entender esta ecuación o definición.

En el paso de tiempo t, AIXI elige la acción a t {\displaystyle a_{t}} donde la función o t r t max a m o m r m [ r t + + r m ] q : U ( q , a 1 a m ) = o 1 r 1 o m r m 2 length ( q ) {\displaystyle \sum _{o_{t}r_{t}}\ldots \max _{a_{m}}\sum _{o_{m}r_{m}}[r_{t}+\ldots +r_{m}]\sum _{q:\;U(q,a_{1}\ldots a_{m})=o_{1}r_{1}\ldots o_{m}r_{m}}2^{-{\textrm {length}}(q)}} alcanza su máximo.

Parámetros

Los parámetros para AIXI son la máquina de Turing universal U y el tiempo de vida del agente m, que deben elegirse. El último parámetro se puede eliminar mediante el uso de descuentos .

El significado de la palabra AIXI

Según Hutter, la palabra "AIXI" puede tener varias interpretaciones. AIXI puede representar AI según la distribución de Solomonoff, denotada por ξ {\displaystyle \xi } (que es la letra griega xi), o por ejemplo, puede significar AI "cruzado" (X) con inducción (I). Hay otras interpretaciones.

Optimalidad

El desempeño de AIXI se mide por el número total esperado de recompensas que recibe. Se ha demostrado que AIXI es óptimo de las siguientes maneras.[2]

  • Óptimo de Pareto : no hay otro agente que funcione al menos tan bien como AIXI en todos los entornos mientras se desempeña estrictamente mejor en al menos un entorno.[cita requerida]
  • Optimismo de Pareto equilibrado: como el óptimo de Pareto, pero considerando una suma ponderada de entornos.
  • Autooptimización: una política p se denomina autooptimización para un entorno. μ {\displaystyle \mu } si el rendimiento de p se acerca al máximo teórico para μ {\displaystyle \mu } cuando la duración de la vida del agente (no el tiempo) llega al infinito. Para las clases de entorno en las que existen políticas de optimización automática, AIXI se optimiza automáticamente.

Más tarde, Hutter y Jan Leike demostraron que la optimización de Pareto equilibrada es subjetiva y que cualquier política puede considerarse óptima de Pareto, lo que describen como que socava todas las afirmaciones de optimización anteriores para AIXI.[5]​ Sin embargo, AIXI tiene limitaciones. Se limita a maximizar las recompensas basadas en percepciones en lugar de estados externos. También asume que interactúa con el entorno únicamente a través de canales de acción y percepción, evitando que considere la posibilidad de ser dañado o modificado. Coloquialmente, esto significa que no se considera contenido por el entorno con el que interactúa. También asume que el entorno es computable.[6]

Aspectos computacionales

Al igual que la inducción de Solomonoff, AIXI es incomputable . Sin embargo, existen aproximaciones computables de la misma. Una de esas aproximaciones es AIXI tl, que funciona al menos tan bien como el mejor agente limitado en tiempo t y espacio l.[2]​ Otra aproximación a AIXI con una clase de entorno restringido es MC-AIXI (FAC-CTW) (que significa Monte Carlo AIXI FAC- Context-Tree Weighting ), que ha tenido cierto éxito en juegos simples como Pac-Man parcialmente observable.[3][7]

Véase también

Referencias

  1. Marcus Hutter (2000). A Theory of Universal Artificial Intelligence based on Algorithmic Complexity. Bibcode:2000cs........4001H. 
  2. a b c Marcus Hutter (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. ISBN 978-3-540-22139-5. doi:10.1007/b138233. 
  3. a b c Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). «A Monte Carlo AIXI Approximation». arXiv:0909.0801  [cs.AI]. 
  4. Universal Artificial Intelligence
  5. . Proceedings of the 28th Conference on Learning Theory. 2015. 
  6. Soares, Nate. «Formalizing Two Problems of Realistic World-Models». Intelligence.org. Consultado el 19 de julio de 2015. 
  7. Playing Pacman using AIXI Approximation – YouTube

Enlaces externos

  • "Inteligencia algorítmica universal: un enfoque matemático de arriba hacia abajo", Marcus Hutter, arΧiv:cs/0701125  ; también en Inteligencia General Artificial, eds. B. Goertzel y C. Pennachin, Springer, 2007,ISBN 9783540237334, págs. 227–290,doi 10.1007/978-3-540-68677-4_8 .