<div style="max-width:40em;text-align:justify;">                

                <h2 style="font-size:1.2em;">Seminario de Probabilidad y Estadística</h2>

                <h3 style="font-size:1em;">Título: <em>Exploración en Aprendizaje por Refuerzo con recompensas esparzas.</em></h3>

                <h3 style="font-size:1em;">Expositor: Ernesto Garcia <span style="font-weight:400;">(Udelar)</span></h3>

                <div style="font-size:1em!important;"><p><b>Resumen: </b>Con el avance y la proliferación de algoritmos de aprendizaje por refuerzo (RL), la etapa de exploración se identifica como una gran limitación, en gran medida debido al desconocimiento previo del espacio de estados u otras particularidades del proceso (de Markov) subyacente.</p>

<p dir="auto">En este contexto, un <em>agente</em> inicia el recorrido del espacio de estados, posiblemente de forma aleatoria al principio, y gradualmente construye un modelo del paisaje de <i>recompensas</i> (o castigos) que se va encontrando en el camino. En entornos con recompensas frecuentes, existen múltiples métodos de estimación que permiten evaluar la <i>política</i> utilizada y así ponderar las trayectorias según su costo energético de manera eficiente. Sin embargo, en escenarios con recompensas escasas o esparzas, las regiones visitadas con frecuencia a menudo no aportan información, lo que dificulta significativamente la exploración eficiente y a la postre el aprendizaje. </p>

<p dir="auto">En esta charla voy a introducir muy brevemente los ingredientes básicos de un algoritmo de RL (los conceptos en <em>itálica</em>) y pensando en recompensas esparzas, algunas estrategias para sacar a un proceso de Markov de su zona de confort: exploración con un sistema de agentes (o partículas) independientes y una aproximación de la dinámica de Fleming-Viot.</p>

<p>Esta charla se basa en un trabajo aún en curso con Paola Bermolen, Matthieu Jonckheere y Seva Shneer en el marco de mi doctorado.</p>

<p/>

<p>Esta charla se basa en un trabajo aún en curso con Paola Bermolen, Matthieu Jonckheere y Seva Shneer en el marco de mi doctorado.</p></div>                

                <hr>

                <p style="font-size:1em;"><b>Viernes 29/11 a las 10:30</b><br>

                    <b>Facultad de Ingeniería, salón 703.</b>

                </p>

                <p style="font-size:1em;"><b>Contacto: </b>Alejandro Cholaquidis - <a href="mailto:acholaquidis@hotmail.com">acholaquidis@hotmail.com</a></p>              

                <hr>  

                <p>https://salavirtual-udelar.zoom.us/j/88544669179?pwd=UlBHdWRWdEZVMGw0akpPeEd0VWJzZz09</p><hr>

                Más seminarios en: <a href="http://www.cmat.edu.uy/seminarios">http://www.cmat.edu.uy/seminarios</a>


            </div>