<div style="max-width:40em;text-align:justify;">                
                <h2 style="font-size:1.2em;">Seminario de Probabilidad y Estadística</h2>
                <h3 style="font-size:1em;">Título: <em>Exploración en Aprendizaje por Refuerzo con recompensas esparzas.</em></h3>
                <h3 style="font-size:1em;">Expositor: Ernesto Garcia <span style="font-weight:400;">(Udelar)</span></h3>
                <div style="font-size:1em!important;"><p><b>Resumen: </b>Con el avance y la proliferación de algoritmos de aprendizaje por refuerzo (RL), la etapa de exploración se identifica como una gran limitación, en gran medida debido al desconocimiento previo del espacio de estados u otras particularidades del proceso (de Markov) subyacente.</p>
<p dir="auto">En este contexto, un <em>agente</em> inicia el recorrido del espacio de estados, posiblemente de forma aleatoria al principio, y gradualmente construye un modelo del paisaje de <i>recompensas</i> (o castigos) que se va encontrando en el camino. En entornos con recompensas frecuentes, existen múltiples métodos de estimación que permiten evaluar la <i>política</i> utilizada y así ponderar las trayectorias según su costo energético de manera eficiente. Sin embargo, en escenarios con recompensas escasas o esparzas, las regiones visitadas con frecuencia a menudo no aportan información, lo que dificulta significativamente la exploración eficiente y a la postre el aprendizaje. </p>
<p dir="auto">En esta charla voy a introducir muy brevemente los ingredientes básicos de un algoritmo de RL (los conceptos en <em>itálica</em>) y pensando en recompensas esparzas, algunas estrategias para sacar a un proceso de Markov de su zona de confort: exploración con un sistema de agentes (o partículas) independientes y una aproximación de la dinámica de Fleming-Viot.</p>
<p>Esta charla se basa en un trabajo aún en curso con Paola Bermolen, Matthieu Jonckheere y Seva Shneer en el marco de mi doctorado.</p>
<p/>
<p>Esta charla se basa en un trabajo aún en curso con Paola Bermolen, Matthieu Jonckheere y Seva Shneer en el marco de mi doctorado.</p></div>                
                <hr>
                <p style="font-size:1em;"><b>Viernes 29/11 a las 10:30</b><br>
                    <b>Facultad de Ingeniería, salón 703.</b>
                </p>
                <p style="font-size:1em;"><b>Contacto: </b>Alejandro Cholaquidis - <a href="mailto:acholaquidis@hotmail.com">acholaquidis@hotmail.com</a></p>              
                <hr>  
                <p>https://salavirtual-udelar.zoom.us/j/88544669179?pwd=UlBHdWRWdEZVMGw0akpPeEd0VWJzZz09</p><hr>
                Más seminarios en: <a href="http://www.cmat.edu.uy/seminarios">http://www.cmat.edu.uy/seminarios</a>

            </div>