<div style="max-width:40em;text-align:justify;">                
                <h2 style="font-size:1.2em;">Seminario de Probabilidad y Estadística</h2>
                <h3 style="font-size:1em;">Título: <em>Anytime exponential concentration of contractive stochastic approximation: Additive and multiplicative noise</em></h3>
                <h3 style="font-size:1em;">Expositor: Martín Zubeldía <span style="font-weight:400;">(ISyE, University of Minnesota, EEUU)</span></h3>
                <div style="font-size:1em!important;"><p dir="auto"><b>Resumen: </b>In this talk, we study stochastic approximation (SA) algorithms under a contractive operator with respect to an arbitrary norm. We consider two settings where the iterates are potentially unbounded: additive sub-Gaussian noise, and bounded multiplicative noise. We obtain concentration bounds on the convergence errors, and show that these errors have sub-Gaussian tails. Moreover, our bounds hold anytime in the sense that the entire sample path lies within a tube of decaying radius with high probability. To establish these results, we first bound the Moment Generating Function of the generalized Moreau envelope of the error, which serves as a Lyapunov function. Then, we construct an exponential supermartingale and use Ville's maximal inequality to obtain anytime exponential concentration bounds. To overcome the challenge of having multiplicative noise, we develop a bootstrapping argument to iteratively improve an initially loose concentration bound and obtain a much tighter one.</p>
<p><br/><span>Our results enable us to provide anytime high probability bounds for a large class of reinforcement learning algorithms. Since a special case of contractive SA with multiplicative noise is linear SA with bounded, Hurwitz in expectation, but not almost surely Hurwitz matrices, we establish high probability bounds of various TD-learning algorithms (such as on-policy TD with linear function approximation, and off-policy TD) in one shot. To the best of our knowledge, exponential concentration bounds of off-policy TD-learning have not been established in the literature due to the challenge of handling such multiplicative noise. Moreover, we also provide anytime high probability bounds for the popular Q-learning algorithm.</span></p>
<div dir="auto"/>
<div dir="auto">This is joint work with Zaiwei Chen (Caltech) and Siva Theja Maguluri (Georgia Tech)</div></div>                
                <hr>
                <p style="font-size:1em;"><b>Viernes 2/9 a las 10:30</b><br>
                    <b>zoom</b>
                </p>
                <p style="font-size:1em;"><b>Contacto: </b>Alejandro Cholaquidis - <a href="mailto:acholaquidis@hotmail.com">acholaquidis@hotmail.com</a></p>              
                <hr>  
                <p dir="ltr"><span><em><strong>La charla es únicamente por <span class="x_x_mark81eaai43p">zoom</span></strong></em></span></p>
<p dir="ltr"><strong>Datos para la reunión<span> </span><span class="x_x_markmdxx1p1hi">virtual</span>: </strong><strong/></p>
<p dir="ltr"><strong><span><a href="https://salavirtual-udelar.zoom.us/j/81121640094?pwd=SWVsZ1V2TTI5aDZob0NTdXVRVzhVZz09" target="_blank" rel="noopener noreferrer">https://salavirtual-udelar.<span class="x_x_mark81eaai43p">zoom</span>.us/j/81121640094?pwd=SWVsZ1V2TTI5aDZob0NTdXVRVzhVZz09</a></span></strong></p>
<p dir="ltr"><strong><span>Página del <span class="x_x_x_x_x_markosh62c3ez"><span class="x_markhympovjw2">seminario</span></span>: <a href="https://pye.cmat.edu.uy/seminarios/cronograma-seminario" target="_blank" rel="noopener noreferrer">https://pye.cmat.edu.uy/<span class="x_x_x_x_x_markosh62c3ez"><span class="x_markhympovjw2">seminario</span></span></a><br/><br/>Página del grupo: <a href="https://pye.cmat.edu.uy/home" target="_blank" rel="noopener noreferrer">https://pye.cmat.edu.uy/home</a></span></strong></p>
<p><strong>Canal de youtube: <a href="https://www.youtube.com/channel/UCOPZEOrLSAYPz2qCAL-KqMg/about" target="_blank" rel="noopener noreferrer">https://www.youtube.com/channel/UCOPZEOrLSAYPz2qCAL-KqMg/abo</a><a href="https://www.youtube.com/channel/UCOPZEOrLSAYPz2qCAL-KqMg/about" target="_blank" rel="noopener noreferrer">ut</a></strong></p><hr>
                Más seminarios en: <a href="http://www.cmat.edu.uy/seminarios">http://www.cmat.edu.uy/seminarios</a>

            </div>