Contributions to Approximate Bayesian Inference for Machine Learning

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication date

2022

Defense date

18/01/2022

Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid
Citations
Google Scholar
Citation
Abstract
Machine learning (ML) methods can learn from data and then be used for making predictions on new data instances. However, some of the most popular ML methods cannot provide information about the uncertainty of their predictions, which may be crucial in many applications. The Bayesianframework for ML introduces a natural approach to formulate many ML methods, and it also has the advantage of easily incorporating and reflecting different sources of uncertainty in the final predictive distribution. These sources include uncertainty related to, for example, the data, the model chosen, and its parameters. Moreover, they can be automatically balanced and aggregated using information from the observed data. Nevertheless, in spite of this advantage, exact Bayesian inference is intractable in most ML methods, and approximate inference techniques have to be used in practice. In this thesis we propose a collection of methods for approximate inference, withspecific applications in some popular approaches in supervised ML. First, we introduce neural networks (NNs), from their most basic concepts to some of their mostpopular architectures. Gaussian processes (GPs), a simple but important tool in Bayesian regression, are also reviewed. Sparse GPs are presented as a clever solution to improve GPs’ scalability by introducing new parameters: the inducing points. In the second half of the introductory partwe also describe Bayesian inference and extend the NN formulation using a Bayesian approach, which results in a NN model capable of outputting a predictive distribution. We will see why Bayesian inference is intractable in most ML approaches, and also describe sampling-based and optimization-based methods for approximate inference. The use of -divergences is introduced next, leading to a generalization of certain methods for approximate inference. Finally we will extend the GPs to implicit processes (IPs), a more general class of stochastic processes which provide a flexible framework from which we can define numerous models. Although promising, current IP-based ML methods fail to exploit of all their potential due to the limitations of the approximations required in their formulation...
Los métodos de aprendizaje automático o machine learning (ML) son capaces de aprender a partir de datos y producir predicciones para nuevos casos nunca vistos. Sin embargo, algunos de los métodos de ML más usuales son incapaces de informar sobre la incertidumbre de sus predicciones, la cualpuede ser crucial en diversas aplicaciones. La perspectiva Bayesiana proporciona un marco natural para ello, otorgando la capacidad de considerar diversas fuentes de incertidumbre en el análisis y reflejarlas en las distribuciones predictivas finales. Esta incertidumbre puede tener diferentes fuentes, como los datos, la selección del modelo y sus parámetros asociados, las cuales pueden ser adecuadamente pesadas y agregadas usando las herramientas Bayesianas. Sin embargo, para la mayoría de métodos de ML, la inferencia Bayesiana exacta es intratable, y para casos prácticos hay que recurrir a aproximaciones de la misma. En esta tesis se proponen nuevos métodos de inferenciaaproximada, con aplicaciones concretas para algunos de los métodos más populares en ML. En primer lugar introduciremos las redes neuronales (NNs), desde sus fundamentos básicos hasta algunas de sus arquitecturas más comunes, así como los procesos Gaussianos (GPs), herramientas importantes empleadas en diversos problemas de aprendizaje. Además, veremos cómo los sparse GPs alivian los problemas de escalabilidad de los GPs mediante la introducción de un parámetro nuevo: los puntos inducidos. En la segunda mitad de esta introducción describiremos los fundamentosde la inferencia Bayesiana y extenderemos la formulación de las NNs al marco Bayesiano para obtener NNs capaces de producir distribuciones predictivas. Veremos aquí por qué la inferencia Bayesiana es intratable para muchos de los métodos de ML y revisaremos técnicas de aproximación basadas tanto en muestreos como en la optimización de parámetros. Además de esto, veremos las divergencias como una generalización de conceptos empleados en ciertos métodos de inferencia aproximada. Finalmente extenderemos la formulación de los GPs a los procesos implícitos (IPs),una clase más general y flexible de procesos estocásticos desde la cual podremos describir múltiples modelos útiles. Aunque prometedores, los métodos actuales de ML basados en IPs no son capaces de explotar todas sus propiedades debido a las limitaciones de las aproximaciones empleadas. En la segunda parte de la tesis presentaremos nuestras contribuciones al campo de inferencia aproximada, con especial interés para las NNs Bayesianas y los IPs...
Research Projects
Organizational Units
Journal Issue
Description
Tesis inédita de la Universidad Complutense de Madrid, Facultad de Ciencias Matemáticas, leída el 18-01-2022
Keywords
Collections