Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Study of the distribution and behaviour of the "0" values in large omic data arrays

dc.contributor.advisorMalats Riera, Nuria
dc.contributor.advisorPérez Pérez, María Teresa
dc.contributor.advisorAlonso Guirado, María dolores
dc.contributor.authorFidalgo Gómez, Helena
dc.date.accessioned2023-06-17T10:16:48Z
dc.date.available2023-06-17T10:16:48Z
dc.date.defense2020
dc.date.issued2020
dc.description.abstractExisten evidencias de que muchas enfermedades no están determinadas sólo por alteraciones genéticas. Un claro ejemplo es el cáncer que engloba muchas enfermedades producidas por la interacción de factores genéticos y no genéticos durante toda la vida. Entre los factores no-genéticos se encuentran la forma en que los seres humanos viven e interactúan con el medio ambiente y el microbioma; ambas exposiciones pueden ser caracterizadas con datos ómicos. Las tecnologías ómicas representan una reciente área de estudio que engloba diversas disciplinas biológicas. Las tecnologías aplicadas a las ómicas permiten estudiar, a nivel molecular los diferentes elementos que componen los sistemas biológicos. Hoy en día, el foco se encuentra en una nueva área: la microbioma, puesto que se han encontrado diversas asociaciones entre ciertos microorganismos y enfermedades. El reto principal en el análisis de datos de microbioma es el escaso número en los datos de conteo de microbioma, los cuales son de gran dimensión y contienen una gran proporción de ceros. En este proyecto se pretende mostrar diferentes alternativas para el análisis de datos de conteo que se caracterizan por una clara sobre dispersión y exceso de ceros. Aplicando modelos de regresión como los modelos de inflación de cero o los modelos Hurdle pude establecer qué tipo de ceros se encuentran en la base de datos. Estos modelos y sus correspondientes distribuciones están sometidos a diferentes criterios de selección con el objetivo de establecer cuál es el modelo que mejor se ajuste a los datos en función del porcentaje de ceros que presente. Ello me ha permitido definir relaciones entre diferentes microorganismos y expresiones genéticas, estadios tumorales, subtipos inmunes, género, IMC, ...
dc.description.abstractThere is evidence that many diseases are not only determined by gene alterations. A clear example is cancer, encompassing several complex diseases where both genetic and non-genetic factors interact over the lifespan; the latter including environment exposures and the microbiome that can be assessed using omics approaches. Omics is a recent area of study including several biological disciplines. The technologies applied to omic sciences allow the study, at a molecular level, of the different elements that make up biological systems. Recently, biomedical science focusses on a new area: microbiome, where various associations between certain microorganisms and diseases have been found. One of the challenges in modelling cancer risk is the analysis of microbiome data: microbe counts are sparse and the data are high dimension and contain a large proportion of zeros. This project aims to show different alternatives for the analysis of counting data that are characterized by a clear over- dispersion and excess of zeros. Moving ahead from classical linear models, there are regression models, such as Zero Inflated models or "Hurdle" models, I was able to establish what kind of zeros are in the database. These models and their corresponding distributions are subjected to different selection criteria with the purpose of establishing which is the model that best fits the data, depending on the percentage of zeros that it presents. By applying these approaches, I could appropriately define relationships between different microorganisms and gene expressions, tumour stages, immune subtypes, gender, BMI, ...
dc.description.facultyFac. de Estudios Estadísticos
dc.description.refereedTRUE
dc.description.statuspub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/62726
dc.identifier.urihttps://hdl.handle.net/20.500.14352/9114
dc.language.isoeng
dc.master.titleMáster en Bioestadística
dc.page.total60
dc.publication.placeMadrid
dc.publisherFacultad de Estudios Estadísticos
dc.rights.accessRightsopen access
dc.subject.cdu519.22-7
dc.subject.cdu616-006-089.5
dc.subject.keywordmicrobioma
dc.subject.keywordsobredispersión
dc.subject.keywordceros
dc.subject.keywordmodelos de regresión
dc.subject.keywordmodelos Hurdle.
dc.subject.keywordmicrobiome
dc.subject.keywordoverdispersion
dc.subject.keywordzeros
dc.subject.keywordregression models
dc.subject.keywordHurdle models.
dc.subject.ucmEstadística
dc.subject.ucmAnálisis Multivariante
dc.subject.ucmMedicina
dc.subject.ucmOncología
dc.subject.ucmBiología
dc.subject.unesco1209 Estadística
dc.subject.unesco1209.09 Análisis Multivariante
dc.subject.unesco32 Ciencias Médicas
dc.subject.unesco3201.01 Oncología
dc.subject.unesco24 Ciencias de la Vida
dc.titleStudy of the distribution and behaviour of the "0" values in large omic data arrays
dc.typemaster thesis
dspace.entity.typePublication

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
e-print TFM_Helena Fidalgo _MBioEstad.pdf
Size:
5.03 MB
Format:
Adobe Portable Document Format