UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE MEDICINA TESIS DOCTORAL Desarrollo de herramientas bioinformáticas para la predicción de epítopos lineales de linfocitos B MEMORIA PARA OPTAR AL GRADO DE DOCTOR PRESENTADA POR Álvaro Ras Carmona DIRIGIDA POR Pedro Antonio Reche Gallardo Paul V. Lehmann Madrid © Álvaro Ras Carmona, 2024 UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE MEDICINA. TESIS DOCTORAL DESARROLLO DE HERRAMIENTAS BIOINFORMÁTICAS PARA LA PREDICCIÓN DE EPÍTOPOS LINEALES DE LINFOCITOS B MEMORIA PARA OPTAR AL GRADO DE DOCTOR. PRESENTADA POR Álvaro Ras Carmona DIRECTOR Pedro Antonio Reche Gallardo Paul V. Lehmann UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE MEDICINA. Programa de Investigación Biomédica TESIS DOCTORAL DESARROLLO DE HERRAMIENTAS BIOINFORMÁTICAS PARA LA PREDICCIÓN DE EPÍTOPOS LINEALES DE LINFOCITOS B MEMORIA PARA OPTAR AL GRADO DE DOCTOR. PRESENTADA POR Álvaro Ras Carmona DIRECTORES: Pedro Antonio Reche Gallardo Paul V. Lehmann Madrid, 2024 Esta tesis doctoral corresponde a un compendio de trabajos previamente publicados: Artículo 1: BCEPS: A Web Server to Predict Linear B Cell Epitopes with Enhanced Immunogenicity and Cross-Reactivity Autores: Alvaro Ras-Carmona1, Hector F. Pelaez-Prestel1 , Esther M. Lafuente1 & Pedro A. Reche1 Afiliación: 1Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, Facultad de Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 28040 Madrid, España Publicado en Cells DOI: 10.3390/cells10102744 Artículo 2: Prediction of B cell epitopes in proteins using a novel sequence similarity-based method
 Autores: Alvaro Ras-Carmona1, Alexander A. Lehmann1,2, Paul V. Lehmann2 & Pedro A. Reche1 Afiliación: 1Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, Facultad de Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 28040 Madrid, España. 2Departamento de Investigación y Desarrollo, Cellular Technology Limited (CTL), Shaker Heights, OH 44122, USA Publicado en Scientific Reports DOI: 10.1038/s41598-022-18021-1 A continuación se muestra la aprobación de la Comisión de Doctorado para poder realizar esta Tesis Doctoral en formato publicaciones. También se incluyen las autorizaciones del resto de autores en la que dan su consentimiento para que los artículos formen parte de esta Tesis Doctoral. AGRADECIMIENTOS La vida son etapas y aquí finaliza una de ellas. Ha sido un camino costoso, pero al final, con sudor, sangre y lágrimas parece que se consiguió. Me gustaría empezar haciendo un agradecimiento general, dando las gracias a todos y todas los que habéis estado a mi lado apoyándome durante esta travesía. Pasando a los a los agradecimientos particulares, me gustaría comenzar por mi director de tesis y tutor el Dr. Pedro A. Reche. Gracias por apoyarme y apostar por mí. También agradecer a mi co-director el Dr. Paul V. Lehmann, que aunque se encuentre al otro lado del charco, decidió acompañarnos en este aventura. Aprovechando que parece que me pasado a los agradecimientos internacionales, quería agradecer al Dr. Francesco Pappalardo y a la Dra. Giulia Russo por haberme acogido y aceptado con los brazos abiertos para que pueda haber hecho la estancia. Agradecer también a Avisa, Elena y Gulia por haberme hecho disfrutar de mi periodo lejos de casa un montón. Sin vosotras y sin vuestras historias románticas (y sí, lo digo por ti Elena) no hubiera sido lo mismo. Grazie Mille. Me gustaría dar las gracias a la gente del departamento, tanto a los que ya se fueron como los que siguen. Si fuera por mí os nombraría a todos, pero si no esta Tesis ocuparía cincuenta páginas más. Lo que sí me gustaría centrarme y mencionar especialmente a los que, junto a mí, hemos luchado en el PAR team: Tara, Hector, Sara y Fernando. Tampoco olvidar con los que comencé el camino y que ya son incluso doctores: Jose Luís y Marta (que espero que ni tú ni tu cabeza me guardéis rencor). A todos vosotros, que sé que a veces, y solo a veces, compartir despacho conmigo no es fácil, siempre os llevaré en mi corazón. Fuera de estas paredes, agradecer a mis amigos. Por una parte agradecer a mi capitán favorito, el señor Luís Moreno, y a mí robótico de confianza, el señor Adrián Lendinez (que en nada también será doctor), todo el apoyo que me habéis dado. Ya son muchos años los que llevamos juntos (muchos, pero muchos) y espero que sean muchos más. También agradecer a mis amigos de la universidad, que aunque ya no nos veamos veamos tanto, siembre nos quedará esa penúltima cerveza por tomarnos. Una ligera mención especial al consejo de sabios, por todos los buenos momentos, que hemos pasado que no los cambiaría por nada del mundo,y por todas las anécdotas que darían para escribir más de un libro. Hacer una especial mención al Sr. Jordi, que si no se me pone celoso. Aunque sea un cliché, agradecer a mi familia. Especialmente, agradecer a mi madre y a mi padre, Lorena y Juan José, por haber estado ahí todo este tiempo y por haberme apoyado. Sé que no ha sido fácil pero ya está, por fin se ha acabado. Por último, pero no menos importante, mencionar a una personita muy especial en mi vida. Ya sabes que hablo de ti, Bea. Creo que ponga lo que ponga no te va a sorprender nada. Ya sabes que eres un pilar fundamental en mi vida y que te quiero muchísimo. Gracias por estar ahí día sí y día también, y gracias por haberme apoyado, sobre todo en los malos momentos. Y ya sabes, como dice la leyenda, nos une un hilo rojo. Muchas gracias a todos El futuro doctor (si todo va bien) Álvaro ÍNDICE ÍNDICE X ABREVIATURAS 1 RESUMEN 5 SUMMARY 9 INTRODUCCIÓN 13 1. Anticuerpos y antígenos 16 1.1 Estructura del anticuerpo 17 1.2 Reconocimiento del antígeno: el epítopo 19 2. Generación de anticuerpos 21 2.1 El BCR y la transducción de señal 21 2.2 Activación del linfocito B 23 3. Identificación in silico de epítopos B lineales 25 27 OBJETIVOS MÉTODOS 31 1. Bases de datos. 33 2. Métodos computacionales 33 2.1. Aprendizaje automático 33 2.1.1 Máquina de vectores de soporte (Support vector machine) 35 2.1.2 Bosques aleatorios (Random forests) 36 2.1.3 Redes neuronales artificiales 37 2.1.4 k-vecinos más cercanos 40 2.2 BLAST 41 3. Desarrollo y evaluación de los modelos predictivos 42 3.1 Abordaje general 42 3.2 Métodos de evaluación 42 3.2.1 Validación cruzada 42 3.2.2 Evaluación independiente 43 3.3 Medidas de rendimiento predictivo 44 CAPÍTULO I: BCEPS: A Web Server to Predict Linear B Cell Epitopes with Enhanced Immunogenicity and Cross-Reactivity 47 CAPÍTULO II: Prediction of B cell epitopes in proteins using a novel sequence similarity-based method 65 DISCUSIÓN 77 1. BCEPS 80 2. BepiBlast 83 85 89 97 105 CONCLUSIONES REFERENCIAS ANEXO I: Currículum Vitae ANEXO II: Otras publicaciones generadas durante la elaboración de esta tesis ANEXO III: Workshop papers generados durante la elaboración de esta tesis 169 ABREVIATURAS ABREVIATURAS X 3 ACC Exactitud ACN Accesion number ANN Red neuronal artificial APC Célula presentadora de antígenos BCEPS B cell epitope prediction software BCR Receptor del linfocito B BLAST Basic local alignment search tool CDR Regiones determinantes de la complementariedad ELISA Ensayo por inmunoabsorción ligado a enzimas FN Falso negativo FP Falso positivo HLA Antígenos leucocitarios humanos IEDB Immune epitope database Ig Inmunoglobulina ITAM Immunoreceptor tyrosine-based activation motifs KNN K-Nearest neighbor MCC Coeficiente de correlación de Mathews MHC Complejo mayor de histocompatibilidad mIg Inmunoglobulina de membrana PDB Protein data bank RBF Radial basis function RE Retículo endoplasmático RF Random forest SE Sensibilidad SH2 Src homology 2 SP Especificidad SVM Support vector machine ABREVIATURAS X 4 TCR Receptor de linfocitos T TN Verdadero negativo TP Verdadero positivo TRAF Factores asociados al receptor para el TNF WEKA Waikato environment for knowledge analysis RESUMEN RESUMEN X 7 TÍTULO Desarrollo de herramientas bioinformáticas para la predicción de epítopos lineales de linfocitos B. INTRODUCCIÓN Los epítopos de linfocitos B son las regiones específicas del antígeno reconocidas por el receptor de membrana del linfocito B, conocido como BCR, o por un anticuerpo. Los epítopos de linfocitos B (epítopos B) de proteínas pueden clasificarse en conformacionales y lineales, siendo estos últimos de gran utilidad práctica. Esto se debe a que pueden utilizarse para sustituir a los antígenos en la producción de anticuerpos con distintas utilidades en investigación y biotecnología, incluyendo el desarrollo de vacunas. Tradicionalmente, la identificación de los epítopos B lineales requiere de la síntesis de péptidos solapantes que abarquen toda la longitud de la proteína, seguida de ensayos experimentales sobre cada uno. Sin embargo, esta metodología es cara y lenta, por lo que el desarrollo de enfoques computacionales alternativos para la predicción de epítopos B lineales se vuelve clave para la disminución de la carga experimental asociada a la identificación de esta clase de epítopos. Por lo tanto, en esta Tesis nos hemos propuesto desarrollar nuevas herramientas para la predicción in silico de epítopos B lineales. RESULTADOS Hemos desarrollado BCEPS y BepiBlast, dos servidores webs para la predicción de epítopos B lineales. Por un lado, BCEPS implementa tres modelos de aprendizaje automático, todos ellos entrenados con 555 epítopos B conformacionales linealizados extraídos de complejos estructurales de antígenos-anticuerpos y 555 fragmentos aleatorios procedentes de las proteínas antigénicas. El modelo basado en máquina de vectores de soporte (SVM) fue aquél con el mejor rendimiento predictivo, alcanzando una exactitud en la validación cruzada del 75.38 % ± 5.02. Además, dicho modelo alcanzó en el test independiente una exactitud del 67.05 %, superando a las otras herramientas relacionadas. BCEPS proporciona un output interactivo donde los epítopos predichos pueden ser clasificados según su flexibilidad, accesibilidad e hidrofilicidad. También pueden ser filtrados en función de su localización en ectodominios de proteínas de membrana y de su posesión de sitios de N-glicosilación. La selección de epítopos lineales que permite BCEPS posibilita la identificación de epítopos de anticuerpos con actividad neutralizante, como mostramos tras ejemplificar el uso de nuestra herramienta con la proteína Spike de SARS-CoV-2. RESUMEN X 8 Por otro lado, BepiBlast implementa un método novedoso para la predicción de epítopos B lineales basado en similitud de secuencia. Este método se fundamenta en la búsqueda de secuencias peptídicas que produzcan hits sin gaps con una identidad ≥ 80 % y una longitud ≥ 8 tras realizar un BLAST contra una base de datos compuesta por 62730 secuencias conocidas de epítopos B lineales. La capacidad predictiva de dicho método fue evaluada en la validación cruzada utilizando, además, otras 62730 secuencias de péptidos verificados experimentalmente como no epítopos B. De igual manera, fue evaluado con un test independiente en el que se incluyó 503 epítopos B lineales que no fueron utilizados en la construcción de la base de datos. Los valores de exactitud alcanzados en cada uno de las evaluaciones (validación cruzada y test independiente) fue de 72.54 % ± 0.27 y 74.85 %, respectivamente. Además, al compararlo con otras herramientas relacionadas, se observó que nuestro método posee un mejor rendimiento predictivo. El output de BepiBlast, además de incluir los resultados proporcionados por este método basado en similitud de secuencia, incorpora información sobre la accesibilidad y flexibilidad de cada uno de los epítopos B predichos. CONCLUSIONES Hemos desarrollado dos servidores webs gratuitos y fáciles de usar: BCEPS (http://imbio.med.ucm.es/bceps/) y BepiBlast (http://imath.med.ucm.es/bepiblast/). En ambos hemos implementado una serie de modelos predictivos con los que obtuvimos buenos resultados tanto en la validación cruzada como en el test independiente y que son mejores que aquellos implementados en herramientas relacionadas. Todos ellos, aparte de suministrar la predicciones correspondientes, proporcionan información adicional como la flexibilidad y accesibilidad de los epítopos B predichos. SUMMARY SUMMARY X 11 TITLE Development of bioinformatics tools for the prediction of linear B cell epitopes. INTRODUCTION B cell epitopes are the antigen specific regions recognized by the B cell receptor, known as BCR, or by an antibody. Protein B cell epitopes can be classified into conformational and linear, the latter being of great practical use. This is due to the fact that they can be used to replace the antigens in the production of antibodies with different uses in research and biotechnology, including vaccine development. Traditionally, the identification of the linear B epitopes requires the synthesis of overlapping peptides spanning the entire length of the protein, followed by experimental assays on each. However, this methodology is expensive and time- consuming, so the development of alternative computational approaches for linear B epitope prediction becomes key to decreasing the experimental burden associated with the identification of this class of epitopes. Therefore, in this Thesis we have set out to develop new tools for in silico prediction of linear B cell epitopes. RESULTS We developed BCEPS y BepiBlast, two web servers for the prediction of linear B cell epitopes. On the one hand, BCEPS implements three machine learning models, all them trained on 555 linearized discontinuous B cell epitopes extracted from antibody-antigen structural complexes and on 555 random fragments from the antigenic proteins. The model based on support vector machine (SVM) was the one with the best predictive performance, reaching an accuracy on cross-validation of 75.38 % ± 5.02. In addition, such model reached in the independent test an accuracy of 67.05 %, overpassing the other related tools. BCEPS provides an interactive output where the predicted epitopes can be ranked according to their flexibility, accessibility and hydrophilicity. As well as they can be filtered according to their localization in ectodomains of membrane proteins and their possession of N-glycosylation sites. The selection of linear epitopes allowed by BCEPS enables the identification of epitopes identify by antibodies with neutralizing activity, as we show after exemplifying the use of our tool with the SARS-CoV-2 Spike protein. On the other hand, BepiBlast implements a novel method for the prediction of linear B cell epitopes based on sequence similarity. This method relies on the search of peptide sequences that produce ungapped hits with identity ≥ 80% and length ≥ 8 after performing a SUMMARY X 12 BLAST against a database composed of 62730 known linear B cell epitope sequences. The method predictive ability was evaluated in cross-validation, using also other 62730 peptide sequences experimentally verify as non-B cell epitopes, and in independent test including 503 liner B cell epitopes that were not used in the BLAST database construction. The accuracy values reached in each evaluation, cross-validation and independent test,s were of 72.54 % ± 0.27 y 74.85 %, respectively. In addition, when compared to other related tools, our method was found to have better predictive performance. The BepiBlast output, as well as the results provided by this sequence similarity-based method, it includes information about the accessibility and flexibility of each predicted epitope. CONCLUSIONS We developed two free and easy-to-use web servers: BCEPS (http://imbio.med.ucm.es/bceps/) and BepiBlast (http://imath.med.ucm.es/bepiblast/). In both we implemented a set of predictive models with which we reached good results both in cross- validation and in independent tests, better than those models implemented in related tools. All of them, besides providing the corresponding predictions, provide additional data such as the flexibility and accessibility of the predicted epitopes. INTRODUCCIÓN INTRODUCCIÓN X 15 El término inmunidad hace referencia a la protección frente a una enfermedad, específicamente frente a una enfermedad infecciosa. Todos los tejidos, células y moléculas involucradas en tal defensa constituyen el sistema inmunitario. Dichos elementos darán lugar a una respuesta coordinada denominada respuesta inmunitaria. Se pueden distinguir dos tipos de inmunidad: Inmunidad innata e inmunidad adaptativa, también conocida como inmunidad específica o adquirida. La inmunidad innata está presente en la mayor parte de los organismos y permite eliminar patógenos, de manera rápida e inespecífica, sin necesidad de exposición previa. Su estrategia se basa en el reconocimiento de patrones moleculares altamente conservados, comunes a un grupo o familia entera de patógenos (Akira et al., 2006; Kumar et al., 2009). Esta inmunidad se compone de barreras físicas como la piel, de componentes humorales como el sistema del complemento y de componentes celulares, incluyendo entre otros, a macrófagos, células dendríticas y mastocitos (Turvey and Broide, 2010). Con todo ello, la inmunidad innata constituye la primera línea de defensa existente ante una infección, siendo esencial en las primeras horas o días. Sin embargo, a pesar de la inmediatez de este tipo de repuesta, no proporciona una defensa a largo plazo. Al contrario que la inmunidad innata, la inmunidad adaptativa se caracteriza por la generación de memoria inmunológica, es decir, por ser responsable de proporcionar inmunidad a largo plazo. La exposición del sistema inmunitario a un patógeno extraño favorece su capacidad para volver a responder ante una reinfección del mismo. Dichas respuestas futuras, conocidas como respuestas inmunitarias secundarias, suelen ser más rápidas, de mayor magnitud y más amplias que aquellas derivadas de una primera exposición (Abbas et al., 2018). Sin embargo, la generación de esta memoria inmunológica no es la única característica que define a la inmunidad adaptativa. Dicha inmunidad también se caracteriza por su alta especificidad, es decir, por ser capaz de eliminar agentes patogénicos concretos o células infectadas (Marshall et al., 2018). La inmunidad adaptativa también se caracteriza por poseer tolerancia, distinguiendo entre lo ajeno y lo propio. A pesar de las diferencias descritas, existe una gran sinergia entre la inmunidad innata y adaptiva. Así la inducción de la inmunidad adaptiva requiere de la activación previa de la inmunidad innata y, a su vez, la inmunidad adaptiva aumenta la capacidad efectora de la inmunidad innata (Bonilla and Oettgen, 2010). Las células responsables de la inmunidad adaptativa son los linfocitos B y los linfocitos T. Los linfocitos T median la inmunidad adaptiva celular e incluyen a los linfocitos citotóxicos o CD8+ y a los linfocitos cooperadores o CD4+. Por una parte, los linfocitos citotóxicos identifican las células infectadas para posteriormente lisarlas, mientras que, por otra parte, los INTRODUCCIÓN X 16 linfocitos cooperadores se encargan de ayudar a que tanto los linfocitos T citotóxicos como los linfocitos B y fagocitos funcionen correctamente, coordinando y regulando la respuesta inmunitaria. Tanto los linfocitos B como los T, reconocen un gran número de sustancias, tanto proteicas como no proteicas, llamadas antígenos. Los linfocitos B y T no reconocen el antígeno en su totalidad, si no que distinguen una parte específica del mismo denominada epítopo. En caso de los linfocitos T, el reconocimiento del epítopo (epítopo T), requiere la presentación del antígeno por moléculas del complejo mayor de histocompatibilidad. Dichas moléculas se encuentran localizadas en la superficie de las células presentadoras de antígenos (APC), entre las que se incluyen células del sistema inmune innato como las células dendríticas y los macrófagos (den Haan et al., 2014; Hivroz et al., 2012). Los linfocitos B son responsables de la inmunidad adaptativa humoral, mediante la producción de anticuerpos. Los linfocitos B se originan a partir de células madres hematopoyéticas pluripotentes que generan precursores linfáticos comunes. Estos se generan en la médula ósea (tejido linfoide primario) y completan su maduración en el bazo (LeBien and Tedder, 2008). Una vez maduros, re-circulan por los órganos linfoideos secundarios en espera del encuentro con el antígeno el cual dispara la diferencia a células plasmática productora de anticuerpos. 1. Anticuerpos y antígenos Las anticuerpos, también conocidos como inmunoglobulinas, son proteínas circulantes que se producen en los vertebrados en respuesta a la exposición a estructuras extrañas (Abbas et al., 2018). Existen en dos formas: los anticuerpos unidos a la membrana en la superficie de los linfocitos B, que actúan como receptores del linfocito B, y los anticuerpos secretados. En última instancia, la función de un anticuerpo es el marcaje del agente infeccioso, así como de las toxinas que estos puedan generar, para su posterior eliminación. Los podremos encontrar implicados en procesos de citotoxicidad celular, opsonización y fagocitosis (Abbas et al., 2018), sin ignorar por otro lado, su participación fundamental en la activación del sistema del complemento (Sarma and Ward, 2011). Sin embargo, aunque se pueda hablar en términos generales sobre las funciones de los anticuerpos, no hay que olvidar que existen diferentes isotipos involucrados en distintos procesos de defensa (Schroeder and Cavacini, 2010). INTRODUCCIÓN X 17 1.1 Estructura del anticuerpo Como acabamos de comentar, existen diversas clases de anticuerpos (exactamente cinco: IgM, IgG, IgA, IgD y IgE), sin embargo, todos ellos se establecen a partir de una misma estructura de inmunoglobulina básica, conocida como dominio de Ig. Cada molécula de anticuerpo posee dos cadenas polipeptídicas idénticas, de unos 500 aminoácidos, denominadas cadenas pesadas o cadenas H. Cada una de las cadenas pesadas, se encuentra unida covalentemente a otra cadena polipeptídica de unos 250 aminoácidos conocida como cadena ligera o cadena L, habiendo un total de dos cadenas pesadas y dos cadenas ligeras (Figura 1) (Mathews et al., 2013; Sundberg, 2009). En cada cadena, existen unos dominios constantes (común a los anticuerpos de una clase determinada) y variables (lo que le confiere la especificidad al anticuerpo). En el caso de las cadenas ligeras, cada una posee un dominio variable y otro constante (VL y CL), mientras que cada cadena pesada se compone por un dominio variable y tres o cuatro constantes, dependiendo del isotipo del anticuerpo (VH, CH1, CH2 y CH3/CH4). Cada dominio VL y CL se encuentra covalentemente unido por enlaces disulfuro al dominio VH y CH1 correspondiente (VL + VH y CL + CH1), formando todo ello la región Fab. Esta región se une, a través de la región bisagra, a la región FC la cual se forma tras la asociación no covalente de los dominios CH2 y CH3/CH4 de ambas cadenas. A su vez, cada región Fab engloba los respectivos dominios variables, los cuales también se incluyen en la región FV (VL + VH) (Sundberg, 2009; Sela-Culang et al., 2013). Cada una de las regiones variables de los anticuerpos (VL y VH), contiene tres segmentos que conectan las láminas β y que poseen una alta variabilidad en términos de longitud y secuencia (Sundberg, 2009; Sela-Culang et al., 2013; Wu and Kabat, 1970). Estas tres regiones se denominan segmentos hipervariables o, como mejor se conocen, regiones determinantes de la complementariedad (CDR, del inglés complementarity-determining regions) (Figura 2). Estos segmentos son los principales responsables de la unión del antígeno al anticuerpo, determinando la forma y especificidad del lugar de unión. Por lo tanto, el reconocimiento del antígeno se realiza por un total de seis CDRs: Tres incluidos en el fragmento VH y otros tres incluidos en el fragmento VL. INTRODUCCIÓN X 18 Figura 1. Visión general de la estructura del anticuerpo. A. Estructura intacta del anticuerpo monoclonal de ratón IgG2a, Mab231 (PDB: 1IGT) (Harris et al., 1997). Las cadenas pesadas idénticas están coloreadas de naranja y verde, así como las cadenas ligeras lo están en rosa y azul. Las regiones variables se encuentran coloreadas de colores claros (naranja claro, verde claro, rosa claro y azul claro). Así mismo, se indica una de las regiones Fab, así como la región FC, ambas unidas a través de la región bisagra, también indicada en la figura. Por último, se indica una de las regiones FV, así como una de las regiones de unión al antígeno. B. Diagrama esquemático del anticuerpo Mab231. Las cadenas pesadas y ligeras, así como las regiones variables y constantes, se encuentran representadas con el mismo patrón de colores utilizado en la sección A. Para ambas cadenas, se indica el nombre de cada una de las regiones (VL, CL, CH1, CH2 y CH3). Los enlaces disulfuro se encuentran representados con líneas rojas y la región bisagra con líneas negras. Finalmente, la región FV derecha se ha representado reconociendo parte de un antígeno. Figura 2. Visión general de la región VL. Estructura de la región VL del anticuerpo monoclonal Mab231 (estructura extraída del PDB 1IGT) (Harris et al., 1997). En azul claro se encuentran destacadas los tres CDRs de dicha región. Esta estructura se encuentra formada por dos capas de láminas antiparalelas, una frente a la otra, y unidas covalentemente mediante enlaces disulfuro (no mostrados). A B INTRODUCCIÓN X 19 1.2 Reconocimiento del antígeno: el epítopo Como hemos mencionado previamente, el receptor de membrana del linfocito B (BCR, del inglés B-cell receptor) o el anticuerpo, no reconoce el antígeno en su totalidad, sino que distingue una sección específica del mismo denominada epítopo (epítopo B). Una de las características más citadas es que estos residen en la superficie del antígeno (Novotný et al., 1986; Thornton et al., 1986; Kringelum et al., 2013). Además, se ha hipotetizado que están compuestos por aminoácidos cargados y aminoácidos polares, además de que poseen una deficiencia de aminoácidos hidrofóbicos alifáticos (Kringelum et al., 2013; Ofran et al., 2008; Haste Andersen et al., 2006; Zhao and Li, 2010). Concretamente, se ha planteado que los aminoácidos tirosina y triptófano estarían sobrerrepresentados, al mismo tiempo que la valina se encontraría infrarrepresentada (Kringelum et al., 2013; Rubinstein et al., 2008). Al estudiar la estructura secundaria de los epítopos B, se ha observado una ausencia de estructuras secundarias (hebras y hélices), por lo tanto, se encontrarían principalmente localizados en regiones de loops, lo que cuadraría con la percepción de que los sitios de unión antígeno-anticuerpo son regiones flexibles (Kringelum et al., 2013; Ofran et al., 2008). El epítopo B en proteínas se puede clasificar en conformacional o lineal en función de la secuencialidad de los residuos que lo forman. Los epítopos B conformacionales (Figura 3A), también llamados epítopos discontinuos, son aquellos que se componen de residuos no secuenciales en la estructura primaria, sino que se encuentran cercanos en la estructura tridimensional del antígeno (Sanchez-Trincado et al., 2017; Van Regenmortel, 2009). Por lo tanto, su reactividad depende de la conformación nativa de la proteína. Por el contrario, los epítopos B lineales (Figura 3B), o también conocidos como continuos, son aquellos compuestos por residuos secuenciales. Sin embrago, no se ha presentado ninguna evidencia que respalde que cada uno de los aminoácidos incluidos en un epítopo B lineal se encuentre en contacto con los residuos del BCR/anticuerpo (Van Regenmortel, 2009). Además, el nombre de epítopo lineal puede dar lugar a confusiones ya que son reconocidos por anticuerpos afines en determinadas conformaciones tridimensionales (Greenbaum et al., 2007). A pesar de ello, esta clase de epítopos B pueden ser reproducidos por péptidos sintéticos descontextualizados de su entorno proteico, ya que son reconocidos por el BCR o el anticuerpo independientemente de la estructura terciaria del antígeno. Existen numerosas tecnologías y metodologías disponibles para descubrimiento de nuevos epítopos B. La estrategia más precisa se basa en la resolución de la estructura terciaria del complejo antígeno-anticuerpo mediante técnicas como la cristalografía de rayos X. De esta manera, los epítopos B se pueden localizar exactamente en el antígeno, permitiendo así el INTRODUCCIÓN X 20 descubrimiento tanto de epítopos B lineales como conformacionales (Potocnakova et al., 2016; Ahmad et al., 2016). Sin embargo, dicha técnica requiere purificar altas cantidades del complejo antígeno-anticuerpo y no siempre es posible aplicarla (Ahmad et al., 2016). Por tanto, se recurre al empleo de otras aproximaciones como pepscan (Geysen et al., 1984), en la que se analiza una serie de péptidos solapantes mediante el uso del ensayo por inmunoabsorción ligado a enzimas (ELISA) (Nilvebrant and Rockberg, 2018), descubriéndose exclusivamente epítopos B lineales. Sumado a ello, las técnicas de alto rendimiento (ej. inmuno-proteómica) también han sido utilizadas para el hallazgo de nuevos epítopos lineales (Opuni et al., 2018; Abbott et al., 2014; Forsström et al., 2014), dando lugar a un aumento considerable en la cantidad de epítopos B lineales anotados en las bases de datos, especialmente en la Immune Epitope Database (IEDB) (Vita et al., 2015, 2019). A B Figura 3. Epítopo conformacional versus epítopo lineal. La figura muestra un epítopo conformacional y un epítopo lineal en la glicoproteína de superficie (ACN: YP_009724390.1, código de PDB: 6ACJ) del virus SARS-CoV-2. En cada una de las representaciones, aquellos residuos incluidos en los epítopos se muestran en magenta y el resto en gris. Junto a cada una de las imágenes estructurales, se muestra una visión simplificada de cada uno de los epítopos B. La cantidad de residuos mostrados en dichas representaciones no se corresponde con la cantidad real de residuos que los componen. A. Representación del epítopo conformacional IEDB ID: 1391793 (Voss et al., 2021). B. Representación del epítopo lineal IEDB ID: 1334451 (Lu et al., 2021). INTRODUCCIÓN X 21 2. Generación de anticuerpos 2.1 El BCR y la transducción de señal Como hemos mencionado anteriormente, la respuesta humoral se inicia con el reconocimiento del antígeno por parte de los linfocitos B, los cuales lo identifican a través de su receptor de membrana, el BCR. A diferencia de los linfocitos T (tanto los CD8+ como los CD4+), para que se produzca dicho reconocimiento, el antígeno no necesita ser presentado a través del complejo mayor de histocompatibilidad (MHC, en humanos HLA) (Moser and Leo, 2010), por lo que el linfocito B es capaz de identificarlo de manera independiente. Como se muestra en la Figura 4, el BCR está compuesto por una inmunoglobulina de membrana (mIg) con un dominio intracelular compuesto exclusivamente por una lisina, una valina y otra lisina (KVK) (Treanor, 2012). El tamaño de dichas colas es demasiado reducido para otorgar a la mIg la capacidad de transmitir la señal al interior de la célula. Por lo tanto, dicha inmunoglubulina se encuentra anclada a otras dos moléculas, denominadas Igα (CD79a) e Igβ (CD79b), encargadas de la transmisión de la señal mediada por la mIg (Treanor, 2012). Estas dos moléculas se encuentran unidas por enlaces disulfuro entre si. Además, cada una contiene un dominio de activación basado en tirosinas inmunorreceptoras (ITAM, del inglés immunoreceptor tyrosine-based activation motifs) en su cola citoplasmática. Estos dominios se componen de unas secuencias conservadas de cuatro aminoácidos, en las cuales, una tirosina se encuentra separada de una leucina o una isoleucina mediante otros dos aminoácidos (YxxL/I). Generalmente, estas secuencias conservadas se encuentran repetidas dos veces separadas por una sección de longitud comprendida entre los 7 y 12 aminoácidos (YxxL7-12YxxL) (Treanor, 2012; Reth, 1989). En su conjunto, estos tres componentes (mIg, Igβ y Igα) forman el complejo BCR. La unión del antígeno al BCR, exactamente a la mIg, inicia la activación de los linfocitos B. Tras producirse dicho enlace, las tirosinas incluidas en los ITAMs son fosforiladas por quinasas de la familia Src (como Lyn, Fyn y Blk), sirviendo como sitios de unión para los dominios SH2 (Src homology 2) de la tirosina quinasa Syk. El reclutamiento de la Syk da paso a su fosforilación, activación e integración en la cascada de señales downstream (Figura 5), que en última instancia, trae como consecuencia la activación de varios factores de transcripción (Gauld et al., 2002; Dal Porto et al., 2004; Harwood and Batista, 2009; Kurosaki et al., 2009). INTRODUCCIÓN X 22 Figura 4. Representación esquemática del BCR. En color azul se muestra la inmunoglobulina de membrana (mIg). Además, se muestran tanto la Igβ y Igα coloreadas en naranja y rojo, respectivamente, indicándose en amarillo los ITAM para ambas inmunoglobulinas. Figura 5. Representación esquemática de la transducción de señales por el BCR. El reconocimiento del antígeno por parte de la mIg da lugar a la activación de las quinasas de la familia Src y a la posterior fosforilación de las tirosinas de las ITAMs. Esto lleva al acoplamiento de la Syk y a la posterior fosforilación de moléculas como la PLCγ o la SLP-65 (también conocida como BLNK). A estos acontecimientos, les siguen varias cascadas de transmisión de señales, conduciendo en última estancia, a la activación de varios factores de transmisión (Myc, NFAT, NK-kB y AP-1). Esta imagen se ha extraído y adaptado del libro Cellular and molecular immunology (Abbas et al., 2018). INTRODUCCIÓN X 23 2.2 Activación del linfocito B Como hemos estado recalcando, el reconocimiento del antígeno por parte del linfocito B a través de su BCR es fundamental para la generación de anticuerpos y eliminación del patógeno. Sin embargo, dicho estimulo no es suficiente. El linfocito requiere de otras señales para su proliferación y diferenciación a célula plasmática. En el caso de antígenos proteicos, es necesario que el linfocito B sea estimulado por un linfocito T, específicamente por un linfocito T CD4 cooperador. Para que se de dicho proceso de estimulación, el linfocito B tiene que actuar como una APC. Por lo tanto, una vez el antígeno es reconocido por el BCR, ocurren una serie de sucesos que derivan en la presentación del antígeno, así como se muestra de forma esquemática en la Figura 6. En primer lugar, se produce la internalización del antígeno para su posterior procesamiento. Tras ello, se procede la unión de un epítopo peptídico lineal (epítopo T) a una molécula de MHC-II, la cual se exporta a la superficie celular para que finalmente un linfocito T CD4+ reconozca dicho epítopo T (Kurosaki et al., 2009; Roche and Furuta, 2015). Figura 6. Presentación del antígeno por parte del linfocito B. Representación esquemática de la internalización, procesamiento y presentación del antígeno. Dicho proceso da lugar a la generación de un endosoma en el que se incluye al antígeno internalizado, la molécula de MHC-II procedente del aparato de golgi o del retículo endoplasmático (RE) y una serie de proteasas. Una vez el antígeno es procesado y se ha producido la unión de un péptido lineal del antígeno al MHC-II, se produce un traslado del mismo a la membrana del linfocito B, exponiendo el epítopo T en la superficie extracelular. INTRODUCCIÓN X 24 La presentación del péptido vía MHC-II por el linfocito B permite que los linfocitos T CD4+ reconozcan el péptido a través de sus receptores de membrana (TCR) y proporcionen ayuda para la producción de anticuerpos. Para ello, aparte del MHC-II, el linfocito B expresa en su superficie otras muchas proteínas que también interactuarán con el linfocitos T CD4+, siendo una de las más destacadas el CD40 (Figura 7). Dicha proteína es un receptor de membrana que interactúa con CD40L (CD145), trayendo como consecuencia una alteración estructural en el propio CD40. Esto induce la asociación de proteínas citosólicas llamadas TRAF (factores asociados al receptor para el TNF, del inglés TNF receptor-associated factors) con el dominio citoplasmático del propio CD40, trayendo como consecuencia el inicio de una cascada de señalización que culmina con la activación y translocación de factores de transcripción, como el NF-kB1 y la AP-1 (Xie, 2013). Esto estimula la proliferación del linfocito B, así como la síntesis y secreción de anticuerpos. Figura 7. Activación del linfocito B mediada por el linfocito T CD4+. El linfocito T CD4+ reconoce a través de su TCR el péptido presentado por el linfocito B vía MHC-II. Tras ello, se produce la unión de CD40 a su respectivo receptor (CD40L), así como la producción y secreción de citoquinas por parte del linfocito T CD4+, trayendo como consecuencia la activación del linfocito B y dando lugar a la producción de anticuerpos INTRODUCCIÓN X 25 La interacción del linfocito B con el linfocito T CD4+ a través de sus diferentes receptores (por ejemplo, CD40-CD40L) no es el único factor determinante para la activación y diferenciación de los linfocitos B. La liberación de citoquinas por parte de los linfocitos T CD4+ también desempeña un papel crucial, influyendo en el crecimiento y la actividad de los linfocitos B. Existe una gran diversidad de citoquinas, siendo algunas de las más destacables la IL-4 y la IL-21. De hecho, la combinación de CD40L, IL-4 e IL-21 en diferentes proporciones parece ser la mezcla primaria de señales provenientes del linfocito T CD4+ que ayudan a controlar la proliferación, la hipermutación somática y la diferenciación de los linfocitos B (Crotty, 2015; den Haan et al., 2014). 3. Identificación in silico de epítopos B lineales Es indudable la gran importancia del papel de los linfocitos B y de los anticuerpos a la hora de combatir un enfermedad infecciosa. Por lo tanto, la identificación de epítopos B es fundamental para comprender la patogénesis de las enfermedades, así como para poder elaborar y desarrollar herramientas de diagnóstico y vacunas (Leinikki et al., 1993; L Dudek et al., 2010). Fuera del ámbito bio-sanitario, la identificación de epítopos B (especialmente epítopos B lineales) también tiene una gran utilidad práctica, como por ejemplo en la producción de anticuerpos para investigación. Como hemos mencionado previamente, existen numerosos métodos experimentales enfocados al descubrimiento de nuevos epítopos B lineales (Nilvebrant and Rockberg, 2018; Geysen et al., 1984; Opuni et al., 2018; Abbott et al., 2014; Forsström et al., 2014). Sin embargo, todos ellos se caracterizan por ser procesos costosos que requieren altas cantidades de tiempo. Por lo tanto, surge la necesidad de desarrollar métodos computacionales que puedan facilitar dicha identificación. Uno de los abordajes más sencillos se basa en la utilización de escalas de aminoácidos que reflejan las propiedades físico-químicas de los epítopos B. Partiendo de esta base, el primer programa informático enfocado a la predicción de epítopos B lineales fue publicado por Hopp y Woods en 1983 (Hopp and Woods, 1983). Se basaba en la suposición, propuesta por estos mismos autores en 1981, de que las regiones hidrofílicas se localizaban principalmente en la superficie de la proteína, y por tanto, dichas regiones serían reconocidas por el anticuerpo (Hopp and Woods, 1981). Desde entonces, se han planteado diferentes propuestas para el abordaje de la predicción de epítopos B lineales mediante la implementación de diferentes propiedades físico-químicas como la flexibilidad (Karplus and Schulz, 1985), la hidrofobicidad (Kyte and Doolittle, 1982; Eisenberg et al., 1984) o la accesibilidad en superficie (Emini et al., 1985). A pesar de los numerosos intentos realizados, se ha observado que este tipo de aproximaciones no son efectivas a la hora de intentar desarrollar INTRODUCCIÓN X 26 predictores de epítopos B lineales (Blythe and Flower, 2005). El bajo rendimiento de las escalas de aminoácidos para la predicción de epítopos B lineales, impulsó el desarrollo de nuevas herramientas bioinformáticas (Ponomarenko and Regenmortel, 2009; Sanchez-Trincado et al., 2017). Dichas herramientas implementan uno o varios modelos predictivos entrenados para distinguir si un péptido lineal es epítopo B o no. Estos modelos se generan gracias a la utilización de algoritmos de aprendizaje automático. Los más utilizados son las redes neuronales, utilizadas para el desarrollo del modelo implementado en ABCPred (Saha and Raghava, 2006) o en DLBEpitope (Liu et al., 2020); las máquinas de vectores de soporte, utilizadas para el desarrollo del modelo implementado en LBtope (Singh et al., 2013) o en SVMtrip (Yao et al., 2012) y los bosques aleatorios utilizados para el desarrollo del modelo implementado en BepiPred (Jespersen et al., 2017) o en ILBE (Hasan et al., 2020). Sin embargo, a pesar de la complejidad de esta metodología, el rendimiento de este tipo de herramientas sigue siendo bastante pobre (Raimondi et al., 2019; Galanis et al., 2021), dejando la puerta abierta a un gran número de nuevas posibilidades. Por ello, en esta Tesis doctoral se han desarrollado distintas herramientas computacionales que tratan de facilitar la identificación y selección de epítopos B lineales. OBJETIVOS OBJETIVOS X 29 La presente tesis se centra en el desarrollo e implementación de modelos in silico para la predicción de epítopos lineales de linfocitos B. Los objetivos concretos que se han abordado son: 1. Extracción y recopilación de secuencias de epítopos B procedentes de las diferentes bases de datos. 2. Construcción de sets de datos de secuencias clasificadas como no epítopos B. 3. Entrenamiento y construcción de los modelos predictivos con los datos previamente obtenidos. 4. Evaluación de los modelos predictivos. 5. Comparación con las herramientas ya existentes. 6. Desarrollo de herramientas webs e implementación de los modelos predictivos en ellas. MÉTODOS MÉTODOS X 33 1. Bases de datos. Los distintos modelos predictivos desarrollados en esta Tesis doctoral, se han generado a partir de epítopos B lineales o conformacionales linealizados previamente obtenidos de distintas bases de datos (Tabla 1). Tabla 1. Bases de datos Base de datos Tipo de datos Web Ref Inmune epitope database (IEDB) Epítopos (lineales y conformacionales) B experimentalmente verificados, así como los antígenos que los incluyen. Además, se incluye información de los ensayos realizados https://www.iedb.org/ (Vita et al., 2015, 2019) abYbank/AbDb Estructuras terciarias de anticuerpo- antígeno http://www.abybank.org/abdb/ (Ferdous and Martin, 2018) Bcipep Epítopos B lineales http://www.imtech.res.in/raghava/bcipep (Saha et al., 2005) 2. Métodos computacionales 2.1. Aprendizaje automático A lo largo de la historia, no se ha conseguido establecer una única definición para aprendizaje automático (Samuel, 1988; Mitchell and Mitchell, 1997; Alpaydin, 2020). Sin embargo, todas ellas comparten el concepto de entrenar al ordenador para que “aprenda” de los datos proporcionados con el fin de que realice tareas que van más allá del cálculo numérico tradicional (El Naqa and Murphy, 2015). Para que esto ocurra, el uso de algoritmos es absolutamente fundamental, siendo estos una serie de procedimientos computacionales bien definidos que toman algún valor, o conjunto de valores, como entrada (input) y producen algún otro valor, o conjunto de valores, como salida (output) (Cormen et al., 2009). Un algoritmo es, MÉTODOS X 34 por tanto, una secuencia de pasos computacionales que transforman el input en output (Cormen et al., 2009). Existen diversos sistemas de aprendizaje automático que utilizan diferentes clases de algoritmos. Dichos sistemas se pueden clasificar en función de numerosos criterios, siendo uno de los más comunes aquél que los divide en función de la “naturaleza” de los datos de entrenamiento (Gron, 2017). Uno de los tipos de aprendizaje automático que encontramos es el supervisado. En el aprendizaje automático supervisado (Figura 8), el conjunto de datos utilizados para alimentar al algoritmo incluyen las soluciones deseadas (Gron, 2017; Kotsiantis et al., 2007). Dicha aproximación es la que se ha utilizado en esta Tesis doctoral. Figura 8. Ejemplo de aprendizaje automático supervisado. Conjunto de datos de entrenamiento para la clasificación de emails con contenido spam. Cada uno de las instancias (emails) incluidas en el conjunto de entrenamiento viene acompañado de su etiqueta correspondiente (si es spam o no). Figura extraída y adaptada del libro Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (Gron, 2017). A continuación, se describirán los algoritmos de aprendizaje automático supervisado utilizados en esta Tesis doctoral. Todos ellos se han utilizado para desarrollar modelos predictivos que consigan distinguir péptidos (pequeños fragmentos proteicos) que son epítopos B frente a los que no lo son. Todos los modelos fueron desarrollados utilizando WEKA (Waikato Environment for Knowledge Analysis) (Frank et al., 2004), un software de código abierto distribuido bajo la Licencia Pública General de GNU. WEKA proporciona un entorno de trabajo para la clasificación de datos, clustering y selección de características utilizando una gran colección de algoritmos de aprendizaje automático. MÉTODOS X 35 2.1.1 Máquina de vectores de soporte (Support vector machine) El primer algoritmo que describiremos se denomina máquina de vectores de soporte (del inglés Support vector machine, SVM). Dado un espacio p-dimensional, SVM se fundamenta en la búsqueda de un elemento de p-1 dimensiones, denominado hiperplano, que sea capaz de separar los datos en función de sus clases (Gareth James Trevor Hastie, Robert Tibshirani). En una situación donde los elementos se encuentran perfectamente clasificables, se podrían plantear infinitos hiperplanos que separasen los datos. Por tanto, este algoritmo busca el hiperplano de margen máximo (Figura 9), es decir, aquel hiperplano que separará las clases adoptando la distancia máxima de cualquiera de los elementos a clasificar, maximizando así el margen (Noble, 2006). Figura 9. Ilustración de un hiperplano en un espacio de dos dimensiones. Ejemplo simplificado de la metodología utilizada por algoritmo de SVM. En numerosas situaciones, es imposible que ambas clases sean separadas a la perfección como se muestra en la Figura 9. Por lo tanto, tendremos que crear cierta flexibilidad, es decir, tendremos que permitir que ciertos datos puedan ser clasificados de manera errónea sin afectar al resultado final (Noble, 2006). Dicha flexibilidad es manejada a través del hiperparámetro denominado parámetro de complejidad (C), el cual controla el número y severidad de las violaciones del margen (Pisner and Schnyer, 2020). Cuanto más se aproxime C a 0, el margen será más ancho y habrá una mayor cantidad de observaciones localizadas en el lado incorrecto del hiperplano, mientras que en el caso opuesto (C = ∞), no se permitiría ningún tipo de error. En muchas ocasiones, los elementos no pueden ser separados linealmente (ej. por una línea en un espacio de dos dimensiones). Para solucionar dicho problema, los datos se MÉTODOS X 36 transforman a un espacio dimensional distinto gracias a la aplicación de una función denominada kernel (Figura 10) (Noble, 2006). En esta Tesis Doctoral aplicamos un kernel Gausiano o RBF (Radial Basis Function), definido por la Ecuación 1, donde ||x-x’||2 es la distancia euclidiana entre dos puntos (de los datos de entrada) y γ es el hiperparámetro que controla la desviación estándar (σ) como se muestra en la Ecuación 2 (Vert et al., 2004). Figura 10. Ejemplo de aumento de dimensionalidad. Aplicación de la función 𝑓 𝑥 = (𝑥, 𝑥&) para cambiar la dimensionalidad del conjunto de datos con el fin de hacerlos linealmente separables. El hiperparámetro se muestra con una línea continua azul. 𝐾 𝑥, 𝑥) = exp (−γ| 𝑥 − 𝑥) |&) Ecuación 1 γ = 1 2𝜎& Ecuación 2 2.1.2 Bosques aleatorios (Random forests) El algoritmo que trataremos a continuación se conoce como algoritmo de bosques aleatorios (del inglés Random forests; RF). Dicho algoritmo se fundamenta en el uso de árboles de decisión. Cada árbol es una construcción jerárquica en la que cada nodo representa una característica y cada rama representa una decisión basada en la característica del nodo que conecta. Por lo tanto, todo árbol comenzará con una raíz (nodo inicial) que se ramificará y se abrirá paso a través de los nodos y ramas hasta llegar a una hoja, la cual representa la predicción final del árbol (Loh, 2011, 2014). MÉTODOS X 37 La predicción realizada con un modelo de RF se basa en la decisión modal de múltiples árboles individuales generados durante el proceso de entrenamiento (Figura 11) (Breiman, 2001). En cada caso particular, se utiliza una cantidad concreta de árboles, por lo tanto, no es de extrañar la gran importancia que tiene la determinación del número de árboles que hay que emplear en cada situación. Un número muy elevado puede traer como consecuencia una demanda excesiva de fuerza computacional, mientras que un número insuficiente puede dar lugar a un modelo predictivo que no alcance las expectativas deseadas. Figura 11. Ilustración esquemática del funcionamiento del algoritmo de RF. Cada uno de los árboles (árbol 1, árbol 2, …, árbol n) proporciona una predicción individual (predicción 1, predicción 2, …, predicción n). En el caso concreto de un problema binomial, cada predicción se corresponderá con una de las dos opciones disponibles (ej. epítopo o no epítopo). La predicción final se corresponderá con aquel resultado que se haya obtenido con la mayoría de los árboles. 2.1.3 Redes neuronales artificiales Existen numerosos tipos de redes neuronales artificiales (del inglés artificial neural networks; ANN) enfocadas a la resolución de diversas clases de problemas (Drew and Monson, 2000). Sin embargo, todas ellas comparten una misma estructura inspirada en la arquitectura cerebral compuesta por conexiones neuronales (Figura 12A) (Krogh, 2008; Russell and Norvig, 2004). Se construyen a partir de nodos (Figura 12B) conectados entre sí a través de una serie de conexiones con unos valores numéricos asociados (pesos sinápticos) que determinan la fuerza y el signo de dichas conexiones (Figura 12C) (Russell and Norvig, 2004). El elemento de salida de un nodo concreto depende de su función de activación (g) y de la función de entrada (ini), definida por pesos sinápticos asociados con las diferentes conexiones de entrada (Wj,i) junto con los elementos de entrada (yj) (Ecuación 3). En el caso de la clasificación de epítopos B, usamos MÉTODOS X 38 una función de activación sigmoide, la cual se puede definir matemáticamente con la Ecuación 4. Figura 12. ANN: Desde el concepto biológico hasta la arquitectura computacional. A. Partes de una célula nerviosa o neurona. B. Elementos de una arquitectura computacional conocida como neurona. Dicha neurona se puede definir matemáticamente según la Ecuación 3. C. Red neuronal de alimentación-hacia-delante con dos entradas (capa de entrada), dos nodos dispuestos en una capa oculta y otro nodo en la capa de salida. Todas las figuras se han extraído y adaptado del libro Artificial intelligence: a modern approach (Russell and Norvig, 2004). 𝑦5 = 𝑔 𝑖𝑛5 = 𝑔( 𝑊:,5 · 𝑦: < :=> ) Ecuación 3 MÉTODOS X 39 𝑓(𝑥) = 1 1 + 𝑒AB Ecuación 4 Como hemos mencionado previamente, existen numerosas clases de ANN. La arquitectura más sencilla se corresponde con una red de alimentación-hacia-adelante denominada perceptrón. Se encuentra formada exclusivamente por una capa de entrada y una capa de salida (Taud and Mas, 2018). La idea del algoritmo, y la de muchos otros algoritmos de ANN, es ajustar los pesos sinápticos para minimizar el error que se produce. Dicho error se puede definir matemáticamente con la Ecuación 5 en la que yi e ti es el output obtenido y deseado respectivamente (Russell and Norvig, 2004; Murtagh, 1991). Para minimizar este error, durante el proceso de entrenamiento del modelo se ajustan los pesos sinápticos siguiendo la Regla Delta o método del Gradiente Descendente. En pocas palabras, se basa en la actualización iterativa de los pesos sinápticos aplicando la Ecuación 6 donde (Russell and Norvig, 2004; Murtagh, 1991; Gron, 2017): • Wj,i es el peso sináptico de la conexión que conecta el nodo jth con el nodo ith • η es una constante denominada ratio de aprendizaje. Define cómo de “bruscos” son los cambios en los pesos sinápticos. • yj es variable de entrada del nodo ith • g’(ini) es la derivada de la función de activación (g(ini)). Para una función sigmoide, la derivada viene dada por f’ = f (1 - f). Por lo tanto, cuando g(ini) es una función sigmoide (como es nuestro caso), entonces g’(ini) = yi(1 - yi). 𝐸 = 1 2 (𝑡5 − 𝑦5)& < 5=> Ecuación 5 𝑊:,5 ( Ecuación 7 2.2 BLAST BLAST (del inglés Basic Local Alignment Search Tool) (Altschul et al., 1990, 1997) es un algoritmo diseñado y optimizado para encontrar aquellas regiones con un mayor grado de similitud al comparar una secuencia específica (query) con todas aquellas incluidas en una base de datos de secuencias (targets). La búsqueda comienza fragmentando la secuencia query en “palabras” de longitud W (normalmente W = 2, 3 o 6) las cuales son utilizadas para generar una serie de "palabras vecinas" que representan posibles cambios en la secuencia debido a mutaciones (Figura 14). Utilizando matrices de sustitución (ej. PAM250 o BLOSUM62), tanto las “palabras” como las “palabras vecinas” se puntúan en función de su coincidencia con la secuencia query, descartándose aquellas que no alcancen una puntuación mínima (T) y comparando el resto con las secuencias targets con el fin de identificar coincidencias exactas. Para cada coincidencia exacta encontrada, se produce un alineamiento local que se extiende en ambas direcciones con el fin de que dicho alineamiento supere el umbral de puntuación S y finalmente obtener un alineamiento local denominado hit (Kerfeld and Scott, 2011). Figura 14: Ilustración del funcionamiento del algoritmo de búsqueda de BLAST. La imagen muestra la generación de un conjunto de “palabras vecinas” a partir de una “palabra” query (RDQ) de longitud 3 residuos (W = 3). Luego, la búsqueda se realiza con todas aquellas “palabras” que alcancen una puntuación mínima (T) obtenida al compararse con la secuencia query. Una vez se encuentra una coincidencia exacta, se extiende con el fin de obtener un alineamiento local con una puntuación que supere un umbral preestablecido. Esta imagen se ha extraído y adaptado del libro Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins (Baxevanis et al., 2020). MÉTODOS X 42 3. Desarrollo y evaluación de los modelos predictivos 3.1 Abordaje general Como se muestra en la Figura 15, la construcción del modelo predictivo comienza con la recolección de los datos de entrenamiento. Estos serán utilizados en el desarrollo y optimización del modelo, y en consecuencia, en las diferentes validaciones cruzadas. De la misma manera, se realiza la obtención de los datos independientes, los cuáles serán utilizados para evaluar el modelo predictivo definitivo a través de una validación independiente. Con el fin de evitar la sobreestimación del rendimiento del modelo, no debe existir solapamiento entre ambos tipos de datos. Figura 15: Flujo de trabajo del generación de un modelo predictivo. Los datos (epítopos B lineales) se recopilan de las diferentes bases de datos y se dividen en dos conjuntos: datos de entrenamiento y datos independientes. El conjunto de entrenamiento es utilizado en la generación de diferentes modelos predictivos y en la optimización de los mismos. Aquel modelo que alcance el mejor rendimiento predictivo de acuerdo con los resultados obtenidos con la validación cruzada, es considerado como el modelo predictivo definitivo. Dicho modelo es finalmente evaluado con los datos independientes en una validación independiente. 3.2 Métodos de evaluación 3.2.1 Validación cruzada La validación cruzada de n-campos (del inglés n-fold cross-validation) es una técnica empleada para seleccionar el algoritmo y sus parámetros con el objetivo de maximizar la capacidad de generalizar del modelo. Se basa en la utilización de los datos de entrenamiento para estimar su habilidad predictiva sobre datos no vistos (Figura 16). Para ello, los datos se dividen en n partes, utilizando < de los datos para la construcción del modelo y el resto (> < ) para su evaluación. Este proceso se repetirá n veces, variando cada vez la sección de los datos MÉTODOS X 43 utilizados para la generación y entrenamiento del modelo. Los resultados finales serán el resultado de la media y desviación estándar de los resultados obtenidos en cada repetición. Figura 16: Esquema del funcionamiento de la validación cruzada de 5-campos. El conjunto de datos original (datos de entrenamiento) es dividido al azar en 5 partes (resaltadas en colores). Por lo tanto, como se muestra en la imagen, en cada una de las interacciones, 4/5 de los datos son utilizados para entrenar el modelo mientras que el otro conjunto de datos (1/5) es utilizado para evaluar su capacidad predictiva. 3.2.2 Evaluación independiente Aquel modelo obtenido en la etapa de desarrollo y optimización que haya conseguido un mayor rendimiento predictivo será considerado como el modelo definitivo. Sin embargo, los resultados obtenidos durante la validación cruzada no son suficientes para determinar la capacidad predicitiva de un modelo, por lo que es necesario realizar evaluaciones adicionales. En concreto, se realizan evaluaciones empleando un conjunto de datos independiente y distintos de los datos de entrenamiento. Los datos de entrenamiento y los datos independientes empleados en esta Tesis Doctoral se corresponden con epítopos B extraídos de bases de datos diferentes. Por ejemplo, los datos de entrenamiento utilizados para el modelo basado en SVM implementado en BCEPS (Capítulo 1) fueron extraidos de abYbank/AbDb, mientras que los datos independientes fueron obtenidos del IEDB. MÉTODOS X 44 3.3 Medidas de rendimiento predictivo Tanto en la validación cruzada como en la validación independiente son necesarias una serie de medidas para evaluar la capacidad predictiva del modelo. En particular, en esta Tesis Doctoral se ha calculado la sensibilidad (SE), la especificidad (SP), la exactitud (ACC) y el coeficiente de correlación de Mathews (MCC). La SE es la porción de casos positivos clasificados correctamente (Ecuación 8), mientras que la SP es la proporción de casos negativos que son clasificados correctamente (Ecuación 9). Por otro lado, mientras que la SE y la SP solamente tienen en cuenta los casos positivos y negativos, respectivamente, la ACC y el MCC evalúan el modelo teniendo en cuenta todos los casos, pudiéndose calcular directamente a partir de la tabla de contingencia (Figura 17) atendiendo a la Ecuación 10 y a la Ecuación 11 respectivamente. Indicar que, a diferencia del resto de medidas, los valores de MCC oscilan entre 1 y -1, donde 1, 0 y -1 indican respectivamente una predicción perfecta, aleatoria y perfecta pero inversa. 𝑆𝐸 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 Ecuación 8 𝑆𝑃 = 𝑇𝑁 𝑇𝑁 + 𝐹𝑃 Ecuación 9 Figura 17. Tabla de contingencia. Las predicciones realizadas por el modelo a evaluar se pueden clasificar en verdadero positivo (TP), verdadero negativos (TN) (ambos indicados en la tabla en verde), falso negativo (FN) o falso positivo (FP) (ambos indicados en la tabla en rojo). Como se indica con flechas, la sensibilidad es calculada utilizando los TP y los FN, mientras que la especificidad es calculada con los FP y los TN. 𝐴𝐶𝐶 = (𝑇𝑃 + 𝑇𝑁) (𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁) Ecuación 10 MÉTODOS X 45 𝑀𝐶𝐶 = 𝑇𝑃 𝑥 𝑇𝑁 − (𝐹𝑃 𝑥 𝐹𝑁) (𝑇𝑁 + 𝐹𝑁)(𝑇𝑃 + 𝐹𝑁)(𝑇𝑁 + 𝐹𝑃)(𝑇𝑃 + 𝐹𝑃) Ecuación 11 CAPÍTULO I BCEPS: A Web Server to Predict Linear B Cell Epitopes with Enhanced Immunogenicity and Cross- Reactivity Alvaro Ras-Carmona1, Hector F. Pelaez-Prestel1 , Esther M. Lafuente1 & Pedro A. Reche1 1. Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, Facultad de Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 28040 Madrid, España CAPÍTULO I X 49 CAPÍTULO I X 50 CAPÍTULO I X 51 CAPÍTULO I X 52 CAPÍTULO I X 53 CAPÍTULO I X 54 CAPÍTULO I X 55 CAPÍTULO I X 56 CAPÍTULO I X 57 CAPÍTULO I X 58 CAPÍTULO I X 59 CAPÍTULO I X 60 CAPÍTULO I X 61 CAPÍTULO I X 62 CAPÍTULO I X 63 CAPÍTULO I X 64 CAPÍTULO II Prediction of B cell epitopes in proteins using a novel sequence similarity-based method 
 Alvaro Ras-Carmona1, Alexander A. Lehmann1,2, Paul V. Lehmann2 & Pedro A. Reche1 1. Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, Facultad de Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 28040 Madrid, España. 2. Departamento de Investigación y Desarrollo, Cellular Technology Limited (CTL), Shaker Heights, OH 44122, USA CAPÍTULO II X 67 CAPÍTULO II X 68 CAPÍTULO II X 69 CAPÍTULO II X 70 CAPÍTULO II X 71 CAPÍTULO II X 72 CAPÍTULO II X 73 CAPÍTULO II X 74 CAPÍTULO II X 75 DISCUSIÓN DISCUSIÓN X 79 Los linfocitos B son células del sistema inmunitario adaptativo involucradas en la respuesta humoral frente a los diferentes agentes infecciosos. Su función depende del reconocimiento de antígenos a través de los receptores que poseen en sus membranas, los BCR. En el caso de antígenos proteicos, una vez el BCR reconoce el antígeno, este es endocitado, procesado y presentado vía MHC-II. Tras ello, los linfocitos B son estimulados por los linfocito T CD4+ y, en consecuencia, diferenciados a células plasmáticas generadoras de anticuerpos y/o a células B de memoria. El epítopo B es la porción específica del antígeno que es reconocida tanto por el BCR como por el anticuerpo. En función de la secuencialidad de los residuos que lo componen, los epítopos B se pueden clasificar en conformacionales o lineales. En esta Tesis Doctoral, nuestro interés se ha centrado en la predicción de epítopos B lineales ya que estos resultan más relevantes a nivel práctico. Esto se debe a que la identificación de los epítopos B lineales permite definir aquellos segmentos del antígeno capaces de sustituir a la proteína completa. Por lo tanto, dichos segmentos pueden formularse como péptidos sintéticos adecuados para numerosas aplicaciones, tales como su uso en la producción de anticuerpos antígeno- específicos, entre otras. Existen numerosas técnicas experimentales que dan lugar a la identificación de epítopos B lineales. Sin embargo, dichas técnicas son lentas, costosas y en muchas ocasiones tediosas, por lo que se ha apostado por el desarrollo de modelos in silico que faciliten la identificación de estos epítopos B. La mayoría de estos modelos están basados en inteligencia artificial (aprendizaje automático para ser exactos) y/o son modelos estadísticos (Ponomarenko and Regenmortel, 2009; Sanchez-Trincado et al., 2017; Potocnakova et al., 2016), donde un conjunto de datos es utilizado para entrenar y generar un modelo que consiga capturar el espacio secuencial de los epítopos B (Figura 17A). Dicho modelo es posteriormente utilizado para predecir si una secuencia en particular pertenece al espacio secuencial anteriormente modelado. Como se describe en el Capítulo I, BCEPS ha sido desarrollado empleando dicha metodología. Sin embargo, no es la única manera de abordar la cuestión de la predicción de los epítopos B lineales. Otra estrategia, aplicada para el desarrollo de BepiBlast (Capitulo II), se basa en identificar si la secuencia que se desea predecir es similar a alguna de las secuencias que conforman el espacio secuencial (Figura 17B). La predicción de epítopos B con esta metodología es minimalista, fácil de entender y robusta, especialmente cuando hay un alto número de secuencias incluidas en el espacio secuencial. DISCUSIÓN X 80 Figura 17: Esquema de las dos aproximaciones principales para la predicción de epítopos B. A. Uso de aprendizaje automático o métodos estadísticos B. Predicción mediante una búsqueda por el espacio secuencial con la utilización de BLAST. 1. BCEPS Con el objetivo de facilitar la identificación de epítopos B lineales y la selección de aquellos epítopos B inmunogénicos capaces de inducir anticuerpos cross-reactivos con el antígeno nativo, hemos desarrollado BCEPS (B Cell Epitope Prediction Software) (http://imbio.med.ucm.es/bceps/). BCEPS es un servidor web en el que hemos implementado tres modelos de aprendizaje automático entrenados con secuencias de epítopos B extraídas de estructuras tridimensionales de complejos antígeno-anticuerpo. Los algoritmos utilizados fueron SVM, RF y ANN (concretamente perceptrón multicapa), cada uno con una serie de puntos fuertes y débiles (Tabla 2). Todos los modelos que generamos e implementamos en BCEPS alcanzaron una exactitud en validación cruzada superior al 70 %, siendo el más destacado el modelo basado en SVM el cual alcanzó una exactitud del 75.38 % ± 5.02 (Capítulo I, Tabla 1). DISCUSIÓN X 81 Tabla 2. Ventajas y desventajas de SVM, RF y Perceptrón multicapa. Tabla extraída y adaptada de (Greener et al., 2022). Método Ventajas Desventajas SVM Puede realizar clasificaciones lineales y no lineales así como regresión Escalar grandes conjuntos de datos suele ser difícil Difícil de interpretar RF Aprende la importancia de cada característica para la predicción. Los árboles de decisión individuales son legibles, lo que permite interpretar cómo se ha tomado una decisión. Son menos sensibles al escalado y la normalización de las características, por lo que son más fáciles de entrenar y ajustar. Menos apropiados para la regresión Muchos árboles de decisión son difíciles de interpretar Perceptrón multicapa Dado un conjunto de datos, puede adaptarse con menos capas que arquitecturas como las redes neuronales convolucionales, lo que facilita y acelera su entrenamiento. Fácil de sobreajustar Gran número de parámetros Difícil de interpretar Centrándonos en el modelo basado en SVM, observamos que en el test independiente alcanzó una exactitud del 67.05 % (Capítulo I, Tabla 2). Este valor fue inferior al alcanzado en la validación cruzada pero fue superior al obtenido con BepiPred (Larsen et al., 2006; Jespersen et al., 2017), IBCE-EL (Manavalan et al., 2018) y LBtope (Singh et al., 2013), siendo estas herramientas incapaces de clasificar un péptido en epítopo B o no epítopo B. Los resultados obtenidos son más que destacables ya que, debido al alto repertorio de BCRs, permite reconocer un numero casi ilimitado de péptidos (Frank, 2002). Por lo tanto, se vuelve fundamental la selección de aquellos epítopos B lineales capaces de inducir anticuerpos cross-reactivos con el antígeno nativo. Desde una perspectiva práctica, este enfoque implica la capacidad de sintetizar péptidos, previamente identificados in-silico, que generen anticuerpos con actividad neutralizante. Un ejemplo lo encontramos en los resultados descritos por Ramanathan et al. DISCUSIÓN X 82 (Ramanathan et al., 2016), donde demuestran como los ratones inoculados con péptidos sintéticos de la proteína E del Virus del dengue son capaces de generar anticuerpos neutralizantes. Sin embargo, hay que matizar que el conjunto de péptidos utilizado en dicho estudio es el resultado de la identificación de los epítopos B desde el uso de tres enfoques diferentes, de los cuales, dos de ellos no fueron computacionales. Por lo tanto, podemos considerar que aunque la generación de anticuerpos neutralizantes a partir de péptidos sintéticos es una realidad, la identificación in silico de los epítopos B (realizado con ABCPred (Saha and Raghava, 2006), BepiPred (Larsen et al., 2006) y epitopia (Rubinstein et al., 2009)) no tuvo la suficiente capacidad predictiva para poder haber prescindido del uso de otras técnicas de laboratorio. Para identificar aquellos epítopos B lineales capaces de inducir anticuerpos cross- reactivos, BCEPS permite ordenar y filtrar aquellos epítopos B predichos de acuerdo a una serie de propiedades como la accesibilidad o la flexibilidad. De la misma manera, BCEPS permite descartar aquellos epítopos B que no se encuentran localizados en el ectodiminio y que se encuentran glicosilados. Filtrando de acuerdo a los criterios que acabamos de mencionar, mostramos la capacidad de identificar en la proteína Spike del SARS-CoV-2 epítopos B lineales ya conocidos y reconocidos por anticuerpos neutralizantes. Un péptido puede ser reconocido por un anticuerpo, sin embargo, este hecho no significa que dicho péptido active la respuesta inmune, en otras palabras, que el péptido sea inmunogénico. Para ello, además de ser reconocido por el linfocito B, este tiene que ser presentado al linfocito T CD4+ vía MHC-II. Por lo tanto, BCEPS también es capaz de identificar aquellos epítopos B con potencial para unirse y ser presentados por moléculas de MHC-II, HLA-II en humanos, permitiendo así la selección de aquellos epítopos B que a su vez sean epítopos T CD4+. De esta manera, podremos quedarnos con aquellos epítopos B que sean probablemente los más inmunogénicos. BCEPS por tanto coombina la predicción de epítopos B con la predicción de epítopos T CD4. El resultado aportado por BCEPS es interactivo, permitiendo a los usuarios filtrar y clasificar los epítopos B según las diversas características comentadas anteriormente. Esto hace a BCEPS una de las herramientas más novedosas, ya que es la única que no se limita exclusivamente a clasificar los péptidos en epítopos B o no. DISCUSIÓN X 83 2. BepiBlast BLAST es un algoritmo y programa informático optimizado para buscar en una base de datos de secuencias alineaciones locales óptimas para una secuencia denominada query (Altschul et al., 1990, 1997). Normalmente es utilizado a través de su herramienta web disponible en https://blast.ncbi.nlm.nih.gov/Blast.cgi, sin embargo, existe la posibilidad de descargarlo y usarlo de forma local. Esto nos ha permitido el desarrollo de BepiBlast (http://imath.med.ucm.es/bepiblast/), un servidor web en el que hemos implementado un modelo predictivo basado en similitud de secuencia. A diferencia de muchas de las herramientas que se encuentran actualmente disponibles, BepiBlast no implementa ningún modelo de aprendizaje automático, sino que realiza una búsqueda de potenciales epítopos B en secuencias proteicas (secuencias query) tras consultar en una base de datos de secuencias de epítopos B conocidas (secuencias target) y encontrar similitudes individuales. Dicha base de datos se compone de más de 60000 epítopos B lineales experimentalmente verificados, siendo hasta la fecha el conjunto de datos con la mayor cantidad de epítopos B utilizados para la construcción de un modelo predictivo. Además, cabe destacar que no hemos incluido en la base de datos ningún péptido clasificado como no epítopo B, siendo esta metodología la primera que no los tiene en cuenta a la hora de realizar las predicciones correspondientes. Lejos de ser una desventaja, y dada la gran degeneración del reconocimiento del BCR, el no incluir datos negativos posiblemente sirva para vencer la notoria capacidad de sobre ajuste de los métodos basados en aprendizaje automático (Charilaou and Battat, 2022). Utilizando los epítopos B target junto a dos conjuntos de datos de no epítopos B (péptidos al azar y péptidos anotados en IEDB como no epítopos B) evaluamos esta metodología basada en BLAST con validación cruzada, considerando como epítopo B todo hit sin gap con una identidad y una longitud ≥ 80 % y ≥ 8, respectivamente. Observamos que esta metodología pudo distinguir, con una exactitud notable, entre los epítopos B conocidos y los péptidos considerados como no epítopos B (Capitulo II, Tabla 1). Esta capacidad predictiva se remarca con los resultados obtenidos en el test independiente (Capitulo II, Tabla 2), obteniendo una exactitud mínima del 69.48 % y superando los valores obtenidos con BepiPred (Jespersen et al., 2017), IBCE-EL (Manavalan et al., 2018) and LBtope (Singh et al., 2013), todos ellos basados en métodos de aprendizaje automático. Sin embargo, la exactitud obtenida por IBCE-EL supera a la obtenida con nuestro método (79.96 % vs 69.48 %) al considerar como no epítopos B aquellos péptidos anotados como tal en IEDB. Observamos que el set de datos de entrenamiento utilizado para entrenar el modelo implementado en IBCE-EL incluye no epítopos DISCUSIÓN X 84 B extraídos del IEDB. Este dato, junto con la diferencia entre las exactitudes obtenidas con los diferentes tipos de no epítopos B (79.96 % vs 46.26 %), nos lleva a pensar que nos encontramos ante un modelo predictivo sobreajustado. En vista de los resultados obtenidos, el modelo predictivo implementado en BepiBlast posee un buen rendimiento en la validación cruzada, un buen rendimiento en el test independiente y es mejor que otras herramientas relacionadas. Para complementarlo, al igual que realizamos en BCEPS (Capítulo I), los resultados obtenidos con dicho modelo están asociados a unos valores de accesibilidad y flexibilidad. Así, en el output proporcionado por BepiBlast, se puede identificar y seleccionar los epítopos B más accesibles y flexibles, siendo estos los que tienen una mayor probabilidad de producir anticuerpos cross-reactivos con el antígeno nativo. Además, BepiBlast permite identificar todos aquellos epítopos B con hits a epítopos B que son objeto de reconocimiento por anticuerpos neutralizantes. En su conjunto, podemos definir a BepiBlast como una herramienta robusta, fácil de usar y muy completa, altamente recomendada para la predicción y selección de epítopos B lineales. CONCLUSIONES CONCLUSIONES X 87 1. Hemos generado distintos datasets que en conjunto suman 67229 secuencias de epítopos B lineales y 130462 secuencias de no epítopos B, los cuales han sido utilizados para el entrenamiento y testado de distintos modelos predictivos. 2. Hemos construido y evaluado una serie de modelos de aprendizaje automático a partir de epítopos B extraídos de complejos antígeno-anticuerpo y posteriormente linealizados. El modelo con mayor capacidad predictiva fue obtenido usando SVM, seguido de RF y ANN. 3. Hemos desarrollado un modelo de predicción de epítopos B basado en la similitud de secuencias mediante el uso de BLAST y del mayor set de datos de epítopos B jamás construido para este fin. 4. Los modelos predictivos de epítopos B basados en aprendizaje automático (SVM, RF y ANN) alcanzan una ACC del 75.38 % ± 5.02, 74.95 % ± 5.47 y 73.87 % ± 5.11, respectivamente, siendo este valor de 81.32 % ± 0.20 para el modelo basado en BLAST. 5. Todos los modelos muestran una mayor capacidad predictiva que las herramientas relacionadas (BepiPred, LBtope and IBCE-EL) en tests independientes, a juzgar por distintos parámetros como SE, SP, MCC y AUC. 6. Hemos confirmado para la proteína Spike de SARS-CoV-2 que la predicción de epítopos B lineales seguido de la selección de los más flexibles y accesibles, localizados en el ectodominio y sin sitios de N-glicosilación, claramente identifica epítopos B lineales que han sido descritos como objeto de reconocimiento de anticuerpos neutralizantes y por tanto cross-reactivos con la proteína nativa. 7. Hemos desarrollado BCEPS (http://imbio.med.ucm.es/bceps/) y BepiBlast (http://imath.med.ucm.es/bepiblast/), dos herramientas web gratuitas y fáciles de usar para la predicción de epítopos lineales de linfocitos B. 8. BCEPS permite al usuario seleccionar los epítopos por su localización (ectodominio), propiedades fisicoquímicas (accesibilidad, flexibilidad e hidrofilicidad) y modificaciones postraduccionales que puedan interferir en el reconocimiento por los anticuerpos. 9. BCEPS permite seleccionar aquellos epítopos B más inmunogénicos al poder identificar aquellos que pueden unirse y ser presentados por moléculas de MHC-II. En otras palabras, seleccionar péptidos que son a la vez epítopos B y T. CONCLUSIONES X 88 10. BepiBlast permite identificar de una manera muy rápida epítopos B por su similitud con otros conocidos y es también muy útil para indicar cross-reactividad entre antígenos REFERENCIAS REFERENCIAS X 91 Abbas,A.K. et al. (2018) Cellular and molecular immunology. Abbott,W.M. et al. (2014) Current approaches to fine mapping of antigen–antibody interactions. Immunology, 142, 526–535. Ahmad,T.A. et al. (2016) B-cell epitope mapping for the design of vaccines and effective diagnostics. Trials Vaccinol., 5, 71–83. Akira,S. et al. (2006) Pathogen Recognition and Innate Immunity. Cell, 124, 783–801. Alpaydin,E. (2020) Introduction to machine learning MIT press. Altschul,S.F. et al. (1990) Basic local alignment search tool. J. Mol. Biol., 215, 403–410. Altschul,S.F. et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., 25, 3389–3402. Baxevanis,A.D. et al. (2020) Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins 4th ed. Wiley. Blythe,M.J. and Flower,D.R. (2005) Benchmarking B cell epitope prediction: underperformance of existing methods. Protein Sci., 14, 246–248. Bonilla,F.A. and Oettgen,H.C. (2010) Adaptive immunity. J. Allergy Clin. Immunol., 125, S33- 40. Breiman,L. (2001) Random Forests. Mach. Learn., 45, 5–32. Charilaou,P. and Battat,R. (2022) Machine learning models and over-fitting considerations. World J. Gastroenterol., 28, 605–607. Cormen,T.H. et al. (2009) Introduction to Algorithms 3rd ed. The MIT Press. Crotty,S. (2015) A brief history of T cell help to B cells. Nat. Rev. Immunol., 15, 185–189. Dal Porto,J.M. et al. (2004) B cell antigen receptor signaling 101. Mol. Immunol., 41, 599–613. Drew,P.J. and Monson,J.R.T. (2000) Artificial neural networks. Surgery, 127, 3–11. Eisenberg,D. et al. (1984) The hydrophobic moment detects periodicity in protein hydrophobicity. Proc. Natl. Acad. Sci. U. S. A., 81, 140–144. Emini,E.A. et al. (1985) Induction of hepatitis A virus-neutralizing antibody by a virus-specific synthetic peptide. J. Virol., 55, 836–839. Ferdous,S. and Martin,A.C.R. (2018) AbDb: antibody structure database-a database of PDB- derived antibody structures. Database (Oxford)., 2018, bay040. Forsström,B. et al. (2014) Proteome-wide epitope mapping of antibodies using ultra-dense peptide arrays. Mol. Cell. Proteomics, 13, 1585–1597. Frank,E. et al. (2004) Data mining in bioinformatics using Weka. Bioinformatics, 20, 2479– 2481. Frank,S.A. (2002) Immunology and Evolution of Infectious Disease Princeton University Press. Galanis,K.A. et al. (2021) Linear B-Cell Epitope Prediction for In Silico Vaccine Design: A Performance Review of Methods Available via Command-Line Interface. Int. J. Mol. Sci., 22, 3210. Gareth James Trevor Hastie, Robert Tibshirani,D.W. An introduction to statistical learning : with applications in R New York : Springer, [2013] ©2013. Gauld,S.B. et al. (2002) B cell antigen receptor signaling: roles in cell development and disease. REFERENCIAS X 92 Science (80-. )., 296, 1641–1642. Geysen,H.M. et al. (1984) Use of peptide synthesis to probe viral antigens for epitopes to a resolution of a single amino acid. Proc. Natl. Acad. Sci., 81, 3998–4002. Greenbaum,J.A. et al. (2007) Towards a consensus on datasets and evaluation metrics for developing B-cell epitope prediction tools. J. Mol. Recognit., 20, 75–82. Greener,J.G. et al. (2022) A guide to machine learning for biologists. Nat. Rev. Mol. Cell Biol., 23, 40–55. Gron,A. (2017) Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems 1st ed. O’Reilly Media, Inc. den Haan,J.M.M. et al. (2014) The activation of the adaptive immune system: cross-talk between antigen-presenting cells, T cells and B cells. Immunol. Lett., 162, 103–112. Harris,L.J. et al. (1997) Refined Structure of an Intact IgG2a Monoclonal Antibody. Biochemistry, 36, 1581–1597. Harwood,N.E. and Batista,F.D. (2009) Early events in B cell activation. Annu. Rev. Immunol., 28, 185–210. Hasan,M.M. et al. (2020) iLBE for Computational Identification of Linear B-cell Epitopes by Integrating Sequence and Evolutionary Features. Genomics. Proteomics Bioinformatics, 18, 593–600. Haste Andersen,P. et al. (2006) Prediction of residues in discontinuous B-cell epitopes using protein 3D structures. Protein Sci., 15, 2558–2567. Hivroz,C. et al. (2012) Crosstalk between T lymphocytes and dendritic cells. Crit. Rev. Immunol., 32, 139–155. Hopp,T.P. and Woods,K.R. (1983) A computer program for predicting protein antigenic determinants. Mol. Immunol., 20, 483–489. Hopp,T.P. and Woods,K.R. (1981) Prediction of protein antigenic determinants from amino acid sequences. Proc. Natl. Acad. Sci. U. S. A., 78, 3824–3828. Jespersen,M.C. et al. (2017) BepiPred-2.0: improving sequence-based B-cell epitope prediction using conformational epitopes. Nucleic Acids Res., 45, W24–W29. Karplus,P.A. and Schulz,G.E. (1985) Prediction of chain flexibility in proteins. Naturwissenschaften, 72, 212–213. Kerfeld,C.A. and Scott,K.M. (2011) Using BLAST to Teach “E-value-tionary” Concepts. PLOS Biol., 9, e1001014. Kotsiantis,S.B. et al. (2007) Supervised machine learning: A review of classification techniques. Emerg. Artif. Intell. Appl. Comput. Eng., 160, 3–24. Kramer,O. (2013) Dimensionality Reduction with Unsupervised Nearest Neighbors. In, Kramer,O. (ed). Springer Berlin Heidelberg, Berlin, Heidelberg, pp. 13–23. Kringelum,J.V. et al. (2013) Structural analysis of B-cell epitopes in antibody:protein complexes. Mol. Immunol., 53, 24–34. Krogh,A. (2008) What are artificial neural networks? Nat. Biotechnol., 26, 195–197. Kumar,H. et al. (2009) Pathogen recognition in the innate immune response. Biochem. J., 420, 1–16. Kurosaki,T. et al. (2009) B cell signaling and fate decision. Annu. Rev. Immunol., 28, 21–55. REFERENCIAS X 93 Kyte,J. and Doolittle,R.F. (1982) A simple method for displaying the hydropathic character of a protein. J. Mol. Biol., 157, 105–132. L Dudek,N. et al. (2010) Epitope discovery and their use in peptide based vaccines. Curr. Pharm. Des., 16, 3149–3157. Larsen,J.E.P. et al. (2006) Improved method for predicting linear B-cell epitopes. Immunome Res., 2, 2. LeBien,T.W. and Tedder,T.F. (2008) B lymphocytes: how they develop and function. Blood, 112, 1570–1580. Leinikki,P. et al. (1993) Synthetic peptides as diagnostic tools in virology. Adv. Virus Res., 42, 149–186. Liu,T. et al. (2020) Deep learning methods improve linear B-cell epitope prediction. BioData Min., 13, 1. Loh,W.-Y. (2011) Classification and regression trees. WIREs Data Min. Knowl. Discov., 1, 14– 23. Loh,W.-Y. (2014) Fifty Years of Classification and Regression Trees. Int. Stat. Rev., 82, 329– 348. Lu,S. et al. (2021) The immunodominant and neutralization linear epitopes for SARS-CoV-2. Cell Rep., 34, 108666. Manavalan,B. et al. (2018) iBCE-EL: A New Ensemble Learning Framework for Improved Linear B-Cell Epitope Prediction . Front. Immunol. , 9, 1695. Marshall,J.S. et al. (2018) An introduction to immunology and immunopathology. Allergy, Asthma Clin. Immunol., 14, 49. Mathews,C.K. et al. (2013) Biochemistry 4. ed. Pearson. Mitchell,T.M. and Mitchell,T.M. (1997) Machine learning McGraw-hill New York. Moser,M. and Leo,O. (2010) Key concepts in immunology. Vaccine, 28, C2–C13. Murtagh,F. (1991) Multilayer perceptrons for classification and regression. Neurocomputing, 2, 183–197. El Naqa,I. and Murphy,M.J. (2015) Machine Learning in Radiation Oncology: Theory and Applications. In, El Naqa,I. et al. (eds). Springer International Publishing, Cham, pp. 3– 11. Nilvebrant,J. and Rockberg,J. (2018) An Introduction to Epitope Mapping. Methods Mol. Biol., 1785, 1–10. Noble,W.S. (2006) What is a support vector machine? Nat. Biotechnol., 24, 1565–1567. Novotný,J. et al. (1986) Antigenic determinants in proteins coincide with surface regions accessible to large probes (antibody domains). Proc. Natl. Acad. Sci., 83, 226–230. Ofran,Y. et al. (2008) Automated identification of complementarity determining regions (CDRs) reveals peculiar characteristics of CDRs and B cell epitopes. J. Immunol., 181, 6230–6235. Opuni,K.F.M. et al. (2018) Mass spectrometric epitope mapping. Mass Spectrom. Rev., 37, 229–241. Pisner,D.A. and Schnyer,D.M. (2020) Machine Learning Methods and Applications to Brain Disorders. In, Mechelli,A. and Vieira,S.B.T.-M.L. (eds). Academic Press, pp. 101–121. REFERENCIAS X 94 Ponomarenko,J. V. and Regenmortel,M.H.V. van (2009) B-Cell Epitope Prediction. In, Structural Bioinformatics., p. 1096. Potocnakova,L. et al. (2016) An Introduction to B-Cell Epitope Mapping and In Silico Epitope Prediction. J. Immunol. Res., 2016, 6760830. Raimondi,D. et al. (2019) Exploring the limitations of biophysical propensity scales coupled with machine learning for protein sequence analysis. Sci. Rep., 9, 16932. Ramanathan,B. et al. (2016) Synthetic B-Cell Epitopes Eliciting Cross-Neutralizing Antibodies: Strategies for Future Dengue Vaccine. PLoS One, 11, e0155900–e0155900. Van Regenmortel,M.H.V. (2009) What is a B-cell epitope? In, Schutkowski,M. and Reineke,U. (eds), Methods in Molecular Biology. Humana Press, Totowa, NJ, pp. 3–20. Reth,M. (1989) Antigen receptor tail clue. Nature, 338, 383–384. Roche,P.A. and Furuta,K. (2015) The ins and outs of MHC class II-mediated antigen processing and presentation. Nat. Rev. Immunol., 15, 203–216. Rubinstein,N.D. et al. (2008) Computational characterization of B-cell epitopes. Mol. Immunol., 45, 3477–3489. Rubinstein,N.D. et al. (2009) Epitopia: a web-server for predicting B-cell epitopes. BMC Bioinformatics, 10, 287. Russell,S. and Norvig,P. (2004) Artificial intelligence: a modern approach 2nd ed. Third edition. Upper Saddle River, N.J. : Prentice Hall, [2010] ©2010. Saha,S. et al. (2005) Bcipep: A database of B-cell epitopes. BMC Genomics, 6, 79. Saha,S. and Raghava,G.P.S. (2006) Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins Struct. Funct. Bioinforma., 65, 40–48. Samuel,A.L. (1988) Some studies in machine learning using the game of checkers. II—recent progress. Comput. Games I, 366–400. Sanchez-Trincado,J.L. et al. (2017) Fundamentals and Methods for T- and B-Cell Epitope Prediction. J. Immunol. Res., 2017, 2680160. Sarma,J.V. and Ward,P.A. (2011) The complement system. Cell Tissue Res., 343, 227–235. Schroeder,H.W.J. and Cavacini,L. (2010) Structure and function of immunoglobulins. J. Allergy Clin. Immunol., 125, S41-52. Sela-Culang,I. et al. (2013) The Structural Basis of Antibody-Antigen Recognition . Front. Immunol. , 4. Singh,H. et al. (2013) Improved Method for Linear B-Cell Epitope Prediction Using Antigen’s Primary Sequence. PLoS One, 8, e62216. Sundberg,E.J. (2009) Structural basis of antibody-antigen interactions. Methods Mol. Biol., 524, 23–36. Taud,H. and Mas,J.F. (2018) Geomatic Approaches for Modeling Land Change Scenarios. In, Camacho Olmedo,M.T. et al. (eds). Springer International Publishing, Cham, pp. 451– 455. Thornton,J.M. et al. (1986) Location of ‘continuous’ antigenic determinants in the protruding regions of proteins. EMBO J., 5, 409–413. Treanor,B. (2012) B-cell receptor: from resting state to activate. Immunology, 136, 21–27. REFERENCIAS X 95 Turvey,S.E. and Broide,D.H. (2010) Innate immunity. J. Allergy Clin. Immunol., 125, S24–S32. Vert,J.-P. et al. (2004) A primer on kernel methods. Kernel methods Comput. Biol., 47, 35–70. Vita,R. et al. (2019) The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Res., 47, D339–D343. Vita,R. et al. (2015) The immune epitope database (IEDB) 3.0. Nucleic Acids Res., 43, D405– D412. Voss,W.N. et al. (2021) Prevalent, protective, and convergent IgG recognition of SARS-CoV-2 non-RBD spike epitopes. Science, 372, 1108–1112. Wu,T.T. and Kabat,E.A. (1970) An analysis of the sequences of the variable regions of Bence Jones proteins and myeloma light chains and their implications for antibody complementarity. J. Exp. Med., 132, 211–250. Xie,P. (2013) TRAF molecules in cell signaling and in human diseases. J. Mol. Signal., 8, 7. Yao,B. et al. (2012) SVMTriP: A Method to Predict Antigenic Epitopes Using Support Vector Machine to Integrate Tri-Peptide Similarity and Propensity. PLoS One, 7, e45152. Zhang,Z. (2016) Introduction to machine learning: k-nearest neighbors. Ann. Transl. Med., 4, 218. Zhao,L. and Li,J. (2010) Mining for the antibody-antigen interacting associations that predict the B cell epitopes. BMC Struct. Biol., 10, 1–13. ANEXO I: Currículum Vitae ANEXO I X 99 Álvaro Ras Carmona Nombre: Álvaro Apellidos: Ras Carmona DNI: 70085382N ORCIDID: 0000-0003-1644-6878 ScopusID: 57215771602 Fecha de nacimiento: 14/12/1996 Nacionalidad: Español INFORMACIÓN DE CONTACTO C/ Fernández Caballero Nº9; 28660 Boadilla del Monte; Madrid, España Tlf: +34 636584311 aras@ucm.es EDUCACIÓN Oct 2018 – Sep 2019 Máster Universitario en Análisis de Datos Ómicos (Bioinformática) Universidad de Vic - Universidad Central de Cataluña (España) Calificación: 8,1 Sep 2014 – Jul 2018 Grado en Biotecnología Universidad Francisco de Vitoria (España) Calificación: 7,8 OTRAS TITULACIONES UNIVERSITARIAS OFICIALES Sep 2014 – Jul 2018 Título de Experto en Metodología en Investigación Biotecnológica Universidad Francisco de Vitoria (España) Calificación: 8,3 EXPERIENCIA LABORAL Oct 2019 – Actualidad Investigador pre-doctoral Grupo de Inmunomedicina, Departamento de Inmunología, Facultad de Medicina, Universidad Complutense de Madrid (España) Tema: Predicción de epítopos lineales de linfocitos B (Bioinformática e Inmunología) Abr 2019 – Sep 2019 Estudiante de prácticas: Realización del proyecto final de máster Grupo de Inmunoterapia del cáncer, área de terapias avanzadas, Universidad Francisco de Vitoria (España). Tema: Análisis bioinformático del metiloma y de genes diferencialmente metilados en subtipos de cáncer colorrectal (Metagenómica y Bioestadística) Ene 2018 – Jul 2019 Estudiante de prácticas: Realización del proyecto final de grado Centro de Investigaciones Biológicas Margarita Salas, Consejo superior de Investigaciones científicas (CSIC), Madrid Tema: Establecimiento y optimización del proceso de purificación de TFIIH en Saccharomyces cerevisiae (Biología estructural) ANEXO I X 100 ESTANCIA INTERNACIONAL Grupo de investigación Computational Modeling in Systems Biomedicine Centro Dipartimento di Scienze del Farmaco e della Salute, Universidad de Catania, Catania, Italia Supervisor Prof. Francesco Pappalardo Fechas 19 Septiembre – 1 Diciembre Financiación (Beca) Estancia financiada por la Federación Europea de Sociedades Inmunológicas (European Federation of Immunological Societies) e Immunology Letters PARTICIPACIÓN EN PROYECTOS DE INVESTIGACIÓN 2020 – 2022 “La inmunidad cruzada de formulaciones bacterianas frente a virus que causan enfermedades respiratorias recurrentes”. INMUNOTEK, S.L. (337- 2020). Miembro del equipo de trabajo. 2020 – 2022 “Verification of the accuracy of existing in silico T cell epitote prediction algorythms vs. the experimental data that CTL generates”. CELLULAR TECHNOLOGY LIMITED (282-2020). REF: 4157895. Miembro del equipo de trabajo: Contratado. 2020 – 2021 “e-FACS: a platform for virtual realization of flow cytometry”. Proyectos Innova-Docencia 2020-21 Universidad complutense de Madrid. REF: 243. Miembro del equipo de trabajo. CONOCIMIENTOS Bioinformáticos - Modelado proteico (Modeller y Swiss-Model) - Realización de Blast (local y web) - Realización de alineamiento de dos secuencias (local y global), y alineamiento múltiple. - Análisis de estudios de asociación genéticos (“Single assiciation analysis” y “GWAS”) - Análisis de datos epigenéticos (librería minfi) - Análisis de datos de microarrays de expresión y de RNA-seq. - Análisis de datos metagenómicos (Mothur y análisis con R) - Integración de datos provenientes de diversas ómicas. - Visualización de estructuras (Pymol). - Manejo y obtención de información con bases de datos. Informáticos - Análisis de datos con R (nivel alto). - Programación en Python (nivel alto): Automatización (selenium), desarrollo de páginas web (tecnología CGI o Flask), manejo de tablas de datos (Pandas), parseo de archivos HTML (BeautifulSoup), Python dirigido a problemas biológicos (Biopython), etc. - Aprendizaje automático: Manejo del software WEKA y utilización de Scikit Learn y Tensorflow. - Manejo de bases de datos tipo SQL (programación en Sql) - Desarrollo (programación en HTML/CSS, manejo de Kompozer y tecnología CGI o Flask) y administración (conocimientos básicos de Apache) de páginas webs - Manejo de GNU/Linux y conocimientos básicos de programación en bash. ANEXO I X 101 - Manejo de las herramientas Git, Github, Docker y DockerHub. - Manejo de office (Word, Powepoint y Excel) IDIOMAS Español Nativo Inglés B2: Título oficial expedido por la Universidad de Cambridge: First Certificate Exam (FCE). BECAS Y CONTRATOS CONCEDIDOS 2022 Adjudicación de la beca para estancias breves: EFIS-Immunology Letters Short-Term Fellowship - Organismo financiador: Federación Europea de Sociedades Inmunológica e Immunology Letters - Periodo cubierto por la beca: 19/09/2022 – 1/12/2022 2022 Adjudicación de contrato pre-doctoral de personal investigador en formación. Convocatoria 2020 (Código de la plaza: CT82/20-CT83/20) - Duración del contrato: 01/06/2022 – 31/05/2026 2022 Adjudicación de plaza de “Personal Investigador de Proyectos (PAI-I). UCM” (contratado) (Código de la plaza: PAII87/20-15/2020-27). - Duración del contrato: 15/01/2021 – 31/12/2021 - Extendido hasta: 31/05/2022 2014 - 2017 Adjudicación durante los cursos académicos correspondientes de las becas excelencia académica otorgada por la Universidad Francisco de Vitoria en honor a las calificaciones obtenidas. EXPERIENCIA ACADÉMICA/DOCENTE 2022 – 2023 Docencia en grado de Medicina. Universidad Complutense de Madrid (UCM), Facultad de Medicina. Asignatura de Inmunología. 12 horas 2021 – 2022 Docencia en grado de Medicina. Universidad Complutense de Madrid (UCM), Facultad de Medicina. Asignatura de Inmunología. 24 horas 2020 – 2021 Docencia en grado de Medicina. Universidad Complutense de Madrid (UCM), Facultad de Medicina. Asignatura de Inmunología. 15 horas PUBLICACIONES Artículos - Ras-Carmona, A., Reche, PA. 2023. Analysis of virus-specific B cell epitopes reveals extensive antigen processing prior to recognition. bioRxiv. doi: https://doi.org/10.1101/2023.12.15.571861 (Preprint). - Bodas-Pinedo, A., Lafuente, E. M., Pelaez-Prestel, H. F., Ras-Carmona, A., Subiza, J. L., & Reche, P. A. 2023. Combining different bacteria in vaccine formulations enhances the chance for antiviral cross-reactive immunity: a detailed in silico analysis for influenza A virus. Frontiers in immunology. https://doi.org/10.3389/fimmu.2023.1235053 - Ras-Carmona, A., Lehmann, A. A., Lehmann, P. V., & Reche, P. A. 2022. Prediction of B cell epitopes in proteins using a novel sequence similarity-based method. Scientific reports. https://doi.org/10.1038/s41598-022-18021-1 - Ballesteros-Sanabria L*, Pelaez-Prestel H.F*, Ras-Carmona A*, Reche, PA. 2022. Resilience of Spike-Specific Immunity Induced by COVID-19 Vaccines against SARS- ANEXO I X 102 CoV-2 Variants. Biomedicines. https://doi.org/10.3390/biomedicines10050996. *Equal contribution - Ras-Carmona A, Pelaez-Prestel H.F, Lafuente E.M, Reche, P.A. 2021. BCEPS: A Web Server to Predict Linear B Cell Epitopes with Enhanced Immunogenicity and Cross-Reactivity. Cells. https://doi.org/10.3390/cells10102744 - Ras-Carmona A, Gomez-Perosanz M, Reche PA. 2021. Prediction of unconventional protein secretion by exosomes. BMC Bioinformatics. https://doi.org/10.1007/978-1- 0716-0389-5_23. - Gomez-Perosanz M*, Ras-Carmona A*, Lafuente EM, Reche PA. 2020. Identification of CD8+ T cell epitopes
through proteasome cleavage site predictions. BMC Bioinformatics. https://doi.org/10.1186/s12859-020-03782-1. *Equal contribution Capítulos de libros - Gomez-Perosanz M, Ras-Carmona A, Reche PA. 2020. Immunoinformatics. In: Namrata Tomar (ed.). Methods in Molecular Biology, vol. 2131. https://doi.org/10.1007/978-1-0716-0389-5_23. Workshop papers - Workshop paper in “2023 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)”. Avisa Maleki, Alvaro Ras-Carmona, Elena Crispino, Valentina Di Salvatore, Giulia Russo, Pedro Antonio Reche and Francesco Pappalardo. Genetic Algorithm-Based Prediction of Emerging SARS-CoV-2 Variants: A Computational Biology Perspective. Istanbul, Turkiye. - Workshop paper in “2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)”. Avisa Maleki*, Alvaro Ras-Carmona*, Valentina Di Salvatore, Giulia Russo, Elena Crispino and Francesco Pappalardo. Genetic algorithm application for the prediction of potential SARS-CoV-2 new variant of concern. Las Vegas NV, USA. *Equal contribution - Workshop paper in “2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)”.Gomez-Perosanz M, Ras-Carmona A, and Reche PA. Prediction of proteasomal cleavage sites using PCPS. San Diego CA, USA. CONGRESOS 2023 Participación como ponente en actividades celebradas durante el “II Congreso San Alberto Magno: Afrontando Retos Desde La Ciencia” 2023 Poster en el “II Congreso San Alberto Magno: Afrontando Retos Desde La Ciencia”. Álvaro Ras-Carmona, Hector F. Pelaez-Prestel, Esther M. Lafuente and Pedro A. Reche. Inteligencia artificial e inmunología: Desarrollo de un modelo de aprendizaje automático para la predicción de epítopos lineales de linfocitos B 2023 Poster en las “XI Jornadas Científicas de la Sociedad de Inmunología de la Comunidad de Madrid”. Álvaro Ras-Carmona, Alexander A. Lehmann, Paul V. Lehmann, Pedro A. Reche. BepiBlast: Un servidor web para predecir epítopos lineales mediante un nuevo método basado en similitud de secuencias. 2023 Comunicación oral en el “44 Congreso de la sociedad de la Sociedad Española de Inmunología”. Álvaro Ras-Carmona, Alexander A. Lehmann, Paul V. Lehmann, Pedro A. Reche. Desarrollo de un nuevo método para la predicción de epítopos lineales de linfocitos B basado en la similitud de secuencias. 2022 Poster en las “X Jornadas Científicas de la Sociedad de Inmunología de la Comunidad de Madrid”. Álvaro Ras-Carmona, Hector F. Pelaez-Prestel, Esther M. Lafuente and Pedro A. Reche. BCEPS: Hacia una predicción de epítopos lineales de linfocitos B con un alto grado de inmunogenicidad y reactividad cruzada ANEXO I X 103 2022 Poster en las “X Jornadas Científicas de la Sociedad de Inmunología de la Comunidad de Madrid”. Laura Ballesteros-Sanabria, Hector F. Pelaez-Prestel, Álvaro Ras-Carmona, Pedro A. Reche. Resilience of Spike-Specific Immunity Induced by COVID-19 Vaccines Against SARS-CoV-2 Variants. 2021 Póster en la “5ª Convocatoria EDUCM PhDay Complutense”. Álvaro Ras- Carmona, Hector F. Pelaez-Prestel, Esther M. Lafuente and Pedro A. Reche. BCEPS: Hacia una predicción de epítopos lineales de linfocitos B con un alto grado de inmunogenicidad y reactividad cruzada. Póster premiado 2021 Póster en “6th European Congress of Immunology”. Álvaro Ras-Carmona, Marta Gomez-Perosanz, and Pedro A. Reche. ExoPred: The first method for predicting vertebrata secreted proteins via exosome using random forest algorithm. 2021 Póster en el “42 Congreso de la sociedad de la Sociedad Española de Inmunología”. Álvaro Ras-Carmona, Marta Gomez-Perosanz, and Pedro A. Reche. ExoPred: A web-based tool for predicting proteins secreted by exosomes using Random Forests. 2020 Póster en la “4ª Convocatoria EDUCM PhDay Complutense”. Álvaro Ras- Carmona, Marta Gomez-Perosanz, and Pedro A. Reche. Prediction of vertebrata secreted proteins via exosome by the application of random forest algorithm. ANEXO II: Otras publicaciones generadas durante la elaboración de esta tesis • Bodas-Pinedo, A., Lafuente, E. M., Pelaez-Prestel, H. F., Ras-Carmona, A., Subiza, J. L., & Reche, P. A. 2023. Combining different bacteria in vaccine formulations enhances the chance for antiviral cross-reactive immunity: a detailed in silico analysis for influenza A virus. Frontiers in immunology. https://doi.org/10.3389/fimmu.2023.1235053 • Ballesteros-Sanabria L*, Pelaez-Prestel H.F*, Ras-Carmona A*, Reche, PA. 2022. Resilience of Spike-Specific Immunity Induced by COVID-19 Vaccines against SARS- CoV-2 Variants. Biomedicines. https://doi.org/10.3390/biomedicines10050996. *Equal contribution • Ras-Carmona A, Gomez-Perosanz M, Reche PA. 2021. Prediction of unconventional protein secretion by exosomes. BMC Bioinformatics. https://doi.org/10.1007/978-1- 0716-0389-5_23. • Gomez-Perosanz M*, Ras-Carmona A*, Lafuente EM, Reche PA. 2020. Identification of CD8+ T cell epitopes
through proteasome cleavage site predictions. BMC Bioinformatics. https://doi.org/10.1186/s12859-020-03782-1. *Equal contribution • Gomez-Perosanz M, Ras-Carmona A, Reche PA. 2020. Immunoinformatics. In: Namrata Tomar (ed.). Methods in Molecular Biology, vol. 2131. https://doi.org/10.1007/978-1-0716-0389-5_23. ANEXO II X 107 ANEXO II X 108 ANEXO II X 109 ANEXO II X 110 ANEXO II X 111 ANEXO II X 112 ANEXO II X 113 ANEXO II X 114 ANEXO II X 115 ANEXO II X 116 ANEXO II X 117 ANEXO II X 118 ANEXO II X 119 ANEXO II X 120 ANEXO II X 121 ANEXO II X 122 ANEXO II X 123 ANEXO II X 124 ANEXO II X 125 ANEXO II X 126 ANEXO II X 127 ANEXO II X 128 ANEXO II X 129 ANEXO II X 130 ANEXO II X 131 ANEXO II X 132 ANEXO II X 133 ANEXO II X 134 ANEXO II X 135 ANEXO II X 136 ANEXO II X 137 ANEXO II X 138 ANEXO II X 139 ANEXO II X 140 ANEXO II X 141 ANEXO II X 142 ANEXO II X 143 ANEXO II X 144 ANEXO II X 145 ANEXO II X 146 ANEXO II X 147 ANEXO II X 149 ANEXO II X 150 ANEXO II X 151 ANEXO II X 152 ANEXO II X 153 ANEXO II X 154 ANEXO II X 155 ANEXO II X 156 ANEXO II X 157 ANEXO II X 158 ANEXO II X 159 ANEXO II X 161 ANEXO II X 162 ANEXO II X 163 ANEXO II X 164 ANEXO II X 165 ANEXO II X 166 ANEXO II X 167 ANEXO II X 168 ANEXO III: Workshop papers generados durante la elaboración de esta tesis • Workshop paper in “2023 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)”. Avisa Maleki, Alvaro Ras-Carmona, Elena Crispino, Valentina Di Salvatore, Giulia Russo, Pedro Antonio Reche and Francesco Pappalardo. Genetic Algorithm-Based Prediction of Emerging SARS-CoV-2 Variants: A Computational Biology Perspective. Istanbul, Turkiye. • Workshop paper in “2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)”. Avisa Maleki*, Alvaro Ras-Carmona*, Valentina Di Salvatore, Giulia Russo, Elena Crispino and Francesco Pappalardo. Genetic algorithm application for the prediction of potential SARS-CoV-2 new variant of concern. Las Vegas NV, USA. *Equal contribution • Workshop paper in “2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)”.Gomez-Perosanz M, Ras-Carmona A, and Reche PA. Prediction of proteasomal cleavage sites using PCPS. San Diego CA, USA. ANEXO III X 171 ANEXO III X 172 ANEXO III X 173 ANEXO III X 174 ANEXO III X 175 ANEXO III X 176 ANEXO III X 177 ANEXO III X 179 ANEXO III X 180 ANEXO III X 181 ANEXO III X 182 TESIS DOCTORAL Álvaro Ras Carmona Madrid 2024 Tesis Álvaro Ras Carmona PORTADA ÍNDICE ABREVIATURAS RESUMEN SUMMARY INTRODUCCIÓN OBJETIVOS MÉTODOS CAPÍTULO I. BCEPS: A WEB SERVER TO PREDICT LINEAR B CELL EPITOPES WITH ENHANCED IMMUNOGENICITY AND CROSS-REACTIVITY CAPÍTULO II. PREDICTION OF B CELL EPITOPES IN PROTEINS USING A NOVEL SEQUENCE SIMILARITY-BASED METHOD DISCUSIÓN CONCLUSIONES REFERENCIAS ANEXO I: CURRÍCULUM VITAE ANEXO II: OTRAS PUBLICACIONES GENERADAS DURANTE LA ELABORACIÓN DE ESTA TESIS ANEXO III: WOKSHOP PAPERS GENERADOS DURANTE LA ELABORACIÓN DE ESTA TESIS