UNIVERSIDAD COMPLUTENSE DE MADRID 
FACULTAD DE MEDICINA 

 
TESIS DOCTORAL 
 

Desarrollo de herramientas bioinformáticas para la 
predicción de epítopos lineales de linfocitos B 

 
MEMORIA PARA OPTAR AL GRADO DE DOCTOR 
 

PRESENTADA POR 
 

Álvaro Ras Carmona 
 
 
DIRIGIDA POR 
 

Pedro Antonio Reche Gallardo 
Paul V. Lehmann 

 
Madrid 
 
 
© Álvaro Ras Carmona, 2024 


UNIVERSIDAD COMPLUTENSE DE 
MADRID 

FACULTAD DE MEDICINA. 
 

TESIS DOCTORAL 

 
DESARROLLO DE HERRAMIENTAS BIOINFORMÁTICAS PARA LA 

PREDICCIÓN DE EPÍTOPOS LINEALES DE LINFOCITOS B 
 
 
MEMORIA PARA OPTAR AL GRADO DE DOCTOR. 
 

PRESENTADA POR 
 
 
Álvaro Ras Carmona 
 
 
DIRECTOR 

 
Pedro Antonio Reche Gallardo 

Paul V. Lehmann 
 

UNIVERSIDAD COMPLUTENSE DE MADRID 
 

FACULTAD DE MEDICINA. 
 

Programa de Investigación Biomédica 

 
TESIS DOCTORAL 

 
DESARROLLO DE HERRAMIENTAS 

BIOINFORMÁTICAS PARA LA 
PREDICCIÓN DE EPÍTOPOS LINEALES DE 

LINFOCITOS B 
 
 
MEMORIA PARA OPTAR AL GRADO DE DOCTOR. 
 

PRESENTADA POR 
 
 
Álvaro Ras Carmona 
 
 
DIRECTORES: 

 
Pedro Antonio Reche Gallardo 

Paul V. Lehmann 
 

Madrid, 2024 

 
Esta tesis doctoral corresponde a un compendio de trabajos previamente publicados:  

 
Artículo 1: BCEPS: A Web Server to Predict Linear B Cell Epitopes with 

Enhanced Immunogenicity and Cross-Reactivity 

Autores:  Alvaro Ras-Carmona1, Hector F. Pelaez-Prestel1 , Esther M. Lafuente1 & 

Pedro A. Reche1 

Afiliación: 1Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, 

Facultad de Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 

28040 Madrid, España 

Publicado en Cells 

DOI: 10.3390/cells10102744 

 
Artículo 2: Prediction of B cell epitopes in proteins using a novel sequence 

similarity-based method 	

Autores: Alvaro Ras-Carmona1, Alexander A. Lehmann1,2, Paul V. Lehmann2 & Pedro 

A. Reche1 

Afiliación: 1Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, 

Facultad de Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 

28040 Madrid, España. 2Departamento de Investigación y Desarrollo, Cellular 

Technology Limited (CTL), Shaker Heights, OH 44122, USA  

Publicado en Scientific Reports 

DOI: 10.1038/s41598-022-18021-1 

 
A continuación se muestra la aprobación de la Comisión de Doctorado para poder 

realizar esta Tesis Doctoral en formato publicaciones. También se incluyen las autorizaciones 

del resto de autores en la que dan su consentimiento para que los artículos formen parte de esta 

Tesis Doctoral. 

 
AGRADECIMIENTOS 
 
 La vida son etapas y aquí finaliza una de ellas. Ha sido un camino costoso, pero al final, 

con sudor, sangre y lágrimas parece que se consiguió. Me gustaría empezar haciendo un 

agradecimiento general, dando las gracias a todos y todas los que habéis estado a mi lado 

apoyándome durante esta travesía. 

 
 Pasando a los a los agradecimientos particulares, me gustaría comenzar por mi director 

de tesis y tutor el Dr. Pedro A. Reche. Gracias por apoyarme y apostar por mí. También 

agradecer a mi co-director el Dr. Paul V. Lehmann, que aunque se encuentre al otro lado del 

charco, decidió acompañarnos en este aventura. Aprovechando que parece que me pasado a los 

agradecimientos internacionales, quería agradecer al Dr. Francesco Pappalardo y a la Dra. 

Giulia Russo por haberme acogido y aceptado con los brazos abiertos para que pueda haber 

hecho la estancia. Agradecer también a Avisa, Elena y Gulia por haberme hecho disfrutar de mi 

periodo lejos de casa un montón. Sin vosotras y sin vuestras historias románticas (y sí, lo digo 

por ti Elena) no hubiera sido lo mismo. Grazie Mille. 

 
 Me gustaría dar las gracias a la gente del departamento, tanto a los que ya se fueron 

como los que siguen. Si fuera por mí os nombraría a todos, pero si no esta Tesis ocuparía 

cincuenta páginas más. Lo que sí me gustaría centrarme y mencionar especialmente a los que, 

junto a mí, hemos luchado en el PAR team: Tara, Hector, Sara y Fernando. Tampoco olvidar 

con los que comencé el camino y que ya son incluso doctores: Jose Luís y Marta (que espero 

que ni tú ni tu cabeza me guardéis rencor). A todos vosotros, que sé que a veces, y solo a veces, 

compartir despacho conmigo no es fácil, siempre os llevaré en mi corazón. 

 
 Fuera de estas paredes, agradecer a mis amigos. Por una parte agradecer a mi capitán 

favorito, el señor Luís Moreno, y a mí robótico de confianza, el señor Adrián Lendinez (que en 

nada también será doctor), todo el apoyo que me habéis dado. Ya son muchos años los que 

llevamos juntos (muchos, pero muchos) y espero que sean muchos más. También agradecer a 

mis amigos de la universidad, que aunque ya no nos veamos veamos tanto, siembre nos quedará 

esa penúltima cerveza por tomarnos. Una ligera mención especial al consejo de sabios, por 

todos los buenos momentos, que hemos pasado que no los cambiaría por nada del  mundo,y por 

todas las anécdotas que darían para escribir más de un libro. Hacer una especial mención al Sr. 

Jordi, que si no se me pone celoso.  

 
Aunque sea un cliché, agradecer a mi familia. Especialmente, agradecer a mi madre y a 

mi padre, Lorena y Juan José, por haber estado ahí todo este tiempo y por haberme apoyado. Sé 

que no ha sido fácil pero ya está, por fin se ha acabado. 

 
 Por último, pero no menos importante, mencionar a una personita muy especial en mi 

vida. Ya sabes que hablo de ti, Bea. Creo que ponga lo que ponga no te va a sorprender nada. 

Ya sabes que eres un pilar fundamental en mi vida y que te quiero muchísimo. Gracias por estar 

ahí día sí y día también, y gracias por haberme apoyado, sobre todo en los malos momentos. Y 

ya sabes, como dice la leyenda, nos une un hilo rojo. 

 
Muchas gracias a todos 

 
El futuro doctor (si todo va bien) Álvaro 

 
ÍNDICE 


ÍNDICE       X 

ABREVIATURAS 1 

RESUMEN 5 

SUMMARY 9 

INTRODUCCIÓN 13 
1. Anticuerpos y antígenos 16 

1.1 Estructura del anticuerpo 17 
1.2 Reconocimiento del antígeno: el epítopo 19 

2. Generación de anticuerpos 21 
2.1 El BCR y la transducción de señal 21 
2.2 Activación del linfocito B 23 

3. Identificación in silico de epítopos B lineales 25 

27 OBJETIVOS 

MÉTODOS 31 
1. Bases de datos. 33 
2. Métodos computacionales 33 

2.1. Aprendizaje automático 33 
2.1.1 Máquina de vectores de soporte (Support vector machine) 35 
2.1.2 Bosques aleatorios (Random forests) 36 
2.1.3 Redes neuronales artificiales 37 
2.1.4 k-vecinos más cercanos 40 

2.2 BLAST 41 
3. Desarrollo y evaluación de los modelos predictivos 42 

3.1 Abordaje general 42 
3.2 Métodos de evaluación 42 

3.2.1 Validación cruzada 42 
3.2.2 Evaluación independiente 43 

3.3 Medidas de rendimiento predictivo 44 
CAPÍTULO I: BCEPS: A Web Server to Predict Linear B Cell Epitopes with Enhanced 
Immunogenicity and Cross-Reactivity  47 

CAPÍTULO II: Prediction of B cell epitopes in proteins using a novel sequence 
similarity-based method 65 

DISCUSIÓN 77 
1. BCEPS 80 
2. BepiBlast 83 

85 

89 

97 

105 

CONCLUSIONES 

REFERENCIAS 

ANEXO I: Currículum Vitae 

ANEXO II: Otras publicaciones generadas durante la elaboración de esta tesis 

ANEXO III: Workshop papers generados durante la elaboración de esta tesis 169 


ABREVIATURAS 
 

ABREVIATURAS                                                                                                           X 

 3 

 
ACC 
 

Exactitud 
 

ACN 
 

Accesion number 
 

ANN 
 

Red neuronal artificial 
 

APC 
 

Célula presentadora de antígenos 
 

BCEPS 
 

B cell epitope prediction software 
 

BCR 
 

Receptor del linfocito B 
 

BLAST 
 

Basic local alignment search tool 
 

CDR 
 

Regiones determinantes de la complementariedad 
 

ELISA 
 

Ensayo por inmunoabsorción ligado a enzimas 
 

FN 
 

Falso negativo 
 

FP 
 

Falso positivo 
 

HLA 
 

Antígenos leucocitarios humanos 
 

IEDB 
 

Immune epitope database 
 

Ig 
 

Inmunoglobulina 
 

ITAM 
 

Immunoreceptor tyrosine-based activation motifs 
 

KNN 
 

K-Nearest neighbor 
 

MCC 
 

Coeficiente de correlación de Mathews 
 

MHC 
 

Complejo mayor de histocompatibilidad 
 

mIg 
 

Inmunoglobulina de membrana 
 

PDB 
 

Protein data bank 
 

RBF 
 

Radial basis function 
 

RE 
 

Retículo endoplasmático 

RF 
 

Random forest 
 

SE 
 

Sensibilidad 
 

SH2 
 

Src homology 2 

SP 
 

Especificidad 

SVM 
 

Support vector machine 


ABREVIATURAS                                                                                                           X 

 4 

TCR 
 

Receptor de linfocitos T 
 

TN 
 

Verdadero negativo 
 

TP 
 

Verdadero positivo 
 

TRAF 
 

Factores asociados al receptor para el TNF 
 

WEKA 
 

Waikato environment for knowledge analysis 
 

RESUMEN 


RESUMEN                                                                                                                       X 

 7 

TÍTULO 

 
Desarrollo de herramientas bioinformáticas para la predicción de epítopos lineales de 

linfocitos B. 

 
INTRODUCCIÓN 

 
 Los epítopos de linfocitos B son las regiones específicas del antígeno reconocidas por el 

receptor de membrana del linfocito B, conocido como BCR, o por un anticuerpo. Los epítopos 

de linfocitos B (epítopos B) de proteínas pueden clasificarse en conformacionales y lineales, 

siendo estos últimos de gran utilidad práctica. Esto se debe a que pueden utilizarse para sustituir 

a los antígenos en la producción de anticuerpos con distintas utilidades en investigación y 

biotecnología, incluyendo el desarrollo de vacunas. Tradicionalmente, la identificación de los 

epítopos B lineales requiere de la síntesis de péptidos solapantes que abarquen toda la longitud 

de la proteína, seguida de ensayos experimentales sobre cada uno. Sin embargo, esta 

metodología es cara y lenta, por lo que el desarrollo de enfoques computacionales alternativos 

para la predicción de epítopos B lineales se vuelve clave para la disminución de la carga 

experimental asociada a la identificación de esta clase de epítopos. Por lo tanto, en esta Tesis 

nos hemos propuesto desarrollar nuevas herramientas para la predicción in silico de epítopos B 

lineales. 

 
RESULTADOS 

 
 Hemos desarrollado BCEPS y BepiBlast, dos servidores webs para la predicción de 

epítopos B lineales. Por un lado, BCEPS implementa tres modelos de aprendizaje automático, 

todos ellos entrenados con 555 epítopos B conformacionales linealizados extraídos de 

complejos estructurales de antígenos-anticuerpos y 555 fragmentos aleatorios procedentes de las 

proteínas antigénicas. El modelo basado en máquina de vectores de soporte (SVM) fue aquél 

con el mejor rendimiento predictivo, alcanzando una exactitud en la validación cruzada del 

75.38 % ± 5.02. Además, dicho modelo alcanzó en el test independiente una exactitud del  

67.05 %, superando a las otras herramientas relacionadas. BCEPS proporciona un output 

interactivo donde los epítopos predichos pueden ser clasificados según su flexibilidad, 

accesibilidad e hidrofilicidad. También pueden ser filtrados en función de su localización en 

ectodominios de proteínas de membrana y de su posesión de sitios de N-glicosilación. La 

selección de epítopos lineales que permite BCEPS posibilita la identificación de epítopos de 

anticuerpos con actividad neutralizante, como mostramos tras ejemplificar el uso de nuestra 

herramienta con la proteína Spike de SARS-CoV-2. 


RESUMEN                                                                                                                       X 

 8 

 
 Por otro lado, BepiBlast implementa un método novedoso para la predicción de 

epítopos B lineales basado en similitud de secuencia. Este método se fundamenta en la 

búsqueda de secuencias peptídicas que produzcan hits sin gaps con una identidad ≥ 80 % y una 

longitud ≥ 8 tras realizar un BLAST contra una base de datos compuesta por 62730 secuencias 

conocidas de epítopos B lineales. La capacidad predictiva de dicho método fue evaluada en la 

validación cruzada utilizando, además, otras 62730 secuencias de péptidos verificados 

experimentalmente como no epítopos B. De igual manera, fue evaluado con un test 

independiente en el que se incluyó 503 epítopos B lineales que no fueron utilizados en la 

construcción de la base de datos. Los valores de exactitud alcanzados en cada uno de las 

evaluaciones (validación cruzada y test independiente) fue de 72.54 % ± 0.27 y 74.85 %, 

respectivamente. Además, al compararlo con otras herramientas relacionadas, se observó que 

nuestro método posee un mejor rendimiento predictivo. El output de BepiBlast, además de 

incluir los resultados proporcionados por este método basado en similitud de secuencia, 

incorpora información sobre la accesibilidad y flexibilidad de cada uno de los epítopos B 

predichos.  

 
CONCLUSIONES 

 
 Hemos desarrollado dos servidores webs gratuitos y fáciles de usar: BCEPS 

(http://imbio.med.ucm.es/bceps/) y BepiBlast (http://imath.med.ucm.es/bepiblast/). En ambos 

hemos implementado una serie de modelos predictivos con los que obtuvimos buenos resultados 

tanto en la validación cruzada como en el test independiente y que son mejores que aquellos 

implementados en herramientas relacionadas. Todos ellos, aparte de suministrar la predicciones 

correspondientes, proporcionan información adicional como la flexibilidad y accesibilidad de 

los epítopos B predichos. 

 
SUMMARY 


SUMMARY                                                                                                                      X 

 11 

TITLE 

 
 Development of bioinformatics tools for the prediction of linear B cell epitopes. 

 
INTRODUCTION 

 
 B cell epitopes are the antigen specific regions recognized by the B cell receptor, known 

as BCR, or by an antibody. Protein B cell epitopes can be classified into conformational and 

linear, the latter being of great practical use. This is due to the fact that they can be used to 

replace the antigens in the production of antibodies with different uses in research and 

biotechnology, including vaccine development. Traditionally, the identification of the linear B 

epitopes requires the synthesis of overlapping peptides spanning the entire length of the protein, 

followed by experimental assays on each. However, this methodology is expensive and time-

consuming, so the development of alternative computational approaches for linear B epitope 

prediction becomes key to decreasing the experimental burden associated with the identification 

of this class of epitopes. Therefore, in this Thesis we have set out to develop new tools for in 

silico prediction of linear B cell epitopes. 

 
RESULTS 

 
 We developed BCEPS y BepiBlast, two web servers for the prediction of linear B cell 

epitopes. On the one hand, BCEPS implements three machine learning models, all them trained 

on 555 linearized discontinuous B cell epitopes extracted from antibody-antigen structural 

complexes and on 555 random fragments from the antigenic proteins. The model based on 

support vector machine (SVM) was the one with the best predictive performance, reaching an 

accuracy on cross-validation of 75.38 % ± 5.02. In addition, such model reached in the 

independent test an accuracy of 67.05 %, overpassing the other related tools. BCEPS provides 

an interactive output where the predicted epitopes can be ranked according to their flexibility, 

accessibility and hydrophilicity. As well as they can be filtered according to their localization in 

ectodomains of membrane proteins and their possession of N-glycosylation sites. The selection 

of linear epitopes allowed by BCEPS enables the identification of epitopes identify by 

antibodies with neutralizing activity, as we show after exemplifying the use of our tool with the 

SARS-CoV-2 Spike protein. 

 
On the other hand, BepiBlast implements a novel method for the prediction of linear B 

cell epitopes based on sequence similarity. This method relies on the search of peptide 

sequences that produce ungapped hits with identity ≥ 80% and length ≥ 8 after performing a 


SUMMARY                                                                                                                      X 

 12 

BLAST against a database composed of 62730 known linear B cell epitope sequences. The 

method predictive ability was evaluated in cross-validation, using also other 62730 peptide 

sequences experimentally verify as non-B cell epitopes, and in independent test including 503 

liner B cell epitopes that were not used in the BLAST database construction. The accuracy 

values reached in each evaluation, cross-validation and independent test,s were of 72.54 % ± 

0.27 y 74.85 %, respectively. In addition, when compared to other related tools, our method was 

found to have better predictive performance. The BepiBlast output, as well as the results 

provided by this sequence similarity-based method, it includes information about the 

accessibility and flexibility of each predicted epitope. 

 
CONCLUSIONS 

 
We developed two free and easy-to-use web servers: BCEPS 

(http://imbio.med.ucm.es/bceps/) and BepiBlast (http://imath.med.ucm.es/bepiblast/). In both 

we implemented a set of predictive models with which we reached good results both in cross-

validation and in independent tests, better than those models implemented in related tools. All 

of them, besides providing the corresponding predictions, provide additional data such as the 

flexibility and accessibility of the predicted epitopes. 

 
INTRODUCCIÓN 


INTRODUCCIÓN                                                                                                            X 

 15 

El término inmunidad hace referencia a la protección frente a una enfermedad, 

específicamente frente a una enfermedad infecciosa. Todos los tejidos, células y moléculas 

involucradas en tal defensa constituyen el sistema inmunitario. Dichos elementos darán lugar a 

una respuesta coordinada denominada respuesta inmunitaria. Se pueden distinguir dos tipos de 

inmunidad: Inmunidad innata e inmunidad adaptativa, también conocida como inmunidad 

específica o adquirida. 

 
 La inmunidad innata está presente en la mayor parte de los organismos y permite 

eliminar patógenos, de manera rápida e inespecífica, sin necesidad de exposición previa. Su 

estrategia se basa en el reconocimiento de patrones moleculares altamente conservados, 

comunes a un grupo o familia entera de patógenos (Akira et al., 2006; Kumar et al., 2009). Esta 

inmunidad se compone de barreras físicas como la piel, de componentes humorales como el 

sistema del complemento y de componentes celulares, incluyendo entre otros, a macrófagos, 

células dendríticas y mastocitos (Turvey and Broide, 2010). Con todo ello, la inmunidad innata 

constituye la primera línea de defensa existente ante una infección, siendo esencial en las 

primeras horas o días. Sin embargo, a pesar de la inmediatez de este tipo de repuesta, no 

proporciona una defensa a largo plazo. 

 
 Al contrario que la inmunidad innata, la inmunidad adaptativa se caracteriza por la 

generación de memoria inmunológica, es decir, por ser responsable de proporcionar inmunidad 

a largo plazo. La exposición del sistema inmunitario a un patógeno extraño favorece su 

capacidad para volver a responder ante una reinfección del mismo. Dichas respuestas futuras, 

conocidas como respuestas inmunitarias secundarias, suelen ser más rápidas, de mayor 

magnitud y más amplias que aquellas derivadas de una primera exposición (Abbas et al., 2018). 

Sin embargo, la generación de esta memoria inmunológica no es la única característica que 

define a la inmunidad adaptativa. Dicha inmunidad también se caracteriza por su alta 

especificidad, es decir, por ser capaz de eliminar agentes patogénicos concretos o células 

infectadas (Marshall et al., 2018). La inmunidad adaptativa también se caracteriza por poseer 

tolerancia, distinguiendo entre lo ajeno y lo propio. A pesar de las diferencias descritas, existe 

una gran sinergia entre la inmunidad innata y adaptiva. Así la inducción de la inmunidad 

adaptiva requiere de la activación previa de la inmunidad innata y, a su vez, la inmunidad 

adaptiva aumenta la capacidad efectora de la inmunidad innata (Bonilla and Oettgen, 2010).  

 
 Las células responsables de la inmunidad adaptativa son los linfocitos B y los linfocitos 

T. Los linfocitos T median la inmunidad adaptiva celular e incluyen a los linfocitos citotóxicos 

o CD8+ y a los linfocitos cooperadores o CD4+. Por una parte, los linfocitos citotóxicos 

identifican las células infectadas para posteriormente lisarlas, mientras que, por otra parte, los 


INTRODUCCIÓN                                                                                                            X 

 16 

linfocitos cooperadores se encargan de ayudar a que tanto los linfocitos T citotóxicos como los 

linfocitos B y fagocitos funcionen correctamente, coordinando y regulando la respuesta 

inmunitaria. Tanto los linfocitos B como los T, reconocen un gran número de sustancias, tanto 

proteicas como no proteicas, llamadas antígenos. Los linfocitos B y T no reconocen el antígeno 

en su totalidad, si no que distinguen una parte específica del mismo denominada epítopo. En 

caso de los linfocitos T, el reconocimiento del epítopo (epítopo T), requiere la presentación del 

antígeno por moléculas del complejo mayor de histocompatibilidad. Dichas moléculas se 

encuentran localizadas en la superficie de las células presentadoras de antígenos (APC), entre 

las que se incluyen células del sistema inmune innato como las células dendríticas y los 

macrófagos (den Haan et al., 2014; Hivroz et al., 2012).   

 
Los linfocitos B son responsables de la inmunidad adaptativa humoral, mediante la 

producción de anticuerpos. Los linfocitos B se originan a partir de células madres 

hematopoyéticas pluripotentes que generan precursores linfáticos comunes. Estos se generan en 

la médula ósea (tejido linfoide primario) y completan su maduración en el bazo (LeBien and 

Tedder, 2008). Una vez maduros, re-circulan por los órganos linfoideos secundarios en espera 

del encuentro con el antígeno el cual dispara la diferencia a células plasmática productora de 

anticuerpos.  

 
1. Anticuerpos y antígenos 
 

Las anticuerpos, también conocidos como inmunoglobulinas, son proteínas circulantes que 

se producen en los vertebrados en respuesta a la exposición a estructuras extrañas (Abbas et al., 

2018). Existen en dos formas: los anticuerpos unidos a la membrana en la superficie de los 

linfocitos B, que actúan como receptores del linfocito B, y los anticuerpos secretados.  

 
En última instancia, la función de un anticuerpo es el marcaje del agente infeccioso, así 

como de las toxinas que estos puedan generar, para su posterior eliminación. Los podremos 

encontrar implicados en procesos de citotoxicidad celular, opsonización y fagocitosis (Abbas et 

al., 2018), sin ignorar por otro lado, su participación fundamental en la activación del sistema 

del complemento (Sarma and Ward, 2011). Sin embargo, aunque se pueda hablar en términos 

generales sobre las funciones de los anticuerpos, no hay que olvidar que existen diferentes 

isotipos involucrados en distintos procesos de defensa (Schroeder and Cavacini, 2010). 

 
INTRODUCCIÓN                                                                                                            X 

 17 

1.1 Estructura del anticuerpo 
 

Como acabamos de comentar, existen diversas clases de anticuerpos (exactamente cinco: 

IgM, IgG, IgA, IgD y IgE), sin embargo, todos ellos se establecen a partir de una misma 

estructura de inmunoglobulina básica, conocida como dominio de Ig. Cada molécula de 

anticuerpo posee dos cadenas polipeptídicas idénticas, de unos 500 aminoácidos, denominadas 

cadenas pesadas o cadenas H. Cada una de las cadenas pesadas, se encuentra unida 

covalentemente a otra cadena polipeptídica de unos 250 aminoácidos conocida como cadena 

ligera o cadena L, habiendo un total de dos cadenas pesadas y dos cadenas ligeras (Figura 1) 

(Mathews et al., 2013; Sundberg, 2009). En cada cadena, existen unos dominios constantes 

(común a los anticuerpos de una clase determinada) y variables (lo que le confiere la 

especificidad al anticuerpo). En el caso de las cadenas ligeras, cada una posee un dominio 

variable y otro constante (VL y CL), mientras que cada cadena pesada se compone por un 

dominio variable y tres o cuatro constantes, dependiendo del isotipo del anticuerpo (VH, CH1, 

CH2 y CH3/CH4). Cada dominio VL y CL se encuentra covalentemente unido por enlaces 

disulfuro al dominio VH y CH1 correspondiente (VL + VH y CL + CH1), formando todo ello la 

región Fab. Esta región se une, a través de la región bisagra, a la región FC la cual se forma tras 

la asociación no covalente de los dominios CH2 y CH3/CH4 de ambas cadenas. A su vez, cada 

región Fab engloba los respectivos dominios variables, los cuales también se incluyen en la 

región FV (VL + VH) (Sundberg, 2009; Sela-Culang et al., 2013). 

 
Cada una de las regiones variables de los anticuerpos (VL y VH), contiene tres 

segmentos que conectan las láminas β y que poseen una alta variabilidad en términos de 

longitud y secuencia (Sundberg, 2009; Sela-Culang et al., 2013; Wu and Kabat, 1970). Estas 

tres regiones se denominan segmentos hipervariables o, como mejor se conocen, regiones 

determinantes de la complementariedad (CDR, del inglés complementarity-determining 

regions) (Figura 2). Estos segmentos son los principales responsables de la unión del antígeno 

al anticuerpo, determinando la forma y especificidad del lugar de unión. Por lo tanto, el 

reconocimiento del antígeno se realiza por un total de seis CDRs: Tres incluidos en el 

fragmento VH y otros tres incluidos en el fragmento VL. 

 
INTRODUCCIÓN                                                                                                            X 

 18 

 
Figura 1. Visión general de la estructura del anticuerpo. A. Estructura intacta del 
anticuerpo monoclonal de ratón IgG2a, Mab231 (PDB: 1IGT) (Harris et al., 1997). Las cadenas pesadas 
idénticas están coloreadas de naranja y verde, así como las cadenas ligeras lo están en rosa y azul. Las 
regiones variables se encuentran coloreadas de colores claros (naranja claro, verde claro, rosa claro y 
azul claro). Así mismo, se indica una de las regiones Fab, así como la región FC, ambas unidas a través de 
la región bisagra, también indicada en la figura. Por último, se indica una de las regiones FV, así como 
una de las regiones de unión al antígeno. B. Diagrama esquemático del anticuerpo Mab231. Las cadenas 
pesadas y ligeras, así como las regiones variables y constantes, se encuentran representadas con el 
mismo patrón de colores utilizado en la sección A. Para ambas cadenas, se indica el nombre de cada una 
de las regiones (VL, CL, CH1, CH2 y CH3). Los enlaces disulfuro se encuentran representados con líneas 
rojas y la región bisagra con líneas negras. Finalmente, la región FV derecha se ha representado 
reconociendo parte de un antígeno. 

 
Figura 2. Visión general de la región VL. Estructura de la región VL del anticuerpo 
monoclonal Mab231 (estructura extraída del PDB 1IGT) (Harris et al., 1997). En azul claro se 
encuentran destacadas los tres CDRs de dicha región. Esta estructura se encuentra formada por dos 
capas de láminas antiparalelas, una frente a la otra, y unidas covalentemente mediante enlaces disulfuro 
(no mostrados). 
 

A B 


INTRODUCCIÓN                                                                                                            X 

 19 

1.2 Reconocimiento del antígeno: el epítopo 
 

Como hemos mencionado previamente, el receptor de membrana del linfocito B (BCR, del 

inglés B-cell receptor) o el anticuerpo, no reconoce el antígeno en su totalidad, sino que 

distingue una sección específica del mismo denominada epítopo (epítopo B). Una de las 

características más citadas es que estos residen en la superficie del antígeno (Novotný et al., 

1986; Thornton et al., 1986; Kringelum et al., 2013). Además, se ha hipotetizado que están 

compuestos por aminoácidos cargados y aminoácidos polares, además de que poseen una 

deficiencia de aminoácidos hidrofóbicos alifáticos (Kringelum et al., 2013; Ofran et al., 2008; 

Haste Andersen et al., 2006; Zhao and Li, 2010). Concretamente, se ha planteado que los 

aminoácidos tirosina y triptófano estarían sobrerrepresentados, al mismo tiempo que la valina se 

encontraría infrarrepresentada (Kringelum et al., 2013; Rubinstein et al., 2008). Al estudiar la 

estructura secundaria de los epítopos B, se ha observado una ausencia de estructuras secundarias 

(hebras y hélices), por lo tanto, se encontrarían principalmente localizados en regiones de loops, 

lo que cuadraría con la percepción de que los sitios de unión antígeno-anticuerpo son regiones 

flexibles (Kringelum et al., 2013; Ofran et al., 2008). 

 
El epítopo B en proteínas se puede clasificar en conformacional o lineal en función de la 

secuencialidad de los residuos que lo forman. Los epítopos B conformacionales (Figura 3A), 

también llamados epítopos discontinuos, son aquellos que se componen de residuos no 

secuenciales en la estructura primaria, sino que se encuentran cercanos en la estructura 

tridimensional del antígeno (Sanchez-Trincado et al., 2017; Van Regenmortel, 2009). Por lo 

tanto, su reactividad depende de la conformación nativa de la proteína. Por el contrario, los 

epítopos B lineales (Figura 3B), o también conocidos como continuos, son aquellos 

compuestos por residuos secuenciales. Sin embrago, no se ha presentado ninguna evidencia que 

respalde que cada uno de los aminoácidos incluidos en un epítopo B lineal se encuentre en 

contacto con los residuos del BCR/anticuerpo (Van Regenmortel, 2009). Además, el nombre de 

epítopo lineal puede dar lugar a confusiones ya que son reconocidos por anticuerpos afines en 

determinadas conformaciones tridimensionales (Greenbaum et al., 2007). A pesar de ello, esta 

clase de epítopos B pueden ser reproducidos por péptidos sintéticos descontextualizados de su 

entorno proteico, ya que son reconocidos por el BCR o el anticuerpo independientemente de la 

estructura terciaria del antígeno. 

 
Existen numerosas tecnologías y metodologías disponibles para descubrimiento de nuevos 

epítopos B. La estrategia más precisa se basa en la resolución de la estructura terciaria del 

complejo antígeno-anticuerpo mediante técnicas como la cristalografía de rayos X. De esta 

manera, los epítopos B se pueden localizar exactamente en el antígeno, permitiendo así el 


INTRODUCCIÓN                                                                                                            X 

 20 

descubrimiento tanto de epítopos B lineales como conformacionales (Potocnakova et al., 2016; 

Ahmad et al., 2016). Sin embargo, dicha técnica requiere purificar altas cantidades del complejo 

antígeno-anticuerpo y no siempre es posible aplicarla (Ahmad et al., 2016). Por tanto, se recurre 

al empleo de otras aproximaciones como pepscan (Geysen et al., 1984), en la que se analiza una 

serie de péptidos solapantes mediante el uso del ensayo por inmunoabsorción ligado a enzimas 

(ELISA) (Nilvebrant and Rockberg, 2018), descubriéndose exclusivamente epítopos B lineales. 

Sumado a ello, las técnicas de alto rendimiento (ej. inmuno-proteómica) también han sido 

utilizadas para el hallazgo de nuevos epítopos lineales (Opuni et al., 2018; Abbott et al., 2014; 

Forsström et al., 2014), dando lugar a un aumento considerable en la cantidad de epítopos B 

lineales anotados en las bases de datos, especialmente en la Immune Epitope Database (IEDB) 

(Vita et al., 2015, 2019). 

 
A 

 
B 

Figura 3. Epítopo conformacional versus epítopo lineal. La figura muestra un epítopo 
conformacional y un epítopo lineal en la glicoproteína de superficie (ACN: YP_009724390.1, código de 
PDB: 6ACJ) del virus SARS-CoV-2. En cada una de las representaciones, aquellos residuos incluidos en 
los epítopos se muestran en magenta y el resto en gris. Junto a cada una de las imágenes estructurales, se 
muestra una visión simplificada de cada uno de los epítopos B. La cantidad de residuos mostrados en 
dichas representaciones no se corresponde con la cantidad real de residuos que los componen. A. 
Representación del epítopo conformacional IEDB ID: 1391793 (Voss et al., 2021). B. Representación 
del epítopo lineal IEDB ID: 1334451 (Lu et al., 2021). 
 
 
INTRODUCCIÓN                                                                                                            X 

 21 

2. Generación de anticuerpos 
 

2.1 El BCR y la transducción de señal 
 

  Como hemos mencionado anteriormente, la respuesta humoral se inicia con el 

reconocimiento del antígeno por parte de los linfocitos B, los cuales lo identifican a través de su 

receptor de membrana, el BCR. A diferencia de los linfocitos T (tanto los CD8+ como los 

CD4+), para que se produzca dicho reconocimiento, el antígeno no necesita ser presentado a 

través del complejo mayor de histocompatibilidad (MHC, en humanos HLA) (Moser and Leo, 

2010), por lo que el linfocito B es capaz de identificarlo de manera independiente. 

 
 Como se muestra en la Figura 4, el BCR está compuesto por una inmunoglobulina de 

membrana (mIg) con un dominio intracelular compuesto exclusivamente por una lisina, una 

valina y otra lisina (KVK) (Treanor, 2012). El tamaño de dichas colas es demasiado reducido 

para otorgar a la mIg la capacidad de transmitir la señal al interior de la célula. Por lo tanto, 

dicha inmunoglubulina se encuentra anclada a otras dos moléculas, denominadas Igα (CD79a) e 

Igβ (CD79b), encargadas de la transmisión de la señal mediada por la mIg (Treanor, 2012). 

Estas dos moléculas se encuentran unidas por enlaces disulfuro entre si. Además, cada una 

contiene un dominio de activación basado en tirosinas inmunorreceptoras (ITAM, del inglés 

immunoreceptor tyrosine-based activation motifs) en su cola citoplasmática. Estos dominios se 

componen de unas secuencias conservadas de cuatro aminoácidos, en las cuales, una tirosina se 

encuentra separada de una leucina o una isoleucina mediante otros dos aminoácidos (YxxL/I). 

Generalmente, estas secuencias conservadas se encuentran repetidas dos veces separadas por 

una sección de longitud comprendida entre los 7 y 12 aminoácidos (YxxL7-12YxxL) (Treanor, 

2012; Reth, 1989). En su conjunto, estos tres componentes (mIg, Igβ y Igα) forman el complejo 

BCR. 

 
La unión del antígeno al BCR, exactamente a la mIg, inicia la activación de los 

linfocitos B. Tras producirse dicho enlace, las tirosinas incluidas en los ITAMs son fosforiladas 

por quinasas de la familia Src (como Lyn, Fyn y Blk), sirviendo como sitios de unión para los 

dominios SH2 (Src homology 2) de la tirosina quinasa Syk. El reclutamiento de la Syk da paso a 

su fosforilación, activación e integración en la cascada de señales downstream (Figura 5), que 

en última instancia, trae como consecuencia la activación de varios factores de transcripción 

(Gauld et al., 2002; Dal Porto et al., 2004; Harwood and Batista, 2009; Kurosaki et al., 2009). 

 
INTRODUCCIÓN                                                                                                            X 

 22 

 
Figura 4. Representación esquemática del BCR. En color azul se muestra la 
inmunoglobulina de membrana (mIg). Además, se muestran tanto la Igβ y Igα coloreadas en naranja y 
rojo, respectivamente, indicándose en amarillo los ITAM para ambas inmunoglobulinas. 
 

Figura 5. Representación esquemática de la transducción de señales por el BCR. 
El reconocimiento del antígeno por parte de la mIg da lugar a la activación de las quinasas de la 
familia Src y a la posterior fosforilación de las tirosinas de las ITAMs. Esto lleva al acoplamiento de la 
Syk y a la posterior fosforilación de moléculas como la PLCγ o la SLP-65 (también conocida como 
BLNK). A estos acontecimientos, les siguen varias cascadas de transmisión de señales, conduciendo 
en última estancia, a la activación de varios factores de transmisión (Myc, NFAT, NK-kB y AP-1). 
Esta imagen se ha extraído y adaptado del libro Cellular and molecular immunology (Abbas et al., 
2018). 


INTRODUCCIÓN                                                                                                            X 

 23 

2.2 Activación del linfocito B 
 

Como hemos estado recalcando, el reconocimiento del antígeno por parte del linfocito B 

a través de su BCR es fundamental para la generación de anticuerpos y eliminación del 

patógeno. Sin embargo, dicho estimulo no es suficiente. El linfocito requiere de otras señales 

para su proliferación y diferenciación a célula plasmática. En el caso de antígenos proteicos, es 

necesario que el linfocito B sea estimulado por un linfocito T, específicamente por un linfocito 

T CD4 cooperador.  

 
Para que se de dicho proceso de estimulación, el linfocito B tiene que actuar como una 

APC. Por lo tanto, una vez el antígeno es reconocido por el BCR, ocurren una serie de sucesos 

que derivan en la presentación del antígeno, así como se muestra de forma esquemática en la 

Figura 6. En primer lugar, se produce la internalización del antígeno para su posterior 

procesamiento. Tras ello, se procede la unión de un epítopo peptídico lineal (epítopo T) a una 

molécula de MHC-II, la cual se exporta a la superficie celular para que finalmente un linfocito T 

CD4+ reconozca dicho epítopo T (Kurosaki et al., 2009; Roche and Furuta, 2015). 

 
Figura 6. Presentación del antígeno por parte del linfocito B. Representación 
esquemática de la internalización, procesamiento y presentación del antígeno. Dicho proceso da lugar a la 
generación de un endosoma en el que se incluye al antígeno internalizado, la molécula de MHC-II 
procedente del aparato de golgi o del retículo endoplasmático (RE) y una serie de proteasas. Una vez el 
antígeno es procesado y se ha producido la unión de un péptido lineal del antígeno al MHC-II, se produce 
un traslado del mismo a la membrana del linfocito B, exponiendo el epítopo T en la superficie 
extracelular.   


INTRODUCCIÓN                                                                                                            X 

 24 

La presentación del péptido vía MHC-II por el linfocito B permite que los linfocitos T 

CD4+ reconozcan el péptido a través de sus receptores de membrana (TCR) y proporcionen 

ayuda para la producción de anticuerpos. Para ello, aparte del MHC-II, el linfocito B expresa en 

su superficie otras muchas proteínas que también interactuarán con el linfocitos T CD4+, siendo 

una de las más destacadas el  CD40 (Figura 7). Dicha proteína es un receptor de membrana que 

interactúa con CD40L (CD145), trayendo como consecuencia una alteración estructural en el 

propio CD40. Esto induce la asociación de proteínas citosólicas llamadas TRAF (factores 

asociados al receptor para el TNF, del inglés TNF receptor-associated factors) con el dominio 

citoplasmático del propio CD40, trayendo como consecuencia el inicio de una cascada de 

señalización que culmina con la activación y translocación de factores de transcripción, como el 

NF-kB1 y la AP-1 (Xie, 2013). Esto estimula la proliferación del linfocito B, así como la 

síntesis y secreción de anticuerpos.   

 
Figura 7. Activación del linfocito B mediada por el linfocito T CD4+. El linfocito T 
CD4+ reconoce a través de su TCR el péptido presentado por el linfocito B vía MHC-II. Tras ello, se 
produce la unión de CD40 a su respectivo receptor (CD40L), así como la producción y secreción de 
citoquinas por parte del linfocito T CD4+, trayendo como consecuencia la activación del linfocito B y 
dando lugar a la producción de anticuerpos 
 
 
INTRODUCCIÓN                                                                                                            X 

 25 

La interacción del linfocito B con el linfocito T CD4+ a través de sus diferentes 

receptores (por ejemplo, CD40-CD40L) no es el único factor determinante para la activación y 

diferenciación de los linfocitos B. La liberación de citoquinas por parte de los linfocitos T CD4+ 

también desempeña un papel crucial, influyendo en el crecimiento y la actividad de los 

linfocitos B. Existe una gran diversidad de citoquinas, siendo algunas de las más destacables la 

IL-4 y la IL-21. De hecho, la combinación de CD40L, IL-4 e IL-21 en diferentes proporciones 

parece ser la mezcla primaria de señales provenientes del linfocito T CD4+ que ayudan a 

controlar la proliferación, la hipermutación somática y la diferenciación de los linfocitos B 

(Crotty, 2015; den Haan et al., 2014).  

 
3. Identificación in silico de epítopos B lineales 	
 

Es indudable la gran importancia del papel de los linfocitos B y de los anticuerpos a la 

hora de combatir un enfermedad infecciosa. Por lo tanto, la identificación de epítopos B es 

fundamental para comprender la patogénesis de las enfermedades, así como para poder elaborar 

y desarrollar herramientas de diagnóstico y vacunas (Leinikki et al., 1993; L Dudek et al., 

2010). Fuera del ámbito bio-sanitario, la identificación de epítopos B (especialmente epítopos B 

lineales) también tiene una gran utilidad práctica, como por ejemplo en la producción de 

anticuerpos para investigación. 

 
Como hemos mencionado previamente, existen numerosos métodos experimentales 

enfocados al descubrimiento de nuevos epítopos B lineales (Nilvebrant and Rockberg, 2018; 

Geysen et al., 1984; Opuni et al., 2018; Abbott et al., 2014; Forsström et al., 2014). Sin 

embargo, todos ellos se caracterizan por ser procesos costosos que requieren altas cantidades de 

tiempo. Por lo tanto, surge la necesidad de desarrollar métodos computacionales que puedan 

facilitar dicha identificación. Uno de los abordajes más sencillos se basa en la utilización de 

escalas de aminoácidos que reflejan las propiedades físico-químicas de los epítopos B. 

Partiendo de esta base, el primer programa informático enfocado a la predicción de epítopos B 

lineales fue publicado por Hopp y Woods en 1983 (Hopp and Woods, 1983). Se basaba en la 

suposición, propuesta por estos mismos autores en 1981, de que las regiones hidrofílicas se 

localizaban principalmente en la superficie de la proteína, y por tanto, dichas regiones serían 

reconocidas por el anticuerpo (Hopp and Woods, 1981). Desde entonces, se han planteado 

diferentes propuestas para el abordaje de la predicción de epítopos B lineales mediante la 

implementación de diferentes propiedades físico-químicas como la flexibilidad (Karplus and 

Schulz, 1985), la hidrofobicidad (Kyte and Doolittle, 1982; Eisenberg et al., 1984) o la 

accesibilidad en superficie (Emini et al., 1985). A pesar de los numerosos intentos realizados, se 

ha observado que este tipo de aproximaciones no son efectivas a la hora de intentar desarrollar 


INTRODUCCIÓN                                                                                                            X 

 26 

predictores de epítopos B lineales (Blythe and Flower, 2005). 

 
El bajo rendimiento de las escalas de aminoácidos para la predicción de epítopos B 

lineales, impulsó el desarrollo de nuevas herramientas bioinformáticas (Ponomarenko and 

Regenmortel, 2009; Sanchez-Trincado et al., 2017). Dichas herramientas implementan uno o 

varios modelos predictivos entrenados para distinguir si un péptido lineal es epítopo B o no. 

Estos modelos se generan gracias a la utilización de algoritmos de aprendizaje automático. Los 

más utilizados son las redes neuronales, utilizadas para el desarrollo del modelo implementado 

en ABCPred (Saha and Raghava, 2006) o en DLBEpitope (Liu et al., 2020); las máquinas de 

vectores de soporte, utilizadas para el desarrollo del modelo implementado en LBtope (Singh et 

al., 2013) o en SVMtrip (Yao et al., 2012) y los bosques aleatorios utilizados para el desarrollo 

del modelo implementado en BepiPred (Jespersen et al., 2017) o en ILBE (Hasan et al., 2020). 

Sin embargo, a pesar de la complejidad de esta metodología, el rendimiento de este tipo de 

herramientas sigue siendo bastante pobre (Raimondi et al., 2019; Galanis et al., 2021), dejando 

la puerta abierta a un gran número de nuevas posibilidades. Por ello, en esta Tesis doctoral se 

han desarrollado distintas herramientas computacionales que tratan de facilitar la identificación 

y selección de epítopos B lineales. 


OBJETIVOS 


OBJETIVOS                                                                                                                     X 

 29 

La presente tesis se centra en el desarrollo e implementación de modelos in silico para 

la predicción de epítopos lineales de linfocitos B. Los objetivos concretos que se han abordado 

son: 

 
1. Extracción y recopilación de secuencias de epítopos B procedentes de las diferentes 

bases de datos. 

 
2. Construcción de sets de datos de secuencias clasificadas como no epítopos B.  

 
3. Entrenamiento y construcción de los modelos predictivos con los datos previamente 

obtenidos. 

 
4. Evaluación de los modelos predictivos. 

 
5. Comparación con las herramientas ya existentes. 

 
6. Desarrollo de herramientas webs e implementación de los modelos predictivos en ellas. 


MÉTODOS 


MÉTODOS                                                                                                                       X 

 33 

1. Bases de datos.  
 

 Los distintos modelos predictivos desarrollados en esta Tesis doctoral, se han generado 

a partir de epítopos B lineales o conformacionales linealizados previamente obtenidos de 

distintas bases de datos (Tabla 1). 

 
Tabla 1. Bases de datos 

Base de datos Tipo de datos Web Ref 

Inmune epitope 
database 
(IEDB) 

 
Epítopos (lineales y 
conformacionales) B 
experimentalmente 

verificados, así como 
los antígenos que los 
incluyen. Además, se 
incluye información 

de los ensayos 
realizados 

 
https://www.iedb.org/ 

(Vita et 

al., 

2015, 

2019) 

abYbank/AbDb 
Estructuras terciarias 

de  anticuerpo-
antígeno  

http://www.abybank.org/abdb/ 

(Ferdous 

and 

Martin, 

2018) 

Bcipep Epítopos B lineales  http://www.imtech.res.in/raghava/bcipep 

(Saha et 

al., 

2005) 

 
2. Métodos computacionales 
 

2.1. Aprendizaje automático 
 

A lo largo de la historia, no se ha conseguido establecer una única definición para 

aprendizaje automático (Samuel, 1988; Mitchell and Mitchell, 1997; Alpaydin, 2020). Sin 

embargo, todas ellas comparten el concepto de entrenar al ordenador para que “aprenda” de los 

datos proporcionados con el fin de que realice tareas que van más allá del cálculo numérico 

tradicional (El Naqa and Murphy, 2015). Para que esto ocurra, el uso de algoritmos es 

absolutamente fundamental, siendo estos una serie de procedimientos computacionales bien 

definidos que toman algún valor, o conjunto de valores, como entrada (input) y producen algún 

otro valor, o conjunto de valores, como salida (output) (Cormen et al., 2009). Un algoritmo es, 


MÉTODOS                                                                                                                       X 

 34 

por tanto, una secuencia de pasos computacionales que transforman el input en output (Cormen 

et al., 2009). 

 
Existen diversos sistemas de aprendizaje automático que utilizan diferentes clases de 

algoritmos. Dichos sistemas se pueden clasificar en función de numerosos criterios, siendo uno 

de los más comunes aquél que los divide en función de la “naturaleza” de los datos de 

entrenamiento (Gron, 2017). Uno de los tipos de aprendizaje automático que encontramos es el 

supervisado. En el aprendizaje automático supervisado (Figura 8), el conjunto de datos 

utilizados para alimentar al algoritmo incluyen las soluciones deseadas (Gron, 2017; Kotsiantis 

et al., 2007). Dicha aproximación es la que se ha utilizado en esta Tesis doctoral.  

 
Figura 8. Ejemplo de aprendizaje automático supervisado. Conjunto de datos de 
entrenamiento para la clasificación de emails con contenido spam. Cada uno de las instancias (emails) 
incluidas en el conjunto de entrenamiento viene acompañado de su etiqueta correspondiente (si es spam 
o no). Figura extraída y adaptada del libro Hands-On Machine Learning with Scikit-Learn and 
TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (Gron, 2017). 
 

A continuación, se describirán los algoritmos de aprendizaje automático supervisado 

utilizados en esta Tesis doctoral. Todos ellos se han utilizado para desarrollar modelos 

predictivos que consigan distinguir péptidos (pequeños fragmentos proteicos) que son epítopos 

B frente a los que no lo son. Todos los modelos fueron desarrollados utilizando WEKA 

(Waikato Environment for Knowledge Analysis) (Frank et al., 2004), un software de código 

abierto distribuido bajo la Licencia Pública General de GNU. WEKA proporciona un entorno de 

trabajo para la clasificación de datos, clustering y selección de características utilizando una 

gran colección de algoritmos de aprendizaje automático. 

 
MÉTODOS                                                                                                                       X 

 35 

2.1.1 Máquina de vectores de soporte (Support vector machine) 
 

 El primer algoritmo que describiremos se denomina máquina de vectores de soporte 

(del inglés Support vector machine, SVM). Dado un espacio p-dimensional, SVM se 

fundamenta en la búsqueda de un elemento de p-1 dimensiones, denominado hiperplano, que 

sea capaz de separar los datos en función de sus clases (Gareth James  Trevor Hastie, Robert 

Tibshirani). En una situación donde los elementos se encuentran perfectamente clasificables, se 

podrían plantear infinitos hiperplanos que separasen los datos. Por tanto, este algoritmo busca el 

hiperplano de margen máximo (Figura 9), es decir, aquel hiperplano que separará las clases 

adoptando la distancia máxima de cualquiera de los elementos a clasificar, maximizando así el 

margen (Noble, 2006). 

 
Figura 9. Ilustración de un hiperplano en un espacio de dos dimensiones. Ejemplo 
simplificado de la metodología utilizada por algoritmo de SVM.  
 

 En numerosas situaciones, es imposible que ambas clases sean separadas a la perfección 

como se muestra en la Figura 9. Por lo tanto, tendremos que crear cierta flexibilidad, es decir, 

tendremos que permitir que ciertos datos puedan ser clasificados de manera errónea sin afectar 

al resultado final (Noble, 2006). Dicha flexibilidad es manejada a través del hiperparámetro 

denominado parámetro de complejidad (C), el cual controla el número y severidad de las 

violaciones del margen (Pisner and Schnyer, 2020). Cuanto más se aproxime C a 0, el margen 

será más ancho y habrá una mayor cantidad de observaciones localizadas en el lado incorrecto 

del hiperplano, mientras que en el caso opuesto (C = ∞), no se permitiría ningún tipo de error. 

 
 En muchas ocasiones, los elementos no pueden ser separados linealmente (ej. por una 

línea en un espacio de dos dimensiones). Para solucionar dicho problema, los datos se 


MÉTODOS                                                                                                                       X 

 36 

transforman a un espacio dimensional distinto gracias a la aplicación de una función 

denominada kernel (Figura 10) (Noble, 2006). En esta Tesis Doctoral aplicamos un kernel 

Gausiano o RBF (Radial Basis Function), definido por la Ecuación 1, donde ||x-x’||2 es la 

distancia euclidiana entre dos puntos (de los datos de entrada) y γ es el hiperparámetro que 

controla la desviación estándar (σ) como se muestra en la Ecuación 2 (Vert et al., 2004). 

 
Figura 10. Ejemplo de aumento de dimensionalidad. Aplicación de la función 𝑓 𝑥 =
(𝑥, 𝑥&) para cambiar la dimensionalidad del conjunto de datos con el fin de hacerlos linealmente 
separables. El hiperparámetro se muestra con una línea continua azul. 
 

 𝐾 𝑥, 𝑥) = exp	(−γ| 𝑥 − 𝑥) |&) Ecuación 1 

 
 γ =
1
2𝜎&

	 Ecuación 2 

 
2.1.2 Bosques aleatorios (Random forests) 
 

 El algoritmo que trataremos a continuación se conoce como algoritmo de bosques 

aleatorios (del inglés Random forests; RF). Dicho algoritmo se fundamenta en el uso de árboles 

de decisión. Cada árbol es una construcción jerárquica en la que cada nodo representa una 

característica y cada rama representa una decisión basada en la característica del nodo que 

conecta. Por lo tanto, todo árbol comenzará con una raíz (nodo inicial) que se ramificará y se 

abrirá paso a través de los nodos y ramas hasta llegar a una hoja, la cual representa la predicción 

final del árbol (Loh, 2011, 2014). 

 
MÉTODOS                                                                                                                       X 

 37 

La predicción realizada con un modelo de RF se basa en la decisión modal de múltiples 

árboles individuales generados durante el proceso de entrenamiento (Figura 11) (Breiman, 

2001). En cada caso particular, se utiliza una cantidad concreta de árboles, por lo tanto, no es de 

extrañar la gran importancia que tiene la determinación del número de árboles que hay que 

emplear en cada situación. Un número muy elevado puede traer como consecuencia una 

demanda excesiva de fuerza computacional, mientras que un número insuficiente puede dar 

lugar a un modelo predictivo que no alcance las expectativas deseadas. 

 
Figura 11. Ilustración esquemática del funcionamiento del algoritmo de RF. Cada 
uno de los árboles (árbol 1, árbol 2, …, árbol n) proporciona una predicción individual (predicción 1, 
predicción 2, …, predicción n). En el caso concreto de un problema binomial, cada predicción se 
corresponderá con una de las dos opciones disponibles (ej. epítopo o no epítopo). La predicción final se 
corresponderá con aquel resultado que se haya obtenido con la mayoría de los árboles.  

 
2.1.3 Redes neuronales artificiales 
 

 Existen numerosos tipos de redes neuronales artificiales (del inglés artificial neural 

networks; ANN) enfocadas a la resolución de diversas clases de problemas (Drew and Monson, 

2000). Sin embargo, todas ellas comparten una misma estructura inspirada en la arquitectura 

cerebral compuesta por conexiones neuronales (Figura 12A) (Krogh, 2008; Russell and Norvig, 

2004). Se construyen a partir de nodos (Figura 12B) conectados entre sí a través de una serie de 

conexiones con unos valores numéricos asociados (pesos sinápticos) que determinan la fuerza y 

el signo de dichas conexiones (Figura 12C) (Russell and Norvig, 2004). El elemento de salida 

de un nodo concreto depende de su función de activación (g) y de la función de entrada (ini), 

definida por pesos sinápticos asociados con las diferentes conexiones de entrada (Wj,i) junto con 

los elementos de entrada (yj) (Ecuación 3). En el caso de la clasificación de epítopos B, usamos 


MÉTODOS                                                                                                                       X 

 38 

una función de activación sigmoide, la cual se puede definir matemáticamente con la Ecuación 

4. 

 
Figura 12. ANN: Desde el concepto biológico hasta la arquitectura 
computacional. A. Partes de una célula nerviosa o neurona. B. Elementos de una arquitectura 
computacional conocida como neurona. Dicha neurona se puede definir matemáticamente según la 
Ecuación 3. C. Red neuronal de alimentación-hacia-delante con dos entradas (capa de entrada), dos 
nodos dispuestos en una capa oculta y otro nodo en la capa de salida. Todas las figuras se han extraído 
y adaptado del libro Artificial intelligence: a modern approach (Russell and Norvig, 2004). 
 
 
𝑦5 = 𝑔 𝑖𝑛5 = 	𝑔( 𝑊:,5 · 𝑦:

<

:=>

) Ecuación 3 

 
MÉTODOS                                                                                                                       X 

 39 

 𝑓(𝑥) = 	
1

1 + 𝑒AB
 Ecuación 4 

 
Como hemos mencionado previamente, existen numerosas clases de ANN. La 

arquitectura más sencilla se corresponde con una red de alimentación-hacia-adelante 

denominada perceptrón. Se encuentra formada exclusivamente por una capa de entrada y una 

capa de salida (Taud and Mas, 2018). La idea del algoritmo, y la de muchos otros algoritmos de 

ANN, es ajustar los pesos sinápticos para minimizar el error que se produce. Dicho error se 

puede definir matemáticamente con la Ecuación 5 en la que yi e ti es el output obtenido y 

deseado respectivamente (Russell and Norvig, 2004; Murtagh, 1991). Para minimizar este error, 

durante el proceso de entrenamiento del modelo se ajustan los pesos sinápticos siguiendo la 

Regla Delta o método del Gradiente Descendente. En pocas palabras, se basa en la actualización 

iterativa de los pesos sinápticos aplicando la Ecuación 6 donde (Russell and Norvig, 2004; 

Murtagh, 1991; Gron, 2017):  

 
• Wj,i es el peso sináptico de la conexión que conecta el nodo jth con el nodo ith 

• η es una constante denominada ratio de aprendizaje. Define cómo de “bruscos” 

son los cambios en los pesos sinápticos. 

• yj es variable de entrada del nodo ith  

• g’(ini) es la derivada de la función de activación (g(ini)). Para una función 

sigmoide, la derivada viene dada por f’ = f (1 - f). Por lo tanto, cuando g(ini) es  

una función sigmoide (como es nuestro caso), entonces g’(ini) = yi(1 - yi). 

 
𝐸 = 	

1
2

(𝑡5 − 𝑦5)&
<

5=>

 Ecuación 5 

 
 𝑊:,5
(<EBF	GFEH) = 𝑊:,5 + 	𝜂(𝑡5 − 𝑦5)𝑔′(𝑖𝑛5)𝑦: Ecuación 6 

 
En esta Tesis doctoral hemos utilizado una variante del perceptrón denominada 

perceptrón multicapa (del inglés multilayer perceptron). Básicamente, añadimos una capa 

oculta a la estructura tradicional del perceptrón. El error que se produce en esas capas no lo 

conocemos ya que los datos de entrenamiento no dicen cual es el valor que han de tomar los 

nodos ocultos (Murtagh, 1991). Sin embargo, podemos propagar hacia atrás el error, desde la 

capa de salida a las capas ocultas, en un proceso denominado propagación-hacia-atrás (Murtagh, 

1991). 


MÉTODOS                                                                                                                       X 

 40 

 
2.1.4 k-vecinos más cercanos 
 

El último algoritmo de aprendizaje automático que trataremos será el de los k-vecinos 

más cercanos (del inglés k-nearest neighbors; KNN). Este algoritmo se basa en la idea de que 

las propiedades de un punto de entrada particular (x) serán similares a las propiedades de 

aquellos puntos cercanos (Russell and Norvig, 2004; Kramer, 2013). Por lo tanto, la clase del 

punto x se corresponderá con la clase que más abunde entre los k puntos más cercanos a x 

(Kramer, 2013). En consecuencia, el establecimiento del parámetro k (cuantos vecinos se tienen 

en cuenta) es de vital importancia, pudiendo variar el resultado final, así como se muestra en la 

Figura 13.  

 
Figura 13: Ilustración del funcionamiento de KNN para clasificar elementos. En 
la imagen se muestra el elemento a clasificar (cuadrado verde) junto a aquellos con una clase ya 
asignada (círculos rojos y amarillos). Se indican aquellos 3 y 6 elementos (k = 3 y k = 6, 
respectivamente) más cercanos al elemento a clasificar, asignándole una clase diferente en función de k 
(clase 1 con k = 3 y clase 2 con k = 6). 
 

El uso del KNN, trae como consecuencia la necesidad de calcular la distancia entre x y 

sus diferentes vecinos. Para ello, existen numerosas metodologías, siendo la más común, y la 

utilizada en esta Tesis doctoral, el empleo de la distancia Euclidea definida por la Ecuación 7, 

donde z y z’ son dos puntos localizados en un espacio de n-dimensiones con sus respectivas 

coordenadas (zi y zi’, respectivamente) (Zhang, 2016). 

 
MÉTODOS                                                                                                                       X 

 41 

 
𝑑 𝑧, 𝑧) = 	 (𝑧5 − 𝑧′5)&
<

5=>

 Ecuación 7 

 
2.2 BLAST 
 

 BLAST (del inglés Basic Local Alignment Search Tool) (Altschul et al., 1990, 1997) es 

un algoritmo diseñado y optimizado para encontrar aquellas regiones con un mayor grado de 

similitud al comparar una secuencia específica (query) con todas aquellas incluidas en una base 

de datos de secuencias (targets). La búsqueda comienza fragmentando la secuencia query en 

“palabras” de longitud W (normalmente W = 2, 3 o 6) las cuales son utilizadas para generar una 

serie de "palabras vecinas" que representan posibles cambios en la secuencia debido a 

mutaciones (Figura 14). Utilizando matrices de sustitución (ej. PAM250 o BLOSUM62), tanto 

las “palabras” como las “palabras vecinas” se puntúan en función de su coincidencia con la 

secuencia query, descartándose aquellas que no alcancen una puntuación mínima (T) y 

comparando el resto con las secuencias targets con el fin de identificar coincidencias exactas. 

Para cada coincidencia exacta encontrada, se produce un alineamiento local que se extiende en 

ambas direcciones con el fin de que dicho alineamiento supere el umbral de puntuación S y 

finalmente obtener un alineamiento local denominado hit (Kerfeld and Scott, 2011). 

 
Figura 14: Ilustración del funcionamiento del algoritmo de búsqueda de BLAST. 
La imagen muestra la generación de un conjunto de “palabras vecinas” a partir de una “palabra” query 
(RDQ) de longitud 3 residuos (W = 3). Luego, la búsqueda se realiza con todas aquellas “palabras” que 
alcancen una puntuación mínima (T) obtenida al compararse con la secuencia query. Una vez se 
encuentra una coincidencia exacta, se extiende con el fin de obtener un alineamiento local con una 
puntuación que supere un umbral preestablecido. Esta imagen se ha extraído y adaptado del libro 
Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins (Baxevanis et al., 2020). 


MÉTODOS                                                                                                                       X 

 42 

3. Desarrollo y evaluación de los modelos predictivos 
 

3.1 Abordaje general  
 

 Como se muestra en la Figura 15, la construcción del modelo predictivo comienza con 

la recolección de los datos de entrenamiento. Estos serán utilizados en el desarrollo y 

optimización del modelo, y en consecuencia, en las diferentes validaciones cruzadas. De la 

misma manera, se realiza la obtención de los datos independientes, los cuáles serán utilizados 

para evaluar el modelo predictivo definitivo a través de una validación independiente. Con el fin 

de evitar la sobreestimación del rendimiento del modelo, no debe existir solapamiento entre 

ambos tipos de datos. 

 
Figura 15: Flujo de trabajo del generación de un modelo predictivo. Los datos 
(epítopos B lineales) se recopilan de las diferentes bases de datos y se dividen en dos conjuntos: datos 
de entrenamiento y datos independientes. El conjunto de entrenamiento es utilizado en la generación 
de diferentes modelos predictivos y en la optimización de los mismos. Aquel modelo que alcance el 
mejor rendimiento predictivo de acuerdo con los resultados obtenidos con la validación cruzada, es 
considerado como el modelo predictivo definitivo. Dicho modelo es finalmente evaluado con los datos 
independientes en una validación independiente. 

 
3.2 Métodos de evaluación 
 

3.2.1 Validación cruzada 
 

 La validación cruzada de n-campos (del inglés n-fold cross-validation) es una técnica 

empleada para seleccionar el algoritmo y sus parámetros con el objetivo de maximizar la 

capacidad de generalizar del modelo. Se basa en la utilización de los datos de entrenamiento 

para estimar su habilidad predictiva sobre datos no vistos (Figura 16). Para ello, los datos se 

dividen en n partes, utilizando  <A>
<

  de los datos para la construcción del modelo y el resto (>
<
) 

para su evaluación. Este proceso se repetirá n veces, variando cada vez la sección de los datos 


MÉTODOS                                                                                                                       X 

 43 

utilizados para la generación y entrenamiento del modelo. Los resultados finales serán el 

resultado de la media y desviación estándar de los resultados obtenidos en cada repetición. 

 
Figura 16: Esquema del funcionamiento de la validación cruzada de 5-campos. 
El conjunto de datos original (datos de entrenamiento) es dividido al azar en 5 partes (resaltadas en 
colores). Por lo tanto, como se muestra en la imagen, en cada una de las interacciones, 4/5 de los datos 
son utilizados para entrenar el modelo mientras que el otro conjunto de datos (1/5) es utilizado para 
evaluar su capacidad predictiva. 
 

3.2.2 Evaluación independiente 
 

 Aquel modelo obtenido en la etapa de desarrollo y optimización que haya conseguido 

un mayor rendimiento predictivo será considerado como el modelo definitivo. Sin embargo, los 

resultados obtenidos durante la validación cruzada no son suficientes para determinar la 

capacidad predicitiva de un modelo, por lo que es necesario realizar evaluaciones adicionales. 

En concreto, se realizan evaluaciones empleando un conjunto de datos independiente y distintos 

de los datos de entrenamiento. Los datos de entrenamiento y los datos independientes 

empleados en esta Tesis Doctoral se corresponden con epítopos B extraídos de bases de datos 

diferentes. Por ejemplo, los datos de entrenamiento utilizados para el modelo basado en SVM 

implementado en BCEPS (Capítulo 1) fueron extraidos de abYbank/AbDb, mientras que los 

datos independientes fueron obtenidos del IEDB. 

 
MÉTODOS                                                                                                                       X 

 44 

3.3 Medidas de rendimiento predictivo 
 

Tanto en la validación cruzada como en la validación independiente son necesarias una 

serie de medidas para evaluar la capacidad predictiva del modelo. En particular, en esta Tesis 

Doctoral se ha calculado la sensibilidad (SE), la especificidad (SP), la exactitud (ACC) y el 

coeficiente de correlación de Mathews (MCC).  

 
La SE es la porción de casos positivos clasificados correctamente (Ecuación 8), 

mientras que la SP es la proporción de casos negativos que son clasificados correctamente 

(Ecuación 9). Por otro lado, mientras que la SE y la SP solamente tienen en cuenta los casos 

positivos y negativos, respectivamente, la ACC y el MCC evalúan el modelo teniendo en cuenta 

todos los casos, pudiéndose calcular directamente a partir de la tabla de contingencia (Figura 

17) atendiendo a la Ecuación 10 y a la Ecuación 11 respectivamente. Indicar que, a diferencia 

del resto de medidas, los valores de MCC oscilan entre 1 y -1, donde 1, 0 y -1 indican 

respectivamente una predicción perfecta, aleatoria y perfecta pero inversa. 

 
 𝑆𝐸 =
𝑇𝑃

𝑇𝑃 + 𝐹𝑁
 Ecuación 8 

 
 𝑆𝑃 =
𝑇𝑁

𝑇𝑁 + 𝐹𝑃
 Ecuación 9 

   
Figura 17. Tabla de contingencia. Las predicciones realizadas por el modelo a evaluar se 
pueden clasificar en verdadero positivo (TP), verdadero negativos (TN) (ambos indicados en la tabla 
en verde), falso negativo (FN) o falso positivo (FP) (ambos indicados en la tabla en rojo). Como se 
indica con flechas, la sensibilidad es calculada utilizando los TP y los FN, mientras que la 
especificidad es calculada con los FP y los TN. 
 

𝐴𝐶𝐶 =
(𝑇𝑃 + 𝑇𝑁)

(𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁)
 

Ecuación 10 


MÉTODOS                                                                                                                       X 

 45 

 
𝑀𝐶𝐶 =

𝑇𝑃	𝑥	𝑇𝑁 − (𝐹𝑃	𝑥	𝐹𝑁)
(𝑇𝑁 + 𝐹𝑁)(𝑇𝑃 + 𝐹𝑁)(𝑇𝑁 + 𝐹𝑃)(𝑇𝑃 + 𝐹𝑃)

 Ecuación 11 

 
CAPÍTULO I 
 

BCEPS: A Web Server to Predict Linear B Cell 

Epitopes with Enhanced Immunogenicity and Cross-

Reactivity 
 

Alvaro Ras-Carmona1, Hector F. Pelaez-Prestel1 , Esther M. Lafuente1 & 

Pedro A. Reche1 

 
1. Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, Facultad de 

Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 28040 Madrid, 

España 

 
CAPÍTULO I                                                                                                                    X 

 49 

 
CAPÍTULO I                                                                                                                    X 

 50 


CAPÍTULO I                                                                                                                    X 

 51 


CAPÍTULO I                                                                                                                    X 

 52 


CAPÍTULO I                                                                                                                    X 

 53 


CAPÍTULO I                                                                                                                    X 

 54 


CAPÍTULO I                                                                                                                    X 

 55 


CAPÍTULO I                                                                                                                    X 

 56 


CAPÍTULO I                                                                                                                    X 

 57 


CAPÍTULO I                                                                                                                    X 

 58 


CAPÍTULO I                                                                                                                    X 

 59 


CAPÍTULO I                                                                                                                    X 

 60 


CAPÍTULO I                                                                                                                    X 

 61 


CAPÍTULO I                                                                                                                    X 

 62 

 
CAPÍTULO I                                                                                                                    X 

 63 


CAPÍTULO I                                                                                                                    X 

 64 

 
CAPÍTULO II 
 

Prediction of B cell epitopes in proteins using a novel 

sequence similarity-based method 
  

Alvaro Ras-Carmona1, Alexander A. Lehmann1,2, Paul V. Lehmann2 & 

Pedro A. Reche1 
 

1. Laboratorio de Inmunomedicina, Departamento de Inmunología & O2, Facultad de 

Medicina, Universidad Complutense de Madrid, Pza Ramón y Cajal, s/n, 28040 Madrid, 

España. 

2. Departamento de Investigación y Desarrollo, Cellular Technology Limited (CTL), 

Shaker Heights, OH 44122, USA  

 
CAPÍTULO II                                                                                                                   X 

 67 

 
CAPÍTULO II                                                                                                                   X 

 68 


CAPÍTULO II                                                                                                                   X 

 69 


CAPÍTULO II                                                                                                                   X 

 70 


CAPÍTULO II                                                                                                                   X 

 71 


CAPÍTULO II                                                                                                                   X 

 72 


CAPÍTULO II                                                                                                                   X 

 73 


CAPÍTULO II                                                                                                                   X 

 74 


CAPÍTULO II                                                                                                                   X 

 75 

 
DISCUSIÓN 


DISCUSIÓN                                                                                                                     X 

 79 

 Los linfocitos B son células del sistema inmunitario adaptativo involucradas en la 

respuesta humoral frente a los diferentes agentes infecciosos. Su función depende del 

reconocimiento de antígenos a través de los receptores que poseen en sus membranas, los BCR. 

En el caso de antígenos proteicos, una vez el BCR reconoce el antígeno, este es endocitado, 

procesado y presentado vía MHC-II. Tras ello, los linfocitos B son estimulados por los linfocito 

T CD4+  y, en consecuencia, diferenciados a células plasmáticas generadoras de anticuerpos y/o  

a células B de memoria. 

 
 El epítopo B es la porción específica del antígeno que es reconocida tanto por el BCR 

como por el anticuerpo. En función de la secuencialidad de los residuos que lo componen, los 

epítopos B se pueden clasificar en conformacionales o lineales. En esta Tesis Doctoral, nuestro 

interés se ha centrado en la predicción de epítopos B lineales ya que estos resultan más 

relevantes a nivel práctico. Esto se debe a que la identificación de los epítopos B lineales 

permite definir aquellos segmentos del antígeno capaces de sustituir a la proteína completa. Por 

lo tanto, dichos segmentos pueden formularse como péptidos sintéticos adecuados para 

numerosas aplicaciones, tales como su uso en la producción de anticuerpos antígeno-

específicos, entre otras. 

 
Existen numerosas técnicas experimentales que dan lugar a la identificación de epítopos 

B lineales. Sin embargo, dichas técnicas son lentas, costosas y en muchas ocasiones tediosas, 

por lo que se ha apostado por el desarrollo de modelos in silico que faciliten la identificación de 

estos epítopos B. La mayoría de estos modelos están basados en inteligencia artificial 

(aprendizaje automático para ser exactos) y/o son modelos estadísticos (Ponomarenko and 

Regenmortel, 2009; Sanchez-Trincado et al., 2017; Potocnakova et al., 2016), donde un 

conjunto de datos es utilizado para entrenar y generar un modelo que consiga capturar el espacio 

secuencial de los epítopos B (Figura 17A). Dicho modelo es posteriormente utilizado para 

predecir si una secuencia en particular pertenece al espacio secuencial anteriormente modelado. 

Como se describe en el Capítulo I, BCEPS ha sido desarrollado empleando dicha metodología. 

Sin embargo, no es la única manera de abordar la cuestión de la predicción de los epítopos B 

lineales. Otra estrategia, aplicada para el desarrollo de BepiBlast (Capitulo II), se basa en 

identificar si la secuencia que se desea predecir es similar a alguna de las secuencias que 

conforman el espacio secuencial (Figura 17B). La predicción de epítopos B con esta 

metodología es minimalista, fácil de entender y robusta, especialmente cuando hay un alto 

número de secuencias incluidas en el espacio secuencial. 


DISCUSIÓN                                                                                                                     X 

 80 

 
Figura 17: Esquema de las dos aproximaciones principales para la predicción de 
epítopos B. A. Uso de aprendizaje automático o métodos estadísticos B. Predicción mediante una 
búsqueda por el espacio secuencial con la utilización de BLAST. 
 

1. BCEPS 
 

 Con el objetivo de facilitar la identificación de epítopos B lineales y la selección de 

aquellos epítopos B inmunogénicos capaces de inducir anticuerpos cross-reactivos con el 

antígeno nativo, hemos desarrollado BCEPS (B Cell Epitope Prediction Software) 

(http://imbio.med.ucm.es/bceps/). BCEPS es un servidor web en el que hemos implementado 

tres modelos de aprendizaje automático entrenados con secuencias de epítopos B extraídas de 

estructuras tridimensionales de complejos antígeno-anticuerpo. Los algoritmos utilizados fueron 

SVM, RF y ANN (concretamente perceptrón multicapa), cada uno con una serie de puntos 

fuertes y débiles (Tabla 2). Todos los modelos que generamos e implementamos en BCEPS 

alcanzaron una exactitud en validación cruzada superior al 70 %, siendo el más destacado el 

modelo basado en SVM el cual alcanzó una exactitud del 75.38 % ± 5.02 (Capítulo I, Tabla 1). 

  
DISCUSIÓN                                                                                                                     X 

 81 

Tabla 2. Ventajas y desventajas de SVM, RF y Perceptrón multicapa. Tabla extraída y adaptada 

de (Greener et al., 2022). 

Método Ventajas Desventajas 

SVM 

 
Puede realizar clasificaciones lineales 

y no lineales así como regresión 
 

Escalar grandes conjuntos de datos suele 

ser difícil 
 

Difícil de interpretar 
 

RF 

 
Aprende la importancia de cada 
característica para la predicción. 

 
Los árboles de decisión individuales 

son legibles, lo que permite 
interpretar cómo se ha tomado una 

decisión. 
 

Son menos sensibles al escalado y la 
normalización de las características, 

por lo que son más fáciles de entrenar 
y ajustar. 

 
Menos apropiados para la regresión 
 

Muchos árboles de decisión son difíciles 
de interpretar 

Perceptrón 
multicapa 

 
Dado un conjunto de datos, puede 

adaptarse con menos capas que 
arquitecturas como las redes 

neuronales convolucionales, lo que 
facilita y acelera su entrenamiento. 

 
Fácil de sobreajustar 
 

Gran número de parámetros 
 

Difícil de interpretar 

 
Centrándonos en el modelo basado en SVM, observamos que en el test independiente 

alcanzó una exactitud del 67.05 % (Capítulo I, Tabla 2). Este valor fue inferior al alcanzado en 

la validación cruzada pero fue superior al obtenido con BepiPred (Larsen et al., 2006; Jespersen 

et al., 2017),  IBCE-EL (Manavalan et al., 2018) y LBtope (Singh et al., 2013), siendo estas 

herramientas incapaces de clasificar un péptido en epítopo B o no epítopo B. Los resultados 

obtenidos son más que destacables ya que, debido al alto repertorio de BCRs, permite reconocer 

un numero casi ilimitado de péptidos (Frank, 2002). Por lo tanto, se vuelve fundamental la 

selección de aquellos epítopos B lineales capaces de inducir anticuerpos cross-reactivos con el 

antígeno nativo. Desde una perspectiva práctica, este enfoque implica la capacidad de sintetizar 

péptidos, previamente identificados in-silico, que generen anticuerpos con actividad 

neutralizante. Un ejemplo lo encontramos en los resultados descritos por Ramanathan et al. 


DISCUSIÓN                                                                                                                     X 

 82 

(Ramanathan et al., 2016), donde demuestran como los ratones inoculados con péptidos 

sintéticos de la proteína E del Virus del dengue son capaces de generar anticuerpos 

neutralizantes. Sin embargo, hay que matizar que el conjunto de péptidos utilizado en dicho 

estudio es el resultado de la identificación de los epítopos B desde el uso de tres enfoques 

diferentes, de los cuales, dos de ellos no fueron computacionales. Por lo tanto, podemos 

considerar que aunque la generación de anticuerpos neutralizantes a partir de péptidos sintéticos 

es una realidad, la identificación in silico de los epítopos B (realizado con ABCPred (Saha and 

Raghava, 2006), BepiPred (Larsen et al., 2006) y epitopia (Rubinstein et al., 2009)) no tuvo la 

suficiente capacidad predictiva para poder haber prescindido del uso de otras técnicas de 

laboratorio.  

 
Para identificar aquellos epítopos B lineales capaces de inducir anticuerpos cross-

reactivos, BCEPS permite ordenar y filtrar aquellos epítopos B predichos de acuerdo a una serie 

de propiedades como la accesibilidad o la flexibilidad. De la misma manera, BCEPS permite 

descartar aquellos epítopos B que no se encuentran localizados en el ectodiminio y que se 

encuentran glicosilados. Filtrando de acuerdo a los criterios que acabamos de mencionar, 

mostramos la capacidad de identificar en la proteína Spike del SARS-CoV-2 epítopos B lineales 

ya conocidos y reconocidos por anticuerpos neutralizantes. 

 
 Un péptido puede ser reconocido por un anticuerpo, sin embargo, este hecho no 

significa que dicho péptido active la respuesta inmune, en otras palabras, que el péptido sea 

inmunogénico. Para ello, además de ser reconocido por el linfocito B, este tiene que ser 

presentado al linfocito T CD4+ vía MHC-II. Por lo tanto, BCEPS también es capaz de identificar 

aquellos epítopos B con potencial para unirse y ser presentados por moléculas de MHC-II, 

HLA-II en humanos, permitiendo así la selección de aquellos epítopos B que a su vez sean 

epítopos T CD4+. De esta manera, podremos quedarnos con aquellos epítopos B que sean 

probablemente los más inmunogénicos. BCEPS por tanto coombina  la predicción de epítopos B 

con la predicción de epítopos T CD4. 

 
El resultado aportado por BCEPS es interactivo, permitiendo a los usuarios filtrar y 

clasificar los epítopos B según las diversas características comentadas anteriormente. Esto hace 

a BCEPS una de las herramientas más novedosas, ya que es la única que no se limita 

exclusivamente a clasificar los péptidos en epítopos B o no. 

 
DISCUSIÓN                                                                                                                     X 

 83 

2. BepiBlast 
 

 BLAST es un algoritmo y programa informático optimizado para buscar en una base de 

datos de secuencias alineaciones locales óptimas para una secuencia denominada query 

(Altschul et al., 1990, 1997). Normalmente es utilizado a través de su herramienta web 

disponible en https://blast.ncbi.nlm.nih.gov/Blast.cgi, sin embargo, existe la posibilidad de 

descargarlo y usarlo de forma local. Esto nos ha permitido el desarrollo de BepiBlast 

(http://imath.med.ucm.es/bepiblast/), un servidor web en el que hemos implementado un 

modelo predictivo basado en similitud de secuencia. 

 
 A diferencia de muchas de las herramientas que se encuentran actualmente disponibles, 

BepiBlast no implementa ningún modelo de aprendizaje automático, sino que realiza una 

búsqueda de potenciales epítopos B en secuencias proteicas (secuencias query) tras consultar en 

una base de datos de secuencias de epítopos B conocidas (secuencias target) y encontrar 

similitudes individuales. Dicha base de datos se compone de más de 60000 epítopos B lineales 

experimentalmente verificados, siendo hasta la fecha el conjunto de datos con la mayor cantidad 

de epítopos B utilizados para la construcción de un modelo predictivo. Además, cabe destacar 

que no hemos incluido en la base de datos ningún péptido clasificado como no epítopo B, 

siendo esta metodología la primera que no los tiene en cuenta a la hora de realizar las 

predicciones correspondientes. Lejos de ser una desventaja, y dada la gran degeneración del 

reconocimiento del BCR, el no incluir datos negativos posiblemente sirva para vencer la notoria 

capacidad de sobre ajuste de los métodos basados en aprendizaje automático (Charilaou and 

Battat, 2022).  

 
 Utilizando los epítopos B target junto a dos conjuntos de datos de no epítopos B 

(péptidos al azar y péptidos anotados en IEDB como no epítopos B) evaluamos esta 

metodología basada en BLAST con validación cruzada, considerando como epítopo B todo hit 

sin gap con una identidad y una longitud ≥ 80 % y ≥ 8, respectivamente. Observamos que esta 

metodología pudo distinguir, con una exactitud notable, entre los epítopos B conocidos y los 

péptidos considerados como no epítopos B (Capitulo II, Tabla 1). Esta capacidad predictiva se 

remarca con los resultados obtenidos en el test independiente (Capitulo II, Tabla 2), 

obteniendo una exactitud mínima del 69.48 % y superando los valores obtenidos con BepiPred 

(Jespersen et al., 2017), IBCE-EL (Manavalan et al., 2018) and LBtope (Singh et al., 2013), 

todos ellos basados en métodos de aprendizaje automático. Sin embargo, la exactitud obtenida 

por IBCE-EL supera a la obtenida con nuestro método (79.96 % vs 69.48 %) al considerar como 

no epítopos B aquellos péptidos anotados como tal en IEDB. Observamos que el set de datos de 

entrenamiento utilizado para entrenar el modelo implementado en IBCE-EL incluye no epítopos 


DISCUSIÓN                                                                                                                     X 

 84 

B extraídos del IEDB. Este dato, junto con la diferencia entre las exactitudes obtenidas con los 

diferentes tipos de no epítopos B (79.96 % vs 46.26 %), nos lleva a pensar que nos encontramos 

ante un modelo predictivo sobreajustado.  

 
 En vista de los resultados obtenidos, el modelo predictivo implementado en BepiBlast 

posee un buen rendimiento en la validación cruzada, un buen rendimiento en el test 

independiente y es mejor que otras herramientas relacionadas. Para complementarlo, al igual 

que realizamos en BCEPS (Capítulo I), los resultados obtenidos con dicho modelo están 

asociados a unos valores de accesibilidad y flexibilidad. Así, en el output proporcionado por 

BepiBlast, se puede identificar y seleccionar los epítopos B más accesibles y flexibles, siendo 

estos los que tienen una mayor probabilidad de producir anticuerpos cross-reactivos con el 

antígeno nativo. Además, BepiBlast permite identificar todos aquellos epítopos B con hits a 

epítopos B que son objeto de reconocimiento por anticuerpos neutralizantes. En su conjunto, 

podemos definir a BepiBlast como una herramienta robusta, fácil de usar y muy completa, 

altamente recomendada para la predicción y selección de epítopos B lineales.  


CONCLUSIONES 


CONCLUSIONES                                                                                                            X 

 87 

1. Hemos generado distintos datasets que en conjunto suman 67229 secuencias de epítopos B 

lineales y 130462 secuencias de no epítopos B, los cuales han sido utilizados para el 

entrenamiento y testado de distintos modelos predictivos. 

 
2. Hemos construido y evaluado una serie de modelos de aprendizaje automático a partir de 

epítopos B extraídos de complejos antígeno-anticuerpo y posteriormente linealizados. El 

modelo con mayor capacidad predictiva fue obtenido usando SVM, seguido de RF y ANN. 

 
3. Hemos desarrollado un modelo de predicción de epítopos B basado en la similitud de 

secuencias mediante el uso de BLAST y del mayor set de datos de epítopos B jamás 

construido para este fin. 

 
4. Los modelos predictivos de epítopos B basados en aprendizaje automático (SVM, RF y 

ANN) alcanzan una ACC del 75.38 % ± 5.02, 74.95 % ± 5.47 y 73.87 % ± 5.11, 

respectivamente, siendo este valor de 81.32 %  ± 0.20  para el modelo basado en BLAST. 

 
5. Todos los modelos muestran una mayor capacidad predictiva que las herramientas 

relacionadas (BepiPred, LBtope and IBCE-EL) en tests independientes, a juzgar por distintos 

parámetros como SE, SP, MCC y AUC. 

 
6. Hemos confirmado para la proteína Spike de SARS-CoV-2 que la predicción de epítopos B 

lineales seguido de la selección de los más flexibles y accesibles, localizados en el 

ectodominio y sin sitios de N-glicosilación, claramente identifica epítopos B lineales que han 

sido descritos como objeto de reconocimiento de anticuerpos neutralizantes y por tanto 

cross-reactivos con la proteína nativa.  

 
7. Hemos desarrollado BCEPS (http://imbio.med.ucm.es/bceps/) y BepiBlast 

(http://imath.med.ucm.es/bepiblast/), dos herramientas web gratuitas y fáciles de usar para la 

predicción de epítopos lineales de linfocitos B. 

 
8. BCEPS permite al usuario seleccionar los epítopos por su localización (ectodominio), 

propiedades fisicoquímicas (accesibilidad, flexibilidad e hidrofilicidad) y modificaciones 

postraduccionales que puedan interferir en el reconocimiento por los anticuerpos. 

 
9. BCEPS permite seleccionar aquellos epítopos B más inmunogénicos al poder identificar 

aquellos que pueden unirse y ser presentados por moléculas de MHC-II. En otras palabras, 

seleccionar péptidos que son a la vez epítopos B y T. 


CONCLUSIONES                                                                                                            X 

 88 

10. BepiBlast permite identificar de una manera muy rápida epítopos B por su similitud con 

otros conocidos y es también muy útil para indicar cross-reactividad entre antígenos 

 
REFERENCIAS 


REFERENCIAS                                                                                                               X 
 

 91 

Abbas,A.K. et al. (2018) Cellular and molecular immunology. 

Abbott,W.M. et al. (2014) Current approaches to fine mapping of antigen–antibody interactions. 
Immunology, 142, 526–535. 

Ahmad,T.A. et al. (2016) B-cell epitope mapping for the design of vaccines and effective 
diagnostics. Trials Vaccinol., 5, 71–83. 

Akira,S. et al. (2006) Pathogen Recognition and Innate Immunity. Cell, 124, 783–801. 

Alpaydin,E. (2020) Introduction to machine learning MIT press. 

Altschul,S.F. et al. (1990) Basic local alignment search tool. J. Mol. Biol., 215, 403–410. 

Altschul,S.F. et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein 
database search programs. Nucleic Acids Res., 25, 3389–3402. 

Baxevanis,A.D. et al. (2020) Bioinformatics: A Practical Guide to the Analysis of Genes and 
Proteins 4th ed. Wiley. 

Blythe,M.J. and Flower,D.R. (2005) Benchmarking B cell epitope prediction: 
underperformance of existing methods. Protein Sci., 14, 246–248. 

Bonilla,F.A. and Oettgen,H.C. (2010) Adaptive immunity. J. Allergy Clin. Immunol., 125, S33-
40. 

Breiman,L. (2001) Random Forests. Mach. Learn., 45, 5–32. 

Charilaou,P. and Battat,R. (2022) Machine learning models and over-fitting considerations. 
World J. Gastroenterol., 28, 605–607. 

Cormen,T.H. et al. (2009) Introduction to Algorithms 3rd ed. The MIT Press. 

Crotty,S. (2015) A brief history of T cell help to B cells. Nat. Rev. Immunol., 15, 185–189. 

Dal Porto,J.M. et al. (2004) B cell antigen receptor signaling 101. Mol. Immunol., 41, 599–613. 

Drew,P.J. and Monson,J.R.T. (2000) Artificial neural networks. Surgery, 127, 3–11. 

Eisenberg,D. et al. (1984) The hydrophobic moment detects periodicity in protein 
hydrophobicity. Proc. Natl. Acad. Sci. U. S. A., 81, 140–144. 

Emini,E.A. et al. (1985) Induction of hepatitis A virus-neutralizing antibody by a virus-specific 
synthetic  peptide. J. Virol., 55, 836–839. 

Ferdous,S. and Martin,A.C.R. (2018) AbDb: antibody structure database-a database of PDB-
derived antibody structures. Database (Oxford)., 2018, bay040. 

Forsström,B. et al. (2014) Proteome-wide epitope mapping of antibodies using ultra-dense 
peptide arrays. Mol. Cell. Proteomics, 13, 1585–1597. 

Frank,E. et al. (2004) Data mining in bioinformatics using Weka. Bioinformatics, 20, 2479–
2481. 

Frank,S.A. (2002) Immunology and Evolution of Infectious Disease Princeton University Press. 

Galanis,K.A. et al. (2021) Linear B-Cell Epitope Prediction for In Silico Vaccine Design: A 
Performance Review of Methods Available via Command-Line Interface. Int. J. Mol. Sci., 
22, 3210. 

Gareth James  Trevor Hastie, Robert Tibshirani,D.W. An introduction to statistical learning : 
with applications in R New York : Springer, [2013] ©2013. 

Gauld,S.B. et al. (2002) B cell antigen receptor signaling: roles in cell development and disease. 


REFERENCIAS                                                                                                               X 
 

 92 

Science (80-. )., 296, 1641–1642. 

Geysen,H.M. et al. (1984) Use of peptide synthesis to probe viral antigens for epitopes to a 
resolution of a single amino acid. Proc. Natl. Acad. Sci., 81, 3998–4002. 

Greenbaum,J.A. et al. (2007) Towards a consensus on datasets and evaluation metrics for 
developing B-cell epitope prediction tools. J. Mol. Recognit., 20, 75–82. 

Greener,J.G. et al. (2022) A guide to machine learning for biologists. Nat. Rev. Mol. Cell Biol., 
23, 40–55. 

Gron,A. (2017) Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, 
Tools, and Techniques to Build Intelligent Systems 1st ed. O’Reilly Media, Inc. 

den Haan,J.M.M. et al. (2014) The activation of the adaptive immune system: cross-talk 
between  antigen-presenting cells, T cells and B cells. Immunol. Lett., 162, 103–112. 

Harris,L.J. et al. (1997) Refined Structure of an Intact IgG2a Monoclonal Antibody. 
Biochemistry, 36, 1581–1597. 

Harwood,N.E. and Batista,F.D. (2009) Early events in B cell activation. Annu. Rev. Immunol., 
28, 185–210. 

Hasan,M.M. et al. (2020) iLBE for Computational Identification of Linear B-cell Epitopes by 
Integrating Sequence and Evolutionary Features. Genomics. Proteomics Bioinformatics, 
18, 593–600. 

Haste Andersen,P. et al. (2006) Prediction of residues in discontinuous B-cell epitopes using 
protein 3D structures. Protein Sci., 15, 2558–2567. 

Hivroz,C. et al. (2012) Crosstalk between T lymphocytes and dendritic cells. Crit. Rev. 
Immunol., 32, 139–155. 

Hopp,T.P. and Woods,K.R. (1983) A computer program for predicting protein antigenic 
determinants. Mol. Immunol., 20, 483–489. 

Hopp,T.P. and Woods,K.R. (1981) Prediction of protein antigenic determinants from amino 
acid sequences. Proc. Natl. Acad. Sci. U. S. A., 78, 3824–3828. 

Jespersen,M.C. et al. (2017) BepiPred-2.0: improving sequence-based B-cell epitope prediction 
using conformational epitopes. Nucleic Acids Res., 45, W24–W29. 

Karplus,P.A. and Schulz,G.E. (1985) Prediction of chain flexibility in proteins. 
Naturwissenschaften, 72, 212–213. 

Kerfeld,C.A. and Scott,K.M. (2011) Using BLAST to Teach “E-value-tionary” Concepts. PLOS 
Biol., 9, e1001014. 

Kotsiantis,S.B. et al. (2007) Supervised machine learning: A review of classification 
techniques. Emerg. Artif. Intell. Appl. Comput. Eng., 160, 3–24. 

Kramer,O. (2013) Dimensionality Reduction with Unsupervised Nearest Neighbors. In, 
Kramer,O. (ed). Springer Berlin Heidelberg, Berlin, Heidelberg, pp. 13–23. 

Kringelum,J.V. et al. (2013) Structural analysis of B-cell epitopes in antibody:protein 
complexes. Mol. Immunol., 53, 24–34. 

Krogh,A. (2008) What are artificial neural networks? Nat. Biotechnol., 26, 195–197. 

Kumar,H. et al. (2009) Pathogen recognition in the innate immune response. Biochem. J., 420, 
1–16. 

Kurosaki,T. et al. (2009) B cell signaling and fate decision. Annu. Rev. Immunol., 28, 21–55. 


REFERENCIAS                                                                                                               X 
 

 93 

Kyte,J. and Doolittle,R.F. (1982) A simple method for displaying the hydropathic character of a 
protein. J. Mol. Biol., 157, 105–132. 

L Dudek,N. et al. (2010) Epitope discovery and their use in peptide based vaccines. Curr. 
Pharm. Des., 16, 3149–3157. 

Larsen,J.E.P. et al. (2006) Improved method for predicting linear B-cell epitopes. Immunome 
Res., 2, 2. 

LeBien,T.W. and Tedder,T.F. (2008) B lymphocytes: how they develop and function. Blood, 
112, 1570–1580. 

Leinikki,P. et al. (1993) Synthetic peptides as diagnostic tools in virology. Adv. Virus Res., 42, 
149–186. 

Liu,T. et al. (2020) Deep learning methods improve linear B-cell epitope prediction. BioData 
Min., 13, 1. 

Loh,W.-Y. (2011) Classification and regression trees. WIREs Data Min. Knowl. Discov., 1, 14–
23. 

Loh,W.-Y. (2014) Fifty Years of Classification and Regression Trees. Int. Stat. Rev., 82, 329–
348. 

Lu,S. et al. (2021) The immunodominant and neutralization linear epitopes for SARS-CoV-2. 
Cell Rep., 34, 108666. 

Manavalan,B. et al. (2018) iBCE-EL: A New Ensemble Learning Framework for Improved 
Linear B-Cell Epitope Prediction   . Front. Immunol.  , 9, 1695. 

Marshall,J.S. et al. (2018) An introduction to immunology and immunopathology. Allergy, 
Asthma Clin. Immunol., 14, 49. 

Mathews,C.K. et al. (2013) Biochemistry 4. ed. Pearson. 

Mitchell,T.M. and Mitchell,T.M. (1997) Machine learning McGraw-hill New York. 

Moser,M. and Leo,O. (2010) Key concepts in immunology. Vaccine, 28, C2–C13. 

Murtagh,F. (1991) Multilayer perceptrons for classification and regression. Neurocomputing, 2, 
183–197. 

El Naqa,I. and Murphy,M.J. (2015) Machine Learning in Radiation Oncology: Theory and 
Applications. In, El Naqa,I. et al. (eds). Springer International Publishing, Cham, pp. 3–
11. 

Nilvebrant,J. and Rockberg,J. (2018) An Introduction to Epitope Mapping. Methods Mol. Biol., 
1785, 1–10. 

Noble,W.S. (2006) What is a support vector machine? Nat. Biotechnol., 24, 1565–1567. 

Novotný,J. et al. (1986) Antigenic determinants in proteins coincide with surface regions 
accessible to large probes (antibody domains). Proc. Natl. Acad. Sci., 83, 226–230. 

Ofran,Y. et al. (2008) Automated identification of complementarity determining regions 
(CDRs) reveals peculiar characteristics of CDRs and B cell epitopes. J. Immunol., 181, 
6230–6235. 

Opuni,K.F.M. et al. (2018) Mass spectrometric epitope mapping. Mass Spectrom. Rev., 37, 
229–241. 

Pisner,D.A. and Schnyer,D.M. (2020) Machine Learning Methods and Applications to Brain 
Disorders. In, Mechelli,A. and Vieira,S.B.T.-M.L. (eds). Academic Press, pp. 101–121. 


REFERENCIAS                                                                                                               X 
 

 94 

Ponomarenko,J. V. and Regenmortel,M.H.V. van (2009) B-Cell Epitope Prediction. In, 
Structural Bioinformatics., p. 1096. 

Potocnakova,L. et al. (2016) An Introduction to B-Cell Epitope Mapping and In Silico Epitope 
Prediction. J. Immunol. Res., 2016, 6760830. 

Raimondi,D. et al. (2019) Exploring the limitations of biophysical propensity scales coupled 
with machine learning for protein sequence analysis. Sci. Rep., 9, 16932. 

Ramanathan,B. et al. (2016) Synthetic B-Cell Epitopes Eliciting Cross-Neutralizing Antibodies: 
Strategies for Future Dengue Vaccine. PLoS One, 11, e0155900–e0155900. 

Van Regenmortel,M.H.V. (2009) What is a B-cell epitope? In, Schutkowski,M. and Reineke,U. 
(eds), Methods in Molecular Biology. Humana Press, Totowa, NJ, pp. 3–20. 

Reth,M. (1989) Antigen receptor tail clue. Nature, 338, 383–384. 

Roche,P.A. and Furuta,K. (2015) The ins and outs of MHC class II-mediated antigen processing 
and presentation. Nat. Rev. Immunol., 15, 203–216. 

Rubinstein,N.D. et al. (2008) Computational characterization of B-cell epitopes. Mol. Immunol., 
45, 3477–3489. 

Rubinstein,N.D. et al. (2009) Epitopia: a web-server for predicting B-cell epitopes. BMC 
Bioinformatics, 10, 287. 

Russell,S. and Norvig,P. (2004) Artificial intelligence: a modern approach 2nd ed. Third 
edition. Upper Saddle River, N.J. : Prentice Hall, [2010] ©2010. 

Saha,S. et al. (2005) Bcipep: A database of B-cell epitopes. BMC Genomics, 6, 79. 

Saha,S. and Raghava,G.P.S. (2006) Prediction of continuous B-cell epitopes in an antigen using 
recurrent neural network. Proteins Struct. Funct. Bioinforma., 65, 40–48. 

Samuel,A.L. (1988) Some studies in machine learning using the game of checkers. II—recent 
progress. Comput. Games I, 366–400. 

Sanchez-Trincado,J.L. et al. (2017) Fundamentals and Methods for T- and B-Cell Epitope 
Prediction. J. Immunol. Res., 2017, 2680160. 

Sarma,J.V. and Ward,P.A. (2011) The complement system. Cell Tissue Res., 343, 227–235. 

Schroeder,H.W.J. and Cavacini,L. (2010) Structure and function of immunoglobulins. J. Allergy 
Clin. Immunol., 125, S41-52. 

Sela-Culang,I. et al. (2013) The Structural Basis of Antibody-Antigen Recognition   . Front. 
Immunol.  , 4. 

Singh,H. et al. (2013) Improved Method for Linear B-Cell Epitope Prediction Using Antigen’s 
Primary Sequence. PLoS One, 8, e62216. 

Sundberg,E.J. (2009) Structural basis of antibody-antigen interactions. Methods Mol. Biol., 524, 
23–36. 

Taud,H. and Mas,J.F. (2018) Geomatic Approaches for Modeling Land Change Scenarios. In, 
Camacho Olmedo,M.T. et al. (eds). Springer International Publishing, Cham, pp. 451–
455. 

Thornton,J.M. et al. (1986) Location of ‘continuous’ antigenic determinants in the protruding 
regions of proteins. EMBO J., 5, 409–413. 

Treanor,B. (2012) B-cell receptor: from resting state to activate. Immunology, 136, 21–27. 


REFERENCIAS                                                                                                               X 
 

 95 

Turvey,S.E. and Broide,D.H. (2010) Innate immunity. J. Allergy Clin. Immunol., 125, S24–S32. 

Vert,J.-P. et al. (2004) A primer on kernel methods. Kernel methods Comput. Biol., 47, 35–70. 

Vita,R. et al. (2019) The Immune Epitope Database (IEDB): 2018 update. Nucleic Acids Res., 
47, D339–D343. 

Vita,R. et al. (2015) The immune epitope database (IEDB) 3.0. Nucleic Acids Res., 43, D405–
D412. 

Voss,W.N. et al. (2021) Prevalent, protective, and convergent IgG recognition of SARS-CoV-2 
non-RBD spike  epitopes. Science, 372, 1108–1112. 

Wu,T.T. and Kabat,E.A. (1970) An analysis of the sequences of the variable regions of Bence 
Jones proteins and  myeloma light chains and their implications for antibody 
complementarity. J. Exp. Med., 132, 211–250. 

Xie,P. (2013) TRAF molecules in cell signaling and in human diseases. J. Mol. Signal., 8, 7. 

Yao,B. et al. (2012) SVMTriP: A Method to Predict Antigenic Epitopes Using Support Vector 
Machine to Integrate Tri-Peptide Similarity and Propensity. PLoS One, 7, e45152. 

Zhang,Z. (2016) Introduction to machine learning: k-nearest neighbors. Ann. Transl. Med., 4, 
218. 

Zhao,L. and Li,J. (2010) Mining for the antibody-antigen interacting associations that predict 
the B cell epitopes. BMC Struct. Biol., 10, 1–13. 

 
ANEXO I: Currículum Vitae 


ANEXO I                                                                                                                          X 

 99 

 
Álvaro Ras Carmona 

 
Nombre: Álvaro Apellidos: Ras Carmona 
DNI: 70085382N 
 
ORCIDID: 0000-0003-1644-6878 
ScopusID: 57215771602 
 
Fecha de nacimiento: 14/12/1996 
Nacionalidad: Español 

 INFORMACIÓN DE CONTACTO 
 
C/ Fernández Caballero Nº9; 28660 Boadilla 
del Monte; Madrid, España 
 
Tlf: +34 636584311 
aras@ucm.es 

 
EDUCACIÓN 
 
Oct 2018 – Sep 2019 Máster Universitario en Análisis de Datos Ómicos 

(Bioinformática) 
Universidad de Vic - Universidad Central de Cataluña (España) 
Calificación: 8,1 

Sep 2014 – Jul 2018 Grado en Biotecnología 
Universidad Francisco de Vitoria (España) 
Calificación: 7,8 

 
OTRAS TITULACIONES UNIVERSITARIAS OFICIALES 
 
Sep 2014 – Jul 2018 Título de Experto en Metodología en Investigación 

Biotecnológica 
Universidad Francisco de Vitoria (España) 
Calificación: 8,3 

 
EXPERIENCIA LABORAL 
 
Oct 2019 – Actualidad Investigador pre-doctoral 

Grupo de Inmunomedicina, Departamento de Inmunología, 
Facultad de Medicina, Universidad Complutense de Madrid 
(España) 
Tema:  Predicción de epítopos lineales de linfocitos B 
(Bioinformática e Inmunología) 

Abr 2019 – Sep 2019 Estudiante de prácticas: Realización del proyecto final de 
máster  
Grupo de Inmunoterapia del cáncer, área de terapias avanzadas, 
Universidad Francisco de Vitoria (España). 
Tema: Análisis bioinformático del metiloma y de genes 
diferencialmente  metilados en subtipos de cáncer colorrectal 
(Metagenómica y Bioestadística) 

Ene 2018 – Jul 2019 Estudiante de prácticas: Realización del proyecto final de grado  
Centro de Investigaciones Biológicas Margarita Salas, Consejo 
superior de Investigaciones científicas (CSIC), Madrid 
Tema: Establecimiento y optimización del proceso de 
purificación de TFIIH en Saccharomyces cerevisiae (Biología 
estructural) 

 
ANEXO I                                                                                                                          X 

 100 

ESTANCIA INTERNACIONAL 
 
Grupo de 
investigación 

Computational Modeling in Systems Biomedicine 

Centro Dipartimento di Scienze del Farmaco e della Salute, 
Universidad de Catania, Catania, Italia 

Supervisor Prof. Francesco Pappalardo 
Fechas 19 Septiembre – 1 Diciembre 
Financiación (Beca) Estancia financiada por la Federación Europea de Sociedades 

Inmunológicas (European Federation of Immunological Societies) 
e Immunology Letters 

 
PARTICIPACIÓN EN PROYECTOS DE INVESTIGACIÓN 
 
2020 – 2022 “La inmunidad cruzada de formulaciones bacterianas frente a virus que 

causan enfermedades respiratorias recurrentes”. INMUNOTEK, S.L. (337-
2020). Miembro del equipo de trabajo. 

2020 – 2022 “Verification of the accuracy of existing in silico T cell epitote prediction 
algorythms vs. the experimental data that CTL generates”. CELLULAR 
TECHNOLOGY LIMITED (282-2020). REF: 4157895. Miembro del 
equipo de trabajo: Contratado. 

2020 – 2021 “e-FACS: a platform for virtual realization of flow cytometry”. Proyectos 
Innova-Docencia 2020-21 Universidad complutense de Madrid. REF: 243. 
Miembro del equipo de trabajo. 

 
CONOCIMIENTOS 
 
Bioinformáticos 
 

- Modelado proteico (Modeller y Swiss-Model) 
- Realización de Blast (local y web) 
- Realización de alineamiento de dos secuencias (local y global),  y alineamiento 

múltiple. 
- Análisis de estudios de asociación genéticos (“Single assiciation analysis” y 

“GWAS”)  
- Análisis de datos epigenéticos (librería minfi) 
- Análisis de datos de microarrays de expresión y de RNA-seq. 
- Análisis de datos metagenómicos (Mothur y análisis con R) 
- Integración de datos provenientes de diversas ómicas. 
- Visualización de estructuras (Pymol). 
- Manejo y obtención de información con bases de datos. 

 
Informáticos 
 

- Análisis de datos con R (nivel alto).  
- Programación en Python (nivel alto): Automatización (selenium), desarrollo de 

páginas web (tecnología CGI o Flask), manejo de tablas de datos (Pandas), parseo de 
archivos HTML (BeautifulSoup), Python dirigido a problemas biológicos 
(Biopython), etc. 

- Aprendizaje automático: Manejo del software WEKA y utilización de Scikit Learn y 
Tensorflow. 

- Manejo de bases de datos tipo SQL (programación en Sql) 
- Desarrollo (programación en HTML/CSS, manejo de Kompozer y tecnología CGI o 

Flask) y administración (conocimientos básicos de Apache) de páginas webs 
- Manejo de GNU/Linux y conocimientos básicos de programación en bash. 


ANEXO I                                                                                                                          X 

 101 

- Manejo de las herramientas Git, Github, Docker y DockerHub. 
- Manejo de office (Word, Powepoint y Excel) 

 
IDIOMAS 
 
Español Nativo 
Inglés B2: Título oficial expedido por la Universidad de Cambridge: First Certificate 

Exam (FCE). 
 
BECAS Y CONTRATOS CONCEDIDOS 
 
2022 Adjudicación de la beca para estancias breves: EFIS-Immunology Letters 

Short-Term Fellowship 
- Organismo financiador: Federación Europea de Sociedades 

Inmunológica e Immunology Letters 
- Periodo cubierto por la beca: 19/09/2022 – 1/12/2022 

2022 Adjudicación de contrato pre-doctoral de personal investigador en 
formación. Convocatoria 2020 (Código de la plaza: CT82/20-CT83/20) 

- Duración del contrato: 01/06/2022 – 31/05/2026 
2022 Adjudicación de plaza de “Personal Investigador de Proyectos (PAI-I). 

UCM” (contratado) (Código de la plaza: PAII87/20-15/2020-27). 
- Duración del contrato: 15/01/2021 – 31/12/2021 
- Extendido hasta: 31/05/2022 

2014 - 2017 Adjudicación durante los cursos académicos correspondientes de las becas 
excelencia académica otorgada por la Universidad Francisco de Vitoria en 
honor a las calificaciones obtenidas. 

 
EXPERIENCIA ACADÉMICA/DOCENTE 
 
 
2022 – 2023 Docencia en grado de Medicina. Universidad Complutense de Madrid 

(UCM), Facultad de Medicina. Asignatura de Inmunología. 12 horas 
2021 – 2022 Docencia en grado de Medicina. Universidad Complutense de Madrid 

(UCM), Facultad de Medicina. Asignatura de Inmunología. 24 horas 
2020 – 2021 Docencia en grado de Medicina. Universidad Complutense de Madrid 

(UCM), Facultad de Medicina. Asignatura de Inmunología. 15 horas 
 
PUBLICACIONES 
 
Artículos 
  

- Ras-Carmona, A., Reche, PA. 2023. Analysis of virus-specific B cell epitopes reveals 
extensive antigen processing prior to recognition. bioRxiv. 
doi: https://doi.org/10.1101/2023.12.15.571861 (Preprint). 

- Bodas-Pinedo, A., Lafuente, E. M., Pelaez-Prestel, H. F., Ras-Carmona, A., Subiza, J. 
L., & Reche, P. A. 2023. Combining different bacteria in vaccine formulations 
enhances the chance for antiviral cross-reactive immunity: a detailed in silico analysis 
for influenza A virus. Frontiers in immunology. 
https://doi.org/10.3389/fimmu.2023.1235053 

- Ras-Carmona, A., Lehmann, A. A., Lehmann, P. V., & Reche, P. A. 2022. Prediction 
of B cell epitopes in proteins using a novel sequence similarity-based method. Scientific 
reports. https://doi.org/10.1038/s41598-022-18021-1 

- Ballesteros-Sanabria L*, Pelaez-Prestel H.F*, Ras-Carmona A*, Reche, PA. 2022. 
Resilience of Spike-Specific Immunity Induced by COVID-19 Vaccines against SARS-


ANEXO I                                                                                                                          X 

 102 

CoV-2 Variants. Biomedicines. https://doi.org/10.3390/biomedicines10050996. *Equal 
contribution 

- Ras-Carmona A, Pelaez-Prestel H.F, Lafuente E.M, Reche, P.A. 2021. BCEPS: A 
Web Server to Predict Linear B Cell Epitopes with Enhanced Immunogenicity and 
Cross-Reactivity. Cells.  https://doi.org/10.3390/cells10102744 

- Ras-Carmona A, Gomez-Perosanz M, Reche PA. 2021. Prediction of unconventional 
protein secretion by exosomes. BMC Bioinformatics. https://doi.org/10.1007/978-1-
0716-0389-5_23. 

- Gomez-Perosanz M*, Ras-Carmona A*, Lafuente EM, Reche PA. 2020. Identification 
of CD8+ T cell epitopes through proteasome cleavage site predictions. BMC 
Bioinformatics. https://doi.org/10.1186/s12859-020-03782-1. *Equal contribution 

 
Capítulos de libros 
 

- Gomez-Perosanz M, Ras-Carmona A, Reche PA. 2020. Immunoinformatics. In: 
Namrata Tomar (ed.). Methods in Molecular Biology, vol. 2131. 
https://doi.org/10.1007/978-1-0716-0389-5_23. 

 
Workshop papers 
 

- Workshop paper in “2023 IEEE International Conference on Bioinformatics and 
Biomedicine (BIBM)”. Avisa Maleki, Alvaro Ras-Carmona, Elena Crispino, Valentina 
Di Salvatore, Giulia Russo, Pedro Antonio Reche and Francesco Pappalardo. Genetic 
Algorithm-Based Prediction of Emerging SARS-CoV-2 Variants: A Computational 
Biology Perspective. Istanbul, Turkiye. 

- Workshop paper in “2022 IEEE International Conference on Bioinformatics and 
Biomedicine (BIBM)”. Avisa Maleki*, Alvaro Ras-Carmona*, Valentina Di Salvatore, 
Giulia Russo, Elena Crispino and Francesco Pappalardo. Genetic algorithm application 
for the prediction of potential SARS-CoV-2 new variant of concern. Las Vegas  NV, 
USA. *Equal contribution 

- Workshop paper in “2019 IEEE International Conference on Bioinformatics and 
Biomedicine (BIBM)”.Gomez-Perosanz M, Ras-Carmona A, and Reche PA. Prediction 
of proteasomal cleavage sites using PCPS. San Diego CA, USA. 

 
CONGRESOS 
 
2023 Participación como ponente en actividades celebradas durante el “II Congreso San 

Alberto Magno: Afrontando Retos Desde La Ciencia” 
2023 Poster en el “II Congreso San Alberto Magno: Afrontando Retos Desde La Ciencia”. 

Álvaro Ras-Carmona, Hector F. Pelaez-Prestel, Esther M. Lafuente and Pedro A. 
Reche. Inteligencia artificial e inmunología: Desarrollo de un modelo de aprendizaje 
automático para la predicción de epítopos lineales de linfocitos B 

2023 Poster en las “XI Jornadas Científicas de la Sociedad de Inmunología de la 
Comunidad de Madrid”. Álvaro Ras-Carmona, Alexander A. Lehmann, Paul V. 
Lehmann, Pedro A. Reche. BepiBlast: Un servidor web para predecir epítopos 
lineales mediante un nuevo método basado en similitud de secuencias. 

2023 Comunicación oral en el “44 Congreso de la sociedad de la Sociedad Española de 
Inmunología”. Álvaro Ras-Carmona, Alexander A. Lehmann, Paul V. Lehmann, 
Pedro A. Reche. Desarrollo de un nuevo método para la predicción de epítopos 
lineales de linfocitos B basado en la similitud de secuencias. 

2022 Poster en las “X Jornadas Científicas de la Sociedad de Inmunología de la 
Comunidad de Madrid”. Álvaro Ras-Carmona, Hector F. Pelaez-Prestel, Esther M. 
Lafuente and Pedro A. Reche. BCEPS: Hacia una predicción de epítopos lineales de 
linfocitos B con un alto grado de inmunogenicidad y reactividad cruzada 


ANEXO I                                                                                                                          X 

 103 

2022 Poster en las “X Jornadas Científicas de la Sociedad de Inmunología de la 
Comunidad de Madrid”. Laura Ballesteros-Sanabria, Hector F. Pelaez-Prestel, Álvaro 
Ras-Carmona, Pedro A. Reche. Resilience of Spike-Specific Immunity Induced by 
COVID-19 Vaccines Against SARS-CoV-2 Variants. 

2021 Póster en la “5ª Convocatoria EDUCM PhDay Complutense”. Álvaro Ras-
Carmona, Hector F. Pelaez-Prestel, Esther M. Lafuente and Pedro A. Reche. BCEPS: 
Hacia una predicción de epítopos lineales de linfocitos B con un alto grado de 
inmunogenicidad y reactividad cruzada. Póster premiado 

2021 Póster en “6th European Congress of Immunology”. Álvaro Ras-Carmona, Marta 
Gomez-Perosanz, and Pedro A. Reche. ExoPred: The first method for predicting 
vertebrata secreted proteins via exosome using random forest algorithm. 

2021 Póster en el “42 Congreso de la sociedad de la Sociedad Española de Inmunología”. 
Álvaro Ras-Carmona, Marta Gomez-Perosanz, and Pedro A. Reche. ExoPred: A 
web-based tool for predicting proteins secreted by exosomes using Random Forests. 

2020 Póster en la “4ª Convocatoria EDUCM PhDay Complutense”. Álvaro Ras-
Carmona, Marta Gomez-Perosanz, and Pedro A. Reche. Prediction of vertebrata 
secreted proteins via exosome by the application of random forest algorithm. 

 
ANEXO II: Otras publicaciones 
generadas durante la elaboración de 
esta tesis	
 

• Bodas-Pinedo, A., Lafuente, E. M., Pelaez-Prestel, H. F., Ras-Carmona, A., Subiza, J. 
L., & Reche, P. A. 2023. Combining different bacteria in vaccine formulations 
enhances the chance for antiviral cross-reactive immunity: a detailed in silico analysis 
for influenza A virus. Frontiers in immunology. 
https://doi.org/10.3389/fimmu.2023.1235053 
 

• Ballesteros-Sanabria L*, Pelaez-Prestel H.F*, Ras-Carmona A*, Reche, PA. 2022. 
Resilience of Spike-Specific Immunity Induced by COVID-19 Vaccines against SARS-
CoV-2 Variants. Biomedicines. https://doi.org/10.3390/biomedicines10050996. *Equal 
contribution 
 

• Ras-Carmona A, Gomez-Perosanz M, Reche PA. 2021. Prediction of unconventional 
protein secretion by exosomes. BMC Bioinformatics. https://doi.org/10.1007/978-1-
0716-0389-5_23. 
 

• Gomez-Perosanz M*, Ras-Carmona A*, Lafuente EM, Reche PA. 2020. Identification 
of CD8+ T cell epitopes through proteasome cleavage site predictions. BMC 
Bioinformatics. https://doi.org/10.1186/s12859-020-03782-1. *Equal contribution 
 

• Gomez-Perosanz M, Ras-Carmona A, Reche PA. 2020. Immunoinformatics. In: 
Namrata Tomar (ed.). Methods in Molecular Biology, vol. 2131. 
https://doi.org/10.1007/978-1-0716-0389-5_23. 

 
ANEXO II                                                                                                                         X 

 107 

 
ANEXO II                                                                                                                         X 

 108 


ANEXO II                                                                                                                         X 

 109 


ANEXO II                                                                                                                         X 

 110 


ANEXO II                                                                                                                         X 

 111 


ANEXO II                                                                                                                         X 

 112 


ANEXO II                                                                                                                         X 

 113 


ANEXO II                                                                                                                         X 

 114 


ANEXO II                                                                                                                         X 

 115 


ANEXO II                                                                                                                         X 

 116 


ANEXO II                                                                                                                         X 

 117 


ANEXO II                                                                                                                         X 

 118 

 
ANEXO II                                                                                                                         X 

 119 

 
ANEXO II                                                                                                                         X 

 120 


ANEXO II                                                                                                                         X 

 121 


ANEXO II                                                                                                                         X 

 122 


ANEXO II                                                                                                                         X 

 123 


ANEXO II                                                                                                                         X 

 124 


ANEXO II                                                                                                                         X 

 125 


ANEXO II                                                                                                                         X 

 126 


ANEXO II                                                                                                                         X 

 127 


ANEXO II                                                                                                                         X 

 128 


ANEXO II                                                                                                                         X 

 129 


ANEXO II                                                                                                                         X 

 130 


ANEXO II                                                                                                                         X 

 131 


ANEXO II                                                                                                                         X 

 132 


ANEXO II                                                                                                                         X 

 133 


ANEXO II                                                                                                                         X 

 134 

 
ANEXO II                                                                                                                         X 

 135 

 
ANEXO II                                                                                                                         X 

 136 


ANEXO II                                                                                                                         X 

 137 


ANEXO II                                                                                                                         X 

 138 


ANEXO II                                                                                                                         X 

 139 


ANEXO II                                                                                                                         X 

 140 


ANEXO II                                                                                                                         X 

 141 


ANEXO II                                                                                                                         X 

 142 


ANEXO II                                                                                                                         X 

 143 


ANEXO II                                                                                                                         X 

 144 


ANEXO II                                                                                                                         X 

 145 


ANEXO II                                                                                                                         X 

 146 


ANEXO II                                                                                                                         X 

 147 

 
ANEXO II                                                                                                                         X 

 149 

 
ANEXO II                                                                                                                         X 

 150 


ANEXO II                                                                                                                         X 

 151 


ANEXO II                                                                                                                         X 

 152 


ANEXO II                                                                                                                         X 

 153 


ANEXO II                                                                                                                         X 

 154 


ANEXO II                                                                                                                         X 

 155 


ANEXO II                                                                                                                         X 

 156 


ANEXO II                                                                                                                         X 

 157 


ANEXO II                                                                                                                         X 

 158 


ANEXO II                                                                                                                         X 

 159 

 
ANEXO II                                                                                                                         X 

 161 

 
ANEXO II                                                                                                                         X 

 162 


ANEXO II                                                                                                                         X 

 163 


ANEXO II                                                                                                                         X 

 164 


ANEXO II                                                                                                                         X 

 165 


ANEXO II                                                                                                                         X 

 166 


ANEXO II                                                                                                                         X 

 167 


ANEXO II                                                                                                                         X 

 168 

 
ANEXO III: Workshop papers 
generados durante la elaboración de 
esta tesis	
 
 
• Workshop paper in “2023 IEEE International Conference on Bioinformatics and 
Biomedicine (BIBM)”. Avisa Maleki, Alvaro Ras-Carmona, Elena Crispino, Valentina 
Di Salvatore, Giulia Russo, Pedro Antonio Reche and Francesco Pappalardo. Genetic 
Algorithm-Based Prediction of Emerging SARS-CoV-2 Variants: A Computational 
Biology Perspective. Istanbul, Turkiye. 
 

• Workshop paper in “2022 IEEE International Conference on Bioinformatics and 
Biomedicine (BIBM)”. Avisa Maleki*, Alvaro Ras-Carmona*, Valentina Di Salvatore, 
Giulia Russo, Elena Crispino and Francesco Pappalardo. Genetic algorithm application 
for the prediction of potential SARS-CoV-2 new variant of concern. Las Vegas  NV, 
USA. *Equal contribution 
 

• Workshop paper in “2019 IEEE International Conference on Bioinformatics and 
Biomedicine (BIBM)”.Gomez-Perosanz M, Ras-Carmona A, and Reche PA. Prediction 
of proteasomal cleavage sites using PCPS. San Diego CA, USA. 

 
ANEXO III                                                                                                                       X 

 171 

 
ANEXO III                                                                                                                       X 

 172 


ANEXO III                                                                                                                       X 

 173 


ANEXO III                                                                                                                       X 

 174 

 
ANEXO III                                                                                                                       X 

 175 

 
ANEXO III                                                                                                                       X 

 176 


ANEXO III                                                                                                                       X 

 177 

 
ANEXO III                                                                                                                       X 
 

 179 

 
ANEXO III                                                                                                                       X 
 

 180 


ANEXO III                                                                                                                       X 
 

 181 


ANEXO III                                                                                                                       X 
 

 182 

 
TESIS DOCTORAL 
 

Álvaro Ras Carmona 
 

Madrid 2024 


	Tesis Álvaro Ras Carmona
	PORTADA
	ÍNDICE
	ABREVIATURAS
	RESUMEN
	SUMMARY
	INTRODUCCIÓN
	OBJETIVOS
	MÉTODOS
	CAPÍTULO I. BCEPS: A WEB SERVER TO PREDICT LINEAR B CELL EPITOPES WITH ENHANCED IMMUNOGENICITY AND CROSS-REACTIVITY
	CAPÍTULO II. PREDICTION OF B CELL EPITOPES IN PROTEINS USING A NOVEL SEQUENCE SIMILARITY-BASED METHOD

	DISCUSIÓN
	CONCLUSIONES
	REFERENCIAS
	ANEXO I: CURRÍCULUM VITAE
	ANEXO II: OTRAS PUBLICACIONES GENERADAS DURANTE LA ELABORACIÓN DE ESTA TESIS 
	ANEXO III: WOKSHOP PAPERS GENERADOS DURANTE LA ELABORACIÓN DE ESTA TESIS