Testeando LLMs
Loading...
Download
Official URL
Full text at PDC
Publication date
2024
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citation
Abstract
Este proyecto se centra en el desarrollo de un sistema diseñado para evaluar y comparar la eficiencia de LLMs (modelos de lenguaje de gran tamaño), como GPT o Cohere los cuales son los utilizados en este proyecto. El objetivo principal fue crear una herramienta que permita la interacción con un LLM en prueba y utilizar un LLM de referencia para evaluar las respuestas.
La herramienta cuenta con funcionalidades que permiten al usuario ajustar la dificultad y la temática de las preguntas, adaptando así la evaluación a diferentes necesidades y contextos. Este sistema nos aporta una herramienta útil para evaluación de diferentes LLMs pudiendo utilizar para otro tipo de estudios relacionado con la inteligencia artificial
This project focuses on developing a system designed to evaluate and compare the efficiency of Large Language Models (LLMs), such as GPT or Cohere, which are used in this project. The main goal was to create a tool that allows interaction with a test LLM and uses a reference LLM to evaluate the responses. The tool features functionalities that enable the user to adjust the difficulty and theme of the questions, thus tailoring the evaluation to different needs and contexts. This system provides us with a useful tool for evaluating various LLMs, which can be used for other types of studies related to artificial intelligence.
This project focuses on developing a system designed to evaluate and compare the efficiency of Large Language Models (LLMs), such as GPT or Cohere, which are used in this project. The main goal was to create a tool that allows interaction with a test LLM and uses a reference LLM to evaluate the responses. The tool features functionalities that enable the user to adjust the difficulty and theme of the questions, thus tailoring the evaluation to different needs and contexts. This system provides us with a useful tool for evaluating various LLMs, which can be used for other types of studies related to artificial intelligence.
Description
Trabajo de Fin de Grado en Ingeniería del Software, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2023/2024