RAG, ajuste e ingeniería rápida

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

RAG, ajuste e ingeniería rápida

Ingeniería rápida, ajuste y generación aumentada por recuperación (RAG) son tres métodos de optimización que las empresas pueden utilizar para obtener más valor de los modelos de lenguaje grandes (LLM). Los tres optimizan el comportamiento del modelo, pero cuál usar depende del caso de uso objetivo y de los recursos disponibles.

Los modelos de IA generativa se entrenan con grupos masivos de datos, gran parte de los cuales se obtienen de Internet. Los desarrolladores de inteligencia artificial normalmente no tienen acceso a datos específicos, como los datos internos y de propiedad exclusiva de una empresa. Cuando las organizaciones desean aplicar modelos de lenguaje grandes (LLM) para necesidades específicas, necesitan ajustar la forma en que funciona el modelo de IA generativa para producir los resultados y el comportamiento deseados.

La ingeniería rápida, el RAG y el ajuste ayudan a optimizar los resultados de un LLM para los casos de uso. Con ellos, los científicos de datos pueden obtener un mejor rendimiento posterior, una mayor precisión específica del dominio y resultados que cumplan con los requisitos normativos, lingüísticos o de formato relevantes.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de la industria, herramientas de IA y tendencias emergentes en ingeniería rápida con el boletín Think. Además, obtenga acceso a nuevos documentos explicativos, tutoriales e insights de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

¿Cuál es la diferencia entre RAG, ajuste e ingeniería rápida?

La diferencia entre ingeniería rápida, RAG y ajuste cubre cuatro áreas principales de distinción:

  • Método

  • Objetivos

  • Necesidades de recursos 

  • Aplicaciones

Método

La ingeniería rápida optimiza las instrucciones de entrada para dirigir un modelo hacia mejores resultados. El refinamiento de los LLM los entrena con conjuntos de datos específicos del dominio para aumentar el rendimiento en las tareas posteriores. El RAG conecta un LLM a una base de datos y automatiza la recuperación de información para aumentar las instrucciones con datos relevantes para una mayor precisión.

Objetivos

La GAR, la ingeniería rápida y el ajuste tienen el mismo resultado general: mejorar el rendimiento de un modelo para maximizar el valor para la empresa que lo usa. Pero, más específicamente, la ingeniería rápida debe liderar un modelo para ofrecer los resultados que el usuario desea. El objetivo del GAR es orientar un modelo para que ofrezca resultados más pertinentes y precisos. 

Mientras tanto, un modelo ajustado se vuelve a entrenar en un conjunto enfocado de datos externos para mejorar el rendimiento en casos de uso específicos. Los tres métodos no son mutuamente excluyentes y a menudo se combinan para obtener resultados óptimos. 

Requisitos de recursos

La ingeniería rápida es la que menos tiempo y recursos consume de las tres técnicas de optimización. La ingeniería rápida básica se puede realizar manualmente sin ninguna inversión en cómputo adicional.

El RAG requiere conocimientos de ciencia de datos para organizar los conjuntos de datos empresariales y construir los pipelines de datos que conectan los LLM a esas fuentes de datos. Podría decirse que el ajuste es el más exigente porque los procesos de preparación de datos y entrenamiento requieren mucho tiempo y son muy complejos desde el punto de vista informático.

Aplicaciones

La ingeniería rápida es la más flexible y se destaca en situaciones abiertas con una variedad potencialmente diversa de resultados, como cuando se le pide a un LLM que genere contenido desde cero. El éxito de la generación de imágenes, videos y textos funciona con instrucciones sólidas.

El ajuste perfecciona un modelo para un trabajo altamente enfocado, cuando los científicos de datos necesitan un modelo para hacer una cosa muy bien. El RAG es una solución ideal donde la información precisa, relevante y actual es primordial, como con los chatbots de atención al cliente.

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

¿Por qué son importantes la ingeniería rápida, el RAG y el ajuste?

La ingeniería rápida ofrece una variedad de métodos para dar a los modelos instrucciones explícitas sobre cómo comportarse. Con directivas claras, el comportamiento del modelo se puede esculpir con mayor precisión sin tener que invertir en sistemas de recuperación o entrenamiento que consumen muchos recursos.

RAG conecta un LLM a datos propios en tiempo real a los que, de otro modo, no podría acceder. Los modelos RAG pueden devolver respuestas más precisas con el contexto agregado de los datos internos de lo que podrían hacerlo sin él.

Un modelo ajustado suele superar a su modelo base correspondiente, como aquellos en la familia GPT, al aplicar su entrenamiento con datos específicos del dominio. Con un mayor acceso al conocimiento externo, un LLM perfeccionado tiene una mejor comprensión del dominio específico y su terminología.

¿Qué es la ingeniería rápida?

La ingeniería rápida es el proceso de creación de instrucciones eficaces que guían un modelo hacia los resultados deseados sin ampliar su base de conocimientos. El proceso de ingeniería rápida no altera de manera significativa los parámetros de un modelo previamente entrenado.

El objetivo de la ingeniería rápida es crear instrucciones que hagan que los resultados de un modelo cumplan con los requisitos específicos del caso de uso. Un mayor entrenamiento y un mayor acceso a los datos no pueden compensar las malas indicaciones.

¿Cómo funciona la ingeniería rápida?

La ingeniería rápida funciona ajustando la estructura y el contenido de las instrucciones de entrada según los resultados anteriores. Con cada iteración, el ingeniero aprende cómo responde el modelo a las entradas anteriores y luego emplea esos resultados para informar la siguiente instrucción. El objetivo es modificar el comportamiento del modelo mediante instrucciones claras.

Una buena ingeniería rápida se basa en instrucciones que indican a un modelo de procesamiento de lenguaje natural exactamente lo que debe hacer. El proceso de ingeniería rápida implica experimentar con el contenido, la estructura y el lenguaje de la instrucción para descubrir el formato óptimo que lleva a los resultados necesarios del modelo.

Compare un modelo de machine learning con un aspirante a cocinero que quiere preparar una gran cena. La ingeniería rápida sería análoga a un amigo o familiar más informado que les ayuda a planificar su enfoque para la comida. Con consejos sólidos sobre qué hacer y cómo, es más probable que el cocinero casero entusiasmado produzca algo delicioso.

¿Qué es la generación aumentada por recuperación?

RAG es un marco de arquitectura de datos que conecta un LLM con otros datos, como los datos patentados de una organización, a menudo almacenados en lakehouses de datos. Los sistemas RAG agregan datos relevantes a las instrucciones del LLM para que este pueda generar respuestas más precisas.

¿Cómo funciona RAG?

La generación aumentada por recuperación funciona mediante la localización de datos que son relevantes para la consulta del usuario y, a continuación, el uso de esos datos para crear instrucciones más informativas. Se agrega un mecanismo de recuperación de información para aumentar las instrucciones para el LLM y ayudarlo a generar respuestas más relevantes.

Los modelos RAG generan respuestas a través de un proceso de cuatro etapas:

  1. Consulta: un usuario envía una consulta, que inicializa el sistema RAG.

  2. Recuperación de información: algoritmos complejos o API peinan bases de conocimiento internas y externas en busca de información relevante. 

  3. Integración: los datos recuperados se combinan con la consulta del usuario y se entregan al modelo RAG para que responda. Hasta este momento, el LLM no ha procesado la consulta.

  4. Respuesta: combinando los datos recuperados con su propia formación y conocimiento almacenado, el LLM genera una respuesta contextualmente rica y precisa.

Al buscar en documentos, los sistemas RAG emplean la búsqueda semántica. Las bases de datos vectoriales organizan los datos por similitud, lo que permite realizar búsquedas por significado, en lugar de palabra clave. Las técnicas de búsqueda semántica permiten a los algoritmos RAG llegar a palabras clave anteriores a la intención de una consulta y devolver los datos más relevantes.

Los sistemas RAG requieren una amplia construcción y mantenimiento de la arquitectura de datos. Los ingenieros de datos deben crear los procesos de datos necesarios para conectar los lakehouses de datos de su organización con el LLM y usar la escala RAG. Los sistemas RAG también necesitan una ingeniería rápida y precisa para localizar los datos correctos y asegurarse de que el LLM sepa qué hacer con ellos.

Nuevamente, imagine un modelo de IA generativa como un cocinero casero aficionado. Conoce los conceptos básicos de la cocina, pero carece de la información más reciente y del conocimiento experto de un chef formado en una cocina concreta. El RAG es como darle al cocinero casero un libro de cocina para esa cocina. Al combinar su conocimiento general de cocina con las recetas del libro de cocina, el cocinero puede crear sus platos favoritos con facilidad.

¿Qué es el ajuste?

El refinamiento es el proceso de volver a capacitar un modelo previamente capacitado en un conjunto de datos de entrenamiento más pequeño y más enfocado para darle conocimiento específico del dominio. Luego, el modelo ajusta sus parámetros (las pautas que rigen su comportamiento) y sus incrustaciones para adaptar mejor al conjunto de datos específico.

¿Cómo funciona el ajuste?

El refinamiento funciona exponiendo un modelo a un conjunto de datos de ejemplos etiquetados. El modelo mejora su entrenamiento inicial a medida que actualiza las ponderaciones de su modelo en función de los nuevos datos. El refinamiento es un método de aprendizaje supervisado, lo que significa que los datos utilizados en el entrenamiento están organizados y etiquetados. Por el contrario, la mayoría de los modelos base se someten a un aprendizaje sin supervisar, en el que los datos no están ordenados: el modelo debe categorizarlos por sí solo.

Imaginando de nuevo un modelo de IA gen como un cocinero casero, el perfeccionamiento sería un curso de cocina específica. Antes de realizar el curso, el cocinero casero debe tener una comprensión general de los fundamentos de la cocina. Pero luego de recibir formación culinaria y adquirir conocimientos específicos del sector, serían mucho más competentes a la hora de cocinar ese tipo de comida.

Ajuste completo frente a ajuste eficiente de parámetros

Los modelos pueden ajustarse completamente, lo que actualiza todos sus parámetros, o ajustarse de manera que actualice solo los parámetros más relevantes. Este último proceso se conoce como ajuste eficiente de parámetros (PEFT) y es una forma rentable de hacer que los modelos sean más efectivos en un determinado dominio.

El ajuste fino de un modelo requiere un uso intensivo de cálculo y múltiples GPU poderosos que se ejecutan en tándem, por no hablar de la memoria para almacenar el propio LLM. PEFT permite a los usuarios de LLM volver a capacitar sus modelos en configuraciones de hardware más simples, al tiempo que devuelve actualizaciones de rendimiento comparables en el caso de uso previsto del modelo, como la atención al cliente o el análisis de opinión. El refinamiento se destaca especialmente para ayudar a los modelos a superar el sesgo, que es una brecha entre las predicciones del modelo y los resultados reales. 

Refinamiento frente a preentrenamiento continuo

El preentrenamiento ocurre al comienzo del proceso de entrenamiento. Los pesos o parámetros del modelo se inicializan aleatoriamente y el modelo comienza a entrenarse en su conjunto de datos inicial. El preentrenamiento continuo introduce un modelo entrenado a un nuevo conjunto de datos no etiquetados en una práctica conocida como aprendizaje por transferencia. El modelo preentrenado "transfiere" lo que ha aprendido hasta ahora a nueva información externa.

Por el contrario, el refinamiento emplea datos etiquetados para perfeccionar el rendimiento de un modelo en un caso de uso seleccionado. El refinamiento se destaca por perfeccionar la experiencia de un modelo en tareas específicas, mientras que el entrenamiento previo continuo puede profundizar la experiencia de dominio de un modelo.

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Con la IA, IBM Concert muestra insights cruciales sobre operaciones y proporciona recomendaciones de mejora específicas de las aplicaciones. Descubra cómo Concert puede hacer avanzar su negocio.

Explore Concert Explore las soluciones de automatización de procesos de negocio