Modelo IA conversacional PDF

Permite extraer y responder preguntas sobre documentos PDF, facilitando la consulta de informes, reglamentos o información territorial compleja a partir de texto estructurado.

Redes Neuronales

Las redes neuronales densas, también conocidas como redes completamente conectadas o perceptrones multicapa (MLP), constituyen uno de los pilares fundamentales del aprendizaje profundo. Su arquitectura, basada en capas donde cada neurona se conecta con todas las neuronas de la capa anterior y posterior, permite modelar relaciones complejas entre variables y aproximar funciones no lineales con gran precisión.

A pesar del surgimiento de arquitecturas más especializadas como las redes convolucionales (CNN) o los transformadores, las redes densas siguen siendo esenciales tanto en aplicaciones prácticas como en investigación. Su simplicidad estructural, facilidad de implementación y versatilidad las convierten en un punto de partida ideal para comprender los principios matemáticos y computacionales que dan vida al deep learning moderno.

Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc.

Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Entre las ventajas se incluyen:

  • Aprendizaje Adaptativo. Capacidad de aprender a realizar tareas basadas en un entrenamiento o en una experiencia inicial.
  • Autoorganización. Una red neuronal puede crear su propia organización o representación de la información que recibe mediante una etapa de aprendizaje.
  • Tolerancia a fallos. La destrucción parcial de una red conduce a una degradación de su estructura; sin embargo, algunas capacidades de la red se pueden retener, incluso sufriendo un gran daño.
  • Operación en tiempo real. Los cómputos neuronales pueden ser realizados en paralelo; para esto se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad.
 

redes

La distribución de neuronas dentro de la red se realiza formando niveles o  capas, con un número determinado de dichas neuronas en cada una de ellas. A partir de  su situación dentro de la red, se pueden distinguir tres tipos de capas:

De entrada: es la capa que recibe directamente la información proveniente  de las fuentes externas de la red.

Ocultas: son internas a la red y no tienen contacto directo con el entorno  exterior. El número de niveles ocultos puede estar entre cero y un número elevado. Las  neuronas de las capas ocultas pueden estar interconectadas de distintas maneras, lo que  determina, junto con su número, las distintas topologías de redes neuronales.

 – De salidas: transfieren información de la red hacia el exterior y son las que producen la salida deseada.

Los transformadores preentrenados generativos (GPT) representan uno de los avances más importantes en la evolución de la inteligencia artificial moderna. Basados en la arquitectura transformadora propuesta por Vaswani et al. en 2017, los modelos GPT son una familia de modelos de lenguaje de gran tamaño (LLM) diseñados para procesar, comprender y generar texto de forma coherente y contextual. Su capacidad de aprendizaje, escalabilidad y desempeño los ha convertido en la base de múltiples aplicaciones de IA, desde asistentes conversacionales y análisis semántico hasta generación de código, síntesis de información y automatización inteligente.

Los GPT funcionan mediante un proceso de preentrenamiento a gran escala utilizando enormes volúmenes de datos textuales. Posteriormente, pueden ajustarse mediante técnicas de fine-tuning o aprendizaje reforzado para tareas específicas. Gracias a este enfoque, los modelos adquieren una comprensión estadística profunda del lenguaje, permitiéndoles predecir la próxima palabra en una secuencia con alta precisión y producir resultados cercanos al razonamiento humano.

 

Los GPT se basan exclusivamente en la parte decodificadora de la arquitectura Transformer, caracterizada por el uso del mecanismo de autoatención (self-attention). Este mecanismo permite que el modelo identifique relaciones entre palabras independientemente de su posición en la secuencia. Esto supera las limitaciones de arquitecturas previas como RNN o LSTM, que dependían de la secuencialidad estricta y tenían dificultades para capturar dependencias de largo alcance.

El mecanismo de atención calcula ponderaciones que determinan qué partes del texto son relevantes para generar el siguiente token. Este proceso se desarrolla mediante tres vectores clave:

  • Consulta (Q): Representa lo que se está buscando en la secuencia.
  • Clave (K): Contiene información relacionada con la ubicación o significado de cada token.
  • Valor (V): Representa la información contextual que el modelo utilizará para generar la salida.

La atención se define típicamente mediante la fórmula:

    Attention(Q, K, V) = softmax(QK^T / √d_k) V

Este proceso permite que los modelos GPT generen texto altamente contextual y coherente incluso en secuencias extensas.

El preentrenamiento es una fase crítica en la que el modelo aprende patrones y estructuras del lenguaje a partir de corpus masivos de datos. El objetivo principal consiste en predecir el siguiente token (palabra o subpalabra) en una secuencia dada, lo que se conoce como lenguaje autorregresivo.

Durante esta fase, el modelo ajusta billones de parámetros a través de técnicas de optimización como el descenso de gradiente y variantes como AdamW. El preentrenamiento dota al modelo de:

  • Comprensión semántica del lenguaje
  • Habilidad para generar texto coherente
  • Conocimiento general sobre múltiples dominios
  • Capacidad de razonamiento estadístico

 

Los modelos GPT suelen tener versiones escaladas (GPT-1, GPT-2, GPT-3, GPT-4, etc.), donde cada generación incrementa sustancialmente el número de parámetros y mejora el rendimiento general.

Aunque el preentrenamiento permite que el modelo generalice ampliamente, muchas aplicaciones requieren ajustes finos o fine-tuning. Este proceso consiste en entrenar el modelo sobre un conjunto reducido de datos específicos a un dominio o tarea, tales como:

  • Clasificación de texto
  • Análisis de sentimientos
  • Generación de resúmenes
  • Traducción automática
  • Automatización de soporte técnico
  • Generación de código

El fine-tuning permite mejorar la precisión en tareas concretas y adaptar el modelo a contextos específicos.

En una etapa más avanzada, los modelos pueden entrenarse mediante aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), lo que optimiza su comportamiento para responder de forma útil, segura y alineada.

Cuando un usuario ingresa un texto o prompt, el modelo inicia la fase de inferencia, que incluye los siguientes pasos:

  1. Tokenización

   El texto se divide en unidades mínimas llamadas tokens, gestionadas mediante métodos como Byte Pair Encoding (BPE). 

  1. Codificación Posicional

   Dado que el modelo no procesa elementos secuenciales de forma nativa, utiliza embeddings posicionales para identificar el orden de los tokens.

  1. Cálculo de autoatención

   El modelo evalúa cómo cada palabra se relaciona con las demás en el prompt.

  1. Predicción del siguiente token

   Utilizando distribuciones probabilísticas, el modelo genera la palabra siguiente más probable.

  1. Decodificación

   Se aplican técnicas como sampling, top-k o top-p para generar texto creativo y controlado.

Este proceso se repite iterativamente hasta completar la longitud de la salida deseada.

Los modelos GPT han revolucionado la forma en que las organizaciones y desarrolladores implementan soluciones de IA. Algunas aplicaciones destacadas incluyen:

• Asistentes conversacionales avanzados 

• Automatización de procesos empresariales 

• Generación automática de documentos y reportes 

• Desarrollo de aplicaciones de programación asistida 

• Sistemas de recomendación basados en lenguaje 

• Agentes inteligentes en plataformas de aprendizaje 

• Modelos creativos para diseño, arte y contenido 

 

La versatilidad de los modelos GPT permite su integración en múltiples industrias: salud, educación, finanzas, derecho, seguridad, y más.

Conversacional PDF

Falta foto

Ministerio de Tecnología – MinTIC.

El Conjunto de datos asociados a este modelo corresponde  a una “Base de Daros de Conocimientos” creada con un repositorios de archivos en formato PDF, Excel, Word y csv que constituyen la información básica del proyecto de Ciudades Inteligentes.

Contiene las tools que permiten la consulta con granularidad de Municipios, Departamentos y de toda Colombia.