Predice y analiza quiénes son los beneficiarios de programas de planeación nacional para apoyar decisiones sobre políticas públicas focalizadas, basándose en datos socioeconómicos.
Las redes neuronales densas, también conocidas como redes completamente conectadas o perceptrones multicapa (MLP), constituyen uno de los pilares fundamentales del aprendizaje profundo. Su arquitectura, basada en capas donde cada neurona se conecta con todas las neuronas de la capa anterior y posterior, permite modelar relaciones complejas entre variables y aproximar funciones no lineales con gran precisión.
A pesar del surgimiento de arquitecturas más especializadas como las redes convolucionales (CNN) o los transformadores, las redes densas siguen siendo esenciales tanto en aplicaciones prácticas como en investigación. Su simplicidad estructural, facilidad de implementación y versatilidad las convierten en un punto de partida ideal para comprender los principios matemáticos y computacionales que dan vida al deep learning moderno.
Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc.

Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Entre las ventajas se incluyen:

La distribución de neuronas dentro de la red se realiza formando niveles o capas, con un número determinado de dichas neuronas en cada una de ellas. A partir de su situación dentro de la red, se pueden distinguir tres tipos de capas:
– De entrada: es la capa que recibe directamente la información proveniente de las fuentes externas de la red.
– Ocultas: son internas a la red y no tienen contacto directo con el entorno exterior. El número de niveles ocultos puede estar entre cero y un número elevado. Las neuronas de las capas ocultas pueden estar interconectadas de distintas maneras, lo que determina, junto con su número, las distintas topologías de redes neuronales.
– De salidas: transfieren información de la red hacia el exterior y son las que producen la salida deseada.
Los transformadores preentrenados generativos (GPT) representan uno de los avances más importantes en la evolución de la inteligencia artificial moderna. Basados en la arquitectura transformadora propuesta por Vaswani et al. en 2017, los modelos GPT son una familia de modelos de lenguaje de gran tamaño (LLM) diseñados para procesar, comprender y generar texto de forma coherente y contextual. Su capacidad de aprendizaje, escalabilidad y desempeño los ha convertido en la base de múltiples aplicaciones de IA, desde asistentes conversacionales y análisis semántico hasta generación de código, síntesis de información y automatización inteligente.
Los GPT funcionan mediante un proceso de preentrenamiento a gran escala utilizando enormes volúmenes de datos textuales. Posteriormente, pueden ajustarse mediante técnicas de fine-tuning o aprendizaje reforzado para tareas específicas. Gracias a este enfoque, los modelos adquieren una comprensión estadística profunda del lenguaje, permitiéndoles predecir la próxima palabra en una secuencia con alta precisión y producir resultados cercanos al razonamiento humano.
Los GPT se basan exclusivamente en la parte decodificadora de la arquitectura Transformer, caracterizada por el uso del mecanismo de autoatención (self-attention). Este mecanismo permite que el modelo identifique relaciones entre palabras independientemente de su posición en la secuencia. Esto supera las limitaciones de arquitecturas previas como RNN o LSTM, que dependían de la secuencialidad estricta y tenían dificultades para capturar dependencias de largo alcance.
El mecanismo de atención calcula ponderaciones que determinan qué partes del texto son relevantes para generar el siguiente token. Este proceso se desarrolla mediante tres vectores clave:
La atención se define típicamente mediante la fórmula:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
Este proceso permite que los modelos GPT generen texto altamente contextual y coherente incluso en secuencias extensas.
El preentrenamiento es una fase crítica en la que el modelo aprende patrones y estructuras del lenguaje a partir de corpus masivos de datos. El objetivo principal consiste en predecir el siguiente token (palabra o subpalabra) en una secuencia dada, lo que se conoce como lenguaje autorregresivo.
Durante esta fase, el modelo ajusta billones de parámetros a través de técnicas de optimización como el descenso de gradiente y variantes como AdamW. El preentrenamiento dota al modelo de:
Los modelos GPT suelen tener versiones escaladas (GPT-1, GPT-2, GPT-3, GPT-4, etc.), donde cada generación incrementa sustancialmente el número de parámetros y mejora el rendimiento general.
Aunque el preentrenamiento permite que el modelo generalice ampliamente, muchas aplicaciones requieren ajustes finos o fine-tuning. Este proceso consiste en entrenar el modelo sobre un conjunto reducido de datos específicos a un dominio o tarea, tales como:
El fine-tuning permite mejorar la precisión en tareas concretas y adaptar el modelo a contextos específicos.
En una etapa más avanzada, los modelos pueden entrenarse mediante aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), lo que optimiza su comportamiento para responder de forma útil, segura y alineada.
Cuando un usuario ingresa un texto o prompt, el modelo inicia la fase de inferencia, que incluye los siguientes pasos:
El texto se divide en unidades mínimas llamadas tokens, gestionadas mediante métodos como Byte Pair Encoding (BPE).
Dado que el modelo no procesa elementos secuenciales de forma nativa, utiliza embeddings posicionales para identificar el orden de los tokens.
El modelo evalúa cómo cada palabra se relaciona con las demás en el prompt.
Utilizando distribuciones probabilísticas, el modelo genera la palabra siguiente más probable.
Se aplican técnicas como sampling, top-k o top-p para generar texto creativo y controlado.
Este proceso se repite iterativamente hasta completar la longitud de la salida deseada.
Los modelos GPT han revolucionado la forma en que las organizaciones y desarrolladores implementan soluciones de IA. Algunas aplicaciones destacadas incluyen:
• Asistentes conversacionales avanzados
• Automatización de procesos empresariales
• Generación automática de documentos y reportes
• Desarrollo de aplicaciones de programación asistida
• Sistemas de recomendación basados en lenguaje
• Agentes inteligentes en plataformas de aprendizaje
• Modelos creativos para diseño, arte y contenido
La versatilidad de los modelos GPT permite su integración en múltiples industrias: salud, educación, finanzas, derecho, seguridad, y más.

Departamento Administrativo para la Prosperidad Social.
Conjunto de datos estructurados que detalla la operación del programa “Más Familias en Acción”. La información ha sido anonimizada para proteger la privacidad de los titulares, permitiendo el análisis de características demográficas, tipos de incentivos otorgados y montos de subsidios distribuidos. Este modelo es crucial para evaluar la focalización del gasto social.
Contiene las tools que permiten la consulta con granularidad de Municipios, Departamentos y de toda Colombia.