Marco Teórico

El análisis de datos de tráfico es esencial en el contexto urbano actual para mejorar la movilidad y la seguridad vial. Con el crecimiento constante de las ciudades y el aumento en el número de vehículos, es crucial utilizar herramientas y metodologías avanzadas para gestionar el tráfico de manera eficiente.

Las aplicaciones de navegación colaborativa como Waze han revolucionado la recopilación de datos de tráfico. A través de la participación activa de los usuarios, Waze proporciona información en tiempo real sobre las condiciones de las vías, incluyendo reportes de congestión, accidentes, peligros y cierres de vías. Estos datos son valiosos para las autoridades y planificadores urbanos, ya que permiten tomar decisiones informadas basadas en información actual y precisa.

El análisis de datos geoespaciales y la minería de datos son fundamentales para extraer conocimiento de grandes volúmenes de información. Herramientas como R y librerías especializadas como leaflet, spatstat y ggplot2 facilitan el procesamiento y visualización de datos espaciales, permitiendo identificar patrones y tendencias que pueden guiar estrategias para mejorar la infraestructura vial y la gestión del tráfico.

Introducción

El presente análisis se enfoca en el estudio de los eventos reportados por los usuarios a través de la aplicación Waze. Esta plataforma de navegación colaborativa proporciona datos valiosos sobre las condiciones del tráfico en tiempo real, incluyendo reportes de peligros, congestión, accidentes y cierres de vías. La información recopilada es esencial para la planificación urbana y la gestión eficiente del tráfico, permitiendo a las autoridades tomar decisiones informadas para mejorar la movilidad y la seguridad vial.

Objetivo

El objetivo de este análisis es estudiar la distribución espacial y temporal de los eventos reportados en Waze, centrándonos en un día específico (el día 26). Se evaluarán y visualizarán los eventos en un mapa interactivo, analizando patrones temporales y espaciales. El uso de herramientas de análisis espacial en R, como leaflet para la visualización geoespacial y spatstat para la densidad y distribución de puntos, permitirá crear mapas de calor que resalten las áreas con mayor incidencia de eventos. A lo largo del análisis se integrarán diversos gráficos y mapas que facilitarán la interpretación de los datos y contribuirán a mejorar la planificación y gestión del tráfico.

Metodología CRISP-DM

La metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) es un estándar para la ejecución de proyectos de minería de datos. Esta metodología consta de seis fases que guían el proceso desde la comprensión del negocio hasta el despliegue de los resultados.

Fases de CRISP-DM aplicadas al análisis

1. Comprensión del Negocio

  • Objetivo: Mejorar la movilidad y seguridad vial mediante el análisis de datos de Waze.
  • Necesidad: Identificar patrones de tráfico y áreas críticas para orientar acciones de gestión y planificación urbana.

2. Comprensión de los Datos

  • Recopilación de Datos: Se obtienen los datos de eventos reportados en Waze el día 26.
  • Exploración Inicial: Se analiza la estructura de los datos, tipos de eventos, distribución temporal y espacial.

3. Preparación de los Datos

  • Limpieza: Se manejan valores faltantes y se corrigen inconsistencias en los datos.
  • Transformación: Se convierten formatos de fecha y hora, y se ajustan las coordenadas geográficas.
  • Enriquecimiento: Se traducen las categorías de eventos al español para facilitar el análisis.

4. Modelado

  • Selección de Técnicas: Se utilizan métodos de análisis espacial y visualización geográfica.
  • Construcción del Modelo: Se crean mapas interactivos y mapas de calor para visualizar los eventos.
  • Evaluación del Modelo: Se verifica que las visualizaciones representen adecuadamente los datos y permitan identificar patrones.

5. Evaluación

  • Interpretación de Resultados: Se analizan los mapas y gráficos para identificar áreas y horarios críticos.
  • Validación: Se contrastan los hallazgos con conocimiento previo o datos históricos, si están disponibles.
  • Determinación de los Próximos Pasos: Se establecen recomendaciones basadas en los resultados obtenidos.

6. Despliegue

  • Presentación de Resultados: Se documentan los hallazgos en un informe, incluyendo visualizaciones interactivas.
  • Implementación: Los resultados pueden ser utilizados por las autoridades para planificar intervenciones.
  • Monitoreo: Se sugiere un seguimiento continuo para actualizar el análisis con nuevos datos.

Ejemplo de Aplicación en una Semana

Durante una semana, se podría aplicar CRISP-DM de la siguiente manera:

  • Día 1-2 (Comprensión del Negocio y de los Datos):
    • Reunión con las partes interesadas para definir objetivos.
    • Recolección y exploración inicial de los datos de Waze.
  • Día 3 (Preparación de los Datos):
    • Limpieza y transformación de los datos.
    • Preparación de las variables necesarias para el análisis.
  • Día 4 (Modelado):
    • Desarrollo de mapas interactivos y análisis espacial.
    • Creación de gráficos y mapas de calor.
  • Día 5 (Evaluación):
    • Interpretación de los resultados obtenidos.
    • Validación de los hallazgos con expertos o datos adicionales.
  • Día 6 (Despliegue):
    • Elaboración del informe final.
    • Presentación de los resultados a las partes interesadas.
  • Día 7 (Planificación Futura):
    • Discusión de las recomendaciones.
    • Planificación de acciones basadas en el análisis.

Metodología

En este análisis se han seguido una serie de pasos metodológicos para garantizar un estudio estructurado y replicable de los eventos reportados por Waze el día 26. A continuación, se detallan las etapas clave del proceso:

Obtención de Datos

Los datos utilizados en este análisis fueron obtenidos a partir de la plataforma Waze, que permite la recopilación de eventos reportados por usuarios en tiempo real. Estos eventos incluyen peligros en las vías (PELIGRO), congestión (CONGESTIÓN), accidentes (ACCIDENTE), y cierres de vías (VÍA CERRADA). Los datos fueron proporcionados en un formato Excel, conteniendo información clave como la fecha de creación del evento, tipo de evento y coordenadas geográficas.

Catálogo de Datos

El conjunto de datos proporcionado por Waze incluye las siguientes variables:

  • creation_Date: Fecha y hora en que se creó el reporte del evento.

  • type: Tipo de evento reportado, que puede ser uno de los siguientes:

    • PELIGRO: Reportes de peligros en la vía, como objetos en la carretera, vehículos detenidos, etc.

    • CONGESTIÓN: Reportes de congestión o trancones en el tráfico.

    • ACCIDENTE: Reportes de accidentes de tráfico.

    • VÍA CERRADA: Reportes de cierres de vías.

  • latitude: Latitud geográfica donde ocurrió el evento.

  • longitude: Longitud geográfica donde ocurrió el evento.

  • información_adicional: Información adicional proporcionada por el usuario sobre el evento (si está disponible).

  • otros_campos: Otras variables relevantes incluidas en el conjunto de datos, como el identificador del evento, estado del evento, etc.

Este catálogo de datos proporciona una descripción detallada de las variables que se utilizarán en el análisis, facilitando la comprensión y manipulación de la información.

Carga y Preparación de los Datos

La primera etapa técnica consistió en la carga y limpieza de los datos. Utilizamos la librería readxl para cargar el archivo de Excel, y la librería lubridate para procesar y estandarizar los datos temporales. Los datos geográficos, como latitud y longitud, se ajustaron para garantizar su correcta visualización en mapas.

Además, se transformaron las fechas al formato adecuado (YYYY-MM-DD HH:MM) para asegurar que las operaciones de filtrado temporal fueran precisas.

Análisis Descriptivo y Exploratorio

Una vez los datos estuvieron cargados y preparados, se realizó un análisis descriptivo inicial para entender las características básicas de los eventos. Se calculó la frecuencia de los diferentes tipos de eventos reportados, permitiendo identificar qué eventos eran más comunes.

Se generaron gráficos de barras utilizando ggplot2 para visualizar la distribución de los eventos y su prevalencia en la muestra de datos. Esta etapa ayudó a identificar patrones generales antes de pasar al análisis geoespacial.

Filtrado y Análisis Temporal

Posteriormente, se filtraron los eventos según la fecha de interés (el día 26). El análisis temporal se enfocó en estudiar la concentración de eventos en distintas franjas horarias del día, permitiendo identificar momentos críticos, como las horas pico de congestión.

Utilizando lubridate, se extrajeron las horas y días de los eventos, lo que facilitó el análisis de patrones temporales y el filtrado de eventos en fechas específicas.

Análisis Geoespacial y Visualización

El análisis geoespacial se centró en la visualización de los eventos filtrados sobre un mapa utilizando la librería leaflet. Se generaron mapas interactivos para mostrar la distribución de los eventos reportados, tales como peligros, accidentes, cierres de vías y congestión.

Adicionalmente, se crearon mapas de densidad utilizando las herramientas spatstat y terra para estudiar las concentraciones geográficas de estos eventos, resaltando las áreas más afectadas en la ciudad.

Mapas de Calor y Densidad

Una de las etapas más importantes del análisis fue la creación de mapas de calor que permitieron identificar las zonas más críticas en términos de peligros, accidentes y congestión. Estos mapas fueron generados a partir de patrones de puntos espaciales utilizando funciones de estimación de densidad. Esto permitió resaltar visualmente las áreas con mayor incidencia de eventos, proporcionando una herramienta clave para la toma de decisiones.

Consolidación de Resultados

Finalmente, se consolidaron los resultados de los análisis en un conjunto de mapas interactivos que integran los diferentes tipos de eventos. La consolidación de estos resultados facilita la comparación y análisis conjunto de los eventos, proporcionando una visión integral de los problemas de tráfico en la ciudad.

Interpretación y Conclusiones

Tras la consolidación de los resultados, se interpretaron los hallazgos clave, identificando las zonas de mayor riesgo y los patrones críticos de congestión y accidentes. Esta información fue utilizada para formular recomendaciones prácticas que ayuden a mitigar los problemas detectados y mejorar la movilidad urbana.

La metodología empleada permitió llevar a cabo un análisis detallado y replicable, brindando una base sólida para futuras investigaciones en la gestión del tráfico y la seguridad vial.

Carga de Datos y de Librerías Necesarias

En esta sección se realiza la carga y preparación de los datos obtenidos desde Waze, además de las librerías que se van a usar a lo largo del documento. Los datos se encuentran almacenados en un archivo Excel y se procesan las fechas de creación de cada evento para asegurarnos de que están en el formato adecuado para realizar análisis temporal.

El archivo Excel incluye información clave como el tipo de evento, las coordenadas geográficas, y la fecha de creación del evento. Para el análisis es necesario convertir las fechas al formato adecuado (YYYY-MM-DD HH:MM), ya que esto permitirá realizar un análisis temporal preciso y ordenado.

library(readxl)            # readxl: Para la carga de datos desde archivos Excel.
library(dplyr)             # dplyr: Para la manipulación y transformación de datos.
library(lubridate)         # lubridate: Para el manejo y procesamiento de fechas y tiempos.
library(leaflet)           # leaflet: Para la creación de mapas interactivos.
library(sf)                # sf: Para trabajar con datos geoespaciales.
library(mapview)           # mapview: Para la visualización interactiva de mapas.
library(spatstat)          # spatstat: Para el análisis de patrones espaciales y análisis de densidad.
library(terra)             # terra: Para el manejo de datos raster y análisis espacial.
library(leaflet.extras)    # leaflet.extras: Para añadir funciones adicionales a los mapas de leaflet
library(ggplot2)           # ggplot2: Para la creación de gráficos y visualizaciones.
library(leafsync)          # leafsync: Para la sincronización de múltiples mapas interactivos.
# Cargar los datos de Waze
Trama_Waze = read_excel("Trama Waze.xlsx")

# Convertir la columna de fechas a formato adecuado
Trama_Waze$fecha = as.Date(Trama_Waze$creation_Date, format ="%Y-%m-%d %H:%M")

# Cambiar los nombres de los tipos de eventos a español
Trama_Waze$tipo_evento <- recode(Trama_Waze$type,
                                 "ACCIDENT" = "ACCIDENTE",
                                 "HAZARD" = "PELIGRO",
                                 "JAM" = "CONGESTIÓN",
                                 "ROAD_CLOSED" = "VÍA CERRADA")

Análisis Temporal de los Eventos

El análisis temporal es una de las primeras aproximaciones que se realiza en los datos, permitiendo identificar patrones en la distribución de eventos a lo largo del día. En esta sección, se extraen las horas y los días a partir de los datos originales utilizando la librería lubridate. Esto facilita el filtrado de eventos en fechas y horas específicas.

El objetivo es analizar si existen concentraciones de eventos en ciertas franjas horarias y cómo estos se distribuyen a lo largo del día 26, lo que podría revelar horas pico de congestión o momentos críticos con mayor cantidad de accidentes.

# Cargar la librería lubridate
library(lubridate)

# Convertir la fecha y extraer la hora y el día
fecha_hora = ymd_hms(Trama_Waze$creation_Date)
hora = hour(fecha_hora)
dia = day(fecha_hora)

# Agregar la columna de hora a los datos
Trama_Waze$hora = hora

# Mostrar la tabla de frecuencia de tipos de eventos
table(Trama_Waze$tipo_evento)
## 
##   ACCIDENTE  CONGESTIÓN     PELIGRO VÍA CERRADA 
##         125        3205         719        1021

Distribución de Eventos

En esta sección se presenta un análisis descriptivo de los tipos de eventos registrados en los datos de Waze. Se genera una visualización en forma de gráfico de barras que muestra la frecuencia de los diferentes tipos de eventos, como trancones, peligros, accidentes, y cierres de vías.

Este análisis es clave para identificar qué eventos son más frecuentes y cuáles requieren mayor atención. Además, proporciona una visión general de las categorías más comunes de eventos reportados por los usuarios y puede influir en la priorización de recursos para la gestión del tráfico.

# Calcular la frecuencia de cada tipo de evento en Trama_Waze
frecuencia_eventos <- Trama_Waze %>%
  group_by(tipo_evento) %>%                 # Agrupar por tipo de evento
  summarise(Frecuencia = n()) %>%     # Contar la frecuencia de cada tipo
  arrange(desc(Frecuencia))           # Ordenar por frecuencia descendente

# Crear un gráfico de barras con ggplot2 usando los datos de Trama_Waze
ggplot(frecuencia_eventos, aes(x = tipo_evento, y = Frecuencia, fill = tipo_evento)) +
  geom_bar(stat = "identity") +
  theme_minimal() +
  labs(title = "Distribución de Tipos de Eventos en Trama Waze", 
       x = "Tipo de Evento", y = "Frecuencia") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +  # Rotar etiquetas para mejor visualización
  scale_fill_brewer(palette = "Set2")  # Utilizar una paleta de colores predefinida

Filtrado de Eventos PELIGRO del Día 26

En este apartado, se filtran los eventos de tipo PELIGRO que ocurrieron específicamente el día 26. El propósito es reducir el volumen de datos y centrarse en los eventos de riesgo, lo que permite un análisis más profundo y detallado de estos incidentes.

Este filtrado es esencial para poder focalizar el análisis en los eventos que realmente presentan peligros potenciales en las vías, facilitando así la identificación de las áreas más críticas.

# Identificar eventos PELIGRO del día 26
pos <- which(Trama_Waze$tipo_evento == "PELIGRO" & dia == 26)
peligro26 <- Trama_Waze[pos,]

Visualización de Eventos PELIGRO

Una vez filtrados los eventos PELIGRO, se procede a visualizarlos en un mapa interactivo utilizando la librería leaflet. Este mapa permite explorar las ubicaciones exactas de los peligros reportados, representando los eventos sobre un mapa geográfico y agrupándolos en clusters para mejorar la legibilidad.

Los usuarios pueden interactuar con el mapa, lo que facilita la identificación visual de los puntos con mayor concentración de eventos y ayuda a identificar patrones espaciales en la distribución de peligros.

# Cargar librerías necesarias para visualización
library(mapview)
library(leaflet)

# Ajustar las coordenadas de latitud y longitud
peligro26$lat <- peligro26$location_y / 10^(nchar(peligro26$location_y) - 1)
peligro26$long <- peligro26$location_x / 10^(nchar(peligro26$location_x) - 3)

# Filtrar eventos dentro del rango geográfico adecuado
peligro26 <- peligro26[peligro26$lat > 4 & peligro26$lat < 5,]

# Crear un mapa interactivo con leaflet
m26_peligro <- leaflet() %>%
  addTiles() %>%
  addCircleMarkers(lng = peligro26$long, lat = peligro26$lat,
                   clusterOptions = markerClusterOptions(),
                   label = peligro26$hora) %>%
  addControl(html = "<h3>Mapa de Riesgos</h3>", position = "topleft")

# Mostrar el mapa
m26_peligro

Análisis Espacial de la Distribución de Riesgos

En esta sección, se realiza un análisis espacial de los eventos PELIGRO del día 26 utilizando herramientas avanzadas como spatstat y terra. El objetivo es estudiar la distribución geográfica de los eventos de riesgo y generar mapas de calor que destaquen las áreas más afectadas.

Este tipo de análisis espacial es crucial para identificar patrones de concentración de eventos y zonas de alto riesgo, lo que puede ser útil para la toma de decisiones en la gestión de tráfico y la planificación urbana.

# Cargar las librerías necesarias
library(leaflet)
library(dplyr)
library(leaflet.extras)

# Filtrar datos relevantes de peligro26
peligro26 <- peligro26 %>%
  filter(lat > 4 & lat < 5, long > -75 & long < -73)  # Ajustar las coordenadas de interés

# Crear un mapa interactivo con leaflet y addHeatmap
leaflet(peligro26) %>%
  addProviderTiles("OpenStreetMap") %>%  # Añadir la capa base del mapa
  addHeatmap(
    lng = ~long, lat = ~lat,               # Especificar las columnas de longitud y latitud
    intensity = ~hora,                     # Intensidad opcional basada en la hora (o cualquier otra variable)
    blur = 20,                             # Nivel de desenfoque del mapa de calor
    max = 0.08,                            # Ajustar el valor máximo para la intensidad
    radius = 15                            # Radio de cada punto en el mapa de calor
  ) %>%
  addLegend("bottomright",                 # Añadir leyenda
            title = "Mapa de Calor de Riesgos",
            colors = c("blue", "green", "yellow", "red"),
            labels = c("Bajo", "Moderado", "Alto", "Muy Alto"))

Mapa de Densidad de Cierres de Vías

En esta sección se genera un mapa de densidad basado en la distribución espacial de los eventos de cierre de vías (VIA CERRADA) reportados el día 26. El objetivo de este análisis es identificar las zonas más afectadas por los cierres de vías, lo que puede ayudar en la planificación de desvíos y la optimización de la movilidad urbana.

El mapa de densidad resalta las áreas con mayor número de cierres de vías, proporcionando una visualización clara de las zonas de mayor impacto. Esta información es crucial para que las autoridades tomen decisiones informadas sobre cómo gestionar el tráfico en estas áreas.

# Filtrar eventos VÍA CERRADA del día 26
pos <- which(Trama_Waze$tipo_evento == "VÍA CERRADA" & dia == 26)
via_cerrada_26 <- Trama_Waze[pos,]

# Ajustar las coordenadas de latitud y longitud
via_cerrada_26$lat <- via_cerrada_26$location_y / 10^(nchar(via_cerrada_26$location_y) - 1)
via_cerrada_26$long <- via_cerrada_26$location_x / 10^(nchar(via_cerrada_26$location_x) - 3)

# Filtrar eventos dentro del rango geográfico adecuado
via_cerrada_26 <- via_cerrada_26[via_cerrada_26$lat > 4 & via_cerrada_26$lat < 5,]

Mapa Interactivo de Cierres de Vías

En esta sección se presenta un mapa interactivo que muestra los eventos de cierre de vías (VIA CERRADA) del día 26. Utilizando la herramienta leaflet, se visualizan las ubicaciones de estos eventos en un mapa, donde los usuarios pueden hacer clic en cada marcador para obtener más información sobre el evento, como la hora y las coordenadas exactas.

Este mapa interactivo permite explorar geográficamente las áreas afectadas por los cierres de vías, proporcionando una herramienta visual poderosa para la planificación y gestión del tráfico en la ciudad.

# Cargar librería leaflet
require(leaflet)

# Crear el mapa interactivo
m26_via_cerrada = leaflet(via_cerrada_26) %>%
  addTiles() %>%
  addCircleMarkers(lng = ~long, lat = ~lat,
                   clusterOptions = markerClusterOptions(),
                   label = ~hora) %>%
  addControl(html = "<h3>Mapa de Cierre de Vías<h3>", position = "topleft")

# Mostrar el mapa interactivo
m26_via_cerrada

Análisis Espacial de Cierres de Vías

Esta sección está dedicada al análisis espacial de los cierres de vías utilizando herramientas como spatstat y terra. El objetivo es estudiar cómo están distribuidos geográficamente los eventos de cierre de vías reportados el día 26 y analizar si existen patrones en la concentración de estos eventos.

Este tipo de análisis ayuda a entender la extensión geográfica de los cierres de vías, lo que puede ser útil para identificar áreas críticas que podrían necesitar intervenciones inmediatas o planificación a largo plazo.

# Cargar las librerías necesarias
library(spatstat)

# Definir la zona de interés
zona <- owin(xrange = c(-74.04331, -73.9929), yrange = c(4.885736, 4.948562))

# Crear un patrón de puntos espaciales a partir de los eventos VÍA CERRADA
patron_via_cerrada <- ppp(x = via_cerrada_26$long, y = via_cerrada_26$lat, window = zona)

# Graficar el test de cuadrantes
plot(quadratcount(patron_via_cerrada), main = "Patrón de Puntos y Test de Cuadrantes")

# Superponer los puntos sobre los cuadrantes
points(patron_via_cerrada, col = "red")

# Gráfico independiente: Función K-Estimación
plot(Kest(patron_via_cerrada), main = "Función K-Estimación")

Mapa de Densidad de Cierres de Vías

Aquí se genera un segundo mapa de densidad basado en los eventos de cierre de vías (VÍA CERRADA), pero con un enfoque más detallado en las áreas de mayor afectación. Este mapa destaca las zonas con la mayor cantidad de eventos de cierre de vías, permitiendo identificar áreas donde los cierres de vías son más frecuentes.

El uso de este mapa es clave para comprender la severidad de los cierres de vías en ciertas áreas de la ciudad y cómo pueden afectar la movilidad en general.

# Cargar las librerías necesarias
library(terra)
library(leaflet)
library(spatstat)

# Asegurarse de que el objeto patron_via_cerrada esté correctamente definido
# Crear un patrón de puntos espaciales utilizando los datos correctos (via_cerrada_26)
zona <- owin(xrange = c(-74.04331, -73.9929), yrange = c(4.885736, 4.948562))
patron_via_cerrada <- ppp(x = via_cerrada_26$long, y = via_cerrada_26$lat, window = zona)

# Calcular la densidad espacial
im1 <- density(patron_via_cerrada, sigma = 0.01)  # Ajusta sigma según sea necesario

# Convertir la densidad a un objeto raster usando terra
mapa_via_cerrada <- rast(im1)

# Convertir el raster a data.frame para leaflet
df_via_cerrada <- as.data.frame(mapa_via_cerrada, xy = TRUE)
colnames(df_via_cerrada) <- c("long", "lat", "intensity")

# Normalizar los valores de intensidad entre 0 y 1
df_via_cerrada$intensity <- (df_via_cerrada$intensity - min(df_via_cerrada$intensity)) / 
                            (max(df_via_cerrada$intensity) - min(df_via_cerrada$intensity))

# Crear un mapa interactivo usando leaflet
leaflet(df_via_cerrada) %>%
  addProviderTiles("OpenStreetMap") %>%  # Añadir la capa base
  addHeatmap(
    lng = ~long, lat = ~lat,              # Coordenadas de longitud y latitud
    intensity = ~intensity,               # Intensidad normalizada
    blur = 20,                            # Nivel de desenfoque
    max = 1,                              # Valor máximo de la intensidad normalizada
    radius = 15                           # Radio para reflejar la densidad
  ) %>%
  addLegend("bottomright",                # Añadir la leyenda
            title = "Mapa de Calor de Cierres de Vías",
            colors = c("blue", "green", "yellow", "red"),
            labels = c("Bajo", "Moderado", "Alto", "Muy Alto"))