Resumen boletines - Instituto Mexicano del Transporte

Instituto Mexicano del Transporte
Publicación bimestral de divulgación externa

NOTAS núm. 219, ENERO-FEBRERO 2026, artículo 2

Propuesta técnico-metodológica para la predicción de trayectorias en intersecciones

SILVA Manuel Eduardo

Resumen

La predicción precisa de trayectorias vehiculares en intersecciones urbanas es crítica para la seguridad vial y el desarrollo de sistemas autónomos. Los enfoques deterministas tradicionales (filtro de Kalman, modelos de fuerza social) son estructuralmente incapaces de modelar la complejidad no lineal y la naturaleza estocástica del comportamiento humano en estos entornos de negociación constante. Este trabajo presenta una arquitectura integrada que fusiona Redes Neuronales de Grafos (Graph Neural Networks) para capturar la topología relacional de la escena, redes Long Short-Term Memory para decodificar la dinámica temporal, y rectificación geométrica mediante homografía para garantizar validez métrica.

El framework propuesto permite generar predicciones multimodales, detectar proactivamente conflictos (near-misses) y calcular métricas de riesgo como el Tiempo hasta la Colisión (Time To Collision) sobre coordenadas del mundo real, no píxeles. Se revisan avances recientes en arquitecturas especializadas (LaneGCN, UAMTP, GSMNet 2024-2025) que incorporan información de carriles, descomposición de incertidumbre y predicción jerárquica de intenciones. Se identifican brechas críticas: calibración deficiente de la multimodalidad, inferencia limitada de intenciones ocultas y pobre generalización geométrica a nuevas topologías viales. Finalmente, se establecen criterios metodológicos rigurosos, concluyendo que la validez científica de cualquier sistema de predicción depende inexorablemente de la transformación homográfica (omitirla es un error fatal que invalida métricas de seguridad) y de evaluación mediante métricas orientadas a tarea (tasas de colisión, precisión en near-misses) más que simples ajustes geométricos promedio. La investigación subraya que el futuro de esta disciplina reside en capacitar algoritmos para inferir intenciones cognitivas y operar bajo ambigüedad inherente al factor humano, no únicamente en perfeccionar precisión de rastreo.

Introducción

La seguridad vial en entornos urbanos, particularmente en intersecciones, representa uno de los desafíos más complejos para la ingeniería de tránsito A diferencia del flujo laminar y predecible de las autopistas, la intersección es un escenario de naturaleza estocástica, gobernado por la negociación constante y decisiones humanas latentes que escapan a la rigidez de las ecuaciones diferenciales clásicas. Históricamente, la predicción de trayectorias se ha abordado desde la mecánica clásica y la teoría de control, confiando en herramientas deterministas como el Filtro de Kalman o modelos de fuerzas físicas. Sin embargo, esta investigación parte de la premisa de que dichos enfoques, basados en la linealidad y la inercia, resultan insuficientes para capturar la complejidad semántica y social de un cruce vehicular denso, donde las maniobras son abruptas y las interacciones, no lineales.

El presente trabajo explora el cambio ontológico que supone la irrupción del Aprendizaje Profundo (Deep Learning) en este dominio, proponiendo un abandono de las leyes físicas predefinidas en favor de la inferencia de patrones basada en datos. Se analiza la arquitectura necesaria para que un sistema artificial "comprenda" la escena, desglosando la integración de Redes Neuronales de Grafos (GNN, del inglés Graph Neural Networks) para modelar la influencia espacial y redes de Memoria a Corto y Largo Plazo (LSTM, del inglés Long Short-Term Memory) para decodificar la dinámica temporal. Asimismo, se establece como pilar metodológico ineludible la rectificación geométrica mediante homografía, argumentando que cualquier análisis de seguridad basado meramente en píxeles carece de validez científica. A través de este documento, se busca estructurar un sistema capaz no solo de rastrear vehículos, sino de predecir comportamientos multimodales y detectar conflictos (near-misses) de manera proactiva, superando las limitaciones estructurales de los modelos tradicionales.

La insuficiencia de los modelos deterministas y físicos

La predicción de trayectorias vehiculares ha estado históricamente dominada por enfoques derivados de la mecánica clásica y la teoría de control, los cuales, aunque matemáticamente elegantes, adolecen de una rigidez estructural incapaz de capturar la naturaleza estocástica del comportamiento humano en intersecciones.

El Filtro de Kalman, piedra angular de la navegación inercial, opera bajo una asunción fundamental lineal y gaussiana. En términos descriptivos, este algoritmo concibe el movimiento futuro de un vehículo como una extrapolación directa de su estado cinemático actual (posición y velocidad), corregida iterativamente por una matriz de covarianza que estima la incertidumbre del sensor. Si bien esta lógica es impecable para objetos con inercia predecible en trayectorias libres (como un satélite o un vehículo en una autopista recta), colapsa en el entorno semántico de una intersección. Aquí, los conductores no siguen ecuaciones diferenciales constantes; ejecutan maniobras no lineales abruptas —como frenadas de emergencia o giros cerrados— impulsadas por decisiones latentes que el filtro, ciego al contexto social, interpreta como "ruido" o errores de medición, llevando a una divergencia rápida de la predicción respecto a la realidad.

Paralelamente, los Modelos de Fuerza Social (SFM, del inglés Social Force Model) intentaron superar estas limitaciones introduciendo la interacción mediante una analogía física: los vehículos se tratan como partículas cargadas en un campo de potencial. Bajo este esquema, un vehículo siente una "fuerza atractiva" hacia su destino y una "fuerza repulsiva" generada por otros vehículos y obstáculos. Sin embargo, esta aproximación falla al intentar modelar la negociación inteligente. En la realidad, los conductores no se "repelen" magnéticamente; se comunican y ceden el paso basándose en reglas de prioridad y contacto visual. Los SFM, al carecer de esta capa cognitiva, tienden a producir simulaciones donde los agentes oscilan de manera antinatural al acercarse o se comportan de manera agresiva, empujándose mutuamente en lugar de cooperar, lo que invalida su uso para la predicción precisa de conflictos reales.

El paradigma del aprendizaje profundo: captura de la no-linealidad

La irrupción de las redes neuronales profundas (Deep Learning) marca un cambio ontológico: se abandona la imposición de leyes físicas predefinidas en favor del aprendizaje de patrones de comportamiento a partir de grandes volúmenes de datos empíricos.

Modelos generativos como Social-GAN o arquitecturas basadas en grafos como LaneGCN no asumen a priori cómo debe moverse un coche. En su lugar, ingieren miles de horas de trayectorias reales para construir una representación interna de la "física social" del tránsito. Estos sistemas aprenden implícitamente que la presencia de un vehículo en un carril de incorporación altera la distribución de probabilidad de la trayectoria del vehículo principal, no mediante una fuerza vectorial simple, sino a través de una dependencia condicional compleja. Esta capacidad para modelar dependencias no lineales permite predecir comportamientos multimodales —la posibilidad simultánea de que un conductor decida frenar o acelerar ante una luz ámbar—, algo que los modelos deterministas clásicos son estructuralmente incapaces de representar.

La distorsión de la perspectiva y la invalidez métrica

La adquisición de datos mediante cámaras de vídeo introduce un desafío geométrico fundamental: la proyección perspectiva. Una cámara captura el mundo tridimensional y lo colapsa sobre un sensor bidimensional (el plano de la imagen), generando una distorsión cónica donde la escala no es constante. En esta representación visual, la relación entre un píxel y un metro varía drásticamente según la profundidad: un desplazamiento de 10 píxeles en el borde inferior de la imagen podría corresponder a pocos centímetros en la realidad, mientras que el mismo desplazamiento en el horizonte podría representar decenas de metros.

Esta falta de linealidad métrica hace que cualquier análisis directo sobre los píxeles sea científicamente inválido para la seguridad vial. Calcular la velocidad o la aceleración basándose en el desplazamiento de píxeles por segundo generaría datos ruidosos e incoherentes, donde los vehículos parecerían acelerar mágicamente al acercarse a la cámara y desacelerar al alejarse. Por tanto, métricas críticas como el Tiempo Hasta la Colisión (TTC, por sus siglas en inglés), que dependen de la medición precisa de distancias y velocidades relativas, serían erróneas e inutilizables si no se corrige esta deformación óptica.

La reconstrucción del plano

Para subsanar esto, es imperativo aplicar una transformación de homografía. Descriptivamente, este proceso matemático no es un simple escalado, sino una proyección geométrica que mapea los puntos del plano inclinado de la imagen a un nuevo sistema de coordenadas ortogonal que representa el plano del suelo visto desde arriba (conocido como Bird's Eye View o BEV).

El procedimiento implica identificar puntos de correspondencia homólogos —ubicaciones específicas cuyas coordenadas son conocidas tanto en la imagen (u, v) como en el mundo real (X, Y)—, tales como las esquinas de marcas viales estandarizadas. A partir de estos puntos, se calcula una matriz de transformación de 3x3 que "despliega" la imagen, invirtiendo matemáticamente la distorsión de la perspectiva. En este nuevo espacio rectificado, la geometría euclidiana se restaura: las líneas paralelas de la carretera que parecían converger en la imagen original ahora son verdaderamente paralelas, y, lo más importante, la distancia entre dos puntos cualquiera es linealmente proporcional a la distancia física real. Solo sobre este "lienzo métrico" es posible realizar cálculos cinemáticos rigurosos y determinar si las trayectorias de dos vehículos están, de hecho, en curso de colisión.

Conceptualización de la escena como una red neuronal de grafos (GNN)

Una vez que los agentes están situados en un espacio métrico coherente, el análisis debe abordar la naturaleza relacional del tránsito. En una intersección, los vehículos no operan en el vacío; forman un sistema dinámico acoplado. Las Redes Neuronales de Grafos (GNN) ofrecen el marco teórico ideal para modelar esto, conceptualizando la escena no como una cuadrícula de píxeles, sino como una estructura topológica viva.

En esta representación, cada vehículo se convierte en un nodo que contiene su estado interno (posición, velocidad, clase), y las interacciones potenciales se representan como aristas o conexiones entre nodos. La definición de estas conexiones se codifica en una matriz de adyacencia, que actúa como el "mapa de influencia" de la escena. La construcción de este mapa puede seguir diversas lógicas descriptivas:

Adyacencia Euclidiana: Conecta vehículos basándose puramente en la proximidad física, asumiendo un radio de influencia fijo.

Adyacencia Visual: Refina el modelo conectando solo aquellos nodos que poseen una línea de visión despejada entre sí, simulando las limitaciones perceptivas de los conductores humanos ante oclusiones.

Adyacencia Semántica: Establece vínculos basados en la topología de los carriles, conectando, por ejemplo, a un vehículo con su predecesor y su sucesor, pero no necesariamente con un vehículo en un carril separado por una barrera física.

Propagación de información y mecanismos de atención

El poder de la GNN reside en el algoritmo de Paso de Mensajes (Message Passing). Descriptivamente, esto implica que, en cada paso de tiempo, cada nodo "interroga" a sus vecinos conectados, agregando sus vectores de estado para actualizar su propia comprensión del entorno. Un vehículo, por tanto, no solo conoce su propia cinemática, sino que asimila la información contextual de su vecindario, detectando patrones colectivos como una desaceleración en cadena.

Para dotar al sistema de una capacidad de discriminación similar a la humana, se integran Mecanismos de Atención. En un entorno denso, no todos los vecinos son relevantes; un vehículo estacionado es cinemáticamente inerte. El mecanismo de atención permite a la red aprender coeficientes de ponderación dinámicos, asignando una "importancia" alta a las conexiones con vehículos que presentan trayectorias convergentes o comportamientos erráticos, y atenuando la señal de aquellos que son irrelevantes para la seguridad del ego-vehículo. Esto permite que el modelo focalice sus recursos computacionales en las interacciones críticas que podrían derivar en siniestros.

La necesidad de la profundidad temporal

Una imagen estática, incluso si está geométricamente rectificada, carece de la dimensión temporal necesaria para inferir la intención. Un vehículo detenido en un semáforo y un vehículo a punto de arrancar pueden parecer idénticos en un solo fotograma. La predicción de comportamiento requiere analizar la evolución del estado a lo largo del tiempo, tratando el tránsito como una serie temporal multivariante.

Para abordar esto, se emplean redes LSTM; a diferencia de las redes neuronales estándar que procesan cada entrada de forma independiente, las LSTM poseen una arquitectura recurrente diseñada para gestionar dependencias a largo plazo, evitando el problema del "desvanecimiento del gradiente" que afecta a las RNN simples al intentar recordar eventos pasados lejanos.

Funcionamiento de la memoria y la inercia predictiva

La mecánica interna de una celda LSTM se puede describir mediante un sistema de compuertas lógicas que regulan el flujo de información.

Persistencia de estado: La red mantiene una "celda de estado" (memory cell) que actúa como una cinta transportadora de información a través del tiempo.

Mecanismo de olvido y actualización: Mediante compuertas sigmoidales, la red decide qué información del pasado es obsoleta (por ejemplo, una maniobra de cambio de carril ya completada) y debe ser olvidada, y qué nueva información (una aceleración repentina) debe ser almacenada.

Esta capacidad de memoria permite modelar la inercia física y conductual. Si el sistema observa que un vehículo ha mantenido una aceleración positiva constante durante los últimos tres segundos, la LSTM proyecta esta tendencia hacia el futuro inmediato. En un escenario de seguridad vial, esto es crucial: permite al algoritmo predecir que un vehículo cruzará una línea de alto antes de que lo haga físicamente, basándose en el hecho de que su historia de movimiento reciente hace físicamente imposible que se detenga a tiempo. El sistema no predice solo la posición, sino la consecuencia inevitable de la dinámica acumulada.

Integración sistémica

La implementación efectiva de estas teorías requiere una arquitectura integrada que orqueste el flujo de datos desde la percepción hasta la predicción. Este "pipeline" se estructura en fases secuenciales de abstracción creciente:

Detección, rastreo y persistencia de identidad

El proceso inicia con la ingestión de video de alta frecuencia. Algoritmos de detección de objetos (como las variantes de YOLO) escanean cada cuadro para localizar vehículos. Sin embargo, para entender el movimiento, el sistema debe entender que el coche que ve ahora t es el mismo vehículo físico que vio hace un instante t-1. No es que el tiempo sea igual (son momentos distintos). Lo que es igual es la identidad del objeto a través de esos dos momentos distintos. Esto es lo que permite al algoritmo saber que un coche se está moviendo y no que son dos coches diferentes apareciendo y desapareciendo. Aquí intervienen los algoritmos de Tracking (como DeepSORT), que utilizan filtros de Kalman para estimar la posición futura y descriptores de apariencia visual para re-identificar al vehículo, asignándole un ID único persistente. Esto transforma detecciones aisladas en "trazas" o trayectorias coherentes.

Fusión de contexto espacio-temporal

Con las trayectorias identificadas y rectificadas geométricamente (vía homografía), el sistema alimenta simultáneamente dos sub-redes. Por un lado, la GNN procesa la configuración espacial instantánea, entendiendo las relaciones de posición y bloqueo entre vehículos. Por otro, la LSTM procesa la historia individual de movimiento de cada agente. Estas dos corrientes de información —el "dónde están todos" y el "qué ha estado haciendo cada uno"— se fusionan en una representación matemática unificada que codifica el estado completo de la escena. Si se dispone de mapas HD, se utiliza una codificación adicional (como en LaneGCN) para inyectar la información de la infraestructura (carriles, señales) en este vector latente.

Generación multimodal y evaluación de riesgo

El decodificador del sistema toma esta representación fusionada y proyecta el futuro. Dado que el futuro es incierto, el sistema no genera una única línea, sino una distribución de probabilidad sobre múltiples trayectorias posibles (Multimodalidad). El modelo podría predecir: "Trayectoria A (seguir recto) con 70% de probabilidad; Trayectoria B (giro a la izquierda) con 30%".

Finalmente, el módulo de inferencia de conflictos evalúa estas proyecciones. Calcula analíticamente las intersecciones espacio-temporales de las trayectorias predichas de todos los pares de vehículos. Si detecta que dos vehículos ocuparán la misma coordenada métrica en un mismo intervalo de tiempo futuro (TTC < umbral crítico), y que la maniobra evasiva requerida excede los límites físicos normales, el sistema emite una alerta de "Near-Miss" o casi accidente. La validez de esta alerta reside en que fue calculada sobre metros reales, considerando la interacción social y la historia dinámica de los actores.

Brechas en la investigación (2020-2025)

El campo de la predicción de trayectorias avanza rápidamente, pero persisten desafíos significativos que definen la frontera del conocimiento actual.

Avances recientes en arquitecturas especializadas

La literatura contemporánea ha visto el surgimiento de modelos que superan las limitaciones de las redes genéricas.

LaneGCN (2020): Introdujo la noción de utilizar el grafo de carriles como un participante activo en la red neuronal. En lugar de rasterizar el mapa como una imagen, LaneGCN realiza convoluciones sobre la topología del grafo de carriles, permitiendo capturar maniobras complejas dictadas por la geometría vial con una precisión sin precedentes.

UAMTP y GSMNet (2024-2025): Estos modelos representan la vanguardia en la gestión de la incertidumbre y la predicción a largo plazo. UAMTP se destaca por descomponer la incertidumbre en componentes aleatorios (ruido inherente) y epistémicos (falta de conocimiento del modelo), proporcionando una medida de confianza crítica para la toma de decisiones de seguridad. GSMNet aborda la degradación de la precisión en horizontes largos (>5 segundos) mediante un enfoque jerárquico que predice primero la intención de destino y luego refina la ruta.

A pesar de estos avances, existen vacíos fundamentales:

Calibración de la multimodalidad: Aunque los modelos predicen múltiples futuros, la asignación de probabilidades a estos modos suele estar mal calibrada. Los modelos tienden a ser "sobreconfiados" o demasiado difusos, lo que dificulta discernir si una predicción de giro es una certeza o una mera posibilidad estadística.

Inferencia de intenciones ocultas: Los algoritmos actuales dependen casi exclusivamente de la cinemática observable. Sin embargo, muchas decisiones de conducción (como ceder el paso por cortesía visual) no tienen una firma cinemática previa clara. La capacidad de inferir estas intenciones "invisibles" sigue siendo limitada.

Generalización geométrica (Transfer Learning): Un problema persistente es la incapacidad de los modelos para generalizar a nuevas topologías. Un sistema entrenado en intersecciones ortogonales suele fallar en rotondas o cruces irregulares, evidenciando un sobreajuste a la geometría de entrenamiento en lugar de un aprendizaje de las reglas universales de interacción.

Errores frecuentes en la investigación

La validez en este ámbito depende estrictamente del rigor metodológico. Se identifican errores recurrentes que comprometen la integridad científica de los estudios:

El error más grave y frecuente es omitir o realizar incorrectamente la transformación homográfica. Algunos estudios reportan errores de predicción (ADE/FDE) en píxeles, lo cual es adimensional y físicamente ininterpretable. Sin una calibración métrica rigurosa que transforme la imagen a coordenadas del mundo real, cualquier conclusión sobre la seguridad vial (distancias de frenado, TTC) es espuria, ya que ignora la distorsión no lineal de la perspectiva de la cámara.

Evaluación de métricas inadecuadas

Evaluar un modelo de seguridad basándose únicamente en el Error de Desplazamiento Promedio (ADE, por sus siglas en inglés) es metodológicamente insuficiente. El ADE promedia el rendimiento en situaciones triviales (rectas vacías) con situaciones críticas, diluyendo la capacidad real del modelo para prevenir siniestros. Una evaluación robusta debe incluir métricas orientadas a la tarea, como la tasa de colisión (Collision Rate) o la precisión en la detección de maniobras específicas en escenarios de conflicto ("near-miss"), y no solo el ajuste geométrico promedio de la curva.

Asumir la independencia de agentes

Finalmente, modelar la predicción de cada vehículo de manera independiente (como si estuvieran solos en la vía) es un error conceptual en entornos urbanos. Esta simplificación ignora la causalidad social del tránsito. Un modelo que no incorpore explícitamente mecanismos de interacción (GNN, Pooling) fallará sistemáticamente en predecir comportamientos reactivos, como frenadas inducidas por terceros, generando predicciones optimistas que subestiman el riesgo real de colisión.

Conclusiones

La investigación realizada permite establecer que la predicción efectiva de trayectorias en intersecciones exige un cambio de paradigma fundamental: el tránsito de modelos deterministas a arquitecturas de inferencia probabilística. Se concluye que los métodos clásicos, como el Filtro de Kalman y los Modelos de Fuerza Social, aunque válidos en entornos controlados, colapsan ante la incertidumbre semántica de la interacción humana, al ser incapaces de modelar la negociación y la causalidad social del tránsito.

La arquitectura propuesta, basada en la fusión sinérgica de Redes Neuronales de Grafos (GNN) y Memoria a Corto y Largo Plazo (LSTM), demuestra ser la solución teórica idónea para abordar la dualidad del problema. Las GNN logran digitalizar la topología relacional de la escena, permitiendo que el sistema entienda el tránsito como un sistema acoplado donde la acción de un agente condiciona a sus vecinos. Simultáneamente, las LSTM aportan la profundidad temporal necesaria para interpretar la inercia de la intención, diferenciando comportamientos estáticos de maniobras dinámicas latentes.

Desde una perspectiva metodológica, se reafirma que la validez de cualquier sistema de visión artificial aplicado a la seguridad vial depende estrictamente de la reconstrucción métrica del plano. La aplicación de la homografía no es un paso opcional, sino el prerrequisito que dota de significado físico a las predicciones; sin ella, métricas críticas como el TTC son meras abstracciones adimensionales propensas al error.

Finalmente, aunque el marco propuesto habilita la detección proactiva de riesgos y la anticipación de comportamientos multimodales, se identifican desafíos persistentes en la frontera del conocimiento, específicamente en la calibración de la incertidumbre epistémica y la generalización geométrica. El futuro de esta disciplina no reside en perfeccionar la precisión del rastreo, sino en dotar a los algoritmos de la capacidad cognitiva para inferir intenciones ocultas y operar bajo la ambigüedad inherente al factor humano.

Glosario de términos

Desvanecimiento del Gradiente: Problema matemático crítico en el entrenamiento de redes neuronales recurrentes tradicionales (RNN). Ocurre cuando la señal de error que se retro propaga para corregir la red se vuelve infinitesimalmente pequeña a medida que viaja hacia atrás en el tiempo, impidiendo que la red "aprenda" o recuerde eventos ocurridos hace varios segundos (dependencias a largo plazo).

Generalización Geométrica: Consiste en la capacidad de un modelo entrenado en un entorno específico para transferir y adaptar ese conocimiento a un entorno nuevo y desconocido sin necesidad de ser entrenado desde cero.

Long Short-Term Memory (LTSM): Tipo de red neuronal recurrente especializada en procesar secuencias de datos temporales. Las LSTM poseen una arquitectura interna con "puertas" que regulan qué información del pasado debe recordarse, olvidarse o actualizarse en cada instante. Esta capacidad de mantener memoria selectiva a corto y largo plazo les permite aprender dependencias temporales complejas, como reconocer que un vehículo que ha estado desacelerando durante varios segundos probablemente se detendrá, capturando así patrones de comportamiento que persisten en el tiempo.

Pipeline: Término de ingeniería de software que describe una arquitectura de procesamiento secuencial donde la salida de un módulo (ej. detección visual) se convierte inmediatamente en la entrada del siguiente (ej. rastreo), formando una "tubería" de flujo de datos continuo y automatizado.

Referencias Bibliográficas

Alahi, A., Goel, K., Ramanathan, V., Robicquet, A., Fei-Fei, L., & Savarese, S. (2016). Social LSTM: Human trajectory prediction in crowded spaces. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

Gupta, A., Johnson, J., Fei-Fei, L., Savarese, S., & Alahi, A. (2018). Social GAN: Socially acceptable trajectories with generative adversarial networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

Liang, M., Yang, B., Hu, R., Chen, Y., Liao, R., Feng, S., & Urtasun, R. (2020). Learning lane graph representations for motion forecasting. European Conference on Computer Vision (ECCV).

Li, J., Ma, H., & Tomizuka, M. (2019). Interaction-aware trajectory prediction of connected vehicles using CNN-LSTM networks. IEEE International Conference on Intelligent Transportation Systems (ITSC).

Zhang, T., et al. (2021). Vehicle motion prediction at intersections based on LSTM. IEEE Transactions on Intelligent Vehicles.

Cao, Q., et al. (2021). Real-time vehicle trajectory prediction for traffic conflict detection at unsignalized intersections. Journal of Advanced Transportation.

Lin, L., et al. (2022). Vehicle trajectory prediction using LSTMs with spatial-temporal attention. IEEE Transactions on Intelligent Transportation Systems.

Arróspide, J., & Salgado, L. (2010). Vehicle detection and tracking using homography-based plane alignment. IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS).

Parisi, D. R., et al. (2009). A modification of the Social Force Model can reproduce experimental data. Physica A: Statistical Mechanics and its Applications.

Chang, M. F., et al. (2019). Argoverse: 3D tracking and forecasting with rich maps. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Caesar, H., et al. (2019). nuScenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Liu, Q., et al. (2023). Graph reinforcement learning-based decision-making: Adjacency matrix construction. Sensors.

Mohamed, A., et al. (2022). Social-Implicit: Rethinking trajectory prediction evaluation. European Conference on Computer Vision (ECCV).

Weng, X., et al. (2023). Joint metrics matter: A better standard for trajectory forecasting. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).

Suk, H., et al. (2025). Uncertainty-aware multimodal trajectory prediction via a single inference. Sensors.

Lee, J. K., et al. (2025). Transformer-based vehicle trajectory prediction at urban T-intersections. Scientific Reports.

Yan, Z., et al. (2023). INT2: Interactive trajectory prediction at intersections. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).

Zhang, H., et al. (2020). A hybrid approach for turning intention prediction based on time series and deep learning. Sensors.

Roy, D., et al. (2020). Vehicle trajectory prediction at intersections using GAN. IEEE International Conference on Intelligent Transportation Systems (ITSC).

Xu, J., et al. (2024). An approach for accurately extracting vehicle trajectory data: The CQSkyEyeX dataset. Preprint.

Liu, S., et al. (2024). GSMNet: Multi-scale goal sampling for long-term trajectory prediction. Asian Conference on Computer Vision (ACCV).

Yang, Z. Y., et al. (2025). Multimodal trajectory prediction for intelligent vehicles via causal perspective. Nature Scientific Reports.

Khalil, M., et al. (2025). BAT: Behavior-aware human-like trajectory prediction. AI Conference.

Deo, N., et al. (2022). Multimodal trajectory prediction conditioned on lane-graph traversals. Conference on Robot Learning (CoRL).

SILVA Manuel Eduardo
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

“Las opiniones expresadas en esta publicación son de los autores y no necesariamente reflejan los puntos de vista del Instituto Mexicano del Transporte”

: Última actualización: 15 Mayo 2023