1) IA aplicada en tiempo real

1.1. Agente de búsqueda y resumen de vídeo

Gracias a nuestro partner Nvidia podemos procesar volúmenes masivos de videos en vivo o archivados y extraer información etiquetada para resúmenes detallados o preguntas y respuestas interactivas del contenido.

Ejemplos de uso:

El usuario puede seleccionar un video de ejemplo y una indicación para guiar al agente en la generación de un resumen detallado. El agente divide el video de entrada en segmentos más pequeños que procesa un VLM (la vista previa utiliza GPT4o de OpenAI). Estos segmentos son procesados en paralelo por la canalización VLM para producir subtítulos detallados que describen los eventos de cada fragmento de forma escalable y eficiente. El agente resume recursivamente los subtítulos densos mediante un LLM, generando un resumen final para todo el video una vez procesados todos los subtítulos de los fragmentos.

También es posible usarlo para demostrar el proceso de visión artificial con seguimiento de objetos y soporte de audio.

Además, todos estos subtítulos se almacenan en bases de datos vectoriales y gráficas para potenciar la función de preguntas y respuestas interactivas de este modelo, lo que permite al usuario hacer cualquier pregunta abierta sobre el video.

1.2. Modelos de visión y estimación

En RNC usamos NVIDIA TAO para construir modelos de visión hechos a la medida de tu negocio. Sobre video o imágenes, estos modelos pueden:

– Detectar objetos o eventos (personas, vehículos, piezas, productos, fallas).
– Comparar cuadros para encontrar cambios o anomalías.
– Estimar profundidad, distancias o posiciones.
– Combinar imagen + texto para búsquedas más precisas.

El resultado: pasas de “ver cámaras” a tener datos accionables para seguridad, control de calidad, operación o mantenimiento.

¿Cómo funciona?

Partimos de modelos base de NVIDIA
Usamos modelos de visión ya pre entrenados por NVIDIA (Vision Foundation Models) como punto de partida, en lugar de entrenar todo desde cero.
Cargamos tus datos reales
Con TAO Data Services preparamos tus videos o imágenes: ingestamos, organizamos y etiquetamos lo necesario para tu caso de uso (tráfico, líneas de producción, sucursales, etc).
Entrenamos y adaptamos el modelo
Ajustamos el modelo al contexto de tu empresa: tipo de cámara, ángulos, iluminación, reglas del negocio. Aquí se “enseña” al modelo que debe detectar, contar o medir.
Optimizamos para producción
Comprimimos y optimizamos el modelo para que corra rápido y con buena precisión, ya sea en tu data center, en el edge o en la nube.

5. Desplegamos donde lo necesitas
Exportamos el modelo a formatos estándar (como ONNX) y lo conectamos con tus sistemas de monitoreo, dashboards o aplicaciones internas.

Ejemplos de uso en industrias:

Conteo y flujo de personas o vehículos en sucursales o ciudades.
Inspección visual de piezas o productos en líneas de producción.
Detección de cambios entre versiones de una misma imagen o escena.
Monitoreo inteligente de video para seguridad y cumplimiento.