Abstract
El moviment és un atribut perceptiu del cervell humà molt important. La percepció visual que fa el cervell del moviment és el procés d’inferir la velocitat i direcció dels elements d’un escenari mitjançant entrades visuals. Anàlogament, la visió per computador s’assisteix mitjançant informació del moviment de l’escena. En visió per computador, la detecció de moviment és útil per a resoldre problemes com per exemple segmentació, estimació de la profunditat, estimació de l’estructura a partir del moviment, compressió de dades o navegació entre d’altres. Aquests problemes són comuns a diferents aplicacions, com ara vídeo vigilància, navegació de robots i sistemes avançats d’assistència a la conducció (Advanced Driver Assistance Systems, ADAS). Una de les tècniques més utilitzades per a detectar moviment, és el càlcul d’optical flow. El treball tractat en aquesta tesi pretén que les formulacions d’optical flow siguin més apropiades als requeriments i condicions dels escenaris de conducció. En aquest context, es proposa una nova representació de l’espai-variant anomenada representació reverse log-polar, i es demostra que, quan s’utilitza per a ADAS, té un rendiment millor que la tradicional representació log-polar. La representació espai-variant redueix la quantitat de dades necessàries que han de ser processades. Una altra contribució important està relacionada amb l’anàlisi de la influència de les característiques específiques d’escenaris de conducció per a la precisió de l’optical flow. S’han considerat característiques tals com la velocitat del vehicle i la textura de la carretera. D’aquest estudi s’infereix que, el pes del terme de regularització s’ha d’adaptar segons una mesura d’error i per a diferents velocitats i textures de la carretera. També es mostra que la representació polar d’optical flow funciona molt millor per a escenaris de conducció on el moviment principal són translacions. Degut als requeriments d’aquest estudi, i per la manca de bases de dades es presenta una nova base de dades sintètica que conté: i) seqüències amb diferents velocitats i textures en un escenari urbà; ii) seqüències amb moviments complexos de la càmera col·locada al vehicle; i iii) seqüències amb altres vehicles en moviment dintre la mateixa escena. L’optical flow corresponent a cada seqüència s’obté mitjançant la tècnica de ray-tracing. A més a més, es presenten algunes aplicacions per a optical flow en escenaris ADAS. Per començar, proposem una tècnica robusta basada en RANSAC per estimar la línia de l’horitzó. Després, presentem una estimació de l’egomotion per a comparar la representació espai-variant proposada amb les representacions clàssiques. Com a contribució final, es proposa una modificació del terme de regularització que millora notablement els resultats per a aplicacions d’ADAS. Aquesta adaptació s’avalua mitjançant tècniques d’optical flow d’última generació. Els experiments realitzats amb una base de dades pública (KITTI) validen els avantatges d’utilitzar la modificació proposada.
La percepción del movimiento es uno de los más importantes atributos del cerebro humano. La percepción visual del movimiento consiste en inferir velocidad y dirección de los elementos móviles que interactúan en una escena, mediante la interpretación de diferentes entradas visuales. Análogamente, la visión por computador hace uso de la información del movimiento en la escena. La detección de movimiento en visión por computador es útil para resolver problemas tales como: segmentación, estimación de profundidad, compresión, navegación, entre otros. Estos problemas son comunes en distintas aplicaciones, por ejemplo: video vigilancia, navegación de robots y sistemas avanzados de asistencia a la conducción (ADAS). Una de las técnicas más utilizadas para detectar movimiento es la estimación del flujo óptico. El trabajo abordado en esta tesis busca formulaciones del flujo óptico más adecuadas a las necesidades y condiciones de los escenarios de conducción. En este contexto, se propuso una novedosa representación del espacio, llamada representación inversa log-polar, la cual se demuestra que tiene un desempeño mejor que la tradicional representación logpolar para aplicaciones ADAS. Las representaciones de espacio-variante reducen la cantidad de datos a ser procesados. Otra contribución importante está relacionada con el análisis de la influencia de las características específicas de los escenarios de conducción en la precisión del flujo óptico estimado. Características tales como la velocidad del vehículo y la textura de la carretera son consideradas en el estudio. De este estudio, se infiere que el peso del término de regularización tiene que ser adaptado de acuerdo con la medida de error requerida y para diferentes velocidades y texturas de la carretera. También se concluye que la representación polar del flujo óptico es la más apropiada en escenarios de conducción, donde el movimiento predominante es la translación. Debido a las exigencias de tal estudio, y por falta de las bases de datos necesarias, se presenta un nuevo conjunto de datos sintéticos el cual contiene: i) secuencias de diferentes velocidades y texturas en un escenario urbano; ii) secuencias con movimientos complejos de la cámara dispuesta en el vehículo; y iii) secuencias con otros vehículos en movimiento en la escena. El flujo óptico correspondiente a cada secuencia es obtenido mediante una técnica de ray-tracing. Adicionalmente, se presentan algunas aplicaciones de flujo óptico en ADAS. Primeramente se propone una técnica robusta basada en RANSAC para estimar la línea de horizonte. Seguidamente se presenta una estimación del egomotion para comparar la representación de espacio-variante propuesta con los esquemas clásicos. Como contribución final, se propone una modificación en el término de regularización que mejora notablemente los resultados en las aplicaciones ADAS. Los resultados experimentales en una base de datos pública (KITTI) validan las ventajas de la utilización de la modificación propuesta.
Motion perception is one of the most important attributes of the human brain. Visual motion perception consists in inferring speed and direction of elements in a scene based on visual inputs. Analogously, computer vision is assisted by motion cues in the scene. Motion detection in computer vision is useful in solving problems such as segmentation, depth from motion, structure from motion, compression, navigation and many others. These problems are common in several applications, for instance, video surveillance, robot navigation and advanced driver assistance systems (ADAS). One of the most widely used techniques for motion detection is the optical flow estimation. The work in this thesis attempts to make optical flow suitable for the requirements and conditions of driving scenarios. In this context, a novel space-variant representation called reverse log-polar representation is proposed that is shown to be better than the traditional log-polar space-variant representation for ADAS. The space-variant representations reduce the amount of data to be processed. Another major contribution in this research is related to the analysis of the influence of specific characteristics from driving scenarios on the optical flow accuracy. Characteristics such as vehicle speed and road texture are considered in the aforementioned analysis. From this study, it is inferred that the regularization weight has to be adapted according to the required error measure and for different speeds and road textures. It is also shown that polar represented optical flow suits driving scenarios where predominant motion is translation. Due to the requirements of such a study and by the lack of needed datasets a new synthetic dataset is presented; it contains: i) sequences of different speeds and road textures in an urban scenario; ii) sequences with complex motion of an on-board camera; and iii) sequences with additional moving vehicles in the scene. The ground-truth optical flow is generated by the ray-tracing technique. Further, few applications of optical flow in ADAS are shown. Firstly, a robust RANSAC based technique to estimate horizon line is proposed. Then, an egomotion estimation is presented to compare the proposed space-variant representation with the classical one. As a final contribution, a modification in the regularization term is proposed that notably improves the results in the ADAS applications. This adaptation is evaluated using a state of the art optical flow technique. The experiments on a public dataset (KITTI) validate the advantages of using the proposed modification.
El moviment és un atribut perceptiu del cervell humà molt important. La percepció visual que fa el cervell del moviment és el procés d’inferir la velocitat i direcció dels elements d’un escenari mitjançant entrades visuals. Anàlogament, la visió per computador s’assisteix