Abstract
El moviment és un atribut perceptiu del cervell humà molt important. La percepció visual que fa el cervell del moviment és el procés d’inferir la velocitat i direcció dels elements d’un escenari mitjançant entrades visuals. Anàlogament, la visió per computador s’assisteix mitjançant informació del moviment de l’escena. En visió per computador, la detecció de moviment és útil per a resoldre problemes com per exemple segmentació, estimació de la profunditat, estimació de l’estructura a partir del moviment, compressió de dades o navegació entre d’altres. Aquests problemes són comuns a diferents aplicacions, com ara vídeo vigilància, navegació de robots i sistemes avançats d’assistència a la conducció (Advanced Driver Assistance Systems, ADAS). Una de les tècniques més utilitzades per a detectar moviment, és el càlcul d’optical flow. El treball tractat en aquesta tesi pretén que les formulacions d’optical flow siguin més apropiades als requeriments i condicions dels escenaris de conducció. En aquest context, es proposa una nova representació de l’espai-variant anomenada representació reverse log-polar, i es demostra que, quan s’utilitza per a ADAS, té un rendiment millor que la tradicional representació log-polar. La representació espai-variant redueix la quantitat de dades necessàries que han de ser processades. Una altra contribució important està relacionada amb l’anàlisi de la influència de les característiques específiques d’escenaris de conducció per a la precisió de l’optical flow. S’han considerat característiques tals com la velocitat del vehicle i la textura de la carretera. D’aquest estudi s’infereix que, el pes del terme de regularització s’ha d’adaptar segons una mesura d’error i per a diferents velocitats i textures de la carretera. També es mostra que la representació polar d’optical flow funciona molt millor per a escenaris de conducció on el moviment principal són translacions. Degut als requeriments d’aquest estudi, i per la manca de bases de dades es presenta una nova base de dades sintètica que conté: i) seqüències amb diferents velocitats i textures en un escenari urbà; ii) seqüències amb moviments complexos de la càmera col·locada al vehicle; i iii) seqüències amb altres vehicles en moviment dintre la mateixa escena. L’optical flow corresponent a cada seqüència s’obté mitjançant la tècnica de ray-tracing. A més a més, es presenten algunes aplicacions per a optical flow en escenaris ADAS. Per començar, proposem una tècnica robusta basada en RANSAC per estimar la línia de l’horitzó. Després, presentem una estimació de l’egomotion per a comparar la representació espai-variant proposada amb les representacions clàssiques. Com a contribució final, es proposa una modificació del terme de regularització que millora notablement els resultats per a aplicacions d’ADAS. Aquesta adaptació s’avalua mitjançant tècniques d’optical flow d’última generació. Els experiments realitzats amb una base de dades pública (KITTI) validen els avantatges d’utilitzar la modificació proposada. La percepción del movimiento es uno de los más importantes atributos del cerebro humano. La percepción visual del movimiento consiste en inferir velocidad y dirección de los elementos móviles que interactúan en una escena, mediante la interpretación de diferentes entradas visuales. Análogamente, la visión por computador hace uso de la información del movimiento en la escena. La detección de movimiento en visión por computador es útil para resolver problemas tales como: segmentación, estimación de profundidad, compresión, navegación, entre otros. Estos problemas son comunes en distintas aplicaciones, por ejemplo: video vigilancia, navegación de robots y sistemas avanzados de asistencia a la conducción (ADAS). Una de las técnicas más utilizadas para detectar movimiento es la estimación del flujo óptico. El trabajo abordado en esta tesis busca formulaciones del flujo óptico más adecuadas a las necesidades y condiciones de los escenarios de conducción. En este contexto, se propuso una novedosa representación del espacio, llamada representación inversa log-polar, la cual se demuestra que tiene un desempeño mejor que la tradicional representación logpolar para aplicaciones ADAS. Las representaciones de espacio-variante reducen la cantidad de datos a ser procesados. Otra contribución importante está relacionada con el análisis de la influencia de las características específicas de los escenarios de conducción en la precisión del flujo óptico estimado. Características tales como la velocidad del vehículo y la textura de la carretera son consideradas en el estudio. De este estudio, se infiere que el peso del término de regularización tiene que ser adaptado de acuerdo con la medida de error requerida y para diferentes velocidades y texturas de la carretera. También se concluye que la representación polar del flujo óptico es la más apropiada en escenarios de conducción, donde el movimiento predominante es la translación. Debido a las exigencias de tal estudio, y por falta de las bases de datos necesarias, se presenta un nuevo conjunto de datos sintéticos el cual contiene: i) secuencias de diferentes velocidades y texturas en un escenario urbano; ii) secuencias con movimientos complejos de la cámara dispuesta en el vehículo; y iii) secuencias con otros vehículos en movimiento en la escena. El flujo óptico correspondiente a cada secuencia es obtenido mediante una técnica de ray-tracing. Adicionalmente, se presentan algunas aplicaciones de flujo óptico en ADAS. Primeramente se propone una técnica robusta basada en RANSAC para estimar la línea de horizonte. Seguidamente se presenta una estimación del egomotion para comparar la representación de espacio-variante propuesta con los esquemas clásicos. Como contribución final, se propone una modificación en el término de regularización que mejora notablemente los resultados en las aplicaciones ADAS. Los resultados experimentales en una base de datos pública (KITTI) validan las ventajas de la utilización de la modificación propuesta. Motion perception is one of the most important attributes of the human brain. Visual motion perception consists in inferring speed and direction of elements in a scene based on visual inputs. Analogously, computer vision is assisted by motion cues in the scene. Motion detection in computer vision is useful in solving problems such as segmentation, depth from motion, structure from motion, compression, navigation and many others. These problems are common in several applications, for instance, video surveillance, robot navigation and advanced driver assistance systems (ADAS). One of the most widely used techniques for motion detection is the optical flow estimation. The work in this thesis attempts to make optical flow suitable for the requirements and conditions of driving scenarios. In this context, a novel space-variant representation called reverse log-polar representation is proposed that is shown to be better than the traditional log-polar space-variant representation for ADAS. The space-variant representations reduce the amount of data to be processed. Another major contribution in this research is related to the analysis of the influence of specific characteristics from driving scenarios on the optical flow accuracy. Characteristics such as vehicle speed and road texture are considered in the aforementioned analysis. From this study, it is inferred that the regularization weight has to be adapted according to the required error measure and for different speeds and road textures. It is also shown that polar represented optical flow suits driving scenarios where predominant motion is translation. Due to the requirements of such a study and by the lack of needed datasets a new synthetic dataset is presented; it contains: i) sequences of different speeds and road textures in an urban scenario; ii) sequences with complex motion of an on-board camera; and iii) sequences with additional moving vehicles in the scene. The ground-truth optical flow is generated by the ray-tracing technique. Further, few applications of optical flow in ADAS are shown. Firstly, a robust RANSAC based technique to estimate horizon line is proposed. Then, an egomotion estimation is presented to compare the proposed space-variant representation with the classical one. As a final contribution, a modification in the regularization term is proposed that notably improves the results in the ADAS applications. This adaptation is evaluated using a state of the art optical flow technique. The experiments on a public dataset (KITTI) validate the advantages of using the proposed modification.Abstract
El moviment és un atribut perceptiu del cervell humà molt important. La percepció visual que fa el cervell del moviment és el procés d’inferir la velocitat i direcció dels elements d’un escenari mitjançant entrades visuals. Anàlogament, la visió per computador s’assisteix [...]Abstract
El treball d'aquesta tesi es centra en l'anàlisi de seqüències de vídeo, aplicant tècniques basades en models per extreure'n informació quantitativa. En concret, es realitzen diferents propostes en dues àrees d'aplicació: el seguiment de formes basat en models de contorns, i la detecció i seguiment de vehicles en imatges proveïdes per una camera instal·lada en una plataforma mòbil."br/"El treball dedicat al seguiment de formes s'enquadra en el paradigma de contorns actius, del qual presentem una revisió de les diferents propostes existents. En primer lloc, mesurem el rendiment obtingut pels algorismes de seguiment més comuns (filtres basats en Kalman i filtres de partícules), i en segon lloc avaluem diferents aspectes de la seva implementació en un extens treball experimental on es consideren múltiples seqüències sintètiques, distorsionades amb diferents graus de soroll. Així, mitjançant aquest estudi determinem la millor manera d'implementar a la pràctica els algorismes de seguiment clàssics, i identifiquem els seus pros i contres."br/"Seguidament, el treball s'orienta cap a la millora dels algoritmes de seguiment de contorns basats en filtres de partícules. Aquest algorismes aconsegueixen bons resultats sempre que el número de partícules utilitzades sigui suficient, però malauradament la quantitat de partícules requerides creix exponencialment amb el número de paràmetres a estimar. Per tant, i en el context del seguiment de contorns, presentem tres variants del filtre de partícules clàssic, corresponents a tres noves estratègies per tractar aquest problema. En primer lloc, proposem millorar el seguiment de contorns mirant de propagar més acuradament les partícules emprades per l'algorisme d'una imatge a la següent. Això ho duem a terme utilitzant una aproximació lineal de la funció de propagació òptima. La segona estratègia proposada es basa en estimar part dels paràmetres de manera analítica. Així, es pretén fer un ús més productiu de les partícules emprades, reduint la part dels paràmetres del model que s'han d'estimar amb elles. El tercer mètode proposat té com a objectiu treure profit del fet de que, en aplicacions de seguiment de contorns, sovint els paràmetres relatius a la transformació rígida es poden estimar prou acuradament independentment de la deformació local que el contorn presenti. Això s'utilitza per realitzar una millor propagació de les partícules, concentrant-les més densament en la zona on el contorn seguit es troba. Aquestes tres propostes es validen de manera extensiva en seqüències amb diferents nivells de soroll, amb les que es mesura la millora aconseguida."br/"A continuació proposem tractar directament l'origen del problema anterior mitjançant la reducció del nombre de paràmetres a estimar per tal de seguir una determinada forma d'interès. Per aconseguir això, proposem modelar aquesta forma usant múltiples models, on cadascun requereix una quantitat de paràmetres inferior a la requerida per un únic model. Es proposa un nou mètode per aprendre aquests models a partir d'un conjunt d'entrenament, així com un nou algorisme per emprar-los en el seguiment dels contorns. Els resultats experimentals certifiquen la validesa d'aquesta proposta."br/"Finalment, la tesi es centra en el desenvolupament d'un sistema de detecció i seguiment de vehicles. Les propostes realitzades comprenen: un mòdul de detecció de vehicles, un mòdul dedicat a determinar la posició i velocitat 3D dels vehicles detectats, i un mòdul de seguiment per actualitzar la localització dels vehicles a la carretera de manera precisa i eficient. Es realitzen diverses aportacions originals en aquests tres temes, i se n'avalua el rendiment. This thesis focuses the analysis of video sequences, applying model-based techniques for extracting quantitative information. In particular, we make several proposals in two application areas: shape tracking based on contour models, and detection and tracking of vehicles in images acquired by a camera installed on a mobile platform."br/"The work devoted to shape tracking follows the paradigm of active contours, from which we present a review of the existent approaches. First, we measure the performance of the most common algorithms (Kalman based filters and particle filters), and then we evaluate its implementation aspects trough an extensive experimental study, where several synthetic sequences are considered, distorted with different degrees of noise. Thus, we determine the best way to implement in practice these classical tracking algorithms, and we identify its benefits and drawbacks."br/"Next, the work is oriented towards the improvement of contour tracking algorithms based on particle filters. These algorithms reach good results provided that the number of particles is high enough, but unfortunately the required number of particles grows exponentially with the number of parameters to be estimated. Therefore, and in the context of contour tracking, we present three variants of the classical particle filter, corresponding to three new strategies to deal with this problem. First, we propose to improve the contour tracking by propagating more accurately the particles from one image to the next one. This is done by using a linear approximation of the optimal propagation function. The second proposed strategy is based in estimating part of the parameters analytically. Thus, we aim to do a more productive use of the particles, reducing the amount of model parameters that must be estimated through them. The third proposed method aims to exploit the fact that, in contour tracking applications, the parameters related to the rigid transform can be estimated accurately enough independently from the local deformation presented by the contour. This is used to perform a better propagation of the particles, concentrating them more densely in the zone where the tracked contour is located. These three proposals are validated extensively in sequences with different noise levels, on which the reached improvement is evaluated."br/"After this study, we propose to deal directly with the origin of the previous problem by reducing the number of parameters to be estimated in order to follow a given shape of interest. To reach that, we propose to model the shape using multiple models, where each one requires a lower quantity of parameters than when using a unique model. We propose a new method to learn these models from a training set, and a new algorithm to use the obtained models for tracking the contours. The experimental results certify the validity of this proposal."br/"Finally, the thesis focuses on the development of a system for the detection and tracking of vehicles. The proposals include: a vehicle detection module, a module devoted to the determination of the three-dimensional position and velocity of the detected vehicles, and a tracking module for updating the location of vehicles on the road in a precise and efficient manner. Several original contributions are done in these three subjects, and their performance is evaluated empirically.Abstract
El treball d'aquesta tesi es centra en l'anàlisi de seqüències de vídeo, aplicant tècniques basades en models per extreure'n informació quantitativa. En concret, es realitzen diferents propostes en dues àrees d'aplicació: el seguiment de formes basat en models de contorns, [...]