Desarrollo de un asistente de conducción longitudinal mediante un Algoritmo de Aprendizaje Profundo
Development of a longitudinal driving assistant using a Deep Learning Algorithm
Citación
Fecha
2020-02-20Autor
Vogulys Medina, Joseph Jhonas
Título obtenido
Magíster en Ingeniería Mecatrónica
Publicador
Universidad Militar Nueva Granada
Palabras claves
; algoritmos; educacion a distancia; redes neurales (computadores)
Metadatos
Mostrar el registro completo del ítem
Documentos PDF
Resumen
El presente proyecto implementa y desarrolla una simulación de un automóvil con asistente de conducción para una trayectoria longitudinal donde el automóvil frena o acelera al detectar objetos de interés (OI), esto con el uso de técnicas de redes neuronales convolucionales y visión de máquina. El automóvil es capaz de identificar seis (6) OI (bicicletas, motos, señal de pare, automóviles, semáforos y peatones), logrando realizar estimaciones de la ubicación de los objetos y la categoría a la que pertenecen, utilizando como técnica de aprendizaje profundo (DL) la arquitectura YOLO y como red neuronal convolucional (CNN), con varias capas residuales para una mejor precisión, la RESNET50. En la simulación se implementa una cámara RGB-D acoplada al automóvil cuya función permite estimar la distancia a la que se encuentran los OI desde el automóvil. El trabajo se desarrolla en Matlab, el cual cuenta con la interfaz gráfica para etiquetar y entrenar las clases mencionadas. Se importan alrededor de 1400 imágenes, donde se compara la mejor técnica de reconocimiento entre DL y aprendizaje automático (ML), arrojando una precisión del 98.13% con una red de pocas capas, como la ALEXNET, mientras que la técnica de máquina de vector soporte obtuvo un 84.2% respectivamente, siendo la CNN superior en un 16,5% de precisión general.
Al identificar la técnica, se procede a realizar un entrenamiento, donde se etiquetan 2421 imágenes extraídas de las calles de la capital, de ellas se obtienen 4000 etiquetas divididas en las 6 clases mencionadas, las cuales son utilizadas para diseñar la arquitectura basada en regiones para la detección de objetos. Se entrena una red con 8000 imágenes de semáforos que trabaja en paralelo, la cual diferencia si los semáforos detectados se encuentran en estado verde o rojo a una precisión del 99,64%.
Una vez obtenida la arquitectura capaz de reconocer y detectar por regiones los OI siguientes: carros, motos, bicicletas, personas, señal de pare, semáforos verde y rojo, se acopla a un ambiente virtual. Para proceder a la simulación, se construye un automóvil al cual se le acopla una cámara de profundidad capaz de visualizar y estimar la distancia del ambiente virtual, utilizando imágenes reales semejante a la realidad de las calles en Bogotá. Las ruedas, tendrán una velocidad angular constante, y mantienen una trayectoria lineal. El Automóvil utilizando la arquitectura de detección, al reconocer los OI a una distancia menor a 10 metros y utilizando la ecuación cinemática de aceleración uniforme, obtendrá las variables velocidad tiempo y posición- tiempo, reduciendo la velocidad angular de las ruedas, hasta detenerse totalmente a una distancia cercana a los dos metros, evitando de esta forma colisionar. La simulación corre en el ambiente virtual V-Rep y se acopla a tiempo real con Matlab, obteniendo como resultado con la base de datos de entrenamiento, un 93.3% de precisión – Recall de los 6 OI. Para la validación, se crea una base de datos de 600 imágenes, y se obtiene una precisión - Recall general del 60%.
The present project implements and develops a simulation of a car with a driving assistant for a longitudinal path where the car brakes or accelerates when detecting OI (objects of interest), this with the use of convolutional neural network techniques and machine vision. The car is able to identify six (6) RO (bicycles, motorcycles, stop signs, cars, traffic lights and pedestrians), making estimates of the location of the objects and the category to which they belong, using as a deep learning technique (DL) the YOLO architecture and as a convolutional neural network, the RESNET50. The simulation implements an RGB-D camera attached to the car whose function allows knowing the depth at which the OIs are located. The work is developed in Matlab, which has the graphic interface to label and train the mentioned classes. Around 1400 images are imported, where the best recognition technique between DL and machine learning (ML) is compared, yielding 98.13% accuracy in the DL network, the ALEXNET, while the support vector machine technique obtained a 84.2% respectively, the CNN being superior at 16.5% overall accuracy.
When obtaining the technique, a training is carried out, where 2421 images extracted from the streets of the capital are labeled, of them 4000 labels are obtained divided into the 6 mentioned classes, which are used to design the architecture based on regions to Object detection. A network with 8000 traffic light images that work in parallel is trained, which differentiates whether the detected traffic lights are in a green or red state at an accuracy of 99.64%.
Once the architecture has been obtained, capable of recognizing and detecting the following ROs by regions: cars, motorcycles, bicycles, people, stop signs, green and red traffic lights, it is coupled to a virtual environment. To proceed with the simulation, a car is built to which a depth camera is attached capable of visualizing and estimating the distance of the virtual environment, using real images similar to the reality of the streets in Bogotá. The wheels will have a constant angular speed, and maintain a linear trajectory. The Automobile using the detection architecture, recognizing the ROs at a distance of less than 10 meters and using the uniform acceleration kinematic equation, will obtain the variables speed time and position-time, reducing the angular speed of the wheels, until it stops completely at a distance close to two meters, thus avoiding colliding. The simulation runs in the virtual V-Rep environment and is coupled in real time with Matlab, resulting in a training database of 93.3% accuracy - Recall of the 6 OI. For validation, a database of 600 images is created, and an accuracy is obtained - General Recall of 60%.