¿Cómo visualiza, piensa y conduce un auto autónomo con inteligencia artificial?
La tecnología de conducción autónoma sigue avanzando, con un desarrollo tecnológico y proyectos piloto de numerosas marcas y actores, en diferentes partes del mundo, que los va acercando progresivamente a su implantación real.
Los conductores ya pueden disfrutar del germen de estas tecnologías con los sistemas avanzados de asistencia a la conducción ADAS, que suponen los primeros pasos hacia una conducción automatizada.
El sitio Carglass ha convertido en uno de los grandes expertos en los sistemas ADAS y se mantiene al tanto de las investigaciones en conducción autónoma, porque algunas de las cámaras y sensores necesarias para su funcionamiento van instaladas sobre el parabrisas. Cuando se sustituye un parabrisas, hay que desmontar las cámaras del cristal roto, montarlas en el nuevo y recalibrarlas para asegurar que funcionan con la máxima precisión y proporcionan la información correcta.
Una mínima desviación puede “engañar” a los sistemas ADAS y provocar un mal cálculo de distancias, lo que puede desencadenar una colisión o un atropello. En la era de la conducción autónoma, la correcta recalibración de las cámaras será aún más importante, pues la información que proporcionen al sistema se empleará para todas las tareas relacionadas con la conducción.
Un entorno de la máxima complejidad
Circular por las vías públicas es el entorno más complejo de funcionamiento autónomo al que se ha enfrentado jamás una máquina, por el enorme número de variables en juego y la imprevisibilidad de los humanos con los que tiene que convivir. Un vehículo autónomo tiene que saber distinguir rápidamente todo lo que está a su alrededor, algo que los humanos hacemos sin darnos apenas cuenta, pero que es tremendamente complicado.
Desde algo que a priori parece sencillo, como saber lo que es un perro (en todas sus formas y posiciones posibles); a algo aún más complicado, como diferenciar una persona en una parada de autobús, con una fotografía de alta resolución de una persona en un anuncio en una parada de autobús.
Además de comprender todo lo que ve, tiene que realizar un seguimiento de lo que sucede a su alrededor y determinar qué objetos o personas pueden afectar a la conducción (como los vehículos circundantes, peatones, señales, marcas viales); lo que es ruido de fondo, pero podría actuar (como un coche estacionado o un peatón caminando por la acera), y lo que no va a afectar a su guiado.
Las tecnologías de conducción autónoma más avanzadas emplean la inteligencia artificial mediante tres actividades separadas, pero cooperativas: “percepción”, “predicción” y “planificación”.
Percibir el entorno
El sistema de percepción de un coche autónomo recopila datos de un sofisticado conjunto de sensores, que incluye cámaras, radares y lidars, con múltiples modalidades de detección. Luego utiliza un algoritmo entrenado con aprendizaje automático, que emplea redes neuronales convolucionales (CNN), para clasificar y etiquetar esos objetos. De esta forma, la computadora a bordo del vehículo puede saber si los elementos que hay en la imagen son algo de lo que necesita estar atento; o algo que pueda ignorar, como una pared.
Las redes neuronales transformadoras TNN (las mismas que se emplean en los modelos de inteligencia artificial de procesamiento del lenguaje natural, como ChatGPT) se encargan de comprender las relaciones complejas entre elementos de la imagen, como la segmentación semántica, donde la comprensión del contexto global es crucial.
Una vez generada una imagen bidimensional del entorno, las redes TNN la convierten en una vista aérea en 3D, porque el sistema necesita una visión a vista de pájaro para ver claramente las ubicaciones y la escala de los objetos alrededor del vehículo.
Predecir lo que podría suceder
Toda esa información se transmite al sistema de predicción del vehículo, que también emplea algoritmos TNN por su capacidad para generalizar comportamientos a partir de grandes muestras de datos con los que se ha ido entrenando a los algoritmos, y comprender comportamientos de largo alcance.
Porque no hay que olvidar que la IA de los coches autónomos aprende de cada situación que se genera en su vida diaria, y también se entrena a partir de datos (videos, imágenes, textos…) y de simulaciones realizadas en entornos virtuales.
Los algoritmos del sistema de percepción rastrean cada objeto; determinan cómo, en qué dirección y a qué velocidad se mueve; y predicen hacia dónde se moverá a continuación en función de sus acciones pasadas. Por ejemplo, un coche autónomo puede reconocer a un peatón, recordar dónde está, comprender sus movimientos y calcular las posibilidades de que se baje de la acera y se cruce en la trayectoria del vehículo.
El sistema analiza la posición de cada objeto y reevalúa la ruta prevista para cada uno de ellos 10 veces por segundo, para garantizar que el vehículo esté siempre listo para reaccionar y planificar un camino seguro.
Planificar el futuro
Una vez que comprende su entorno, cómo se mueve y cómo se podría mover, el sistema de planificación decide cuál es la mejor manera de moverse de forma segura, eficiente y legal; y envía órdenes a los sistemas de control del vehículo (dirección, motor, cambio, frenos, señalización…) para que circule. Este sistema elige en qué carril debe circular el vehículo, a qué velocidad, cuándo girar, acelerar o frenar, en qué momento detenerse.
La computadora de a bordo recibe información de los sistemas de percepción y predicción, y verifica la velocidad y la ubicación del vehículo varias veces por segundo; para asegurarse de que está ejecutando los movimientos planificados.
Lo más increíble de todos los procesos de percepción, predicción y planificación, es que se realizan prácticamente en tiempo real, tras manejar y procesar el aluvión de información que genera un coche que se está moviendo y cambiando de entorno cada segundo.
Ese es otro de los campos de investigación avanzada relativos a la conducción autónoma: el desarrollo de un hardware capaz de procesar muchos gigas de información por segundo; y también de un software con algoritmos que puedan manejar de un modo rápido y eficaz redes de aprendizaje profundo.