banner
Hogar / Noticias / Una aplicación de algoritmo de coincidencia estéreo basado en aprendizaje por transferencia en robots en múltiples escenas.
Noticias

Una aplicación de algoritmo de coincidencia estéreo basado en aprendizaje por transferencia en robots en múltiples escenas.

Jul 07, 2023Jul 07, 2023

Scientific Reports volumen 13, número de artículo: 12739 (2023) Citar este artículo

825 Accesos

4 altmétrico

Detalles de métricas

La tecnología de visión robótica basada en visión binocular tiene un enorme potencial de desarrollo en diversos campos, incluida la reconstrucción de escenas en 3D, la detección de objetivos y la conducción autónoma. Sin embargo, los métodos actuales de visión binocular utilizados en ingeniería robótica tienen limitaciones como altos costos, algoritmos complejos y baja confiabilidad del mapa de disparidad generado en diferentes escenas. Para superar estos desafíos, en este artículo se propuso un algoritmo de coincidencia estéreo entre dominios para la visión binocular basado en el aprendizaje por transferencia, denominado Red de Aprendizaje por Transferencia y Adaptación entre Dominios (Ct-Net), que ha mostrado resultados valiosos en múltiples escenas de robots. Primero, este artículo presenta un extractor de características generales para extraer información rica sobre características generales para tareas de coincidencia estéreo adaptable de dominio. Luego, se utiliza un adaptador de funciones para adaptar las funciones generales a la red de coincidencia estéreo. Además, un módulo de optimización de costos adaptativos de dominio está diseñado para optimizar el costo de coincidencia. También se incorporó un módulo de predicción de puntuación de disparidad para ajustar de forma adaptativa el rango de búsqueda de disparidad y optimizar la distribución de costos. El marco general se entrenó mediante una estrategia por fases y se realizaron experimentos de ablación para verificar la eficacia de la estrategia de formación. En comparación con el prototipo PSMNet, en el punto de referencia KITTI 2015, el 3PE-fg de Ct-Net en todas las regiones y en las regiones no ocluidas disminuyó en un 19,3 y un 21,1% respectivamente, mientras tanto, en el conjunto de datos de Middlebury, el algoritmo propuesto mejora la tasa de error de muestreo. al menos el 28,4%, que es la muestra de Escalera. Los resultados cuantitativos y cualitativos obtenidos de Middlebury, Apollo y otros conjuntos de datos demuestran que Ct-Net mejora significativamente el rendimiento entre dominios de la coincidencia estéreo. Los experimentos de coincidencia estéreo en escenas del mundo real han demostrado que puede abordar eficazmente tareas visuales en múltiples escenas.

En los últimos años, los robots se han convertido en asistentes imprescindibles en diversos campos, entre ellos la reconstrucción de escenas 3D, la detección de objetivos, la conducción autónoma, entre otros. La aplicación generalizada de la tecnología robótica en diversas industrias ha contribuido a su papel integral en la vida moderna. La visión por computadora, una tecnología que emula el sistema visual humano y convierte la información de la imagen recopilada en información de disparidad de objetivos, desempeña un papel crucial para ayudar a los robots a realizar sus tareas. Actualmente, la mayoría de los robots dependen de costosos equipos de radar láser para obtener información de disparidad de alta precisión. Sin embargo, el principio de la visión binocular, que reproduce fielmente la forma humana de observar los objetos, se utiliza ampliamente en numerosas tareas visuales. El algoritmo de coincidencia estéreo binocular, un componente fundamental de la teoría de la visión binocular, impacta directamente en la precisión de la detección del objetivo de un robot. Al emplear la teoría de la visión binocular, el robot puede convertir información bidimensional en información tridimensional de la escena del objetivo, obteniendo así información precisa de la escena del objetivo.

Los algoritmos de coincidencia estéreo son cruciales para comprender las escenas y la reconstrucción en 3D, y se han utilizado ampliamente en diversos campos, incluida la navegación de robots1, la conducción autónoma2, la realidad virtual3 y muchos otros. Estos algoritmos tienen como objetivo calcular disparidades, que representan el desplazamiento horizontal de los píxeles correspondientes en dos pares estéreo rectificados. Los métodos tradicionales a menudo se basan en el conocimiento previo de la imagen para construir una función de coincidencia estéreo que permita la generación de un mapa de disparidad denso4.

Actualmente, las redes neuronales convolucionales (CNN) se utilizan ampliamente en diversas tareas de visión debido a sus poderosas capacidades de representación de características, incluida la detección de objetos5, la clasificación de imágenes6 y más. En los últimos años, los algoritmos de coincidencia estéreo supervisados ​​​​basados ​​​​en CNN han mejorado significativamente el rendimiento de la coincidencia estéreo y se han convertido en la dirección de investigación principal actual. Los pasos principales del algoritmo de coincidencia estéreo supervisado basado en CNN incluyen la extracción de características, la construcción de costos y la optimización de costos.

Sin embargo, los algoritmos de coincidencia estéreo existentes basados ​​en CNN están diseñados principalmente para modelos de estructura fija en conjuntos de datos específicos, mientras que la cuestión de la coincidencia estéreo adaptativa de dominio ha recibido una atención limitada por parte de los investigadores. Además, los estudios anteriores normalmente se han centrado en la obtención de parámetros de red mediante un entrenamiento extensivo con grandes lotes, sin tener en cuenta la exploración de estrategias de entrenamiento alternativas. Kendall y cols. Fueron los primeros en proponer obtener características a través de la estructura ResNet7 y obtener mapas de disparidad de un extremo a otro. El módulo de adaptación de dominio diseñado en DANet8 ayuda a reducir el cambio de dominio. Para mejorar el rendimiento de la coincidencia estéreo, SegStereo9 incorpora una rama semántica entrenable por separado que proporciona información del borde de disparidad para la coincidencia estéreo. La rama de optimización de este método emplea un proceso de entrenamiento de dos etapas para eliminar información redundante y amplificar la información relacionada con la coincidencia en volúmenes concatenados10. Nlca-net11 proporciona una rama de arranque para optimizar los resultados de disparidad. En el trabajo12 se propone una rama de segmentación semántica para incorporar información semántica adicional en tareas de coincidencia estéreo. PGNet13 propuso una red profunda guiada por análisis panóptico para resolver la tarea de coincidencia estéreo. Se propone un volumen de costos de fusión en cascada para optimizar la distribución de costos14. Rao et al.15 mejoraron el rendimiento de la coincidencia estéreo de un modelo existente mediante la implementación de una nueva estrategia de entrenamiento durante el reentrenamiento. Sang et al.16 propusieron un módulo de atención de agrupación de pirámides espaciales para abordar áreas mal planteadas y mejorar los detalles de los mapas de disparidad a través de la captura de información de contexto a múltiples escalas. Los métodos anteriores mejoran el rendimiento de la coincidencia estéreo al optimizar la estructura del modelo y la estrategia de entrenamiento.

Presentamos una novedosa red de coincidencia estéreo que utiliza aprendizaje por transferencia y una estrategia de entrenamiento personalizada para optimizar el modelo. En primer lugar, seleccionamos un prototipo de red para proporcionar una inicialización de parámetros mejorada para la tarea de coincidencia estéreo. A continuación, para abordar el problema del aprendizaje inadecuado de características, empleamos un modelo previamente entrenado en conjuntos de datos a gran escala para extraer características generales. Luego, estas características se filtran para construir volúmenes de costos que capturen la similitud entre pares estéreo. Además, entrenamos un adaptador de funciones para mejorar la capacidad de detección de funciones para la coincidencia estéreo, minimizando así la interferencia de los parámetros de aprendizaje de coincidencia no estéreo. A diferencia de los algoritmos existentes que se basan en características de escala única para la construcción de costos, nuestro enfoque incorpora un módulo de optimización de costos adaptativo de dominio que reemplaza el módulo original en el prototipo. Además, para refinar aún más los volúmenes de costos, ajustamos el rango de disparidad. Finalmente, obtenemos el mapa de disparidad final mediante un método de regresión. En resumen, hay tres contribuciones en nuestro artículo:

Se propone un modelo de coincidencia estéreo adaptable de dominio para robots, que optimiza el rendimiento de la coincidencia estéreo mediante el injerto de características generales. Los experimentos realizados en múltiples conjuntos de datos y escenas del mundo real demuestran que el modelo exhibe una efectividad notable en diferentes dominios.

Para capturar información general de características, se introduce un extractor de características injertadas y se adapta a la red mediante un adaptador de características. Además, se introduce un módulo de optimización de costos adaptativo y se diseña un módulo de predicción de puntaje de disparidad para ajustar de manera adaptativa el rango de búsqueda de disparidad para optimizar la distribución de costos.

Se propone una estrategia de capacitación para entrenar el prototipo, el adaptador de funciones y el módulo de optimización de costos adaptativos del dominio, que proporcionan una mejor inicialización de parámetros por fases y actualizan los parámetros de la red etapa por etapa; además, en este documento se estudia la estrategia de capacitación de coincidencia estéreo.

El documento está organizado de la siguiente manera. La sección "Trabajos relacionados" presenta los antecedentes relevantes de la coincidencia estéreo e introduce trabajos relacionados sobre algoritmos tradicionales y basados ​​en aprendizaje profundo para la coincidencia estéreo. Los detalles de implementación del modelo propuesto (Ct-Net) se presentan en la Sección. "Método propuesto". La sección "Resultados experimentales y discusiones" proporciona detalles sobre los conjuntos de datos utilizados, los resultados experimentales y las discusiones. Finalmente, el artículo concluye con un resumen y una conclusión en la Sección. "Conclusión".

Hasta la fecha, los robots se han utilizado ampliamente en diversos campos y han desempeñado un papel innegable. Shankar et al.17 propusieron un sistema de profundidad estéreo pasivo que consta de CNN y un sensor diseñado para garantizar el espacio de trabajo del robot. El método propuesto se probó en múltiples escenas y demostró una aplicación efectiva para robots domésticos. Yang et al.18 propusieron un marco probabilístico para sistemas robóticos de reconstrucción de escenas de contenedores que utilizan datos de cámaras estéreo activas. Lajoie et al.19 presentaron el sistema Swarm-SLAM para localización y mapeo colaborativos simultáneos, que puede aplicarse efectivamente a la robótica de enjambre. Yang et al.20 propusieron una red de autopintura de visión binocular basada en CNN para la pintura de imágenes estéreo en tiempo real de robots autónomos, logrando un rendimiento de última generación en la pintura de imágenes. Shim et al.21 propusieron un robot de inspección y un sistema de gestión que utiliza visión estereoscópica para inspeccionar daños en superficies de hormigón. Obasekore et al.22 desarrollaron un algoritmo de reconocimiento que utiliza un sistema de visión binocular basado en CNN en su robot agrícola para detectar etapas tempranas de desarrollo de plagas en la agricultura. De manera similar, Xiang et al.23 propusieron un robot de campo que utiliza visión binocular y CNN para detectar y caracterizar el ángulo de las hojas de las plantas de maíz.

La coincidencia estéreo es una técnica que permite recuperar información de profundidad a partir de imágenes estéreo. Al simular el principio de percepción visual del ojo humano, sólo se necesitan dos cámaras digitales colocadas en la misma línea horizontal. El proceso principal de coincidencia estéreo incluye el preprocesamiento de imágenes, la construcción de costos de coincidencia, la agregación de costos y la adquisición de disparidades. La disparidad, que se refiere al desplazamiento horizontal de puntos espaciales en pares estéreo, se obtiene mediante coincidencia estéreo. El objetivo de la tarea de coincidencia estéreo es obtener con precisión un mapa de disparidad a partir de un par de imágenes binoculares corregidas.

Los algoritmos tradicionales de coincidencia estéreo incluyen algoritmos locales, algoritmos globales y algoritmos semiglobales. Los algoritmos locales, como los métodos basados ​​en correlación, tienen implementaciones eficientes que los hacen adecuados para sistemas en tiempo real24. En comparación con los algoritmos locales, los algoritmos de coincidencia estéreo global pueden calcular la disparidad con mayor precisión mediante la construcción de una función de energía global y minimizando el costo global25,26. Sin embargo, el tiempo necesario para los algoritmos globales es relativamente alto. Además, existe un algoritmo de coincidencia estéreo semiglobal27 que calcula información mutua para medir la similitud de dos imágenes. Luego utiliza programación dinámica para encontrar la ruta de coincidencia óptima y minimizar la energía global.

Con el desarrollo de las redes de aprendizaje profundo, han surgido algoritmos de coincidencia estéreo basados ​​en redes neuronales convolucionales. Zbontar y LeCun28 fueron los primeros en introducir CNN para calcular el costo de coincidencia y medir la similitud entre parches de imágenes. Luo et al.29 introdujeron una capa de producto en la red siamesa y propusieron una red de clasificación de múltiples etiquetas que calcula el costo de coincidencia local para permitir una clasificación de múltiples escalas sobre las disparidades. Displets30 introdujo técnicas de clasificación de imágenes para determinar con precisión la disparidad de objetos. GC-Net31 introdujo un volumen de costos 4D y utilizó CNN 3D para capturar información geométrica y contextual. PSMNet32 propuso el módulo de agrupación de pirámide espacial para obtener características de múltiples escalas de imágenes e introdujo la estructura de reloj de arena para la agregación de costos. GWC-Net33 propuso una estrategia de correlación grupal para construir un mejor volumen de costos coincidente considerando la correlación entre las diferentes características del canal. Este enfoque permitió a la red obtener un mapa de disparidad más preciso. En SegStereo9 se propuso una rama de segmentación semántica para incorporar información semántica adicional a las tareas de coincidencia estéreo. PG-Net13 propuso una red profunda guiada por análisis panóptico para resolver las tareas de coincidencia estéreo. PDSNet34 presenta un módulo de coincidencia de cuellos de botella que mejora la capacidad de utilizar información de funciones globales. Además, NLCA-Net-v215 mejoró el rendimiento de coincidencia estéreo del modelo existente mediante el reentrenamiento con una nueva estrategia de entrenamiento.

En los últimos años, la investigación sobre modelos adaptativos de dominio se ha convertido en un tema candente. La red propuesta en 35 utilizó diferentes ramas e información contextual entre etapas para explotar características en varias resoluciones, y propuso un módulo de codificación entre etapas para regularizar el volumen de costos. EdgeStereo36 exploró la relación entre la información estéreo y de borde en un modelo de aprendizaje unificado. HITNet37 introdujo un paso de inicialización rápido de múltiples resoluciones y utilizó un mecanismo de deformación y propagación geométrica 2D diferenciable para inferir la hipótesis de disparidad. Con el éxito del mecanismo Attention38 y Transformer39, algunos métodos nuevos, como CREStereo40, revisaron la coincidencia estéreo desde nuevas perspectivas. Williem et al.41 presentaron un método profundo de agregación de costos autoguiado utilizado para obtener un mapa de disparidad preciso a partir de imágenes estéreo. Cheng et al.42 propusieron redes de propagación espacial convolucionales (CSPN) basadas en redes de propagación espacial (SPN) y extienden la CSPN a 3D para tareas de coincidencia estéreo adaptativa de dominio. Cheng et al.43 incorporaron conocimientos geométricos en el marco de búsqueda de arquitectura neuronal y propusieron LEAStereo. Es el primer marco NAS jerárquico de extremo a extremo para una coincidencia estéreo profunda. Se propone una red de costos basada en cascada y fusión para mejorar la solidez de la adaptación estéreo14. DSMNet44 está diseñado con dos nuevas capas de redes neuronales entrenables que se generalizan bien en todos los dominios sin necesidad de ajustes ni adaptación de dominios.

En este trabajo, diseñamos nuestra estructura de red basada en PSMNet32 y ResNet7. Además, utilizamos técnicas de aprendizaje por transferencia para introducir características de dominio generales en tareas de coincidencia estéreo. Para obtener un mejor costo de coincidencia, diseñamos un módulo de optimización de costos adaptativo de dominio que puede ajustar de manera adaptativa el rango de búsqueda de disparidad. Mientras tanto, se utilizó una estrategia de capacitación para integrar los módulos anteriores en nuestro marco de coincidencia estéreo. Más detalles se describen a continuación.

En este artículo se propone una red de aprendizaje profundo entrenada en etapas para la tarea de coincidencia estéreo, y la estructura general se muestra en la Fig. 1. En la primera etapa de entrenamiento, se construye un prototipo como estructura inicial de la red para proporcionar parámetros. inicialización para la etapa siguiente. En la segunda etapa de capacitación, la estructura de extracción de características original se reemplaza con el extractor de características generales (GFE), que está previamente entrenado en ImageNet45, y se entrena un adaptador de características en forma de U para adaptar las características previamente capacitadas al módulo de optimización de costos de la red. En la tercera etapa, la optimización de costos en el prototipo se reemplaza con un módulo de optimización de costos adaptativo de dominio (DACOM) para obtener un mejor mapa de disparidad. El entrenamiento del modelo se supervisa conjuntamente utilizando la pérdida Smooth l1 junto con la pérdida de error absoluto medio (MAE) a través de múltiples etapas.

Como primera etapa del proceso de capacitación del modelo, el prototipo puede proporcionar una mejor inicialización de parámetros para la siguiente etapa de capacitación. Por tanto, la selección del prototipo es fundamental. PSMNet exhibe un excelente efecto de coincidencia estéreo al tiempo que mantiene una estructura relativamente sencilla32, por lo que utilizamos la estructura general de PSMNet como prototipo.

Una vez completada la primera etapa de capacitación, los parámetros aprendidos del módulo de optimización de costos en el prototipo se fijan para la capacitación del adaptador de funciones en la segunda etapa.

Descripción general de la arquitectura de la red y estrategia de formación. La red consta de tres etapas de formación. En la etapa 1, utilizamos PSMNet como prototipo y el prototipo entrenado como parámetros inicializados en la siguiente etapa, y luego los parámetros del modelo se actualizan paso a paso. En la etapa 2, presentamos un Extractor de características generales (GFE) que consta de parte del modelo ResNet previamente entrenado en ImageNet y un adaptador de características para sustituir el extractor de características en el prototipo, y luego entrenar la red mejorada. En la etapa 3, según el modelo entrenado en la etapa 2, sustituimos la estructura de reloj de arena apilada en el prototipo con el módulo de optimización de costos adaptativos de dominio (DACOM) y utilizamos el modelo óptimo en la etapa 2 como parámetro de inicialización, luego Entrene el modelo mejorado final y obtenga un mapa de disparidad preciso.

El extractor de características generales (GFE) es un componente clave de la estructura de la red. Extraer características generales es muy importante para el rendimiento de la red de coincidencia estéreo adaptativa de dominio, y necesitamos seleccionar un modelo previamente entrenado en un conjunto de datos a gran escala para aliviar el cambio de dominio. El modelo puede aprender varios estilos de imágenes en conjuntos de datos a gran escala, como el conjunto de datos ImageNet. Por tanto, este trabajo es beneficioso para tareas de adaptación de dominio. Nuestro algoritmo selecciona el potente modelo ResNet-18 previamente entrenado en ImageNet como la estructura principal de GFE y fija sus parámetros en el extractor de características de dominio público, como se muestra en la Fig. 1. El modelo ResNet7 injertado puede extraer aún más características de dominio amplio. información de las características poco profundas. A diferencia de la tarea de clasificación, el modelo solo utiliza la estructura antes del cuarto muestreo descendente del modelo ResNet7 para extraer características en las escalas 1/2, 1/4 y 1/8 del tamaño de la imagen original, respectivamente. La estructura básica incluye 3\(\times \)3 capas convolucionales (Conv), capas de normalización por lotes (BN), funciones de activación ReLU y capas de muestreo descendente (agrupación máxima).

De manera similar al injerto de árboles, es necesaria una interfaz adecuada para garantizar que las características proporcionadas se puedan utilizar de manera efectiva en la siguiente etapa. Por lo tanto, también incorporamos un adaptador de funciones para perfeccionar aún más las funciones y lograr una compatibilidad óptima con la red. Después de la etapa de entrenamiento del prototipo, el modelo injertado también se utiliza en la segunda etapa para extraer características usando GFE. Dado que el modelo injertado ha sido entrenado en ImageNet, posee capacidades de generalización que son beneficiosas para la coincidencia estéreo adaptativa de dominio, y no está entrenado específicamente en conjuntos de datos estéreo a gran escala. Además, el adaptador de funciones puede eliminar eficazmente la información redundante y mejorar la información de las tareas estéreo para igualar los costos de construcción en la etapa de capacitación posterior.

Las características obtenidas de GFE contienen información semántica rica que requiere un procesamiento adicional con una estructura de red más profunda. Además, la regresión o clasificación mediante la construcción del costo de escala única puede generar información de características redundante o insuficiente, el modelo puede estar sobreajustado en un determinado dominio y la solidez del algoritmo puede verse afectada. Como se explica en trabajos relacionados46,47,48, la información de características de múltiples escalas se puede utilizar para obtener múltiples campos receptivos. Jeon et al.46 propusieron una red eficiente de fusión de características secuenciales a múltiples escalas para regularizar completamente el volumen de costos. MSCVNet47 primero genera múltiples volúmenes de costos 3D con diferentes resoluciones para la agregación de costos. Un módulo de agregación piramidal multiescala está diseñado para utilizar eficazmente la información de agregación de diferentes escalas48. Por lo tanto, Ct-Net emplea características de múltiples escalas obtenidas de la correspondiente etapa de muestreo ascendente del adaptador de características como entrada para construir un volumen de costos de múltiples escalas. Específicamente, los volúmenes de costos de coincidencia de múltiples escalas se construyen mediante el método de correlación de grupo33 propuesto por Guo et al. La idea básica del método de construcción de costos de coincidencia de correlación de grupo es la siguiente: Primero, las características se agrupan y el mapeo de correlación se calcula grupo por grupo. El canal de funciones se representa como \({N_{c}}\). Todas las características se dividen en grupos \({N_{g}}\) a lo largo de la dimensión del canal. La fórmula de cálculo de la correlación de grupo se puede expresar de la siguiente manera,

donde \(<,>\) representa la operación interna del producto y la correlación de características se calcula para el grupo de características g y todos los niveles de disparidad d.

Debido a la influencia de las regiones desfavorecidas, el coste inicial contiene una gran cantidad de información sobre el ruido. La información de ruido de los costos de múltiples escalas se filtra aún más mediante un códec 3D. El códec 3D incluye principalmente capas de convolución 3D y capas de deconvolución 3D. La Figura 2 muestra la estructura principal del códec 3D. Además, colocamos en cascada los costos filtrados de múltiples escalas para aumentar la interacción de la información de múltiples escalas. Específicamente, el costo de alta escala se fusionó con el costo de baja escala muestreado mediante la operación de suma, lo que aumenta la adquisición de información semántica y reduce la pérdida de información detallada.

Estructura de códec 3D.

El costo refleja la similitud entre los píxeles candidatos. Sin embargo, la distribución de costos de los píxeles es a menudo multimodal, como se muestra en el costo a baja escala de la Fig. 2. Esto puede resultar en un error de disparidad alto. Para aliviar el problema anterior, después de fusionar tres costos coincidentes de menor a mayor, ajustamos la siguiente distribución de costos prediciendo las muestras de disparidad. Primero, predecimos la puntuación de disparidad para cada punto espacial, que luego se utiliza como entrada para construir los dos últimos costos coincidentes. La fórmula de predicción del puntaje de disparidad es la siguiente:

entre ellos, \(\hat{d}\) representa la disparidad predicha, d representa la disparidad candidata, \(\sigma \) representa la operación softmax y \(c_{d}\) representa el costo de coincidencia. El rango de búsqueda de disparidad de la siguiente etapa se puede ajustar de acuerdo con la puntuación de disparidad. El rango de búsqueda de disparidad de cada punto (i, j) en la siguiente etapa se puede expresar como:

\(\alpha \) se inicializa en 1, lo que la red puede aprender.

Debido a las diferentes escalas del mapa de puntuación de disparidad previsto, los mapas de rango de disparidad obtenidos se muestrean respectivamente mediante interpolación bilineal. Después de eso, obtenemos muestras de disparidad de cada punto como entrada del siguiente paso mediante muestreo uniforme entre \(d_{\min }\) y \(d_{\max }\), las muestras de disparidad se pueden expresar como:

entre ellos, S representa el tamaño de muestra de disparidad del punto (i, j) y \(s \in (0,1,2, \ldots, S-1)\). Fusionamos las muestras de disparidad con el mapa de características correcto mediante una operación de envoltura49 y luego construimos el costo coincidente utilizando el método de correlación de grupo. Este coste se optimiza utilizando el códec 3D.

Finalmente, utilizamos el último módulo de predicción de muestra de disparidad para obtener la imagen de disparidad final.

Para evaluar cuantitativamente el rendimiento de nuestro algoritmo, evaluamos el algoritmo propuesto utilizando xPE, donde xPE representa el porcentaje de píxeles para los cuales la disparidad prevista está desviada en más de x píxeles, y EPE se refiere a la diferencia promedio entre la disparidad prevista y la verdad fundamental.

Las métricas de evaluación se pueden expresar de la siguiente manera:

entre ellos, N representa el número total de píxeles, \(\hat{d}\) y \(d^{*}\) representa la disparidad predicha y la verdad fundamental de los píxeles, respectivamente.

En este estudio, el algoritmo propuesto se implementa utilizando el marco PyTorch, se entrena y se prueba en una única GPU NVIDIA Tesla V100 con un tamaño de lote establecido en 2. Se utilizó el optimizador Adam y los parámetros se establecieron en \(\beta _1\) = 0,9 y \(\beta _2\) =0,999. Scene Flow50 se utiliza como conjunto de datos previo al entrenamiento y KITTI51, Middlebury52 y Apollo53 se utilizan para verificar el rendimiento del algoritmo.

En la parte experimental, utilizamos los conjuntos de datos de SceneFlow, KITTI, Middlebury y Apollo para entrenar y probar el modelo.

Scene Flow50: es un gran conjunto de datos sintéticos con un tamaño de imagen de 960\(\times \)540 px, que incluye 35,454 pares de imágenes de entrenamiento y 4370 pares de imágenes de prueba. Proporciona la verdad básica de la disparidad y la disparidad máxima es 192. El entrenamiento de la red tarda aproximadamente 50 horas durante 10 épocas y la tasa de aprendizaje se establece en 0,001.

KITTI51: Incluye KITTI2012 y KITTI2015, es un conjunto de datos de escenas de carreteras desafiantes y diversos con un tamaño de 1236\(\times \)376 px, y solo se proporciona un mapa de disparidad escasa como estándar de entrenamiento. Ajustamos el modelo en estos dos conjuntos de datos. Se necesitan aproximadamente 48 horas para entrenar la red durante 300 épocas y la tasa de aprendizaje se establece en 0,001 para las primeras 200 épocas y 0,0001 para las últimas 100 épocas.

Middlebury52: un pequeño conjunto de datos de interiores que se utiliza para verificar la capacidad de generalización del modelo para escenas reales. La imagen se divide en tres escalas: F, H y Q. Los datos de la escala Q se utilizan para la verificación y la disparidad máxima es 256.

Apollo53: el conjunto de datos de Apollo consta de 5165 pares de imágenes y los mapas de disparidad correspondientes, de los cuales 3324 pares de imágenes se utilizan para entrenamiento, 832 pares de imágenes para validación y 1009 pares de imágenes para pruebas. La verdad sobre el terreno se obtuvo acumulando nubes de puntos 3D a partir de LIDAR y adquiriendo por separado un conjunto de datos de instancias de automóviles en 3D. Este conjunto de datos contiene diferentes situaciones de tráfico con oclusión severa, lo cual es un desafío.

Para cada etapa, el conjunto de datos de SceneFlow se utiliza como conjunto de datos previo al entrenamiento para entrenar el modelo porque contiene muchas imágenes y escenas, mientras que los conjuntos de datos de Middlebury, KITTI y Apollo son relativamente pequeños y prueban el rendimiento del modelo después del ajuste fino del modelo.

Realizamos estudios de ablación sobre la estrategia de entrenamiento y los módulos de algoritmos en los cinco conjuntos de datos anteriores.

Primero, utilizamos el conjunto de datos Scene Flow para verificar el impacto de la estrategia de entrenamiento en el modelo. Los resultados de los experimentos de ablación se muestran en la Tabla 1. En comparación con el modelo entrenado directamente en la etapa 2, el 3PE y el EPE disminuyen cuando el modelo se entrena en la segunda etapa y se entrena previamente en la etapa 1. Al mismo tiempo, En comparación con el modelo entrenado directamente en la etapa 3, el modelo entrenado en la etapa 3, que se entrenó previamente en las etapas 1 y 2, las métricas 3PE y EPE disminuyen en un 0,20 % y 0,17 px, respectivamente. Los experimentos de ablación anteriores muestran que una estrategia de entrenamiento por etapas es útil para mejorar el rendimiento del modelo. La Figura 3 muestra el proceso de convergencia de diferentes estrategias de formación. En comparación con el modelo de extremo a extremo que se entrenó únicamente en la etapa 3, el modelo entrenado usando la estrategia de la etapa 3 (etapa 1, etapa 2) fue mejor en términos de precisión en diferentes épocas. Además, en comparación con el prototipo de la etapa 1, el modelo de la etapa 2 mostró una disminución en las métricas 3PE y EPE, verificando así que el extractor de características generales puede mejorar el rendimiento de la coincidencia estéreo. Estos experimentos muestran que diferentes estrategias de entrenamiento afectan el rendimiento del modelo final. Los estudios de ablación se realizaron en diferentes módulos y los resultados de los experimentos son los siguientes.

Proceso de convergencia de modelos con diferentes estrategias de entrenamiento. (etapa x) significa el modelo de preentrenamiento de la etapa x. Muestra que la estrategia de entrenamiento por etapas puede disminuir la tasa de error de coincidencia en comparación con la estrategia de entrenamiento de un extremo a otro, y los modelos razonables pueden aumentar el límite superior de los resultados finales.

Comparación de muestras de visualización de características obtenidas por el extractor de características del prototipo y GFE. De izquierda a derecha, imagen izquierda, las características adquiridas por el extractor de características del prototipo y las características adquiridas por GFE.

Comparamos el prototipo con el modelo ResNet injertado mencionado en este artículo. Se puede ver en la Tabla 2 que para el conjunto de datos KITTI, las métricas 3PE y EPE del modelo con General Feature Extractor (GFE) caen de 4,6% y 0,89px a 3,9% y 0,83px, respectivamente. Y para los conjuntos de datos de Middlebury, la precisión del algoritmo de GFE también ha mejorado ligeramente. Al mismo tiempo, dado que los parámetros del módulo ResNet en GFE se han entrenado previamente en el conjunto de datos de ImageNet y los parámetros son fijos, no es necesario actualizar los parámetros durante la etapa de entrenamiento del modelo, lo que mejora relativamente la eficiencia de el modelo.

Se realizó el análisis cualitativo de las características adquiridas por diferentes extractores de características. Las muestras de visualización de características se muestran en la Fig. 4. Se puede encontrar que existen diferencias obvias entre las dos características obtenidas por el extractor de características del prototipo y GFE. Este último contiene más información semántica y de textura, que se considera la información clave para hacer frente a la alta tasa de error de coincidencia de regiones mal colocadas. Tanto los resultados cuantitativos como cualitativos muestran que el GFE es beneficioso para las tareas de coincidencia estéreo.

Los resultados experimentales de ablación del módulo de optimización de costos adaptativos de dominio se muestran en la Tabla 2, que muestra que el módulo de optimización de costos adaptativos de dominio (DACOM) puede lograr un mejor rendimiento que la estructura de reloj de arena apilada del prototipo. Específicamente, en el conjunto de datos KITTI, en comparación con la estructura de reloj de arena apilada del prototipo, el 3PE y el EPE del modelo con DACOM disminuyen del 5,3 % y 0,94 al 3,5 % y 0,82. Mientras tanto, para el conjunto de datos de Middlebury, las métricas 3PE y EPE de DACOM disminuyen de 22,63% y 5,85 a 22,01% y 5,35, respectivamente. Los resultados cuantitativos muestran que la estrategia de optimización adaptativa de costos logra un mejor rendimiento.

Además, realizamos experimentos de ablación en la estrategia de cascada de costos de múltiples escalas y los resultados experimentales se muestran en la Tabla 3. A partir de los resultados, se puede ver que a medida que aumenta el costo de múltiples escalas, las métricas de 3PE y EPE disminuyen simultáneamente. Específicamente, para Scene Flow, en comparación con solo el costo de alta escala utilizado, las métricas 3PE y EPE de (costos alto, medio y bajo) se redujeron en un 6,8 % y 0,05 px. Para explorar más a fondo el papel del costo multiescala en las tareas de coincidencia estéreo, se configura el experimento de contraste y los resultados se muestran en la Fig. 5. A partir de los resultados, se puede ver que la distribución de costos tiende a ser multimodal en un solo nivel. costo de escala (la línea azul sólida en la Fig. 5), lo cual no es beneficioso para obtener resultados óptimos de disparidad al igualar costos. Cuando visualizamos el costo de múltiples escalas, la distribución de costos tiende a ser la distribución unimodal (la línea amarilla sólida en la Fig. 5), y el valor de costo óptimo tiende a la verdad fundamental de la disparidad (el valor de disparidad correspondiente a la línea de puntos amarilla en la figura 5). Se puede deducir de los resultados cuantitativos y cualitativos que los costos de múltiples escalas pueden reducir las coincidencias falsas debido a la distribución. Nuestra hipótesis es que, dado que la imagen de entrada contiene regiones mal posicionadas, un costo de coincidencia inicial a baja escala inexacto a menudo conduce a errores de coincidencia y resultados irreversibles, y la información complementaria de múltiples escalas optimiza el fenómeno anterior.

Distribución de costos de costos multiescala. A medida que aumenta la escala de costos, la distribución de costos tiende gradualmente a ser una distribución unimodal y el pico se acerca a la verdad básica.

Comparación de disparidad inicial, error inicial, puntuación de disparidad, disparidad optimizada y error optimizado. La imagen binocular de https://vision.middlebury.edu/stereo/. El mapa de errores tiende a tener un color más cálido para indicar una tasa de error más alta. La falsa disparidad siempre está presente en el suelo o en el borde de los objetos, y la puntuación de disparidad correspondiente es relativamente alta en estas áreas. Después de ajustar la puntuación de disparidad, los colores cálidos se reducen significativamente en el mapa de error y los bordes de disparidad se vuelven más suaves.

Como se analizó anteriormente, los costos de contrapartida están estrechamente relacionados con los resultados de la disparidad, por lo que optimizar aún más los costos de contrapartida se convierte en el paso clave. Utilizamos el módulo de Predicción de muestra de disparidad para ajustar de forma adaptativa el rango de disparidad del candidato antes de crear el costo coincidente. Los resultados del experimento de ablación se muestran en la Tabla 2. A partir de los resultados, es evidente que fusionar las muestras de disparidad antes de la construcción de costos conduce a una disminución en las métricas 3PE y EPE para los conjuntos de datos Scene Flow y KITTI. Esto sugiere que agregar muestras de disparidad puede mejorar el rendimiento de la coincidencia estéreo. Además, como el rango de búsqueda de disparidad de cada punto espacial requiere predicción antes de generar la muestra de disparidad, y la generación del rango de búsqueda de disparidad se basa en la puntuación de disparidad prevista, visualizamos tanto el mapa de puntuación de disparidad como el mapa de error. Los resultados de la visualización se presentan en la Fig. 6. Como se puede observar en la figura, las regiones con puntuaciones de disparidad altas siempre exhiben errores más altos, lo que sugiere una estrecha relación entre la puntuación de disparidad y las regiones que requieren optimización. El mapa de disparidad y el mapa de errores optimizados utilizando la puntuación de disparidad son superiores al mapa de disparidad y al mapa de errores iniciales, lo que destaca la capacidad de ajuste de la disparidad del módulo de optimización de costos adaptativos del dominio.

Además, configuramos experimentos de ablación para verificar la relación entre el tamaño S de las muestras de disparidad y el rendimiento de la coincidencia estéreo. Los resultados se muestran en la Tabla 4. Cuando S aumenta gradualmente, el rendimiento de adaptación estéreo aumentará gradualmente. Esto también está en línea con el sentido común de que cuantas más muestras de disparidad, mayor será la precisión de la disparidad. Al sopesar el tiempo consumido por la red y la precisión, configuramos S en 30 en este documento. En resumen, el módulo de optimización de costos adaptativos de dominio puede optimizar la distribución de costos y optimizar aún más el rendimiento de la coincidencia estéreo.

Finalmente, realizamos un experimento de ablación en la función de pérdida y los resultados se muestran en la Tabla 2. Combinar la función de pérdida MAE tiene mejores resultados que usar solo la función de pérdida Smooth L1.

Con base en las discusiones anteriores, podemos concluir que los módulos propuestos y la estrategia de capacitación son efectivos para mejorar el rendimiento de la coincidencia estéreo.

Uno de los principales desafíos en la coincidencia estéreo entre dominios es el problema del cambio de dominio. Este problema surge cuando un modelo entrenado en un dominio (o conjunto de datos) tiene un rendimiento deficiente cuando se aplica a un dominio diferente debido a variaciones en las características de la imagen, como las condiciones de iluminación, los parámetros de la cámara y las composiciones de la escena.

En esta sección, para verificar el rendimiento de generalización entre dominios del algoritmo, seleccionamos los conjuntos de datos de Middlebury, KITTI y Apollo como conjunto de prueba y el conjunto de datos de Scene Flow como conjunto de entrenamiento.

Los resultados de la comparación se presentan en las Tablas 5, 6, 7 y 8. Los resultados finales de la presentación en el punto de referencia KITTI se muestran en las Tablas 5 y 6, y las métricas de evaluación son el porcentaje de xPE para todas las regiones y las regiones no ocluidas (Noc). . En el benchmark KITTI 2012, el algoritmo propuesto mostró una mejora significativa en el porcentaje de xPE en comparación con el algoritmo tradicional SGM27. Además, en comparación con el algoritmo de aprendizaje profundo de alta precisión AANet+54, que realiza de manera eficiente la agregación de costos utilizando una representación de características basada en puntos dispersos, el algoritmo propuesto demostró un xPE más bajo en todas las regiones. En comparación con otros algoritmos de coincidencia estéreo basados ​​en aprendizaje profundo, como PVStereo55, PDSNet34, SegStereo9 y HSM56, el algoritmo propuesto logró el porcentaje de xPE más bajo. Sin embargo, en comparación con los métodos más modernos CFNet y LEAStereo43, el algoritmo propuesto aún funcionó relativamente mal.

Además, como se muestra en el cuadro negro de la Fig. 7, podemos lograr una mejor predicción de la disparidad en los detalles de la imagen y la estructura general del objetivo, y producir una imagen de disparidad más suave en comparación con SGM27. En comparación con PSMNet32, aunque el efecto de disparidad generado por SGM es mejor que el del algoritmo tradicional, el algoritmo no puede producir resultados de disparidad correctos en áreas como las ventanas de los automóviles, y el algoritmo propuesto en este artículo logra mejores resultados en las ventanas de los automóviles. SegStereo9 introduce información del borde de la imagen para mejorar el efecto del borde de disparidad. En comparación con SegStereo, el algoritmo propuesto logra mejores resultados en barandillas de cercas y chasis de vehículos. CFNet14 utiliza optimización de costos a múltiples escalas para obtener mejores resultados de disparidad. En comparación con CFNet, el algoritmo propuesto logra un efecto comparable en la región de detalle de disparidad. Además, en comparación con LEAStereo43, que ha tenido un buen desempeño en los últimos años, los resultados de disparidad producidos por este algoritmo también funcionan bien en la carretera. Los resultados de las pruebas comparativas de KITTI 2012 muestran que el rendimiento de este algoritmo es comparable al de los algoritmos avanzados existentes.

Resultados cualitativos del benchmark KITTI. En este artículo, comparamos nuestro método con mapas de disparidad de otros algoritmos. Las dos columnas de la izquierda son muestras de KITTI2012 y las dos columnas de la derecha son muestras de KITTI2015. El cuadro negro en la imagen es el área con una diferencia obvia.

Resultados cualitativos del conjunto de datos de Middlebury. La imagen binocular de https://vision.middlebury.edu/stereo/. De arriba a abajo, la imagen de la izquierda, la verdad fundamental GT, los mapas de disparidad de Census, los mapas de disparidad de FADNet, los mapas de disparidad de iResNet, los mapas de disparidad de Ct-Net (Nuestro).

Resultados cualitativos del conjunto de datos de la prueba Apollo. La imagen binocular de https://apolloscape.auto/stereo.html. La primera fila son las imágenes de la izquierda, la segunda fila son los mapas de disparidad de PSMNet y la tercera fila son los mapas de disparidad predichos por nuestra red. El cuadro negro en la imagen es el área con una diferencia obvia.

En el punto de referencia KITTI 2015, en comparación con el prototipo PSMNet32, CtNet mostró una mejora significativa con una disminución del 19,3 y 21,1 % en \(3PE-fg\) para todas las regiones y regiones no ocluidas, respectivamente. Además, el algoritmo propuesto logró un porcentaje de xPE más bajo en comparación con otros. En comparación con el algoritmo de aprendizaje profundo de alta precisión AANet+54, el algoritmo propuesto se mejora en la métrica \(3PE-fg\) en todas las regiones y en las regiones sin oclusión. Además, en comparación con otros algoritmos de coincidencia estéreo basados ​​en aprendizaje profundo, como PVStereo55, PDSNet34, SegStereo9 y HSM56, el algoritmo propuesto obtiene el porcentaje de xPE más bajo. Los resultados cualitativos del punto de referencia KITTI 2015 se muestran en la Figura 7. Nuestro algoritmo logra predicciones más detalladas y precisas en comparación con SGM. En comparación con PDSNet34, SegStereo9 y HSM56, el algoritmo propuesto logra mejores resultados en barandillas de cercas y señales de tráfico en carreteras. De manera similar, en comparación con los algoritmos de última generación CFNet y LEAStereo, el algoritmo propuesto todavía tiene margen de mejora. Sin embargo, los resultados cualitativos y cuantitativos del benchmark KITTI 2015 demuestran que nuestro algoritmo es muy adecuado para tareas de coincidencia estéreo en escenas de carreteras.

Los resultados de las pruebas en el punto de referencia de Middlebury se muestran en la Tabla 7. En comparación con los métodos basados ​​en el aprendizaje profundo, como FADNet57, PSMNet32 y AANet54, el método propuesto tiene una tasa de error más baja en todas las muestras. En comparación con el algoritmo de aprendizaje profundo de alta precisión iResNet58, el algoritmo propuesto funciona mejor en las muestras Bicycle2, Crusade, DjembeL, Livingroom y Staircase. En comparación con otras muestras, la diferencia en la tasa de error es leve. Además, los resultados cualitativos se muestran en la Fig. 8, donde comparamos diferentes métodos en seis muestras de Middlebury. En comparación con el método tradicional Census24, el algoritmo propuesto logra un mejor rendimiento de coincidencia estéreo de borde de disparidad y mejora el rendimiento de detección de regiones mal posicionadas, como estructuras delgadas y regiones sin textura. En comparación con el método PSMNet32 basado en aprendizaje profundo, el algoritmo propuesto tiene un mejor rendimiento de coincidencia estéreo en los detalles.

Finalmente, comparamos el algoritmo propuesto con PSMNet32 en el conjunto de datos de Apollo. Como se muestra en la Tabla 8, nuestro algoritmo supera a PSMNet32 en todas las métricas. Los resultados cualitativos se muestran en la Fig. 9. En comparación con PSMNet32, el algoritmo de este documento tiene un mejor rendimiento de coincidencia estéreo en áreas detalladas como bicicletas y peatones.

Los resultados del análisis cualitativo y cuantitativo muestran que el algoritmo propuesto logra resultados prometedores en múltiples conjuntos de datos.

Esta sección verifica el rendimiento del algoritmo propuesto en el artículo en múltiples escenas del mundo real. La plataforma experimental utilizada en este artículo se muestra en la Fig. 10, y consta de un sistema de visión binocular y una base móvil, con un tamaño de imagen recopilado de 1280\(\times \)1024 px.

La configuración de hardware del automóvil es la siguiente: incluye un par de cámaras CMOS para formar el sistema de cámara binocular, que se utiliza para obtener imágenes de los lados izquierdo y derecho, y la cámara toma 10 fotogramas por segundo. Además, el coche utiliza un procesador integrado, el sistema operativo es Ubuntu 18.04, el procesador es NVIDIA Jetson Nano. Para el entorno de ejecución, OpenCV invoca el algoritmo para C++ para realizar una coincidencia estéreo binocular. Además, el coche se alimenta de forma independiente mediante una batería de litio. Entre ellos, el algoritmo de medición de distancia incluye algoritmo de coincidencia estéreo, medición de distancia y modelado de mapas. Capture imágenes y genere mapas de disparidad en múltiples escenas interiores y exteriores utilizando este dispositivo. Dado que la disparidad interior suele ser mayor que la disparidad exterior, tomamos la disparidad interior máxima como 256 y la disparidad exterior máxima como 192. Los resultados de los experimentos al aire libre se presentan en la Fig. 11, mientras que los resultados de los experimentos en interiores se muestran en la Fig. 12. .

Plataforma experimental de robot de visión binocular.

Resultados en escenas al aire libre del mundo real.

Resultados en escenas interiores del mundo real.

Vale la pena señalar que nuestro modelo de coincidencia estéreo entre dominios predice la disparidad directamente en la escena real sin volver a entrenar, por lo que esto puede probar la capacidad entre dominios de nuestro modelo. Los resultados experimentales de la generación de mapas de disparidad en varias escenas interiores y exteriores del mundo real demuestran que el algoritmo de coincidencia estéreo propuesto en este artículo exhibe una valiosa capacidad de generalización entre dominios y puede satisfacer los requisitos para completar diversas tareas en visión robótica.

La visión por computadora juega un papel crucial al permitir que los robots adquieran información profunda de los objetos y realicen tareas simulando el sistema visual humano. Este artículo propuso una red de coincidencia estéreo basada en el aprendizaje por transferencia para tareas de coincidencia estéreo adaptativa de dominio en robótica. El modelo está diseñado específicamente para satisfacer los requisitos de los robots en múltiples escenas y se formula una estrategia de capacitación integral para entrenar la red de manera efectiva. Además, se introduce un extractor de características generales para obtener información de características generales y se diseña un adaptador para adaptar características generales a un modelo de red de costo optimizado. Para reducir el problema del cambio de dominio, en este artículo se propone un módulo de optimización de la disparidad adaptativa para actualizar la disparidad en etapas. En comparación con el prototipo PSMNet, en el punto de referencia KITTI 2015, el \(3PE-fg\) de Ct-Net en todas las regiones y en las regiones no ocluidas disminuyó un 19,3% y un 21,1% respectivamente, y en el conjunto de datos de Middlebury, el algoritmo propuesto mejora la tasa de error de muestra es de al menos 28,4%, que es la muestra de escalera. Los experimentos en múltiples conjuntos de datos muestran que el algoritmo y la estrategia de entrenamiento propuestos pueden mejorar el rendimiento entre dominios de la coincidencia estéreo.

Nuestra investigación futura se centrará en mejorar la capacidad de generalización del algoritmo y realizar experimentos en varios dominios. Específicamente, planeamos integrar el mecanismo de atención del Transformer para mejorar la precisión de la coincidencia y explorar el potencial de la tarea de segmentación para optimizar el resultado de la coincidencia de regiones mal posicionadas. En última instancia, nuestro objetivo es aplicar el algoritmo propuesto a una gama aún más amplia de escenas del mundo real.

Los datos están contenidos en el artículo. Los datos presentados en este estudio están disponibles en este artículo.

Suthakorn, J. y col. Detección de objetos basada en visión estéreo y estimación de profundidad a partir de una escena reconstruida en 3D para una misión de rescate multirobótica autónoma (2022).

Li, P., Su, S. & Zhao, H. Rts3d: Detección 3D estéreo en tiempo real a partir de un espacio integrado de coherencia de funciones 4D para la conducción autónoma. Universidad de Cornell – arXiv (2020).

Zhao, H. & Wu, B. Tecnología de modelado facial tridimensional basada en visión estéreo binocular de realidad virtual 5G. En t. J. Común. Sistema.https://doi.org/10.1002/dac.4651 (2022).

Artículo de Google Scholar

Du, S. y col. Una encuesta integral: análisis de rendimiento basado en tareas de desarraigo de imágenes y coincidencia estéreo. Proceso de Imagen IET. 16, 11-28. https://doi.org/10.1049/ipr2.12347 (2022).

Artículo de Google Scholar

Zaidi, SSA y cols. Un estudio de los modelos modernos de detección de objetos basados ​​en el aprendizaje profundo. Proceso de señal digital. 126, 103514. https://doi.org/10.1016/j.dsp.2022.103514 (2022).

Artículo de Google Scholar

Li, J., Huang, X. y Tu, L. WHU-OHS: un conjunto de datos de referencia para la clasificación de imágenes hersepctrales a gran escala. En t. J. Aplica. Observador de la Tierra. Geoinformar. 113, 103022. https://doi.org/10.1016/j.jag.2022.103022 (2022).

Artículo de Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En la Conferencia IEEE de 2016 sobre visión por computadora y reconocimiento de patrones (CVPR), 770–778, https://doi.org/10.1109/CVPR.2016.90 (2016).

Ling, Z. y col. Módulos adaptables de dominio para red de coincidencia estéreo. Neurocomputación 461, 217–227. https://doi.org/10.1016/j.neucom.2021.06.004 (2021).

Artículo de Google Scholar

Yang, G., Zhao, H., Shi, J., Deng, Z. y Jia, J. SegStereo: explotación de la información semántica para la estimación de la disparidad. arXiv e-printsarXiv:1807.11699, https://doi.org/10.48550/arXiv.1807.11699 (2018). 1807.11699.

Xu, G., Cheng, J., Guo, P. y Yang, X. Volumen de concatenación de atención para una coincidencia estéreo precisa y eficiente. En 2022, Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR), 12971–12980, https://doi.org/10.1109/CVPR52688.2022.01264 (2022).

Rao, Z. y col. Nlca-net: una red de atención contextual no local para coincidencia estéreo. APSIPA Trans. Inf. señal Proceso. 9, e18. https://doi.org/10.1017/ATSIP.2020.16 (2020).

Artículo de Google Scholar

Wu, Z., Wu, X., Zhang, X., Wang, S. y Ju, L. Coincidencia estéreo semántica con volúmenes de costos piramidales. En la Conferencia internacional IEEE/CVF sobre visión por computadora (ICCV) de 2019, 7483–7492, https://doi.org/10.1109/ICCV.2019.00758 (2019).

Chen, S., Xiang, Z., Qiao, C., Chen, Y. y Bai, T. Pgnet: análisis panóptico guiado por coincidencia estéreo profunda. Neurocomputación 463, 609–622. https://doi.org/10.1016/j.neucom.2021.08.041 (2021).

Artículo de Google Scholar

Shen, Z., Dai, Y. & Rao, Z. Cfnet: Volumen de costos fusionados y en cascada para una combinación estéreo sólida. En 2021, Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR), 13901–13910, https://doi.org/10.1109/CVPR46437.2021.01369 (2021).

Rao, Z., Dai, Y., Shen, Z. y He, R. Repensar la estrategia de entrenamiento en combinación estéreo. Traducción IEEE. Red neuronal. Aprender. Sistema.https://doi.org/10.1109/TNNLS.2022.3146306 (2022).

Artículo PubMed Google Scholar

Sang, H., Wang, Q. & Zhao, Y. Red de atención contextual multiescala para coincidencia estéreo. Acceso IEEE 7, 15152–15161. https://doi.org/10.1109/ACCESS.2019.2895271 (2019).

Artículo de Google Scholar

Shankar, K., Tjersland, M., Ma, J., Stone, K. y Bajracharya, M. Un sistema de profundidad estéreo aprendido para la manipulación robótica en hogares. arXiv e-printsarXiv:2109.11644, https://doi.org/10.48550/arXiv.2109.11644 (2021).

Yang, J., Li, D. y Waslander, SL Fusión probabilística de múltiples vistas de mapas de profundidad estéreo activos para la recolección robótica de contenedores. Robot IEEE. Automático. Letón. 6, 4472–4479. https://doi.org/10.1109/LRA.2021.3068706 (2021).

Artículo de Google Scholar

Lajoie, P.-Y. & Beltrame, G. Swarm-slam: marco de mapeo y localización simultáneo colaborativo descentralizado y escaso para sistemas multirobot 2301, 06230 (2023)

Yang, X. y col. Una novedosa red de autopintura de imágenes estéreo para robots autónomos. Robot. Autonomía. Sistema. 156, 104197. https://doi.org/10.1016/j.robot.2022.104197 (2022).

Artículo de Google Scholar

Shim, S., Lee, S.-W., Cho, G.-C., Kim, J. y Kang, S.-M. Sistema robótico remoto para medición 3d de daños en hormigón en túnel con vehículo terrestre y manipulador. Computadora. Ayuda. Civilización. Infraestructura. Ing.https://doi.org/10.1111/mice.12982 (2023).

Artículo de Google Scholar

Obasekore, H., Fanni, M., Ahmed, SM, Parque, V. y Kang, B.-Y. Reconocimiento centrado en robots agrícolas de la etapa de desarrollo temprano de plagas basado en el aprendizaje profundo: un estudio de caso sobre el gusano cogollero (spodoptera frugiperda). Sensores https://doi.org/10.3390/s23063147 (2023).

Artículo PubMed PubMed Central Google Scholar

Xiang, L. y col. Detección y caracterización robótica del ángulo de las hojas de plantas de maíz utilizando visión estéreo y redes neuronales convolucionales profundas. J. Robot de campo. https://doi.org/10.1002/rob.22166 (2023).

Artículo de Google Scholar

Hirschmüller, H., Innocent, PR & Garibaldi, JM Visión estéreo basada en correlación en tiempo real con errores de borde reducidos. En t. J. Computación. Vis. 47, 229–246 (2002).

Artículo MATEMÁTICAS Google Scholar

Kolmogorov, V. & Zabih, R. Computación de la correspondencia visual con oclusiones mediante cortes de gráficos. Proc. Octava Conferencia Internacional IEEE sobre Visión por Computadora. ICVC 2001 vol. 2, 508–515 (2001).

Sun, J., Zheng, N.-N. y Shum, H.-Y. Coincidencia estéreo mediante propagación de creencias. Traducción IEEE. Análisis de patrones. Mach. Intel. 25, 787–800. https://doi.org/10.1109/TPAMI.2003.1206509 (2003).

Artículo MATEMÁTICAS Google Scholar

Hirschmuller, H. Procesamiento estéreo preciso y eficiente mediante coincidencia semiglobal e información mutua. En 2005, la Conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones (CVPR'05), vol. 2, 807–814, https://doi.org/10.1109/CVPR.2005.56 (2005).

Žbontar, J. & LeCun, Y. Calcular el costo de coincidencia estéreo con una red neuronal convolucional. En la Conferencia IEEE de 2015 sobre visión por computadora y reconocimiento de patrones (CVPR), 1592–1599, https://doi.org/10.1109/CVPR.2015.7298767 (2015).

Luo, W., Schwing, AG y Urtasun, R. Aprendizaje profundo eficiente para coincidencia estéreo. En la Conferencia IEEE de 2016 sobre visión por computadora y reconocimiento de patrones (CVPR), 5695–5703, https://doi.org/10.1109/CVPR.2016.614 (2016).

Güney, F. & Geiger, A. Displets: resolución de ambigüedades estéreo utilizando el conocimiento de objetos. En la Conferencia IEEE de 2015 sobre visión por computadora y reconocimiento de patrones (CVPR), 4165–4175, https://doi.org/10.1109/CVPR.2015.7299044 (2015).

Kendall, A. y col. Aprendizaje integral de geometría y contexto para una regresión estéreo profunda. En la Conferencia Internacional IEEE sobre Visión por Computadora (ICCV) de 2017, 66–75, https://doi.org/10.1109/ICCV.2017.17 (2017).

Chang, J.-R. y Chen, Y.-S. Red de combinación estéreo piramidal. En la Conferencia IEEE/CVF de 2018 sobre visión por computadora y reconocimiento de patrones, 5410–5418, https://doi.org/10.1109/CVPR.2018.00567 (2018).

Guo, X., Yang, K., Yang, W., Wang, X. y Li, H. Red estéreo de correlación grupal. En la Conferencia IEEE/CVF de 2019 sobre visión por computadora y reconocimiento de patrones (CVPR), 3268–3277, https://doi.org/10.1109/CVPR.2019.00339 (2019).

Tulyakov, S., Ivanov, A. y Fleuret, F. Estéreo profundo práctico (pds): hacia una coincidencia estéreo profunda compatible con aplicaciones. En Sistemas de procesamiento de información neuronal, (2018).

Zhang, Y., Li, Y., Kong, Y. y Liu, B. Marco de red codificador-decodificador de agregación de atención para coincidencia estéreo. Proceso de señal IEEE. Letón. 27, 760–764 (2020).

ADS del artículo Google Scholar

Song, X., Zhao, X., Fang, L., Hu, H. y Yu, Y. Edgestereo: una red de aprendizaje multitarea eficaz para la coincidencia estéreo y la detección de bordes. En t. J. Computación. Vis. 128, 910–930 (2019).

Artículo de Google Scholar

Tankovich, V. y col. Hitnet: red jerárquica iterativa de refinamiento de mosaicos para coincidencia estéreo en tiempo real. CoRRabs/2007.12140 (2020).

Hu, J., Shen, L. y Sun, G. Redes de compresión y excitación. Conferencia IEEE/CVF de 2018 sobre visión por computadora y reconocimiento de patrones 7132–7141 (2017).

Vaswani, A. y col. Atención es todo lo que necesita. En Avances en sistemas de procesamiento de información neuronal vol. 30 (Curran Associates Inc., 2017).

Google Académico

Li, J. y col. Práctica adaptación estéreo a través de una red recurrente en cascada con correlación adaptativa. Conferencia IEEE/CVF de 2022 sobre visión por computadora y reconocimiento de patrones (CVPR) 16242–16251 (2022).

Park, IK Agregación de costos autoguiada profunda para coincidencia de estéreo. Reconocimiento de patrones. Letón. 112, 168-175. https://doi.org/10.1016/j.patrec.2018.07.010 (2018).

ADS del artículo Google Scholar

Cheng, X., Wang, P. y Yang, R. Aprendizaje profundo con una red de propagación espacial convolucional. Traducción IEEE. Patrón Anal. Mach. Intel. 42, 2361–2379 (2018).

Artículo de Google Scholar

Cheng, X. y col. Búsqueda de arquitectura neuronal jerárquica para una coincidencia estéreo profunda. ArXiv abs/2010.13501 (2020).

Zhang, F. y col. Redes de coincidencia estéreo de dominio invariante. En Computer Vision-ECCV 2020 (eds Vedaldi, A. et al.) 420–439 (Springer International Publishing, 2020).

Capítulo Google Scholar

Krizhevsky, A., Sutskever, I. & Hinton, GE Clasificación de Imagenet con redes neuronales convolucionales profundas. Comunitario. ACM 60, 84–90 (2012).

Artículo de Google Scholar

Jeon, S. & Heo, Y. Red eficiente de coincidencia estéreo de múltiples escalas que utiliza filtrado de volumen de costos adaptativo. Sensores 22, 5500. https://doi.org/10.3390/s22155500 (2022).

Artículo ADS PubMed PubMed Central Google Scholar

Jia, X. y col. Red en cascada de volúmenes de costos de múltiples escalas para coincidencia estéreo. En 2021, Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA), 8657–8663, https://doi.org/10.1109/ICRA48506.2021.9560864 (IEEE Press, 2021).

Zhu, Z., Guo, W., Chen, W., Li, Q. y Zhao, Y. Mpanet: red de agregación piramidal multiescala para coincidencia estéreo. En 2021, Conferencia internacional IEEE sobre procesamiento de imágenes (ICIP), 2773–2777, https://doi.org/10.1109/ICIP42928.2021.9506705 (2021).

Zhong, Y., Dai, Y. & Li, H. Aprendizaje autosupervisado para la combinación estéreo con capacidad de mejora personal. arXiv e-printsarXiv:1709.00930, https://doi.org/10.48550/arXiv.1709.00930 (2017). 1709.00930.

Mayer, N. y col. Un gran conjunto de datos para entrenar redes convolucionales para la estimación de disparidad, flujo óptico y flujo de escena. En la Conferencia IEEE de 2016 sobre visión por computadora y reconocimiento de patrones (CVPR), 4040–4048, https://doi.org/10.1109/CVPR.2016.438 (2016).

Geiger, A., Lenz, P. y Urtasun, R. ¿Estamos preparados para la conducción autónoma? la suite kitti vision benchmark. En la Conferencia IEEE de 2012 sobre visión por computadora y reconocimiento de patrones, 3354–3361, https://doi.org/10.1109/CVPR.2012.6248074 (2012).

Scharstein, D. y col. Conjuntos de datos estéreo de alta resolución con datos reales con precisión de subpíxeles. En Conferencia alemana sobre reconocimiento de patrones (2014).

Huang, X. y col. El conjunto de datos abiertos apolloscape para la conducción autónoma y su aplicación. Traducción IEEE. Patrón Anal. Mach. Intel. 42, 2702–2719. https://doi.org/10.1109/TPAMI.2019.2926463 (2020).

Artículo PubMed Google Scholar

Xu, H. & Zhang, J. Aanet: Red de agregación adaptativa para una coincidencia estéreo eficiente. Conferencia IEEE/CVF 2020 sobre visión por computadora y reconocimiento de patrones (CVPR) 1956-1965 (2020).

Wang, H., Fan, R., Cai, P. & Liu, M. Pvstereo: módulo de votación piramidal para coincidencia estéreo autosupervisada de un extremo a otro. Robot IEEE. Automático. Letón. 6, 4353–4360. https://doi.org/10.1109/LRA.2021.3068108 (2021).

Artículo de Google Scholar

Yang, G., Manela, J., Happold, M. y Ramanan, D. Coincidencia estéreo profunda jerárquica en imágenes de alta resolución. En la Conferencia IEEE/CVF de 2019 sobre visión por computadora y reconocimiento de patrones (CVPR), 5510–5519, https://doi.org/10.1109/CVPR.2019.00566 (2019).

Wang, Q., Shi, S., Zheng, S., Zhao, K. y Chu, X. Fadnet: una red rápida y precisa para la estimación de disparidades. En 2020, Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA), 101–107, https://doi.org/10.1109/ICRA40945.2020.9197031 (2020).

Liang, Z. y col. Aprendizaje para la estimación de disparidades a través de la constancia de características. En la Conferencia IEEE/CVF de 2018 sobre visión por computadora y reconocimiento de patrones, 2811–2820, https://doi.org/10.1109/CVPR.2018.00297 (2018).

Descargar referencias

Este trabajo fue financiado por la Fundación Nacional de Ciencias Naturales de China con la subvención 62272405 y el Programa de apoyo a la innovación científica y tecnológica para jóvenes de la provincia de Shandong con la subvención 2021KJ080.

Escuela de Ingeniería y Control Informático, Universidad de Yantai, Yantai, 264005, China

Yuanwei Bi, Chuanbiao Li, Xiangrong Tong, Guohui Wang y Haiwei Sun

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

YB, CL diseñó el algoritmo y realizó los experimentos. YB, CL, XT, HS y GW escribieron el manuscrito. YB proporcionó financiación para este proyecto. Todos los autores han leído y aceptado la versión publicada del manuscrito.

Correspondencia a Chuanbiao Li.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Bi, Y., Li, C., Tong, X. et al. Una aplicación de algoritmo de coincidencia estéreo basada en el aprendizaje por transferencia en robots en múltiples escenas. Informe científico 13, 12739 (2023). https://doi.org/10.1038/s41598-023-39964-z

Descargar cita

Recibido: 08 de abril de 2023

Aceptado: 02 de agosto de 2023

Publicado: 06 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-39964-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.