banner

Noticias

May 04, 2023

¿Dónde nos encontramos en la IA para el análisis de imágenes endoscópicas? Descifrando brechas y direcciones futuras

npj Digital Medicine volumen 5, Número de artículo: 184 (2022) Citar este artículo

4577 Accesos

15 Altmetric

Detalles de métricas

Los desarrollos recientes en el aprendizaje profundo han permitido algoritmos basados ​​en datos que pueden alcanzar un rendimiento a nivel humano y más allá. El desarrollo y la implementación de métodos de análisis de imágenes médicas tienen varios desafíos, incluida la heterogeneidad de los datos debido a la diversidad de la población y los diferentes fabricantes de dispositivos. Además, se requieren más aportes de expertos para un proceso de desarrollo de métodos confiable. Si bien el crecimiento exponencial de los datos de imágenes clínicas ha permitido que florezca el aprendizaje profundo, aún es necesario explorar la heterogeneidad de los datos, la multimodalidad y los casos de enfermedades raras o discretas. Dado que la endoscopia depende en gran medida del operador con resultados clínicos sombríos en algunos casos de enfermedades, la guía del sistema automatizado confiable y precisa puede mejorar la atención al paciente. La mayoría de los métodos diseñados deben ser más generalizables a los datos objetivo invisibles, la variabilidad de la población de pacientes y las apariencias variables de la enfermedad. El artículo revisa trabajos recientes sobre análisis de imágenes endoscópicas con inteligencia artificial (IA) y enfatiza las necesidades actuales sin igual en este campo. Finalmente, describe las direcciones futuras de las soluciones complejas de IA clínicamente relevantes para mejorar los resultados de los pacientes.

La endoscopia es un procedimiento estándar de oro para muchos órganos huecos. Se utiliza principalmente para la vigilancia de enfermedades, el seguimiento de la inflamación, la detección temprana del cáncer, la caracterización de tumores y los procedimientos de resección, las intervenciones de tratamiento mínimamente invasivas y el seguimiento de la respuesta terapéutica. El análisis de imágenes endoscópicas ha comenzado a ganar más atención en los últimos años con la publicación de un número excedente de métodos basados ​​en imágenes endoscópicas en detección asistida por computadora (CADe)1,2,3,4,5, diagnóstico asistido por computadora (CADx)6 ,7,8,9,10,11 y cirugía asistida por computadora (CAS)12,13,14,15,16. A diferencia de otros datos de radiología (p. ej., rayos X, CT, MRI), las imágenes endoscópicas y su análisis son un tema altamente especializado y desafiante. Las imágenes endoscópicas tienen dependencias multifactoriales, que incluyen una gran dependencia del operador (p. ej., experiencia y capacitación), problemas relacionados con el alcance (p. ej., variabilidad de la calidad de las imágenes) y dinámicas subyacentes de la escena (p. ej., corrupción inminente de fotogramas con artefactos graves, movimiento de órganos grandes y derivas superficiales17). Los estándares de calidad en las intervenciones endoscópicas gastrointestinales se discuten en varios estudios de guías notables18,19. Algunos trabajos recientes han explorado áreas de aprendizaje profundo para automatizar métricas para evaluar la calidad de la endoscopia. Estos son especialmente críticos para cuantificar los puntos ciegos20,21. Mientras que la reconstrucción 3D basada en SLAM se utilizó para generar mapas colónicos18, la longitud y el área del precursor del cáncer gastrointestinal (GI) superior, el esófago de Barrett, se cuantificaron utilizando una técnica de estimación de profundidad basada en aprendizaje profundo22. De manera similar, la tarea más crucial para los procedimientos quirúrgicos mínimamente invasivos (p. ej., laparoscopia) es comprender e interpretar la escena subyacente.

Si bien una reconstrucción 3D de órganos huecos es vital, es difícil de lograr por varias razones, incluida la deformación de órganos altamente no lineal, el desorden de la escena (p. ej., flujo de líquido, sangre) y la oclusión (p. ej., grasa que rodea la cirugía hepática). Por lo tanto, la mayor parte de la investigación se centra en la evaluación de la escena local utilizando métodos de clasificación, detección y segmentación. La detección y caracterización de lesiones junto con su delimitación es un enfoque principal en la endoscopia GI1,2,3,4,5,6,7,8,9,10,11. De manera similar, la segmentación específica de los cálculos y su caracterización es el enfoque principal en la ureteroscopia23 y la detección de tumores24 se ha explorado en la cistoscopia. Para las intervenciones laparoscópicas mínimamente invasivas, la clasificación de herramientas quirúrgicas12, la detección y segmentación13, el reconocimiento de fase12,14, la segmentación de puntos de referencia asociados15 y la superposición de volumen 3D preoperatorio en laparoscopia interoperatoria 2D16 ha sido un área de enfoque. En la figura 1 se presenta un resumen ilustrativo de los objetivos clave y varias tareas de análisis de imágenes endoscópicas para diferentes intervenciones endoscópicas.

Los procedimientos endoscópicos ampliamente utilizados se presentan en categorías y subcategorías únicas separadas, mientras que el resto de los procedimientos se proporcionan en otros. Cada uno se divide en órgano de interés, tipo de intervención, objetivos y métodos asistidos por computadora que se están desarrollando para abordar algunos de los objetivos presentados en estos procedimientos endoscópicos.

La mayoría de los trabajos de revisión anteriores sobre aplicaciones impulsadas por inteligencia artificial (IA) para el análisis de imágenes endoscópicas se publican en revistas clínicas (22 frente a solo 11 publicados en la revista técnica de 2020 a 2022). Los artículos de revisión clínica se centran principalmente en los sistemas CADe y CADx para lesiones en endoscopia GI25,26, mientras que los artículos de revisión técnica se concentran principalmente en la cirugía laparoscópica27,28. Las revisiones sobre el GI superior (esófago de Barrett, carcinoma de células escamosas (SCC) y estómago25,29) y la enfermedad del GI inferior (pólipos colorrectales26,30,31 y colitis ulcerosa32,33) son dominantes en comparación con otros órganos. Además, aunque los títulos de algunas revisiones eran genéricos26,34, solo presentaban estudios de vigilancia endoscópica GI y no cubrían otras áreas del análisis de imágenes endoscópicas. Hasta donde sabemos, las revisiones publicadas anteriormente cubren solo procedimientos endoscópicos específicos. No se involucran en un resumen completo, que incluye varias modalidades, diversos desafíos de datos específicos de órganos, naturaleza de la lesión y desafíos de visualización.

A diferencia de las revisiones anteriores, este documento tiene como objetivo descifrar el camino hacia la integración clínica, que solo es posible agrupando todos los trabajos relacionados con la endoscopia en un solo lugar y precisando los logros anteriores y actuales. Además, la revisión presentada es concisa y destaca los trabajos más importantes y completos con investigaciones similares cotejadas por separado (véanse las tablas 1 y 2). La revisión ilustra los métodos de aprendizaje profundo aplicados a diferentes conjuntos de datos endoscópicos, incluida la cistoscopia, la ureteroscopia y la endoscopia nasofaríngea, que no se trataron en estudios anteriores. Aprender los desafíos coexistentes e identificar las brechas en cada procedimiento endoscópico es esencial para determinar los desarrollos necesarios para una atención médica digital avanzada y clínicamente adecuada.

Los procedimientos endoscópicos dependen del operador, lo que los hace propensos a errores humanos que pueden resultar en tasas bajas de detección de adenomas (RAM) (p. ej., informado en colonoscopia35). Otras limitaciones incluyen el tamaño del tumor, la ubicación de la lesión y los desafíos técnicos, como la oclusión durante la cirugía laparoscópica mínimamente invasiva36. Los procedimientos endoscópicos y los desafíos de imágenes varían de un órgano a otro. Los endoscopios rígidos múltiples se utilizan para abordar el problema del campo de visión limitado en la cirugía mínimamente invasiva laparoscópica37. Sin embargo, el procedimiento es muy desafiante debido a la superposición de otros órganos. De manera similar, los procedimientos de detección colorrectal se realizan con endoscopios flexibles debido al peristaltismo del colon y las deposiciones. Hay más evidencia de limitaciones de imagen muy similares en todos estos procedimientos. Las burbujas y, a veces, los residuos de alimentos se enjuagan durante la gastroscopia para limpiar la mucosa. Además, se requiere limpieza intestinal antes de obtener imágenes del colon. De manera similar, las paredes de la vejiga se enjuagan con solución salina durante la cistoscopia para que la superficie sea más evidente. El líquido de irrigación se usa para despejar el desorden de la escena durante el procedimiento de fragmentación de cálculos renales. Las oclusiones de escena son un factor desafiante importante en la endoscopia nasofaríngea (Fig. 2a-f). En un sentido algorítmico, el desorden de la escena afecta a casi todos los algoritmos de análisis de imágenes, incluidos los enfoques de IA actuales, es decir, el aprendizaje profundo. Esto se debe a que se vuelve difícil comprender la mucosa subyacente y caracterizar las anomalías que conducen a confundir las redes aprendidas entrenadas con imágenes limpias. Para la ureteroscopia, los desechos flotantes dificultan la segmentación y caracterización de los cálculos renales. Del mismo modo, una disminución de ADR se asocia con la preparación intestinal38. Dicha preparación también es crítica y puede afectar los enfoques de aprendizaje profundo. La variabilidad en la apariencia de la enfermedad de un órgano a otro presenta desafíos integrales. Sin embargo, algunos de estos desafíos pueden ser comunes. Por ejemplo, los problemas de calidad de imagen, los movimientos de manos no uniformes y los movimientos de órganos son comunes en la mayoría de los procedimientos endoscópicos. De manera similar, la detección de lesiones perdidas debido a oclusiones puede ser un factor limitante común en todos los procedimientos endoscópicos. La revisión de estos métodos en diferentes adquisiciones endoscópicas tiene como objetivo comprender los enfoques de aprendizaje profundo más comunes y las oportunidades únicas perdidas.

un procedimiento de gastroscopia durante el cual se inserta un endoscopio flexible para visualizar la mucosa en el esófago y las partes del estómago del duodeno. Se puede observar que la escena varía bastante dependiendo de la ubicación del alcance. Del mismo modo, en la imagen superior izquierda, se pueden observar burbujas que rodean la mucosa. b Los procedimientos de colonoscopia cubren el colon y el recto, durante los cuales se utilizan endoscopios flexibles para navegar por este complejo órgano retorcido. La limpieza intestinal es una preparación esencial ya que puede ocluir las lesiones. En la mayoría de las imágenes, la presencia de heces es una marca clara de anomalía ocluida. c Durante la laparoscopia, generalmente se insertan endoscopios rígidos a través de pequeños orificios de incisión. Se muestran imágenes que muestran la grasa que rodea el hígado, una visión clara del hígado, la presencia de herramientas durante la cirugía y la oclusión completa del hígado debido a la grasa. d Los endoscopios rígidos ampliamente utilizados se utilizan para investigar las paredes de la vejiga que se insertan a través de la uretra. Se muestran la modalidad de imagen de luz blanca convencional (los tres primeros) y la modalidad de imagen de fluorescencia (azul)125. Se puede observar que las dos imágenes superiores están borrosas y muestran poca o ninguna estructura de vasos. e Extracción de cálculos renales mediante ureteroscopia y litotricia con láser. La diferencia en la textura y los desechos circundantes (arriba) y la sangre (abajo) para imágenes in vivo71. f Un endoscopio flexible ingresa a través de las fosas nasales y puede ir desde la nariz hasta el área de la garganta y, por lo tanto, se denomina colectivamente endoscopia nasofaríngea. Las imágenes (a la izquierda) muestran una pequeña abertura y un campo de visión, junto con herramientas quirúrgicas para algunos casos126. Las fuentes de imágenes de endoscopia relevantes: imágenes de gastroscopia y colonoscopia en (a y b se adquieren de los Hospitales de la Universidad de Oxford con la Ref. 16/YH/0247 y forman parte de los conjuntos de datos de desafío de endoscopia publicados públicamente (EDD2020127 bajo CC-by-NC 4.0 y PolypGen128 bajo CC-by, el Dr. S. Ali es el creador de ambos conjuntos de datos). Los datos de laparoscopia hepática se toman del desafío P2ILF realizado recientemente129 (el Dr. S. Ali es el creador de este conjunto de datos), mientras que los datos de cistoscopia y ureteroscopia se toman respectivamente de La tesis doctoral del Dr. S. Ali130 y un artículo recientemente publicado del cual es coautor 71. De manera similar, las imágenes nasofaríngeas corresponden al conjunto de datos UW-Sinus-Surgery-C/L disponible públicamente126 con una licencia desconocida.

Los enfoques de aprendizaje automático se basan en datos y se orientan principalmente hacia la minimización (error de disimilitud) o la maximización (similitud) de una función de pérdida L (Fig. 3a). Se utiliza un optimizador, generalmente un diferenciador, para encontrar iterativamente valores óptimos locales para la función de pérdida calculada. La pérdida suele estar entre las etiquetas predichas y y la etiqueta de verdad básica ytrue (Fig. 3a). Las redes neuronales consisten en filtros o neuronas (también conocidos como núcleos o pesos) que se pueden aprender, a diferencia de los filtros de procesamiento de imágenes clásicos que están predefinidos. Estos pesos obtenidos de núcleos de diferentes tamaños (p. ej., un núcleo de 3 × 3, K3×3 = {w1,..., w9}) luego se pasan a través de la función de activación no lineal a(.) que les permite aprender más características que de otro modo no serían identificadas. Los pesos de la red neuronal se ajustan en función de los resultados del optimizador en cada iteración. Las muestras de entrada se procesan principalmente en lotes, por lo que una iteración completa de todas las muestras se denomina época durante el entrenamiento. Los pesos del modelo aprendidos se aplican luego al conjunto de datos de prueba (también conocido como inferencia o fase de prueba). La mayoría de los métodos optimizan las funciones de pérdida y utilizan conjuntos de validación para ajustar los hiperparámetros de la red θ. Sin embargo, dicha optimización se puede realizar para varias configuraciones de tareas, como clasificación, detección y localización de lesiones, segmentación semántica (clasificación por píxel), segmentación de instancias (regresión de caja regional y clasificación por píxel), tareas de estimación de profundidad y otras. Un diagrama general con arquitecturas de aprendizaje profundo conocidas para la clasificación de neoplasias en el esófago de Barrett; detección, localización y segmentación de pólipos en colonoscopia; localización y segmentación de instrumentos quirúrgicos durante la cirugía laparoscópica; estimación de profundidad 3D y reconstrucción del esófago; y se demuestra la inclusión de contexto de video temporal en redes neuronales convolucionales (CNN) (Fig. 3b).

a Una representación conceptual de un sistema de aprendizaje profundo con un optimizador para minimizar una función de pérdida. Se proporciona un bloque de red neuronal convolucional (CNN) simplificado que comprende un núcleo de 3 × 3 y un peso calculado para cada píxel con pesos y sesgos del núcleo. También demuestra una función de activación no lineal aplicada para capturar características más complejas. La fase de entrenamiento y prueba consta de conjuntos de datos divididos donde el conjunto de validación se utiliza para garantizar que los parámetros aprendidos se generalicen y no sobreajusten el conjunto de datos de entrenamiento. Se muestra un gráfico de sobreajuste del modelo que se regula mediante un conjunto de validación. b Se muestran algunas arquitecturas de aprendizaje profundo ampliamente utilizadas para diversas tareas en el análisis de imágenes endoscópicas. Para la red de clasificación, solo se utiliza una red de codificador que suele ir seguida de un clasificador como softmax3. Para la detección, las características se extraen utilizando una red de codificador, que luego se extrae utilizando una red de propuesta de región para predecir las representaciones de la clase y el cuadro delimitador128. Para la segmentación semántica, las características del codificador se escalan a la clasificación de tamaño de imagen por píxel. De manera similar, para la tarea de segmentación de instancias, se utilizan tanto las propuestas de región para los cuadros delimitadores como las predicciones por píxel para las máscaras131. La idea de una red de estimación de profundidad es comprender qué tan lejos está la cámara de una región anatómica proporcionando distancias en el sistema de coordenadas del mundo real22. Finalmente, las redes neuronales recurrentes (también conocidas como RNN) pueden incorporar información de video temporal para refinar las predicciones actuales de una red CNN64. Aquí, las entradas de cuadro secuenciales v1,..., vn se alimentan a la red CNN produciendo vectores de características visuales p1,..., pn, que luego se alimentan a la red RNN. La salida de los RNN representa la relación temporal que proporciona predicciones contextuales para cada fotograma, de modo que la salida para el enésimo fotograma qn depende de los fotogramas actuales y anteriores, es decir, los vectores de características q(Vn) y todos los demás vectores de características anteriores q(Vu ), tu < n. Tanto las redes de CNN como las de RNN se optimizan conjuntamente utilizando una estrategia de impulso. Las fuentes de imágenes de endoscopia relevantes: las imágenes de gastroscopia y colonoscopia en (a y b) se adquieren de los Hospitales de la Universidad de Oxford con la Ref. 16/YH/0247 y forma parte de conjuntos de datos de desafío de endoscopia publicados públicamente (EDD2020127 bajo CC-by-NC 4.0 y PolypGen128 bajo CC-by, el Dr. S. Ali es el creador de ambos conjuntos de datos). Los datos del procedimiento quirúrgico se toman de ROBUST-MIS113.

Esta revisión identifica y analiza las tendencias de la aplicación de métodos de aprendizaje automático (en particular, el aprendizaje profundo) en cada procedimiento específico de órganos. En segundo lugar, se descifran las brechas actuales que conducen a direcciones futuras. La búsqueda basada en la web reveló que la mayoría de los métodos optimizan los pesos utilizando tareas de aprendizaje supervisado que consisten en CNN ampliamente utilizadas. Estas tareas incluyeron clasificación, detección, segmentación y estimación de profundidad. La literatura se seleccionó utilizando los criterios de búsqueda e inclusión proporcionados en la siguiente sección. El enfoque principal es considerar estudios recientes y comprender sus factores limitantes en cada procedimiento de imagen y método implementado. Nuestro objetivo es aprender métodos desarrollados en técnicas endoscópicas similares e identificar formas que puedan ser beneficiosas en otros campos. En desarrollos futuros, las brechas y los desafíos existentes en las imágenes endoscópicas pueden permitirnos establecer un plan estratégico y crear protocolos para métodos de imágenes endoscópicas confiables y aceptables.

Se utilizaron las bases de datos Medline, Embase, Springer, Web of Science e IEEE Xplore para buscar bibliografía relacionada. Para centrarse en los procedimientos endoscópicos específicos de órganos, se utilizaron nombres (p. ej., endoscopia, colonoscopia, laparoscopia hepática, ureteroscopia). Además, se agregaron estudios computacionales (aprendizaje automático, IA y aprendizaje profundo) junto con nombres de procedimientos endoscópicos para condensar la búsqueda. La mayoría de los estudios posteriores a 2018 hasta principios de junio de 2022 se seleccionan para esta revisión. Solo para el "aprendizaje profundo de endoscopia" con artículos de filtros activos, en inglés, se encontraron 251 artículos en Medline y 1740 artículos en Embase (ya que 'Embase' también incluía artículos de revisión). También se eliminaron todos los duplicados. Nuestra búsqueda avanzada con palabras clave como IA en endoscopia, aprendizaje profundo para endoscopia y clasificación de neoplasias reveló 33, 13 y 36 artículos, respectivamente. Por lo tanto, los documentos seleccionados provienen de una "búsqueda básica" en lugar de la búsqueda avanzada. La búsqueda básica reveló un mayor número de artículos. Sin embargo, para reducirlos, aplicamos filtros adicionales que incluían boroscopio, ensayos, software, fotoacústica, TC, resonancia magnética, hardware, simulación, estudios humanos frente a máquinas, microultrasonido, imágenes de portaobjetos completos, radiología, etc. también se consideran desde el año 2020 hasta el 2022.

Una búsqueda en la Web of Science de intervenciones quirúrgicas laparoscópicas incluyó palabras clave como segmentación hepática laparoscópica y aprendizaje profundo para laparoscopia. Para ello, se encontraron 56 trabajos, incluidos 36 artículos, de los cuales se encontraron 12 trabajos de revisión. La tendencia de comprensión profunda en laparoscopia ha crecido de 6 artículos en 2018 a 21 artículos en 2021. Además de casos de enfermedades específicas, los informes que incluyeron calidad, clasificación/reconocimiento anatómico, otras modalidades (p. ej., Raman e (hiper)espectral) y profundidad o También se identificaron reconstrucciones 3D. Para abordar la tendencia creciente en las comunidades clínicas y técnicas en endoscopia gastrointestinal, la revisión presentada incluye contribuciones adicionales específicas del método. También se han agregado ocho trabajos de conferencias revisados ​​por pares para fortalecer las contribuciones técnicas en este campo.

El trabajo presentado tiene a continuación criterios de inclusión adicionales para que esta revisión sea más enfocada, menos sesgada y refleje los métodos hacia la integración clínica:

Los trabajos de investigación deben tener una gran cohorte de pacientes (en comparación con trabajos publicados anteriormente) o al menos en comparación con algunos conjuntos de datos disponibles públicamente si se trata de un trabajo presentado técnicamente.

Los trabajos de investigación deben tener conjuntos específicos de capacitación, validación y prueba informados en el artículo para reducir el sesgo en los estudios.

Si los trabajos de investigación incluían alguna novedad pero no se evaluaban exhaustivamente sobre los datos de los pacientes, dichos estudios se descartaban o se incluían como contribuciones al método.

Cada método rigurosamente evaluado se incluyó en la tabla principal. Aquí, se eligieron modalidades únicas, enfermedades objetivo únicas y tareas individuales (p. ej., clasificación, segmentación, detección y localización). Al mismo tiempo, se proporcionan estudios similares en una columna separada para lectores interesados.

Se ha incluido un Apartado para la IA en otros procedimientos endoscópicos poco estudiados que recoge algunos trabajos sobre nasofaríngea, broncoscopia y tiroidectomía.

Para la estimación del mapa de profundidad y la reconstrucción 3D, los trabajos se incluyen como una sección separada en aplicaciones adicionales, ya que no se evalúan en conjuntos de datos de pacientes más extensos. En la misma Sección, también se incluyen estudios relacionados con el aseguramiento de la calidad en endoscopia y la clasificación de hitos anatómicos para completar esta encuesta.

La esófago-gastro-duodenoscopia (OGD, por sus siglas en inglés) se utiliza para realizar la vigilancia del tracto GI superior (incluidos el esófago, el estómago y el duodeno). Por el contrario, la colonoscopia y la sigmoidoscopia examinan los órganos gastrointestinales inferiores, incluidos el colon y el recto. Con los desarrollos recientes en el aprendizaje profundo, se han producido varios avances en la construcción de sistemas de detección y diagnóstico asistidos por computadora. En comparación con OGD, más investigación se centra en la colonoscopia. Algunas revisiones recientes destacaron algunos trabajos de grupos seleccionados sobre GI superior e inferior25,26,30; sin embargo, no se presentó la distinción entre el conjunto de datos de prueba de entrenamiento o el tipo de método basado en el aprendizaje utilizado en estos estudios o ambos. Se utilizaron sistemas CADe y CADx más genéricos con términos de aprendizaje profundo (DL) en la presentación de la mayoría de los artículos de revisión encontrados. Los métodos de DL para el GI inferior se presentan en 31; sin embargo, estos se enfocan solo en los pólipos colorrectales. En esta revisión, la división de datos de entrenamiento y prueba y el tipo de algoritmo desarrollado para una tarea específica se mencionan de manera clara y concisa para dar a los lectores una idea tanto de las necesidades clínicas como de los desarrollos de métodos técnicos.

Para OGD, con el aumento preocupante de pacientes con esófago de Barrett, una lesión precursora en el esófago ha sido el foco principal de muchos desarrollos actuales basados ​​en el aprendizaje automático. Se utilizó una arquitectura híbrida ResNet-UNet para clasificar el esófago de Barrett neoplásico y no displásico (NDBE)1 que proporcionó una precisión de más del 88 % en dos conjuntos de datos de prueba. De manera similar, para SCC en el esófago, se usó una arquitectura de codificador-decodificador que utiliza la red VGG16 para la segmentación por píxeles39 que informó una sensibilidad del 98,04 % con una especificidad del 95,03 %. La gastritis atrófica (GA) y la metaplasia intestinal gástrica (MI) son dos estadios principales en la progresión del adenocarcinoma gástrico40, principalmente causados ​​por infección por helicobacter pylori o por gastritis autoinmune. DenseNet121 se entrenó con 5470 imágenes3 para caracterizar AG, lo que resultó en una precisión del 94,2 % en el conjunto de datos de prueba. del mismo modo, se utilizó UNet++ con ResNet50 para clasificar AG, MI y hemorragia41. Para ello se utilizaron 8141 imágenes (4587 pacientes) para el entrenamiento, mientras que para la etapa de prueba se utilizaron 258 pacientes externos y 80 videos.

En una colonoscopia, la mayoría de estos métodos tienen como objetivo identificar o caracterizar precursores de cáncer conocidos, "pólipos". Debido a su éxito, la mayoría de los métodos implementan la CNN ampliamente utilizada. Por ejemplo, CNN 3D para la clasificación binaria a nivel de cuadro de pólipos42 con una precisión del 76 %. Por el contrario, se utilizaron métodos de detección como YOLO43 y SDD6 para la localización y detección de pólipos con una precisión mucho mayor del 96 % para YOLO y una sensibilidad superior al 90 % para el enfoque SSD. AutoML fue utilizado por Jin et al.9 que nos permite buscar redes neuronales eficientes utilizando técnicas de aprendizaje recurrente y de refuerzo. La red CNN optimizada constaba de celdas normales y de reducción, que usaban varias operaciones como circunvoluciones separables y capas de agrupación promedio y máxima. La red buscada obtuvo una precisión diagnóstica global para pólipos de difícil localización del 86,7%. También se informaron los resultados informados sobre la mejora del rendimiento de los endoscopistas novatos del 73,8% al 85,6%. Se utilizó Inception7 para clasificar los pólipos y caracterizarlos entre hiperplásicos y adenomatosos con una sensibilidad del 98 % y una especificidad del 83 %.

Sin embargo, ha habido intentos de clasificar la inflamación en el intestino, denominada "enfermedad intestinal inflamatoria", centrados tanto en la colitis ulcerosa (CU)11,44,45. Enfermedad de Crohn (EC)46,47. La EII sigue teniendo una variabilidad intra e interobservador sustancial en la clasificación de la gravedad de la enfermedad durante la endoscopia. Existen varios sistemas clínicamente aceptados para puntuar estas gravedades que, hasta cierto punto, han mejorado la reproducibilidad y la fiabilidad de la puntuación endoscópica. Sin embargo, el problema sigue siendo vago ya que estos sistemas de puntuación incluyen definiciones amplias. Se ha desarrollado una amplia gama de métodos de aprendizaje profundo para abordar estos problemas y minimizar la variabilidad del operador en el diagnóstico. Para la CU, la puntuación endoscópica clínica de Mayo (MCES) es el sistema más utilizado para estratificar a los pacientes y consiste en un sistema de puntuación de 0 a 3, desde normal (0) hasta grave (3). Se utilizó un modelo inception V3 para clasificar entre (0 o 1) y (2 o 3)11 con una precisión del 97 % y un VPP del 86 %. De manera similar, se desarrolló un modelo de control de calidad para distinguir entre marcos legibles e ilegibles y una red de aprendizaje profundo basada en CNN para la clasificación UC en conjuntos de datos multicéntricos que informaron un área bajo la curva de 0.84, 0.85 y 0.85, respectivamente para MCES ≥1, MCES ≥ 2, MCES ≥3 (clasificación binaria). La EC afecta principalmente al intestino delgado, donde los endoscopios convencionales son difíciles de alcanzar. Existen numerosos desarrollos en la puntuación de CD utilizando el aprendizaje profundo pero para imágenes de endoscopia con cápsula de video (VCE). La ulceración y la mucosa normal se clasificaron mediante el entrenamiento del modelo Xception CNN como una validación cruzada de 5 veces que muestra una precisión superior al 95 % para cada pliegue46. Se entrenó un modelo de aprendizaje profundo que utilizó DenseNet48 de 169 capas en un gran conjunto de datos que comprende 28 071 imágenes con CCR (3176 pacientes) y 436 034 imágenes sin CCR (9003 pacientes). La prueba se realizó en tres conjuntos de prueba únicos que incluían el mismo centro y dos centros diferentes, lo que demuestra la capacidad de generalización del modelo entrenado con una sensibilidad de alrededor del 75 % en dos conjuntos de prueba invisibles.

El desarrollo de nuevos métodos de colonoscopia está bien documentado31,49. Esto puede deberse a la disponibilidad de conjuntos de datos públicos para la detección y segmentación de pólipos. Estos métodos se publican principalmente como actas de congresos y se han incluido aquí para completarlos. La mayoría de los métodos actuales de detección y localización se pueden dividir en detectores de varias etapas50, detectores de una sola etapa51 y detectores sin anclaje52. En este contexto, para abordar la necesidad de detección de pólipos en tiempo real, Wan et al.51 utilizaron la red YOLOv5 junto con el mecanismo de autoatención en la capa superior de cada etapa de la red troncal de extracción de características para fortalecer las características informativas que muestran aumento de aproximadamente un 2 % en la puntuación de Dice y un tiempo de inferencia mejorado en dos conjuntos de datos. Si bien la mayoría de los detectores utilizan cuadros de anclaje predefinidos para las tareas de localización, se utilizó el concepto de detector sin anclaje53 para solucionar este problema, mostrando una puntuación de Dice competitiva y un tiempo de inferencia mejorado (casi 52,6 fotogramas por segundo) en comparación con varios métodos SOTA en cuatro conjuntos de datos públicos52. Recientemente, se ideó una red CNN híbrida 2D-3D para explotar la correlación espacial y temporal de las predicciones con una ganancia marginal en el conjunto de datos de pólipos de video mientras se preserva la detección en tiempo real54. También se publicó como contribución técnica la detección de anormalidad en el esófago de Barrett usando CNN 3D y memoria convolucional a largo-corto plazo (ConvLSTM) que permite la captura de información espacio-temporal en videos55.

Para la segmentación, los desarrollos actuales se basan ampliamente en arquitecturas de codificador-decodificador56,57,58. Tomar et al.57 propusieron combinar la incrustación de etiquetas de texto como un mecanismo de atención para la segmentación efectiva de pólipos y para mejorar la generalizabilidad. Durante el entrenamiento, la tarea de clasificación auxiliar para aprender características relacionadas con el tamaño y el número de pólipos se entrenó e incorporó con la red de segmentación, además de mostrar una mejora de hasta un 2 % con respecto a los métodos SOTA en cuatro conjuntos de datos públicos. También se han introducido recientemente redes basadas en transformadores, a saber, TransFuse59 y ColonFormer60. TransFuse combinó transformadores con CNN en un estilo paralelo que permitió la captura de detalles espaciales globales y de bajo nivel y demostró una ganancia de rendimiento de casi 1 a 2 % en cinco conjuntos de datos públicos en comparación con los métodos DL SOTA. Un trabajo reciente que muestra una mejora con respecto a TransFuse se presentó como ColonFormer, que usaba un codificador con una red troncal de transformador mixto, mientras que el decodificador consistía en un módulo de agrupación piramidal que permitía combinar mapas de características de toda la capa del codificador para un mapa global. Los valores de umbral ad hoc ampliamente utilizados para la predicción del mapa de segmentación final se abordaron proponiendo un ThresholdNet que utilizaba una combinación múltiple guiada por confianza como aumento de datos que permitía un aprendizaje de umbral optimizado y mostraba grandes mejoras (casi hasta el 5 %) con respecto a varios métodos SOTA.

Los artículos de revisión de intervenciones quirúrgicas y el metanálisis se realizaron en 8 de los 33 artículos de revisión. La mayoría de estos trabajos fueron publicados en revistas técnicas. En la ref. 27, mientras que los métodos de DL centrados en el análisis de video laparoscópico se llevaron a cabo en profundidad en la ref. 28. El estudio28 utilizó 32 enfoques de aprendizaje profundo. La encuesta destacó que casi la mitad (45 %) de los métodos desarrollados tenían como objetivo el reconocimiento y la detección de instrumentos, con un 20 % en reconocimiento de fase y casi un 15 % en reconocimiento de anatomía y acción. Sin embargo, los trabajos minoritarios fueron sobre el reconocimiento de gasas (3%) y la predicción del tiempo de cirugía (5%), mientras que los procedimientos más utilizados fueron la colecistectomía (cirugía de extirpación de la vesícula biliar, 51%) y la cirugía ginecológica (aparato reproductivo de la mujer, 26%). En esta revisión, se agregan artículos adicionales que se han publicado recientemente sobre detección y registro de anomalías y laparoscopia aumentada.

Se utilizó un método de segmentación de instancias denominado 'máscara R-CNN' para segmentar el útero, los ovarios y los instrumentos quirúrgicos en las imágenes endoscópicas de un procedimiento ginecológico61. El conjunto de datos 'SurgAI' constaba de 461 imágenes. Otro estudio se centró en la detección de herramientas quirúrgicas en videos laparoscópicos y propuso una clasificación de etiquetas múltiples denominada LapTool-Net62. LapTool-Net explotó las correlaciones entre diferentes herramientas y tareas utilizando una red neuronal convolucional recurrente (RNN). Utilizaron conjuntos de datos de colecistectomía laparoscópica disponibles públicamente, incluidos M2CAI16 y Cholec80. Emplearon una técnica de sobremuestreo para clases subrepresentadas y un submuestreo de clases con muestras mayoritarias. Se utilizó un Inception V1 para la extracción de características con Gated Recurrent Unit (GRU) como bloques RNN, seguido de dos clasificadores completamente conectados. Se utilizó una técnica de autocodificador como red de aprendizaje para medir la distribución "normal" de los datos y detectar eventos anormales que se desvían de esta distribución como error de reconstrucción63. El entrenamiento se llevó a cabo utilizando el conjunto de datos Cholec80 y los datos de video fantasma que mostraron una recuperación y una precisión iguales al 78,4 %, 91,5 %, respectivamente, en Cholec80 y 95,6 %, 88,1 % en el conjunto de datos fantasma. Otro estudio similar sobre la monitorización automática del uso de herramientas durante la cirugía también explotó el contexto temporal junto con las características visuales (Red recurrente, Fig. 3b)64. Un estudio reciente utilizó CASENet para predecir la silueta y los contornos de las crestas del hígado en un conjunto de datos de 5 pacientes que constaba de 133 imágenes65. Aunque el documento se centró en el registro basado en contornos de 3D a 2D, el método se basó en la técnica clásica de visión por computadora utilizando el método Perspective-n-Point con RANSAC para la eliminación de valores atípicos.

Si bien muy pocos trabajos de investigación aplican directamente el aprendizaje profundo a las adquisiciones endoscópicas, este campo tiene un enorme potencial en el desarrollo de métodos automatizados sólidos para la detección de lesiones66,67 y la caracterización68 en la cistoscopia. CystoNet67 se desarrolló utilizando cinco redes totalmente convolucionales para la predicción de píxel a píxel y una propuesta de región separada y una capa de agrupación de ROI para la predicción del cuadro delimitador. El entrenamiento se llevó a cabo en 95 pacientes que contenían 2335 marcos benignos y 417 marcos verificados histológicamente que representaban tumores cancerosos. Además, se utilizaron 54 videos de pacientes con 31 de mucosa normal y los videos de 23 pacientes restantes con tumores para validar el modelo entrenado. Tanto los datos de entrenamiento como los de validación consistieron en cistoscopia con luz blanca y luz azul (BL). El estudio mostró que el algoritmo CystoNet podía identificar el cáncer de vejiga con una sensibilidad por fotograma del 90,9 % y una especificidad del 98,6 %, es decir, el algoritmo detectó 39 de 41 cánceres de vejiga. Se utilizó una estrategia de transferencia de aprendizaje para la cual se perfeccionó un conjunto de diferentes redes CNN profundas previamente entrenadas (Inception V3, red MobileNetV2, ResNet50 y VGG16) y se agregaron capas adicionales encima de cada red68. El estudio tuvo como objetivo tareas de clasificación para imágenes de cistoscopia BL, incluidos tumores benignos frente a malignos, clasificación de tumores (benignos, de bajo grado y de alto grado) e invasividad tumoral (benigno, CIS, Ta, T1 y T2). Los resultados demostraron una sensibilidad del 95,77 % y una especificidad del 87,84 % para la identificación de lesiones malignas, mientras que la sensibilidad media y la especificidad media de la invasividad tumoral fueron del 88 % y el 96,56 %, respectivamente.

Asimismo, para la ureteroscopia se ha desarrollado la caracterización de cálculos renales69,70 y su segmentación para litotricia láser (fragmentación de cálculos renales)71. Para la caracterización de los cálculos69, se obtuvieron cinco composiciones diferentes de un laboratorio de cálculos, incluido el monohidrato de oxalato de calcio (COM), el ácido úrico (UA), el fosfato amónico magnésico hexahidratado (MAPH/estruvita), el fosfato ácido de calcio dihidratado (CHPD/brushita) y la cistina. piedras Sesenta y tres cálculos renales humanos se utilizaron para este estudio, con al menos dos imágenes para cada cálculo. Se utilizó el método de validación cruzada dejar uno fuera para informar los resultados de la clasificación utilizando ResNet101. La especificidad y precisión para cada tipo de piedra fueron (en porcentaje): UA [97.83, 94.12], COM [97.62, 95], estruvita [91.84, 71.43], cisteína [98.31, 75] y brushita [96.43, 75]. Gupta et al.23,71 desarrollaron un enfoque de segmentación basado en el movimiento utilizando UNet para conjuntos de datos tanto in vivo como in vitro. Además del cálculo renal, los autores también segmentaron el instrumento láser y afirmaron que es importante comprender el tamaño del cálculo y la distancia operativa del láser para la litotricia con láser. El HybResUNet inducido por movimiento propuesto mejoró los resultados de la segmentación con un coeficiente de similitud de dados informado del 83,47 % para cálculos y del 86,58 % en muestras de prueba in vivo para la segmentación por láser. Los resultados superaron a las redes de referencia (p. ej., UNet72) tanto para entornos in vivo como in vitro.

Algunos otros tipos de aplicaciones de aprendizaje profundo basadas en imágenes endoscópicas incluyen (a) detección de neoplasias malignas nasofaríngeas73 y segmentación de granulomas y ulceraciones en imágenes adquiridas por laringoscopia74, (b) un algoritmo de aprendizaje profundo de extremo a extremo para segmentar y medir los nervios laríngeos durante la tiroidectomía (un procedimiento quirúrgico)75, y (c) interpretación anatómica basada en aprendizaje profundo de imágenes de videobroncoscopia76. Un artículo reciente de revisión y metanálisis sobre endoscopia laríngea77 sugirió que los modelos de IA presentaban una alta precisión general entre 0,806 y 0,997. Sin embargo, esta revisión no mostró detalles sobre ningún modelo de IA y utilizó tamaños de muestra.

Para este estudio se utilizaron muestras de pacientes confirmadas histológicamente que constaban de 27.536 imágenes, de las cuales el 19,7 % procedían de pacientes sanos, mientras que el resto presentaba diversas enfermedades patológicas, entre ellas, carcinoma benigno (13,2 %) y nasofaríngeo (66 %). Se informó que su precisión general era del 88,7 % utilizando completamente las CNN78. Aquí, se tomó un enfoque de segmentación semántica, que arrojó un coeficiente de similitud de dados de 0,78 ± 0,24 y 0,75 ± 0,26 en conjuntos de prueba retrospectivos y prospectivos, respectivamente. Asimismo, para la laringoscopia74 se anotaron diversas lesiones en 127 imágenes de 25 pacientes para entrenar una arquitectura UNet mostrando una sensibilidad por píxel del 82% para granulomas y del 62,8% para ulceración. La segmentación del nervio laríngeo recurrente, responsable del habla humana, durante la cirugía (tiroidectomía) se logró utilizando el ampliamente conocido enfoque de máscara R-CNN (segmentación de instancia)75. El conjunto de datos incluía varios escenarios desafiantes, como luz tenue, primer plano, lejos y luz brillante y sus combinaciones. Los resultados de la segmentación oscilaron entre 0,343 y 0,707 con un intervalo de confianza del 95 % en 40 sujetos. Si bien los anestesiólogos suelen utilizar videobroncoscopia durante la intubación, la profundidad y la orientación pueden ser difíciles de interpretar. Se desarrolló un sistema de apoyo a la decisión de videobroncoscopia que muestra las ubicaciones anatómicas en varias rotaciones utilizando un modelo EfficientNetB1 con una precisión de clasificación del 0,86 % (rama principal izquierda, rama principal derecha y clases de carina), para lo cual se usaron 6806 imágenes para entrenamiento y 511 para prueba76.

Además de centrarse en la detección de enfermedades diana y su caracterización, la literatura reciente también muestra varios desarrollos de métodos relacionados con ayudar al control de calidad del cribado endoscópico en GI, la detección del sitio anatómico de la mucosa y la estimación o reconstrucción de la profundidad en 3D para la visualización de la escena de la mucosa. Nuestra búsqueda arrojó al menos diez artículos sobre calidad de adquisición endoscópica, cuatro sobre clasificación o detección anatómica y nueve sobre estimación de mapas de profundidad y reconstrucción tridimensional de la mucosa.

La calidad endoscópica es un cuello de botella importante y puede ayudar a reducir las tasas de detección perdida18,19. Los trabajos se centran tanto en los procedimientos endoscópicos del GI superior21,79 como del GI inferior80 en términos de evaluación de la calidad a través del aprendizaje profundo. Mientras que monitorear los puntos ciegos mediante la clasificación de sitios fue un indicador del control de calidad21, los artefactos como el desenfoque, las burbujas, la especularidad, la saturación y el contraste en los marcos endoscópicos fueron un indicador de la calidad en el otro estudio79. Las redes DCNN estándar para el control de calidad se utilizaron en el artículo clínico21. Sin embargo, para el marco basado en la metodología79, la propuesta consistía en combinar diferentes pesos de los cuadros delimitadores encontrados de un detector YOLOv3 con un método de agrupación de pirámide espacial para obtener una puntuación de calidad agregada final y se propusieron otras técnicas de restauración para marcos parcialmente defectuosos con fines visuales. Para puntuar la preparación intestinal80, se utilizó una red residual profunda de atención dividida para el entrenamiento. Los resultados de la prueba en 927 imágenes del conjunto de datos externo mostraron una precisión general del 96,7 %. De manera similar, un estudio centrado en comprender el porcentaje de visualización de la mucosa en el intestino delgado durante VCE utilizó una red neuronal de convolución simple y completamente conectada81. De manera similar, la mayoría de los trabajos de clasificación de puntos de referencia solo aplicaron redes CNN estándar que mostraron una buena precisión en la clasificación de los sitios de puntos de referencia (p. ej., valores de recuperación superiores al 90% para 9 de 11 clases de sitios82), ampliamente basados ​​en los procedimientos OGD que incluyen el esófago, el estómago y el duodeno82,83.

Se desarrollaron redes de estimación de profundidad para casos monoculares (es decir, una adquisición de una sola cámara ampliamente utilizada por la mayoría de los sistemas de endoscopia)22,84,85,86,87. Si bien se exploró una técnica de aprendizaje autosupervisado para la estimación de profundidad utilizando una red siamesa de una herramienta SfM anterior basada en estimaciones de profundidad dispersas de secuencias de video84, el trabajo reciente de Shao et al.87 exploró la suposición de constancia de brillo para lidiar con la variabilidad de la iluminación de la escena endoscópica pero de nuevo utilizando el marco de autosupervisión. El primero usó videos endoscópicos de los senos paranasales que demostraron una diferencia relativa absoluta de 0,20 mm, mientras que el segundo se evaluó en cuatro conjuntos de datos públicos diferentes, incluido un tracto gastrointestinal (porcino ex vivo)86 donde el error de trayectoria absoluto fue de 0,13 en comparación con el 0,20 publicado anteriormente en Colon IV86 . Otro trabajo22 utilizó una red de estimación de profundidad totalmente supervisada para cuantificar la longitud del esófago de Barrett para la estratificación del riesgo. Estas medidas mostraron una buena correlación con su maniquí impreso en 3D tanto en longitud como en área, con un error relativo por debajo del 5 % en todos los casos (diferencia relativa máxima de 0,25 mm en la longitud y 0,43 mm2 en el área).

En general, la mayoría de los trabajos actuales en el análisis de imágenes endoscópicas se adoptan de la visión por computadora publicada anteriormente y otras arquitecturas de imágenes médicas. Algunas de estas redes populares incluyen arquitecturas Faster-R-CNN88, YOLO89, UNet72, DeepLab90 implementadas con redes troncales conocidas, como VGG1991, ResNet92 y EfficientNet93. Sin embargo, los métodos informados en los artículos, desde la clasificación hasta la detección y la segmentación, han contribuido principalmente a su aplicabilidad al resolver los problemas clínicos necesarios y realizar una evaluación exhaustiva de los conjuntos de datos de los pacientes. Una perspectiva técnica proporcionada en la ref. 29 sugirieron el uso de transformadores visuales, más modelos híbridos, la inclusión de la explicabilidad en los modelos de IA, el uso de enfoques no supervisados ​​y semi-supervisados ​​y el uso de modelos generativos. La reproducibilidad y la prueba de métodos en condiciones clínicas reales fueron los principales problemas planteados en otra revisión técnica sobre métodos de DL para pólipos colorrectales31.

Por lo tanto, a pesar de la eficacia informada de estos métodos en datos seleccionados retrospectivamente1,2, los estudios de datos prospectivos no se realizan o tienen uno o unos pocos análisis basados ​​en el centro94,95, lo que hace que la aplicabilidad clínica sea cuestionable. El avance de la IA ha tenido un impacto positivo en las oportunidades de aplicación para la ayuda en procedimientos endoscópicos y el análisis de datos endoscópicos. Por un lado, numerosos estudios publicados en revistas clínicas1,2,39 han mostrado sus posibilidades de aplicación. Sin embargo, no comparan rigurosamente otras arquitecturas. Se requieren nuevos desarrollos de métodos de DL orientados hacia la capacitación en diversos conjuntos de datos endoscópicos, la introducción de la explicabilidad de los resultados y más trabajos técnicos para acelerar este campo. Por el contrario, los publicados en revistas técnicas no utilizan datos multicéntricos exhaustivos12,14,23. Esto se debe a que la mayoría de estos trabajos se centran principalmente en el uso de conjuntos de datos recopilados retrospectivamente para la validación algorítmica. Se puede argumentar que los entornos clínicos del mundo real pueden ser muy diversos en comparación con los conjuntos de datos seleccionados. De manera similar, la escasez de datos o la falta de datos anotados y la variabilidad significativa en los casos de enfermedades pueden generar problemas de desequilibrio de datos. Algunos de los trabajos recientes publicados en revistas técnicas han tratado de abordar estas importantes preocupaciones en el campo del análisis de imágenes endoscópicas mediante la inclusión de enfoques de aprendizaje de un disparo o de varios disparos96, enfoques de metaaprendizaje97 y técnicas semisupervisadas98. Sin embargo, aún no se puede señalar el abordaje de tales problemas en casos clínicos prospectivos. Además, algunos casos de enfermedades, como la colitis ulcerosa99,100, son complejos, con cambios muy sutiles entre los tipos de úlceras leves y graves, lo que dificulta su clasificación (precisión inferior al 85%) utilizando métodos basados ​​en DL con precisión.

Las técnicas supervisadas ampliamente utilizadas son voraces de datos y requieren muchas anotaciones humanas. Al mismo tiempo, los métodos supervisados ​​también pueden inducir sesgos debido a etiquetas imperfectas o a una distribución diferente de los datos, posiblemente debido a otras modalidades de imágenes o incluso a los diferentes dispositivos de alcance utilizados para generar datos. Un conjunto de datos de iid independiente e idénticamente distribuido a menudo es difícil de realizar101 y no representa la variabilidad del paciente presente incluso en una cohorte de pacientes seleccionada con procedimientos endoscópicos similares y con el mismo endoscopio. Además, el uso de estas técnicas de manera independiente con solo etiquetas seleccionadas de una cohorte fija de pacientes tiende a sobreajustar las muestras que predominan en otras cohortes o incluso lo mismo, ya que es probable que la variabilidad cambie con el tiempo. Además, las imágenes endoscópicas incluyen adquisición multimodal, vistas variadas y cambios en la mucosa que pueden ser más variados que cualquier otra modalidad de imágenes. El movimiento de manos libres de los endoscopistas para visualizar la mucosa o un órgano puede causar desafíos inevitables al algoritmo. En realidad, los datos de imágenes endoscópicas bien seleccionados no los capturarán y pueden afectar el rendimiento del algoritmo en la clínica. Varios modelos supervisados ​​tienen poca capacidad de generalización en una observación muy cercana, pero solo usan un conjunto de datos de colonoscopia diferente102,103. Un trabajo publicado recientemente102 mostró que la mayoría de las arquitecturas de DL, incluida la ampliamente utilizada UNet, informaron una caída del rendimiento de más del 20 % cuando se utilizó un conjunto de datos de colonoscopia diferente para el entrenamiento y las pruebas. Por ejemplo, UNet disminuyó la puntuación de similitud de Dice de 0,86 cuando se usaron datos de entrenamiento y de prueba del mismo conjunto de datos público a 0,62 cuando los datos de prueba diferían del conjunto de datos de entrenamiento. Como la mayoría de los trabajos realizan conjuntos de entrenamiento, validación y prueba a partir del mismo conjunto de datos, los estudios de generalizabilidad son muy limitados en el análisis de imágenes médicas. Por lo tanto, esta área de investigación es crítica para que los algoritmos se adapten a los conjuntos de datos producidos en diferentes clínicas y proporciones variables. Estudios previos han demostrado que los resultados han sido sesgados hacia el centro con más datos en el entrenamiento incluso cuando se realiza un entrenamiento combinado103.

La mayoría de los métodos desarrollados utilizan imágenes de luz blanca convencionales. Aunque las modalidades especializadas han demostrado ser útiles para detectar y diagnosticar lesiones particulares, se puede encontrar muy poca investigación sobre modalidades más especializadas (ver Tabla 1). Por ejemplo, la cromoendoscopia es un procedimiento médico bien establecido para mejorar la caracterización de los tejidos de la mucosa GI104. Durante estos procedimientos, se utilizan tintes especiales junto con endoscopia óptica. Los detalles observados pueden permitir la identificación de la patología. De manera similar, la cistoscopia de fluorescencia68 (también conocida como cistoscopia BL o diagnóstico fotodinámico) en las prácticas clínicas de rutina puede mejorar la detección y visualización de tumores papilares de vejiga y lesiones de carcinoma in situ en comparación con la cistoscopia de luz blanca estándar. Entonces, ¿por qué no explotar estos datos además de la modalidad de luz blanca convencional para una detección y caracterización más precisa de las lesiones? La exploración de vías multimodales avanzará en la detección temprana, ya que contienen buenos patrones visuales que a menudo no son visibles en los procedimientos estándar (p. ej., técnica endoscópica espectral105). Sin embargo, las técnicas avanzadas también requieren capacitación y preparación para el procedimiento. Por lo tanto, aprender a adaptarse a partir de las muestras existentes y las modalidades estándar ampliamente disponibles que se utilizan en las prácticas diarias puede ser un camino a seguir. Las técnicas de adaptación y generalización de dominios son necesidades actuales no satisfechas en esta área.

La evaluación algorítmica es fundamental para el desarrollo de mejores enfoques científicos. Estas evaluaciones juegan un papel importante en la determinación de la solidez de los métodos desarrollados para la traducción clínica. En el contexto de las técnicas de aprendizaje profundo, tanto el tamaño del conjunto de datos de prueba como el uso de métricas de evaluación que reflejen su desempeño son esenciales. Sin embargo, es difícil establecer qué número de muestras de prueba proporciona resultados no sesgados. Si bien los conjuntos de pruebas invisibles determinan la generalización de los enfoques, la mayoría de las técnicas supervisadas diseñadas no son sólidas para las distribuciones de datos invisibles106. Por lo tanto, las evaluaciones de generalizabilidad o las pruebas de robustez a menudo no se incluyen en la mayoría de los artículos. Aunque las métricas estándar de visión por computadora se informan en los documentos (p. ej., precisión de 1 superior, coeficiente de Sørensen-Dice, intersección sobre unión, precisión y recuperación), se requiere incluir una métrica que evalúe el sesgo entre el conjunto de validación y el conjunto de prueba. . Tal enfoque puede fortalecer la comprensión del ajuste de hiperparámetros y su efecto en el conjunto de datos de prueba invisible. Además, la mayoría de los estudios actuales no investigan la distribución de datos ni ilustran gráficos de distribución que demuestren la variación en los datos y los resultados. Dado que los estudios de varianza son esenciales para comprender la consistencia del rendimiento algorítmico, los informes deben incluirse como parte de la validación algorítmica.

Con el progreso reciente en la mejora del hardware, se han ideado algoritmos DL que son más precisos y más rápidos al mismo tiempo. Sin embargo, la necesidad de rendimiento en tiempo real para algunas tareas, específicamente en la detección, el diagnóstico y los procedimientos quirúrgicos de enfermedades endoscópicas, es más crítica. Aún así, el requisito de hardware de alta gama para obtener una velocidad y precisión razonables puede ser económicamente inviable en algunos centros de atención médica o difícil de adaptar en entornos clínicos. Como resultado, es importante tener en cuenta las opciones de diseño de red, ya sea sin sacrificar el rendimiento o es imperativo elegir adecuadamente un compromiso aceptable entre velocidad y precisión. Se pueden considerar redes ligeras más rápidas como PeleeNet107 con solo 5,4 millones de parámetros con una precisión mejorada en comparación con los diseños SOTA MobileNet108 y Tiny-YOLOv2109. Además, los métodos de compresión de modelos pueden permitir que los métodos DL se ejecuten en dispositivos con capacidades computacionales limitadas mientras se mantiene el rendimiento competitivo de la red original. Este método incluye técnicas de poda, cuantificación, destilación de conocimiento y búsqueda de arquitectura de red110.

La mayoría de los métodos se basan en lesiones precancerosas o cáncer más evidentes (p. ej., displasia de alto grado1,2,68, pólipos42,43). Por lo tanto, la necesidad de identificar el desarrollo precanceroso temprano sutil sigue sin explorarse con la endoscopia convencional. En este sentido, los cambios neoplásicos en una etapa muy temprana, las inflamaciones y otras anomalías tisulares que explican el desarrollo de infecciones graves que amenazan la vida deberían ser el foco de nuevos desarrollos de IA. Por ejemplo, la sensibilidad de la puntuación MCES en pacientes con EII sigue siendo baja, con una sensibilidad del 83 %, aunque se realizó una clasificación binaria combinando las puntuaciones 0 y 1 como una clase y las puntuaciones 2 y 3 como otra clase11, que es mucho más baja que otras técnicas de clasificación de lesiones. Sin embargo, los desarrollos actuales, incluso para lesiones neoplásicas obvias, son definitivamente de interés ya que pueden reducir la subjetividad en los procedimientos de tratamiento y manejo del paciente.

Si bien la reconstrucción 3D de la mucosa se ha explorado durante más de una década debido a la desafiante adquisición de imágenes endoscópicas, esta dirección de investigación sigue siendo un desafío. Las técnicas de estimación de profundidad basadas en el aprendizaje profundo han abierto una oportunidad para la reconstrucción 3D de la mucosa22,84,85,86,87; sin embargo, debido a las trayectorias endoscópicas complejas y los movimientos de la mucosa, especialmente en los órganos huecos como el colon, la visualización de la mucosa de la mucosa completa en 3D sigue siendo un problema abierto. Además, los enfoques basados ​​en datos aún no se han innovado en cirugía para el registro preoperatorio y posoperatorio.

Con varias modalidades complementarias diseñadas y utilizadas en procedimientos clínicos de rutina, incluida la endoscopia espectral, la técnica de dispersión de Raman, la microendoscopia y la histopatología digital (biopsia óptica), se ha realizado un esfuerzo mínimo o nulo para explorar métodos basados ​​en datos para multiescala y multimodal. técnicas de fusión de datos. Si bien los hallazgos se corresponden con la endoscopia, por ejemplo, en la endoscopia espectral105, estas señales no se registran en la región donde se generan.

En esta revisión, se destacan los enfoques recientes de aprendizaje profundo que tenían como objetivo minimizar la variabilidad inter e intraobservador en los procedimientos clínicos. Estos métodos desarrollados se centraron principalmente en la detección automática de lesiones, caracterización, localización, segmentación, apoyo quirúrgico y visualización o medición en 3D. También describimos los desafíos y las brechas actuales en estos enfoques basados ​​en IA y sus estrategias de validación. Los trabajos de investigación en la comunidad endoscópica se orientan principalmente en gran medida a la aplicación de métodos de la comunidad de la visión, lo que demuestra un progreso sombrío en el desarrollo de métodos únicos basados ​​en problemas y la falta de estudios integrales multicéntricos. La validación superficial de los algoritmos y la carrera por publicar han afectado principalmente la calidad de la investigación en esta área. Además, las necesidades actuales se ignoran debido a esto, y la mayoría de las lesiones aparentes se seleccionan de forma repetitiva en lugar de trabajar en lesiones sutiles planas o sésiles o cambios neoplásicos tempranos. Tomando una posición audaz, a continuación se proponen direcciones futuras con el supuesto de que estas propuestas ayudarán a desarrollar enfoques de IA imparciales, avanzados y clínicamente prácticos que son las necesidades de hoy.

Si bien cada procedimiento endoscópico es único, los avances metodológicos son más progresivos y repetitivos en uno que en otro. Si bien esto abre una oportunidad para los desarrolladores de algoritmos donde las aplicaciones aún son poco comunes, la falta de conjuntos de datos y la poca participación de expertos clínicos han hecho que estos tipos de procedimientos sean menos atractivos. Sin embargo, existe una clara oportunidad y necesidad de desarrollos similares de estas tecnologías de asistencia informática en todos los procedimientos endoscópicos para mejorar la atención al paciente. Por ejemplo, abordar la patología gastrointestinal utilizando IA tiene una abrumadora cantidad de artículos25,31 (consulte la sección 'Endoscopia gastrointestinal asistida por computadora'). Por el contrario, a pesar de que los procedimientos de cistoscopia y ureteroscopia son igualmente desafiantes, la literatura muestra un trabajo mínimo informado hasta el momento66,71.

Las preguntas son '¿Qué es difícil de evaluar en los procedimientos clínicos de rutina?'; y '¿qué IA debería elegir en términos de detección y diagnóstico?' ¿Las lesiones son fáciles de localizar por un becario clínico capacitado, o es difícil encontrarlas incluso por parte de un experto (p. ej., lesiones discretas)? Los desarrollos algorítmicos especializados y más tiempo de expertos en la curación de datos son vitales para el último caso. Junto a esto, las modalidades complementarias pueden desempeñar un papel importante en la evaluación de lesiones ocultas y sutiles que pueden dañar a los pacientes20,21. Si bien la visión humana es limitada y la mente solo puede interpretar lo que el ojo le da sentido, las computadoras pueden resolver datos más complejos, como firmas de datos multimodales y de múltiples escalas105. La multimodalidad es la clave para responder a las preguntas anteriores y es el camino a seguir para abordar las lesiones difíciles de encontrar. Al mismo tiempo, la escala múltiple puede proporcionar una caracterización más detallada para comprenderla mejor, lo que puede complementar la fortaleza de la IA en este campo.

La validación del método debe evaluarse primero en un conjunto de datos retrospectivo multicéntrico y heterogéneo. Dado que el aprendizaje profundo es muy susceptible a la distribución de datos, un modelo entrenado en un dispositivo de imágenes en particular o una población puede conducir al monopolio del mercado y al acceso limitado a sistemas de atención médica avanzados. Como resultado, impacta significativamente en la sociedad y la economía. Animar a la comunidad investigadora a incluir evaluaciones de generalizabilidad es la única forma de lograr un ecosistema de desarrollo de métodos más seguro y deseable. Si bien el acceso a los datos debido a problemas de privacidad puede dificultar la evaluación, el camino a seguir en esta dirección es utilizar un enfoque de aprendizaje federado que permita evaluar datos multicéntricos y ayudar en el desarrollo de métodos generalizables que puedan usarse tanto para construir y validar métodos111.

El acceso a más conjuntos de datos adquiridos clínicamente disponibles públicamente que consisten en datos curados y del mundo real puede ser fundamental para el desarrollo algorítmico y su adaptación a escenarios clínicos. Algunos ejemplos de estos conjuntos de datos incluyen videos colonoscópicos y anotaciones relacionadas en LDPolypVideo112 y el conjunto de datos ROBUST-MIS para la detección, segmentación y seguimiento de herramientas quirúrgicas113. Conjuntos de datos integrales similares pueden ayudar a evaluar métodos y fomentar los avances técnicos hacia la viabilidad de traducción. Además, para evaluar la usabilidad en escenarios clínicos, los enfoques desarrollados también pueden alentarse para realizar estudios prospectivos en algunos centros comunitarios. Idealmente, los estudios clínicos en centros locales deberían ser aceptables para comprender la viabilidad traslacional y los factores limitantes.

Con las crecientes arquitecturas de redes profundas y el análisis de grandes volúmenes de datos (p. ej., videos en endoscopia), ha habido un consumo de energía y una huella de carbono cada vez mayores de los métodos de DL que deben ser abordados por la comunidad114. Se debe alentar a los equipos editoriales a evaluar cada trabajo enviado que involucre enfoques basados ​​​​en IA utilizando métricas adicionales antes de enviarlo para revisión por pares. Estas métricas pueden incluir: (1) se debe alentar a los artículos que usan redes de DL más grandes que son impracticables en entornos clínicos y son responsables de una alta huella de carbono115 a realizar estrategias de compacidad del modelo y justificar las opciones de selección del modelo, (2) la importancia del trabajo realizado deben ponderarse mediante la evaluación de la comparación de la novedad del método frente a los métodos más avanzados, y (3) deben evaluarse los experimentos de robustez frente al tiempo de ejecución de la prueba. Los trabajos enviados deben describir claramente estos parámetros en su resumen en papel enviado y proporcionar una lista de verificación obligatoria como un archivo adicional durante el envío.

de Groof, AJ et al. El sistema de aprendizaje profundo detecta la neoplasia en pacientes con esófago de Barrett con mayor precisión que los endoscopistas en un estudio de capacitación y validación de varios pasos con evaluación comparativa. Gastroenterología 158, 915–929.e4 (2020).

Artículo Google Académico

Ebigbo, A. et al. Diagnóstico asistido por computadora usando aprendizaje profundo en la evaluación del adenocarcinoma de esófago temprano. Tripa 68, 1143-1145 (2019).

Artículo Google Académico

Zhang, Y. et al. Diagnóstico de gastritis atrófica crónica mediante gastroscopia utilizando inteligencia artificial. Excavar. enfermedad del hígado 52, 566–572 (2020).

Artículo Google Académico

Guimarães, P., Keller, A., Fehlmann, T., Lammert, F. y Casper, M. Detección de condiciones precancerosas gástricas basada en el aprendizaje profundo. Tripa 69, 4–6 (2020).

Artículo Google Académico

Everson, M. et al. Inteligencia artificial para la clasificación en tiempo real de patrones de asas capilares intrapapilares en el diagnóstico endoscópico de carcinoma de células escamosas de esófago temprano: un estudio de prueba de concepto. Unidos Eur. Gastroenterol. J. 7, 297–306 (2019).

Artículo CAS Google Académico

Ozawa, T. et al. Detección y clasificación endoscópica automatizada de pólipos colorrectales utilizando redes neuronales convolucionales. terapia Adv. Gastroenterol. 13, 1756284820910659 (2020).

Artículo Google Académico

Byrne, MF et al. Diferenciación en tiempo real de pólipos colorrectales diminutos adenomatosos e hiperplásicos durante el análisis de videos inalterados de colonoscopia estándar utilizando un modelo de aprendizaje profundo. Intestino 68, 94–100 (2019).

Artículo Google Académico

Canción, EM et al. Diagnóstico endoscópico y planificación del tratamiento de los pólipos colorrectales mediante un modelo de aprendizaje profundo. ciencia Rep. 10, 30 (2020).

Jin, EH et al. Precisión mejorada en el diagnóstico óptico de pólipos colorrectales utilizando redes neuronales convolucionales con explicaciones visuales. Gastroenterología 158, 2169–2179.e8 (2020).

Artículo Google Académico

Chen, P.-J. et al. Clasificación precisa de diminutos pólipos colorrectales mediante análisis asistido por computadora. Gastroenterología 154, 568–575 (2018).

Artículo Google Académico

Stidham, RW y col. Desempeño de un modelo de aprendizaje profundo frente a revisores humanos en la clasificación de la gravedad de la enfermedad endoscópica de pacientes con colitis ulcerosa. Red JAMA Abierto 2, e193963 (2019).

Artículo Google Académico

Jin, Y. et al. Red convolucional recurrente multitarea con pérdida de correlación para análisis de video quirúrgico. Medicina. Anal de imagen. 59, 101572 (2020).

Artículo Google Académico

Colleoni, E., Edwards, P. & Stoyanov, D. Entradas sintéticas y reales para la segmentación de herramientas en cirugía robótica. En International Conference on Medical Image Computing and Computer-Assisted Intervention – MICCAI (Medical Image Computing and Computer Assisted Intervention, 2020).

Kannan, S., Yengera, G., Mutter, D., Marescaux, J. & Padoy, N. Lstm de predicción del estado futuro para el reconocimiento temprano del tipo de cirugía. Trans. IEEE. Medicina. Imágenes 39, 556–566 (2020).

Artículo Google Académico

Gong, J. et al. Uso del aprendizaje profundo para identificar el nervio laríngeo recurrente durante la tiroidectomía. ciencia Rep. 11, 14306 (2021).

Artículo CAS Google Académico

Koo, B. et al. Registro automático y global en cirugía hepática laparoscópica. En t. J. Cómputo. Asistir. Radiol. Cirugía 17, 167–176 (2022).

Artículo Google Académico

Ali, S. et al. Una comparación objetiva de algoritmos de detección y segmentación de artefactos en endoscopia clínica. ciencia Rep. 10, 1–15 (2020).

Google Académico

Rees, CJ et al. Indicadores clave de rendimiento del Reino Unido y estándares de garantía de calidad para la colonoscopia. Tripa 65, 1923-1929 (2016).

Artículo Google Académico

Beg, S. et al. Estándares de calidad en endoscopia gastrointestinal superior: una declaración de posición de la Sociedad Británica de Gastroenterología (BSG) y la Asociación de Cirujanos Gastrointestinales Superiores de Gran Bretaña e Irlanda (AUGIS). Tripa 66, 1886–1899 (2017).

Artículo Google Académico

McGill, SK et al. La inteligencia artificial identifica y cuantifica los puntos ciegos de la colonoscopia. Endoscopia 53, 1284–1286 (2021).

Artículo Google Académico

Wu, L. et al. Ensayo controlado aleatorio de Wisense, un sistema de mejora de la calidad en tiempo real para monitorear los puntos ciegos durante la esofagogastroduodenoscopia. Tripa 68, 2161–2169 (2019).

Artículo Google Académico

Ali, S. et al. Un estudio piloto sobre la cuantificación tridimensional automática del esófago de Barrett para la estratificación del riesgo y el seguimiento de la terapia. Gastroenterología 161, 865–878.e8 (2021).

Artículo Google Académico

Gupta, S., Ali, S., Goldsmith, L., Turney, B. & Rittscher, J. Mi-unet: segmentación mejorada en ureteroscopia. En 2020 IEEE 17º Simposio Internacional sobre Imágenes Biomédicas (ISBI) 212–216 (2020).

Shkolyar, E. et al. Detección aumentada de tumores de vejiga mediante aprendizaje profundo. EUR. Urol. 76, 714–718 (2019).

Artículo Google Académico

Tokat, M., van Tilburg, L., Koch, AD & Spaander, MCW Inteligencia artificial en la endoscopia gastrointestinal superior. Excavar. Dis. 40, 395–408 (2022).

Artículo Google Académico

Sumiyama, K., Futakuchi, T., Kamba, S., Matsui, H. y Tamai, N. Inteligencia artificial en endoscopia: perspectivas presentes y futuras. Excavar. Endosc. 33, 218–230 (2021).

Artículo Google Académico

Wang, Y., Sun, Q., Liu, Z. & Gu, L. Detección visual y algoritmos de seguimiento para instrumentos quirúrgicos mínimamente invasivos: una revisión exhaustiva del estado del arte. Robar. Auton. sist. 149, 103945 (2022).

Artículo Google Académico

Anteby, R. et al. Análisis visual de aprendizaje profundo en cirugía laparoscópica: una revisión sistemática y un metanálisis de precisión de la prueba diagnóstica. Cirugía Endosc. 35, 1521-1533 (2021).

Artículo Google Académico

Renna, F. et al. Inteligencia artificial para la endoscopia gastrointestinal superior: una hoja de ruta desde el desarrollo tecnológico hasta la práctica clínica. Diagnostics (Basilea, Suiza) 12, 1278 (2022).

Google Académico

Misawa, M. et al. Estado actual y perspectiva de futuro de la inteligencia artificial para la endoscopia inferior. Excavar. Endosc. 33, 273–284 (2021).

Artículo Google Académico

Sanchez-Peralta, LF, Bote-Curiel, L., Picon, A., Sanchez-Margallo, FM & Payer, JB Aprendizaje profundo para encontrar pólipos colorrectales en la colonoscopia: una revisión sistemática de la literatura. Artefacto Intel. Medicina. Rev. 108, 101923 (2020).

Artículo Google Académico

Tontini, GE et al. Inteligencia artificial en la endoscopia gastrointestinal para la enfermedad inflamatoria intestinal: una revisión sistemática y nuevos horizontes. terapia Adv. Gastroenterol. 14, 17562848211017730 (2021).

Artículo Google Académico

Nakase, H. et al. La endoscopia asistida por inteligencia artificial cambia la definición de curación de la mucosa en la colitis ulcerosa. Excavar. Endosc. 33, 903–911 (2021).

Google Académico

Okagawa, Y., Abe, S., Yamada, M., Oda, I. y Saito, Y. Inteligencia artificial en endoscopia. Excavar. Dis. ciencia 67, 1553–1572 (2022).

Artículo Google Académico

Corley, DA et al. Tasa de detección de adenomas y riesgo de cáncer colorrectal y muerte. N. ingl. J.Med. 370, 1298–1306 (2014). PMID: 24693890.

Artículo CAS Google Académico

Schmelzle, M., Krenzien, F., Schöning, W. & Pratschke, J. Resección hepática laparoscópica: indicaciones, limitaciones y aspectos económicos. Arco de Langenbecks. Cirugía 405, 725–735 (2020).

Artículo Google Académico

Kim, J.-J. et al. Visualización de gran campo de visión utilizando múltiples cámaras miniaturizadas para cirugía laparoscópica. Micromachines (Basilea) 9, 431 (2018).

Zhou, W. et al. Validación de varios pasos de un sistema basado en aprendizaje profundo para la cuantificación de la preparación intestinal: un estudio observacional prospectivo. Dígito de lanceta. Salud 3, e697–e706 (2021).

Artículo Google Académico

Guo, L. et al. Diagnóstico automatizado en tiempo real de lesiones precancerosas y carcinoma de células escamosas de esófago temprano utilizando un modelo de aprendizaje profundo (con videos). Gastrointestinal. Endosc. 91, 41–51 (2020).

Artículo Google Académico

Bancos, M. et al. Directrices de la Sociedad Británica de Gastroenterología sobre el diagnóstico y tratamiento de pacientes con riesgo de adenocarcinoma gástrico. Tripa 68, 1545-1575 (2019).

Artículo Google Académico

Mu, G. et al. Clasificación de nivel experto de gastritis por endoscopia utilizando aprendizaje profundo: un ensayo de diagnóstico multicéntrico. Endosc. En t. Abierto 09, E955–E964 (2021).

Artículo Google Académico

Misawa, M. et al. Detección de pólipos para colonoscopia asistida por inteligencia artificial: experiencia inicial. Gastroenterología 154, 2027–2029.e3 (2018).

Artículo Google Académico

Urbano, G. et al. El aprendizaje profundo localiza e identifica pólipos en tiempo real con una precisión del 96 % en la colonoscopia de detección. Gastroenterología 155, 1069–1078.e8 (2018).

Artículo Google Académico

Ozawa, T. et al. Nuevo sistema de diagnóstico asistido por computadora para la actividad de la enfermedad endoscópica en pacientes con colitis ulcerosa. Gastrointestinal. Endosc. 89, 416–421.e1 (2019).

Artículo Google Académico

Becker, BG et al. Capacitación e implementación de un modelo de aprendizaje profundo para la clasificación de la gravedad endoscópica en la colitis ulcerosa utilizando datos de ensayos clínicos multicéntricos. terapia Adv. Gastrointestinal. Endosc. 14, 2631774521990623 (2021).

Google Académico

Klang, E. et al. Algoritmos de aprendizaje profundo para la detección automática de úlceras por enfermedad de Crohn mediante endoscopia con cápsula de video. Gastrointestinal. Endosc. 91, 606–613.e2 (2020).

Artículo Google Académico

Mascarenhas Saraiva, MJ et al. Aprendizaje profundo y cápsula endoscópica: identificación y diferenciación automáticas de lesiones del intestino delgado con un potencial hemorrágico distinto utilizando una red neuronal convolucional. Gastroenterol Abierto BMJ. 8, e000753 (2021).

Zhou, D. et al. Evaluación diagnóstica de un modelo de aprendizaje profundo para el diagnóstico óptico del cáncer colorrectal. Nat. común 11, 2961 (2020).

Artículo CAS Google Académico

Bernal, J. et al. Validación comparativa de métodos de detección de pólipos en videocolonoscopia: resultados del desafío de visión endoscópica miccai 2015. Trans. IEEE. Medicina. Imágenes 36, 1231–1249 (2017).

Artículo Google Académico

Qadir, HA et al. Detección y segmentación de pólipos mediante máscara r-cnn: ¿un extractor de características más profundo cnn siempre funciona mejor? En 2019, 13.º Simposio internacional sobre tecnología de la información y la comunicación médicas (ISMICT) 1–6 (2019).

Wan, J., Chen, B. & Yu, Y. Detección de pólipos a partir de imágenes colorrectales mediante el uso de yolov5 atento. Diagnóstico 11, 2264 (2021).

Artículo Google Académico

Wang, D. et al. AFP-Net: Detección de pólipos en tiempo real sin anclaje en colonoscopia. En 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI) 636–643 (IEEE, 2019).

Law, H. & Deng, J. Cornernet: detección de objetos como puntos clave emparejados. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV) 734–750 (2018).

González-Bueno Puyal, J. et al. Detección de pólipos en videocolonoscopia utilizando un cnn híbrido 2d/3d. Medicina. Anal de imagen. 82, 102625 (2022).

Ghatwary, N., Zolgharni, M., Janan, F. & Ye, X. Aprendizaje de características espaciotemporales para la detección de anomalías esofágicas a partir de videos endoscópicos. IEEE J. Biomédica. Informe de Salud. 25, 131–142 (2020).

Artículo Google Académico

Nguyen, N.-Q. & Lee, S.-W. Sólida segmentación de límites en imágenes médicas utilizando una red codificadora-decodificadora profunda consecutiva. Acceso IEEE 7, 33795–33808 (2019).

Artículo Google Académico

Tomar, NK, Jha, D., Bagci, U. & Ali, S. TGANet: atención guiada por texto para mejorar la segmentación de pólipos. En Computación de imágenes médicas e intervención asistida por computadora - MICCAI 2022, 151–160 (Springer Nature Suiza, Cham, 2022).

Safarov, S. & Whangbo, TK A-DenseUNet: unet adaptativo densamente conectado para la segmentación de pólipos en imágenes de colonoscopia con circunvolución atrosa. Sensores 21, 1441 (2021).

Artículo Google Académico

Zhang, Y., Liu, H. y Hu, Q. TransFuse: fusión de transformadores y cnns para la segmentación de imágenes médicas. In Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2021: 24.ª Conferencia internacional, Estrasburgo, Francia, 27 de septiembre al 1 de octubre de 2021, Actas, Parte I, 14–24 (Springer-Verlag, Berlín, Heidelberg, 2021). https://doi.org/10.1007/978-3-030-87193-2_2.

Duc, NT, Oanh, NT, Thuy, NT, Triet, TM & Dinh, VS ColonFormer: un método eficiente basado en transformadores para la segmentación de pólipos de colon. Acceso IEEE 10, 80575–80586 (2022).

Artículo Google Académico

Madad Zadeh, S. et al. SurgAI: aprendizaje profundo para la comprensión de imágenes laparoscópicas computarizadas en ginecología. Cirugía Endosc. 34, 5377–5383 (2020).

Artículo Google Académico

Namazi, B., Sankaranarayanan, G. & Devarajan, V. Un detector contextual de herramientas quirúrgicas en videos laparoscópicos usando aprendizaje profundo. Cirugía Endosc. 36, 679–688 (2022).

Artículo Google Académico

Samuel, DJ & Cuzzolin, F. Detección de anomalías no supervisadas para un cirujano asistente robótico autónomo inteligente (SARAS) utilizando un codificador automático residual profundo. Robot IEEE. automático Letón. 6, 7256–7261 (2021).

Artículo Google Académico

Al Hajj, H., Lamard, M., Conze, P.-H., Cochener, B. & Quellec, G. Uso de herramientas de monitoreo en videos de cirugía usando redes neuronales recurrentes y convolucionales potenciadas. Medicina. Anal de imagen. 47, 203–218 (2018).

Artículo Google Académico

Koo, B. et al. Registro automático y global en cirugía hepática laparoscópica. En t. J. Cómputo. Asistir. Radiol. Cirugía 17, 167–176 (2022).

Artículo Google Académico

Ikeda, A. et al. Sistema de apoyo al diagnóstico cistoscópico del cáncer de vejiga basado en inteligencia artificial. J. Endourol. 34, 352–358 (2020).

Artículo Google Académico

Shkolyar, E. et al. Detección aumentada de tumores de vejiga mediante aprendizaje profundo. EUR. Urol. 76, 714–718 (2019).

Artículo Google Académico

Ali, N. et al. Clasificación basada en el aprendizaje profundo de imágenes de cistoscopia con luz azul durante la resección transuretral de tumores de vejiga. ciencia Rep. 11, 11629 (2021).

Artículo CAS Google Académico

Black, KM, Law, H., Aldoukhi, A., Deng, J. & Ghani, KR Algoritmo de visión artificial de aprendizaje profundo para detectar la composición de cálculos renales. Hermano J. Urol. En t. 125, 920–924 (2020).

Artículo CAS Google Académico

López, F. et al. Evaluación de métodos de aprendizaje profundo para la identificación de cálculos renales en imágenes endoscópicas. En 2021, 43.ª Conferencia internacional anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC) 2778–2781 (2021).

Gupta, S., Ali, S., Goldsmith, L., Turney, B. y Rittscher, J. Segmentación semántica basada en el movimiento de varias clases para ureteroscopia y litotricia con láser. computar Medicina. Gráfico de imágenes. 101, 102112 (2022).

Artículo Google Académico

Ronneberger, O., Fischer, P. & Brox, T. U-net: redes convolucionales para la segmentación de imágenes biomédicas. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 234–241 (Springer, 2015).

Li, C. et al. Desarrollo y validación de un modelo de aprendizaje profundo basado en imágenes endoscópicas para la detección de tumores malignos nasofaríngeos. Cáncer Comun. (Londres.) 38, 59 (2018).

Artículo Google Académico

Parker, F., Brodsky, MB, Akst, LM & Ali, H. Aprendizaje automático en el análisis de laringoscopia: un estudio observacional de prueba de concepto para la identificación de ulceraciones y granulomas posteriores a la extubación. Ana. Otol. Rinol. laringol. 130, 286–291 (2021).

Artículo Google Académico

Gong, J. et al. Uso del aprendizaje profundo para identificar el nervio laríngeo recurrente durante la tiroidectomía. ciencia Rep. 11, 14306 (2021).

Artículo CAS Google Académico

Yoo, JY et al. Aprendizaje profundo para la interpretación anatómica de imágenes de videobroncoscopia. ciencia Rep. 11, 23765 (2021).

Artículo CAS Google Académico

Żurek, M., Jasak, K., Niemczyk, K. & Rzepakowska, A. Inteligencia artificial en la endoscopia laríngea: revisión sistemática y metanálisis. J. Clin. Medicina. 11, 2752 (2022).

Artículo Google Académico

Shelhamer, E., Long, J. & Darrell, T. Redes totalmente convolucionales para la segmentación semántica. Trans. IEEE. Patrón Anal. Mach. Intel. 39, 640–651 (2017).

Artículo Google Académico

Ali, S. et al. Un marco de aprendizaje profundo para la evaluación y restauración de la calidad en la videoendoscopia. Medicina. Anal de imagen. 68, 101900 (2021).

Artículo Google Académico

Chang, Y.-Y. et al. Desarrollo y validación de un algoritmo basado en aprendizaje profundo para la evaluación de la calidad de la colonoscopia. Sur. Endosc. 36, 6446–6455. https://doi.org/10.1007/s00464-021-08993-y (2022).

Nam, JH, Oh, DJ, Lee, S., Song, HJ & Lim, YJ Desarrollo y verificación de un algoritmo de aprendizaje profundo para evaluar la calidad de la preparación del intestino delgado. Diagnósticos (Basilea) 11, 1127 (2021).

Artículo Google Académico

Él, Q. et al. Clasificación anatómica del sitio basada en el aprendizaje profundo para la endoscopia gastrointestinal superior. En t. J. Cómputo. Asís Radiol. Cirugía 15, 1085–1094 (2020).

Artículo Google Académico

Sol, M. et al. Red basada en la separación de canales para el reconocimiento automático de sitios anatómicos mediante imágenes endoscópicas. biomedicina Proceso de señal. Control 71, 103167 (2022).

Artículo Google Académico

Liu, X. et al. Estimación de profundidad densa en endoscopia monocular con métodos de aprendizaje autosupervisado. Trans. IEEE. Medicina. Imágenes 39, 1438–1447 (2020).

Artículo Google Académico

Liu, S. et al. Estimación conjunta de profundidad y movimiento a partir de una secuencia de imágenes de endoscopia monocular utilizando una red de reequilibrio de pérdidas múltiples. biomedicina Optar. Expreso 13, 2707–2727 (2022).

Artículo Google Académico

Ozyoruk, KB et al. Conjunto de datos Endoslam y una odometría visual monocular no supervisada y un enfoque de estimación de profundidad para videos endoscópicos. Medicina. Anal de imagen. 71, 102058 (2021).

Artículo Google Académico

Shao, S. et al. Profundidad monocular autosupervisada y estimación del movimiento del yo en endoscopia: flujo de apariencia al rescate. Medicina. Anal de imagen. 77, 102338 (2022).

Artículo Google Académico

Ren, S., He, K., Girshick, R. & Sun, J. Faster R-CNN: hacia la detección de objetos en tiempo real con redes de propuestas regionales. En Avances en sistemas de procesamiento de información neuronal, 91–99 (2015).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Solo mira una vez: detección unificada de objetos en tiempo real. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 779–788 (2016).

Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K. y Yuille, AL Deeplab: segmentación semántica de imágenes con redes convolucionales profundas, convolución atrosa y crfs totalmente conectados. Trans. IEEE. Patrón Anal. Mach. Intel. 40, 834–848 (2017).

Artículo Google Académico

Simonyan, K. & Zisserman, A. Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala. En Conferencia Internacional sobre Representaciones de Aprendizaje (2015).

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 770–778 (2016).

Tan, M. & Le, QV Efficientnet: replanteamiento del escalado de modelos para redes neuronales convolucionales. En Actas de la 36.ª Conferencia internacional sobre aprendizaje automático, ICML 2019, 9–15 de junio de 2019, Long Beach, California, EE. UU., vol. 97 de Proceedings of Machine Learning Research (eds Chaudhuri, K. & Salakhutdinov, R.) 6105–6114 (PMLR, 2019).

Zhao, Q. & Chi, T. El modelo de aprendizaje profundo puede mejorar la tasa de diagnóstico de gastritis atrófica crónica endoscópica: un estudio de cohorte prospectivo. BMC Gastroenterol. 22, 133 (2022).

Artículo Google Académico

Klare, P. et al. Detección automatizada de pólipos en el colon y recto: un estudio prospectivo (con videos). Gastrointestinal. Endosc. 89, 576–582.e1 (2019).

Artículo Google Académico

Zhao, Z. et al. Metaadaptación en línea guiada por ancla para una segmentación rápida de instrumentos de una sola toma a partir de videos quirúrgicos robóticos. Medicina. Anal de imagen. 74, 102240 (2021).

Artículo Google Académico

Khadka, R. et al. Metaaprendizaje con gradientes implícitos en una configuración de pocos disparos para la segmentación de imágenes médicas. computar Biol. Medicina. 143, 105227 (2022).

Artículo Google Académico

Zhao, X. et al. Red de atención temporal espacial semisupervisada para segmentación de pólipos de video. En Computación de imágenes médicas e intervención asistida por computadora - MICCAI 2022 - 25.ª Conferencia internacional, Singapur, 18 al 22 de septiembre de 2022, Actas, Parte IV, vol. 13434 de Lecture Notes in Computer Science, 456–466 (Springer, 2022).

Turan, M. & Durmus, F. UC-NfNet: evaluación de la colitis ulcerosa basada en el aprendizaje profundo a partir de imágenes de colonoscopia. Medicina. Anal de imagen. 82, 102587 (2022).

Artículo Google Académico

Xu, Z., Ali, S., East, J. y Rittscher, J. Pérdida de margen angular aditivo y red de escalado de modelos para la puntuación optimizada de colitis. En 2022 IEEE 19th International Symposium on Biomedical Imaging (ISBI) 1–5 (2022).

Liu, X., Sanchez, P., Thermos, S., O'Neil, AQ & Tsaftaris, SA Aprendizaje de representaciones desenredadas en el dominio de imágenes. Medicina. Anal de imagen. 80, 102516 (2022).

Artículo Google Académico

Srivastava, A. et al. MSRF-Net: una red de fusión residual multiescala para la segmentación de imágenes biomédicas. IEEE J. Biomédica. Informática de la salud 26, 2252–2263 (2022).

Artículo Google Académico

Bar, O. et al. Impacto de los datos en la generalización de ia para aplicaciones de inteligencia quirúrgica. ciencia Rep. 10, 22208 (2020).

Artículo CAS Google Académico

Xu, J. et al. Aprendizaje profundo para la identificación del carcinoma nasofaríngeo utilizando luz blanca y endoscopia de imágenes de banda estrecha. Laringoscopio 132, 999–1007 (2022).

Artículo Google Académico

Waterhouse, DJ et al. La endoscopia espectral mejora el contraste de la neoplasia en la vigilancia del esófago de Barrett. Cáncer Res. 81, 3415–3425 (2021).

Artículo CAS Google Académico

Linardos, A., Kushibar, K., Walsh, S., Gkontra, P. y Lekadir, K. Aprendizaje federado para diagnósticos por imágenes multicéntricos: un estudio de simulación en enfermedades cardiovasculares. ciencia Rep. 12, 3551 (2022).

Artículo CAS Google Académico

Wang, RJ, Li, X. & Ling, CX Pelee: un sistema de detección de objetos en tiempo real en dispositivos móviles. En Advances in Neural Information Processing Systems 31, (eds Bengio, S. et al.) 1967–1976 (Curran Associates, Inc., 2018). http://papers.nips.cc/paper/7466-pelee-a-real-time-object-detection-system-on-mobile-devices.pdf.

Howard, AG y col. Mobilenets: redes neuronales convolucionales eficientes para aplicaciones de visión móvil. CoRRabs/1704.04861. http://arxiv.org/abs/1704.04861 (2017).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Solo mira una vez: Detección unificada de objetos en tiempo real. En 2016 Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR) 779–788 (2016).

Wang, C.-H. et al. Aprendizaje profundo ligero: una descripción general. En IEEE Consumer Electronics Magazine 1–12 (2022).

Rieke, N. et al. El futuro de la salud digital con el aprendizaje federado. npj Dígito. Medicina. 3, 119 (2020).

Ma, Y., Chen, X., Cheng, K., Li, Y. & Sun, B. Ldpolypvideo benchmark: un conjunto de datos de video de colonoscopia a gran escala de diversos pólipos. En Informática de imágenes médicas e intervención asistida por computadora – MICCAI 2021: 24.ª Conferencia internacional, Estrasburgo, Francia, 27 de septiembre–1 de octubre de 2021, Actas, Parte V, 387–396 (Springer-Verlag, Berlín, Heidelberg, 2021).

Maier-Hein, L. et al. Conjunto de datos colorrectales de Heidelberg para la ciencia de datos quirúrgicos en el quirófano de sensores. ciencia Datos 8, 101 (2021).

Selvan, R., Bhagwat, N., Wolff Anthony, LF, Kanding, B. & Dam, EB Huella de carbono de la selección y entrenamiento de modelos de aprendizaje profundo para el análisis de imágenes médicas. En Computación de imágenes médicas e intervención asistida por computadora - MICCAI 2022, 506–516 (Springer Nature Suiza, Cham, 2022).

Masanet, E., Shehabi, A., Lei, N., Smith, S. y Koomey, J. Recalibración de las estimaciones de uso de energía del centro de datos global. Ciencia 367, 984–986 (2020).

Artículo CAS Google Académico

Nakagawa, K. et al. Clasificación de la profundidad de invasión del carcinoma de células escamosas de esófago utilizando una red neuronal profunda en comparación con endoscopistas experimentados. Gastroint. Endosc. 90, 407–414 (2019).

Artículo Google Académico

Shiroma, S. et al. Capacidad de la inteligencia artificial para detectar el carcinoma de células escamosas de esófago t1 a partir de videos endoscópicos y los efectos de la asistencia en tiempo real. ciencia Rep. 11, 7759 (2021).

Artículo CAS Google Académico

Kim, YJ et al. Nueva técnica de clasificación de imágenes de pólipos utilizando el aprendizaje de transferencia de la estructura de red en red en imágenes endoscópicas. ciencia Rep. 11, 3605 (2021).

Artículo CAS Google Académico

Yamada, M. et al. Desarrollo de un sistema de apoyo al diagnóstico por imagen endoscópica en tiempo real utilizando tecnología de aprendizaje profundo en colonoscopia. ciencia Rep. 9, 14465 (2019).

Lee, J. et al. Detección en tiempo real de pólipos de colon durante la colonoscopia mediante aprendizaje profundo: validación sistemática con cuatro conjuntos de datos independientes. ciencia Rep. 10, 8379 (2020).

Zachariah, R. et al. La predicción de la patología de los pólipos utilizando redes neuronales convolucionales alcanza los umbrales de "resecar y descartar". Soy J Gastroenterol. 115, 138–144 (2020).

Artículo Google Académico

Ito, N. et al. Sistema de apoyo al diagnóstico endoscópico del cáncer colorrectal ct1b mediante aprendizaje profundo. Oncología 96, 44–50 (2019).

Artículo Google Académico

Hashemi, SMR, Hassanpour, H., Kozegar, E. & Tan, T. Clasificación de imágenes cistoscópicas mediante aprendizaje de características no supervisado y fusión de clasificadores. Acceso IEEE 9, 126610–126622 (2021).

Artículo Google Académico

Stoebner, ZA, Lu, D., Hong, SH, Kavoussi, NL y Oguz, I. Segmentación de cálculos renales en videos endoscópicos. En Imágenes médicas 2022: Procesamiento de imágenes vol. 12032 (eds. Colliot, O. & Išgum, I.) 900–908. Sociedad Internacional de Óptica y Fotónica (SPIE, 2022). https://doi.org/10.1117/12.2613274.

Ali, S. et al. Registro sólido de imágenes de la vejiga mediante la redefinición del término de datos en un enfoque de variación total. En Imágenes médicas 2015: Procesamiento de imágenes, vol. 9413 (eds. Ourselin, S. & Styner, MA) 386–397. Sociedad Internacional de Óptica y Fotónica (SPIE, 2015). https://doi.org/10.1117/12.2077658.

Qin, F. et al. Hacia una mejor segmentación de instrumentos quirúrgicos en visión endoscópica: agregación de características multiángulo y supervisión de contorno. Robot IEEE. automático Letón. 5, 6639–6646 (2020).

Artículo Google Académico

Ali, S. et al. Aprendizaje profundo para la detección y segmentación de instancias de artefactos y enfermedades en endoscopia gastrointestinal. Medicina. Anal de imagen. 70, 102002 (2021).

Artículo Google Académico

Ali, S. et al. Evaluación de la generalización de los métodos de segmentación y detección de pólipos basados ​​en el aprendizaje profundo a través de un desafío de visión por computadora. Preimpresión en arXiv:2202.12031 (2022).

Ali, S. et al. Fusión laparoscópica preoperatoria a intraoperatoria. https://doi.org/10.5281/zenodo.6362162 (2022).

Ali, S.Flujo óptico variacional total para un mosaico de imágenes vesicales sólido y preciso. Tesis doctoral, Université de Lorraine (2016).

Ángeles Cerón, JC, Ruiz, GO, Chang, L. & Ali, S. Segmentación de instancias en tiempo real de instrumentos quirúrgicos mediante atención y fusión de funciones multiescala. Medicina. Anal de imagen. 81, 102569 (2022).

Artículo Google Académico

Descargar referencias

Quisiera agradecer a la Escuela de Informática de la Facultad de Ingeniería y Ciencias Físicas de la Universidad de Leeds, Reino Unido, por apoyar esta investigación.

Facultad de Informática, Universidad de Leeds, LS2 9JT, Leeds, Reino Unido

Shareb Alí

También puede buscar este autor en PubMed Google Scholar

SA generó la idea, reunió todas las fuentes bibliográficas, planificó el esquema y escribió y editó el manuscrito.

Correspondencia a Sharib Ali.

El autor declara que no hay conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Ali, S. ¿Cuál es nuestra posición en la IA para el análisis de imágenes endoscópicas? Descifrar brechas y direcciones futuras. npj Dígito. Medicina. 5, 184 (2022). https://doi.org/10.1038/s41746-022-00733-3

Descargar cita

Recibido: 04 julio 2022

Aceptado: 29 de noviembre de 2022

Publicado: 20 diciembre 2022

DOI: https://doi.org/10.1038/s41746-022-00733-3

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

COMPARTIR