Preservar la privacidad en el análisis de videos quirúrgicos utilizando un clasificador de aprendizaje profundo para identificar

Scientific Reports volumen 13, Número de artículo: 9235 (2023) Citar este artículo

129 Accesos

6 Altmetric

Detalles de métricas

El análisis de video quirúrgico facilita la educación y la investigación. Sin embargo, las grabaciones de video de cirugías endoscópicas pueden contener información sensible a la privacidad, especialmente si la cámara endoscópica se mueve fuera del cuerpo de los pacientes y se graban escenas fuera del cuerpo. Por lo tanto, la identificación de escenas extracorpóreas en videos endoscópicos es de gran importancia para preservar la privacidad de los pacientes y el personal del quirófano. Este estudio desarrolló y validó un modelo de aprendizaje profundo para la identificación de imágenes extracorporales en videos endoscópicos. El modelo se entrenó y evaluó en un conjunto de datos interno de 12 tipos diferentes de cirugías robóticas y laparoscópicas y se validó externamente en dos conjuntos de datos de prueba multicéntricos independientes de cirugías de colecistectomía y derivación gástrica laparoscópica. El rendimiento del modelo se evaluó en comparación con las anotaciones de verdad en tierra humana que miden el área característica operativa del receptor bajo la curva (ROC AUC). Se anotaron el conjunto de datos interno que consta de 356 267 imágenes de 48 videos y los dos conjuntos de datos de prueba multicéntricos que constan de 54 385 y 58 349 imágenes de 10 y 20 videos, respectivamente. El modelo identificó imágenes extracorporales con un 99,97 % de ROC AUC en el conjunto de datos de la prueba interna. La media ± desviación estándar ROC AUC en el conjunto de datos de bypass gástrico multicéntrico fue 99,94 ± 0,07 % y 99,71 ± 0,40 % en el conjunto de datos de colecistectomía multicéntrica, respectivamente. El modelo puede identificar de manera confiable imágenes fuera del cuerpo en videos endoscópicos y se comparte públicamente. Esto facilita la preservación de la privacidad en el análisis de video quirúrgico.

“Y cualquier cosa que vea u oiga en el curso de mi profesión, […] si es algo que no debe publicarse en el extranjero, nunca lo divulgaré, considerando tales cosas como secretos sagrados”.1

juramento hipocrático

El análisis de videos quirúrgicos facilita la educación (revisión de situaciones críticas y retroalimentación individualizada)2,3, acreditación (evaluación basada en videos)4 e investigación (estandarización de la técnica quirúrgica en ensayos multicéntricos5, evaluación de habilidades quirúrgicas)6,7. A pesar de su uso cada vez mayor, hasta ahora no se ha aprovechado todo el potencial del análisis de video quirúrgico, ya que la revisión manual de casos requiere mucho tiempo, es costosa, requiere conocimiento experto y plantea problemas de privacidad.

Por lo tanto, recientemente se han adoptado enfoques de ciencia de datos quirúrgicos para automatizar el análisis de videos quirúrgicos. Se han entrenado modelos de inteligencia artificial (IA) para reconocer fases de una intervención8,9,10, herramientas8,11 y acciones12 en videos quirúrgicos. Esto permite aplicaciones posteriores como la estimación de la duración restante de la cirugía13, la documentación automatizada de eventos críticos14, la evaluación de la habilidad quirúrgica15 y el logro de puntos de control de seguridad16, o la guía intraoperatoria17.

AI continuará reduciendo los costos y las limitaciones de tiempo de los expertos que revisan videos quirúrgicos. Sin embargo, las preocupaciones de privacidad con respecto a la grabación, el almacenamiento, el manejo y la publicación de datos de video de pacientes no se han abordado ampliamente hasta el momento. El privilegio médico-paciente que se origina en el Juramento Hipocrático protege los datos médicos y la identidad de los pacientes de la investigación legal. Una violación de la confidencialidad médica por parte del personal médico es perseguible en la mayoría de los países. Los videos endoscópicos que se graban mientras el paciente está bajo narcosis en la sala de operaciones (OR) son particularmente sensibles. A menudo contienen escenas del quirófano que podrían revelar información confidencial, como la identidad de los pacientes o del personal del quirófano. Además, si se capturan en el video relojes o calendarios presentes en la habitación, se puede identificar la hora o la fecha de la intervención respectiva. La información sobre la fecha y hora de una operación, facilita la identificación del paciente intervenido. Estas escenas grabadas fuera del cuerpo del paciente se denominan escenas fuera del cuerpo. Si la grabación de video ya se inició antes de introducir el endoscopio en el paciente, no se detuvo después de que finalizó la cirugía o cada vez que se limpia el endoscopio durante la cirugía, se capturan escenas fuera del cuerpo.

Los desarrollos recientes en visión por computadora y aprendizaje profundo están impulsados por conjuntos de datos a gran escala y disponibles públicamente. Por el contrario, las aplicaciones médicas del aprendizaje profundo a menudo están limitadas por conjuntos de datos restringidos y de pequeño tamaño. La desidentificación del video endoscópico mediante el desenfoque o la eliminación de escenas fuera del cuerpo permite grabar, almacenar, manipular y publicar videos quirúrgicos sin el riesgo de una violación de la confidencialidad médica.

Este artículo informa sobre el desarrollo y la validación de un clasificador de imágenes basado en aprendizaje profundo para identificar escenas fuera del cuerpo en videos endoscópicos, llamado Out-of-Body Network (OoBNet). OoBNet permite la protección de la privacidad de los pacientes y el personal del quirófano mediante el reconocimiento automático de escenas extracorpóreas en videos endoscópicos. La validación externa de OoBNet se realiza en dos conjuntos de datos multicéntricos independientes de bypass gástrico laparoscópico en Y de Roux y cirugías de colecistectomía laparoscópica. Se publican el modelo entrenado y una aplicación ejecutable de OoBNet, para proporcionar una herramienta fácil de usar para cirujanos, científicos de datos y personal administrativo del hospital para anonimizar videos endoscópicos.

El conjunto de datos utilizado para el desarrollo de OoBNet se creó a partir de cirugías registradas en el Hospital Universitario de Estrasburgo, Francia18. Se seleccionaron arbitrariamente cuatro grabaciones de video para cada uno de los siguientes procedimientos endoscópicos: fundoplicatura laparoscópica de Nissen, bypass gástrico en Y de Roux, gastrectomía en manga, cirugía hepática, cirugía pancreática, colecistectomía, sigmoidectomía, eventración, suprarrenalectomía, cirugía de hernia, Roux-en robótica -Bypass gástrico en Y, y gastrectomía en manga robótica. El conjunto de datos que contenía 48 videos se dividió en conjuntos de entrenamiento, validación y prueba, incluidos 2, 1 y 1 videos de cada procedimiento, respectivamente.

La validación externa del modelo se realizó en una muestra aleatoria de 5 videos de 6 centros y dos conjuntos de datos multicéntricos independientes. (1) Un conjunto de datos de 140 videos de bypass gástrico laparoscópico en Y de Roux del Hospital Universitario de Estrasburgo, Francia e Inselspital, Hospital Universitario de Berna, Suiza19. (2) Un conjunto de datos de 174 videos de colecistectomía laparoscópica de cuatro centros italianos: Policlínico Universitario Agostino Gemelli, Roma; Azienda Ospedaliero-Universitaria Sant'Andrea, Roma; Fondazione IRCCS Ca' Granda Ospedale Maggiore Policlinico, Milán; y Hospital Monaldi, Nápoles. Este conjunto de datos se recopiló para la validación multicéntrica de EndoDigest, una plataforma de visión por computadora para la documentación en video de la visión crítica de la seguridad (CVS)20.

En la Fig. 1 se muestra una ilustración de la división del conjunto de datos para el desarrollo del modelo, la validación interna y externa multicéntrica.

Ilustración de divisiones de conjuntos de datos para el desarrollo de modelos, validación interna y externa. Cada cuadrado representa un video. Los videos del mismo centro tienen el mismo color.

Cada hospital cumplió con los requisitos de la junta de revisión institucional (IRB) local. Los pacientes dieron su consentimiento para el registro de su intervención o para el uso de su registro de salud con fines de investigación. Todos los videos se compartieron como material de video en bruto sin identificar metadatos. Por lo tanto, se eliminó la necesidad de aprobación ética, a excepción de Inselspital, Hospital Universitario de Berna, Suiza, donde el IRB local otorgó la aprobación ética (KEK Bern 2021-01666).

Cada video se dividió en fotogramas a una velocidad de 1 fotograma por segundo. Todos los fotogramas se anotaron de forma binaria, ya sea dentro del abdomen del paciente o fuera del cuerpo. La válvula del trocar fue la señal visual para la transición del interior al exterior del cuerpo. Todos los marcos en los que se ve la válvula del trocar óptico se consideran fuera del cuerpo para pecar de seguros en cuanto a la preservación de la privacidad. Todos los conjuntos de datos fueron anotados por un solo anotador (AV). Los casos de Edge fueron revisados por un cirujano certificado por la junta con amplia experiencia en análisis de video quirúrgico (JLL).

OoBNet es un clasificador de imágenes basado en el aprendizaje profundo, que utiliza MobileNetV221 como columna vertebral seguido de abandono (con una tasa de abandono de 0,5), una memoria a largo plazo (LSTM con 640 unidades)22, capas lineales y sigmoideas. La normalización de capas se aplicó antes de la eliminación y las capas lineales. MobileNetV2 es una arquitectura modelo diseñada para el reconocimiento de imágenes con bajos recursos computacionales como en dispositivos móviles y teléfonos inteligentes. La capa LSTM contiene puertas de memoria que brindan conocimiento del contexto a la clasificación de cuadros. Como parte del preprocesamiento, las imágenes de entrada se redimensionaron a 64 × 64 píxeles y luego se aumentaron con rotación aleatoria y contraste. El aumento de datos es una forma común de generar variaciones en el conjunto de datos de entrada para mejorar la solidez del modelo. La salida de OoBNet es un valor similar a una probabilidad que luego se binariza a 0 o 1 para predecir si la imagen es un marco interno o externo (Fig. 2).

Modelo de arquitectura de OoBNet. La imagen de entrada se redimensiona a 64 × 64 píxeles y se aumenta con rotación aleatoria y contraste. Luego se alimenta a la red neuronal profunda con una memoria consecutiva a corto plazo (LSTM) que genera un valor de probabilidad, ya sea que la imagen esté fuera del cuerpo o no. Esta probabilidad se redondea en un umbral de 0,5 a 0 (dentro del cuerpo) o 1 (fuera del cuerpo OOB).

La red se entrenó con videoclips de 2048 fotogramas consecutivos durante 300 épocas (ciclos) con detención anticipada aplicada de acuerdo con la puntuación F1 más alta obtenida en el conjunto de datos de validación. El optimizador utilizado fue Adam23 con una tasa de aprendizaje de 0,00009 y un tamaño de lote de 2048. El modelo entrenado y una aplicación ejecutable de OoBNet están disponibles en https://github.com/CAMMA-public/out-of-body-detector.

OoBNet se evaluó en el conjunto de datos de prueba, que no se utilizó para el entrenamiento ni la validación del modelo. Además, la evaluación externa se realizó en dos conjuntos de datos independientes y multicéntricos como se describe anteriormente. Las predicciones de OoBNet se compararon con anotaciones de verdad en tierra humana. El rendimiento de OoBNet se midió como precisión, recuperación, puntuación F1, precisión promedio y área característica operativa del receptor bajo la curva (ROC AUC). La precisión es la proporción de verdaderos positivos entre todas las predicciones positivas (verdaderos y falsos positivos), también conocida como valor predictivo positivo. El recuerdo es la proporción de verdaderos positivos entre todas las predicciones relevantes (verdaderos positivos y falsos negativos), también conocida como sensibilidad. La puntuación F1 es la media armónica de precisión y recuperación. La precisión promedio es el área bajo la curva de recuperación de precisión. ROC AUC es el área bajo la curva característica de operación del receptor que se crea trazando la sensibilidad frente a 1-especificidad. También se conoce como estadística c.

OoBNet fue entrenado, validado y probado en un conjunto de datos interno de 48 videos con una duración media ± desviación estándar (SD) de 123 ± 79 min. que contiene un total de 356.267 fotogramas. De ellos, 112.254 (31,51%) eran marcos extracorpóreos. La validación externa de OoBNet se realizó en un conjunto de datos de bypass gástrico de 10 videos con una duración media ± SD de 90 ± 27 min. que contiene un total de 54.385 fotogramas (4,15 % de fotogramas fuera del cuerpo) y en un conjunto de datos de colecistectomía de 20 vídeos con una duración media ± SD de 48 ± 22 min. que contiene un total de 58.349 fotogramas (8,65% fotogramas fuera del cuerpo). Las estadísticas completas del conjunto de datos y la distribución de marcos en el conjunto de entrenamiento, validación y prueba se muestran en la Tabla 1.

El ROC AUC de OoBNet evaluado en el conjunto de prueba fue del 99,97 %. El ROC promedio AUC ± SD de OoBNet evaluado en el conjunto de datos de bypass gástrico multicéntrico fue 99,94 ± 0,07 %. La media de ROC AUC ± SD de OoBNet evaluada en el conjunto de datos de colecistectomía multicéntrica fue 99,71 ± 0,40 %. Los resultados cuantitativos completos se muestran en la Tabla 2. Las matrices de confusión en el conjunto de prueba, el conjunto de datos de bypass gástrico multicéntrico y el conjunto de datos de colecistectomía multicéntrica se muestran en la Fig. 3A–G. OoBNet se evaluó en un total de 111 974 fotogramas, de los cuales 557 fotogramas (0,50 %) se clasificaron falsamente como dentro del cuerpo a pesar de que eran fotogramas fuera del cuerpo (predicciones negativas falsas). Los resultados cualitativos que ilustran las predicciones falsas positivas y falsas negativas de OoBNet se muestran en la Fig. 4. Se proporciona un video con resultados cualitativos de OoBNet en el Suplementario (Video Suplementario S1, que ilustra cómo los videos endoscópicos pueden anonimizarse usando OoBNet).

Matrices de confusión. (A) Equipo de prueba; (B) y (C) centros 1 y 2 (conjunto de datos de bypass gástrico multicéntrico); (D–G) centros 3, 4, 5 y 6 (conjunto de datos de colecistectomía multicéntrica).

Resultados cualitativos. Fila superior: Predicciones falsas positivas del modelo (OoBNet predice que el marco estará fuera del cuerpo aunque no lo esté). Fila inferior: Predicciones falsas negativas del modelo (OoBNet predice que el marco estará dentro del cuerpo aunque esté fuera del cuerpo). Debajo de cada imagen se proporcionan las anotaciones binarias de la verdad del terreno humano y las predicciones del modelo similar a la probabilidad. En (A), el humo quirúrgico está afectando la visión. En (B–D), una malla, un hisopo y el tejido están tan cerca que, sin el contexto temporal, es difícil distinguir incluso para un anotador humano si está fuera del cuerpo o no. En (E) y (F), la sangre en el endoscopio y un guante con manchas de sangre imitan una vista interior. En (G), una toalla quirúrgica cubre la mayor parte del cuerpo del paciente, por lo que el modelo carece de señales visuales para un marco fuera del cuerpo. En (H), el endoscopio se limpia en un termo, que imita el interior de un trocar de metal.

Este estudio informa sobre el desarrollo y la validación multicéntrica de un clasificador de imágenes basado en el aprendizaje profundo para detectar fotogramas fuera del cuerpo en videos endoscópicos. OoBNet mostró un rendimiento del 99 % de ROC AUC en la validación en tres conjuntos de datos independientes. Usando el modelo entrenado proporcionado o la aplicación ejecutable, OoBNet se puede implementar fácilmente para anonimizar videos endoscópicos de manera retrospectiva. Esto permite crear bases de datos de videos preservando la privacidad del paciente y del personal de quirófano y, además, facilita el uso de videos endoscópicos con fines educativos o de investigación sin revelar ninguna información confidencial.

Hasta donde sabemos, OoBNet es el primer clasificador de imágenes extracorporales entrenado en videos de múltiples intervenciones y validado en dos conjuntos de datos externos. El trabajo anterior de nuestro grupo utilizó un enfoque de visión por computadora no supervisado para identificar marcos fuera del cuerpo. Según los niveles de rojez y brillo de las imágenes, se clasificaron en un umbral establecido empíricamente como dentro del cuerpo o fuera del cuerpo24. Zohar et al. usó un enfoque de aprendizaje automático semisupervisado para detectar escenas fuera del cuerpo en un gran conjunto de datos de videos de colecistectomía laparoscópica que arrojaron una precisión del 97 %25. Sin embargo, este estudio previo tiene dos limitaciones importantes. Por un lado, la principal métrica de rendimiento reportada es la precisión. La precisión es sensible a la distribución de datos, o la prevalencia de una observación dada. Por otro lado, se entrenó en un conjunto de datos de un solo tipo de intervención. Esto no garantiza que el modelo se generalice a otros tipos de intervención.

Por lo general, los clasificadores de imágenes están entrenados para distinguir clases visualmente distintas. Clasificar las imágenes de un video endoscópico como dentro o fuera del cuerpo parece algo análogo. Sin embargo, entre el interior y el exterior del cuerpo hay una transición en la que la cámara se mueve dentro o fuera del cuerpo que puede parecer ambigua. Por lo tanto, la definición de cuándo una imagen está dentro o fuera del cuerpo es crucial. Definimos que la válvula del trocar óptico es la clave visual para la transición del interior al exterior del cuerpo y viceversa. Para errar por el lado de la protección de la privacidad tan pronto como la válvula es visible, el marco se considera fuera del cuerpo incluso si la cámara todavía está dentro del trocar óptico. Usando un módulo LSTM en la arquitectura del modelo, tomamos en cuenta el contexto temporal de los fotogramas dentro y fuera del cuerpo y evitamos la clasificación errónea en la transición de fase del interior al exterior del cuerpo y viceversa debido al parpadeo de fase.

A pesar del excelente desempeño de OoBNet, incluso en la validación externa, el modelo tiene sus limitaciones. No todos los fotogramas se clasificaron correctamente. El clasificador ideal no tendría falsos positivos (predichos como fuera del cuerpo por el modelo aunque dentro del cuerpo) ni predicciones falsas negativas (predichos como dentro del cuerpo por el modelo aunque fuera del cuerpo). Sin embargo, para errar en el sitio de preservación de la privacidad, se deben minimizar las predicciones negativas falsas. En otras palabras, el umbral del clasificador debe optimizarse para la sensibilidad (recuperación). Pero la sensibilidad máxima y las predicciones sin falsos negativos solo se pueden lograr si cada cuadro se clasifica como fuera del cuerpo. Sin embargo, este sería un clasificador completamente inespecífico que conduciría a una pérdida completa del interior de los marcos del cuerpo, que son relevantes para el análisis de video quirúrgico. Por lo tanto, se debe hacer un equilibrio entre precisión y recuperación. Como la puntuación F1 es la media armónica de precisión y recuperación, un clasificador con la puntuación F1 máxima optimiza la precisión y la recuperación al mismo tiempo. En este estudio, la puntuación F1 máxima en el conjunto de validación se utilizó como criterio de finalización temprana para el entrenamiento del modelo y se logró en un umbral de clasificación de 0,73. Pero como este umbral arrojó más predicciones falsas negativas a favor de menos predicciones falsas positivas, usamos el umbral predeterminado de 0,5. Es de destacar que el umbral del clasificador en este estudio no se aprendió mediante el entrenamiento del modelo, sino que se configuró manualmente para minimizar las predicciones de falsos negativos a una tasa aceptable de falsos positivos. Sin embargo, el uso de un umbral < 0,5 habría reducido aún más el número de falsos negativos, con un mayor número de falsos positivos (consulte el número de predicciones de falsos negativos frente a falsos positivos en diferentes umbrales para los tres conjuntos de pruebas, Fig. S1 complementaria) .

Como muestran los resultados cualitativos (Fig. 4), el rendimiento de OoBNet se vio limitado si la visión endoscópica se vio afectada por humo quirúrgico, niebla o sangre. Además, OoBNet predijo resultados falsos positivos cuando los objetos (malla, hisopos, tejido) estaban tan cerca de la cámara que la visión era borrosa e incluso para un anotador humano era difícil distinguir si un cuadro dado estaba fuera del cuerpo. O no. El trabajo adicional para mejorar el rendimiento de OoBNet incluiría un modelo de capacitación en un conjunto más grande de casos extremos con problemas de visión endoscópica. Además, OoBNet predijo resultados negativos falsos si un cuadro fuera del cuerpo se asemejaba visualmente a una escena interior. La inspección manual de todas las predicciones negativas falsas (n = 557) en todos los conjuntos de datos de prueba reveló tres marcos sensibles a la privacidad, en los que potencialmente se podría haber identificado al personal de quirófano. Sin embargo, de 111 974 fotogramas, OoBNet no se evaluó en ningún fotograma que revelara la identidad del paciente, la hora o la fecha de la intervención. Sin embargo, los videos anonimizados con OoBNet necesitan una revisión manual para garantizar la confidencialidad médica antes de que se almacenen, compartan o publiquen. Sin embargo, OoBNet reduce el tiempo necesario para la revisión manual, ya que las predicciones negativas falsas a menudo se sitúan en la proximidad temporal de las predicciones positivas verdaderas.

En la validación externa, OoBNet mostró una caída de hasta un 6,7 % en la puntuación F1. Esto está en línea con los resultados de la validación multicéntrica de otros modelos de IA en el dominio quirúrgico. Por ejemplo, los modelos de reconocimiento de fase quirúrgica de última generación han demostrado un rendimiento variable en la validación multicéntrica26,27. Además, EndoDigest, una plataforma de visión por computadora para la documentación en video de CVS en la colecistectomía laparoscópica, mostró una documentación CVS exitosa del 64% al 79% cuando se validó en un conjunto de datos externo multicéntrico en comparación con la documentación CVS exitosa del 91% en el conjunto de datos interno14,20. Por lo tanto, el rendimiento de los modelos de IA entrenados y evaluados en un solo conjunto de datos debe considerarse con cautela, y estos resultados resaltan aún más la necesidad de una validación externa de los modelos de IA. Nuestro modelo, sin embargo, ha demostrado generalizarse bien en videos de varios centros externos.

La importancia de OoBNet radica en su alta confiabilidad para identificar fotogramas fuera del cuerpo en videos endoscópicos. OoBNet está capacitado en un conjunto de cirugías endoscópicas muy diversas, incluidas las cirugías robóticas, para tener en cuenta las diferentes apariencias visuales de la anatomía, los instrumentos y los quirófanos. Además, OoBNet se evalúa en dos conjuntos de datos independientes para mostrar su capacidad de generalización entre centros. OoBNet se comparte públicamente como una herramienta para facilitar la preservación de la privacidad, el almacenamiento, el manejo y la publicación de videos endoscópicos.

En conclusión, OoBNet puede identificar fotogramas fuera del cuerpo en videos endoscópicos de nuestros conjuntos de datos con un ROC AUC del 99 %. Ha sido ampliamente validado en conjuntos de datos multicéntricos internos y externos. OoBNet se puede usar con alta confiabilidad para anonimizar videos endoscópicos para archivo, investigación y educación.

El código del modelo, los pesos del modelo entrenado y un ejecutable están disponibles en https://github.com/CAMMA-public/out-of-body-detector. Debido a restricciones de privacidad, los conjuntos de datos utilizados en el presente trabajo no se pueden compartir públicamente.

Hipócrates de Cos. El Juramento. (1923) https://doi.org/10.4159/DLCL.hippocrates_cos-oath.1923.

Bonrath, EM, Gordon, LE & Grantcharov, TP Caracterización de eventos 'near miss' en cirugía laparoscópica compleja mediante análisis de video. Calificación BMJ. seguro 24, 490–491 (2015).

Artículo Google Académico

Bonrath, EM, Dedy, NJ, Gordon, LE y Grantcharov, TP El entrenamiento quirúrgico integral mejora la habilidad quirúrgica en el quirófano: un ensayo controlado aleatorio. Ana. Cirugía 262, 205–212 (2015).