banner

Noticias

Dec 25, 2023

Evaluación de la significación modular y de borde en individuos

Scientific Reports volumen 13, Número de artículo: 7868 (2023) Citar este artículo

266 Accesos

1 Altmetric

Detalles de métricas

Las redes individuales específicas, definidas como redes de nodos y conexiones que son específicas de un individuo, son herramientas prometedoras para la medicina de precisión. Cuando dichas redes son biológicas, se hace posible la interpretación de módulos funcionales a nivel individual. Un problema poco investigado es la evaluación de la relevancia o "importancia" de cada red individual específica. Este documento propone nuevos procedimientos de evaluación de la importancia de los módulos y los bordes para redes específicas de individuos ponderadas y no ponderadas. Específicamente, proponemos una distancia de Cook modular utilizando un método que implica el modelado iterativo de un borde frente a todos los demás dentro de un módulo. También se proponen dos procedimientos que evalúan los cambios entre el uso de todos los individuos y el uso de todos los individuos pero dejando un individuo fuera (LOO) (LOO-ISN, MultiLOO-ISN), basándose en bordes derivados empíricamente. Comparamos nuestras propuestas con las de la competencia, incluidas las adaptaciones de los métodos OPTICS, kNN y Spoutlier, mediante un extenso estudio de simulación, basado en escenarios de la vida real para la coexpresión de genes y las redes de interacción microbiana. Los resultados muestran las ventajas de realizar evaluaciones de importancia modulares versus de borde para redes específicas individuales. Además, la distancia modular de Cook se encuentra entre las mejores en todos los entornos de simulación considerados. Finalmente, la identificación de individuos periféricos con respecto a sus redes individuales específicas es significativa para fines de medicina de precisión, como lo confirma el análisis de redes de perfiles de abundancia de microbiomas.

Al analizar la relación entre las características biológicas y los rasgos complejos, a menudo es imposible caracterizar el resultado o el fenotipo con un solo gen o una sola vía1 y se requieren caracterizaciones más avanzadas. Las enfermedades complejas no tienen una causa única, sino que resultan de una acumulación de variaciones diferentes e interactuantes2. Los avances en biotecnología, como los desarrollos en modalidades de imágenes de alta resolución y métodos de secuenciación de alto rendimiento, han puesto a disposición datos interdependientes de alta dimensión sobre colecciones crecientes de individuos. Dichos datos deben analizarse de manera sólida y estable. La medicina de redes permite ir más allá de los análisis univariados y abarcar la complejidad de las redes biológicas2,3.

Las redes se prestan bien para visualizar y analizar múltiples procesos biológicos en medicina. Una red es una colección de objetos conectados. Los objetos se denominan nodos o vértices. Por lo general, se visualizan como puntos. Las conexiones entre los nodos se conocen como bordes o enlaces. Estos se dibujan gráficamente como líneas entre puntos. Estas redes se pueden agregar con información adicional, como etiquetas de nodos o pesos de borde. Un módulo es una subred compuesta por un subconjunto de nodos y bordes seleccionados. La modularidad de la red mide la fuerza de la división de una red en módulos. Más detalles están en la Tabla S1. Las construcciones teóricas de grafos, como los módulos, pueden ser más sólidas y efectivas que las variables clínicas tradicionales en modelos predictivos o descriptivos4. A menudo se comparan entre gráficos, donde cada gráfico puede representar una condición o estado diferente (enfermo versus sano). Como veremos más adelante, también se pueden construir redes para cada individuo por separado.

Los modelos biológicos basados ​​en la población, que infieren bordes en las redes biológicas mediante la agrupación de muestras o la fijación de un cableado de red único aplicable a todos los individuos de un grupo objetivo, se han utilizado para extraer características para análisis informados posteriores5 o para guiar la detección e interpretación de epistasis utilizando el genoma. -diseños de estudio de asociación amplia6. Desde el punto de vista de la medicina personalizada, también se ha demostrado que ayudan a sacar conclusiones específicas del paciente (p. ej., 7). Sin embargo, un medicamento de "talla única" ya no es aceptable8,9, y la extrapolación de conclusiones de redes derivadas de la población puede no ser lo suficientemente específica para un individuo en particular. Además, mientras que las interacciones estadísticas ocurren a nivel de población, las interacciones biológicas ocurren a nivel individual10. Por lo tanto, teniendo en cuenta que los interactomas biológicamente relevantes pueden variar de un individuo a otro, la construcción de redes específicas de individuos con bordes específicos de individuos ha recibido un interés creciente.

Aquí, definimos una red individual específica (ISN) como una red que describe a un solo individuo, con bordes (pesos de borde) que pueden diferir entre individuos. Como consecuencia, comparar ISN implica comparar cableados de red potencialmente diferentes. Ejemplos de ISN que se ajustan a esta definición son las redes diferenciales de 11,12 y las redes completas de 13,14,15. En las redes diferenciales, los pesos de borde específicos del individuo se obtienen contrastando los pesos de borde basados ​​en la población entre la población total y la población con el individuo agregado o eliminado. Por lo tanto, los bordes albergan información sobre la influencia de un individuo en una población. En las redes completas, cada ISN es independiente y asume que un individuo proviene de una distribución con la red de referencia basada en la población como la red esperada. La investigación de nuevos métodos para medir la variación, como a través de módulos y bordes específicos de cada individuo, puede proporcionar una perspectiva diferente sobre el análisis de los datos existentes, para mejorar la identificación de endotipos, la predicción de riesgos y la planificación del tratamiento.

Las redes individuales específicas no son un concepto nuevo. En principio, una vez que tenemos suficiente información sobre un individuo, tomada a lo largo del tiempo o bajo múltiples condiciones, podemos explotar la multiplicidad y construir una red que sea única para ese individuo. Varios ejemplos se vinculan con las neurociencias16,17,18,19. Otros se vinculan a redes funcionales entre células (por ejemplo, reflejando las posiciones de las células beta en cortes de tejido20). Sin embargo, muy a menudo, los datos recopilados son estáticos o pertenecen a una sola condición. Por lo tanto, uno de los desafíos de los ISN incluye su construcción en ausencia de medidas repetidas en el tiempo o las condiciones. Los primeros enfoques de inferencia de borde en este sentido fueron discutidos y desarrollados en 21 and 13 y dependen de seleccionar una población de referencia, agregar o eliminar un individuo y reestimar la red con la población aumentada o reducida, respectivamente. Otro desafío es cómo extraer información relevante de un ISN derivado. La práctica común es agregar información, como promediar los pesos de los bordes en cada ISN, y luego buscar asociaciones con fenotipos de interés (por ejemplo, reacción al fármaco y tiempo hasta el evento clínico22,23). El objetivo más común de los estudios que incluyen ISN como entrada es la predicción (para una revisión, ver 24). Esto generalmente implica extraer características teóricas de gráficos y vincularlas a un fenotipo de interés. Desafortunadamente, hacerlo puede diluir todo el potencial que brindan los ISN25. El desafío principal a menudo se aborda de manera deficiente: ¿para qué individuos es esencial construir e interpretar un ISN?

En este trabajo, asumimos el desafío de evaluar si una red específica de un individuo construida difiere significativamente de una red basada en la población al tiempo que abarca la complejidad de la red más allá de los límites. Lo hacemos formulando el desafío como un problema de detección de valores atípicos (es decir, el problema de encontrar patrones en los datos que no concuerdan con el comportamiento esperado). Nos centramos en los ISN de Kuijjer13, definidos en el II. subsección de la sección "Métodos" al desarrollar y evaluar estrategias de evaluación de importancia modular y de borde. En lo sucesivo, estas redes se denominarán ISN-L (abreviatura de LIONESS, el nombre del enfoque ISN de Kuijjer). Un paso intermedio necesario para el cálculo de ISNs-L es la red derivada de una población de referencia mediante la eliminación de un individuo, lo que llamamos red LOO. Hay muchas ventajas de las redes ISNs-L. Cardinalmente, permite la traducción de estrategias de interpretación de redes de población a individuo; también empodera enfocarse en cada individuo y sus dinámicas y asociaciones específicas; por último, parte de la noción de una red derivada de una colección de individuos que puede verse como un modelo para un individuo promedio. Además, para completar, comparamos los resultados obtenidos en ISNs-L con los resultados en otro enfoque de ISN: SSN (red específica de muestra)21.

Nuestro trabajo supera las limitaciones de las prácticas actuales con los ISN. La principal limitación es que la evaluación de la importancia de un ISN generalmente se basa en estadísticas de muestras grandes que involucran muestras altamente correlacionadas (que solo difieren entre sí en una sola muestra). Como resultado, evaluar la significación estadística de los ISN-L y, de esta manera, identificar individuos extremos o excepcionales sigue siendo un problema poco investigado. Además, la evaluación de la importancia se verifica, en el mejor de los casos, por borde. Los ejemplos populares involucran redes diferenciales desarrolladas en 14,21,26. Las evaluaciones de importancia de un solo borde han informado limitaciones27. Los bordes pueden no ocurrir en un aislamiento total, sino en un ecosistema fuertemente conectado e interdependiente impuesto por toda la red. Tanto desde un punto de vista analítico como traslacional, los módulos pueden ser, por tanto, instrumentos más adecuados a la hora de evaluar la significancia estadística de un individuo a través de su ISN. Hasta donde sabemos, no existe un informe formal sobre la evaluación de la importancia del módulo en el contexto de la detección de valores atípicos de ISN.

Las principales contribuciones de este trabajo son las siguientes: (i) desarrollo de métodos novedosos para la detección de valores atípicos, en particular una medida de distancia de Cook modular modificada y métodos de exclusión (LOO-ISN y MultiLOO-ISN); (ii) la personalización de los métodos existentes de detección de valores atípicos kNN, OPTICS y Spoutlier para adaptarse a los ISN; (iii) introducción y evaluación de la pertinencia de un nuevo paradigma de evaluación de significado modular con ISN; (iv) evaluación a través de datos sintéticos y validación a través de datos del mundo real mientras se evalúan las fortalezas y debilidades de las estrategias consideradas orientadas al borde y orientadas a módulos. Este artículo aborda la brecha en la literatura mediante el desarrollo de una medida de importancia para los ISN que permite decidir qué individuos se beneficiarían del análisis de red específico para cada individuo.

El documento está organizado de la siguiente manera. Dividimos la sección "Resultados" en tres subsecciones: dos extensos estudios de simulación con diferentes suposiciones de distribución y una aplicación de datos de microbioma. Se permite que los hiperparámetros varíen de acuerdo con una cuadrícula de opciones. La sección "Discusión" presenta las ideas principales y sugiere nuevas preguntas de investigación. En la sección "Métodos", describimos datos y metodologías. Se presentan más detalles como material complementario. En la Tabla complementaria S1 se proporciona un glosario de terminología.

El rendimiento de los métodos de detección de valores atípicos propuestos se evalúa y compara con datos sintéticos y del mundo real. Nuestro caso de uso de la vida real es un estudio de microbioma humano. Los datos sintéticos reflejan dos escenarios: uno con expresión génica y otro con perfiles microbianos disponibles para una población de individuos. Estos dos escenarios implican diferentes distribuciones subyacentes para generar los datos, con expresiones génicas asumidas normalmente distribuidas y para datos microbianos respetando la naturaleza composicional de los datos. En los datos sintéticos, los individuos atípicos y no atípicos se muestrean a partir de dos distribuciones diferentes, cada una con valores de parámetros diferentes, es decir, una matriz de varianza/covarianza diferente, que cuantifica las asociaciones entre variables; por tanto, se conoce la verdad fundamental, es decir, si un individuo es un valor atípico (1) o no (0). En el conjunto de datos de análisis simulado (dimensión: \(N \times k\), con N individuos y k variables), calculamos la correlación de Pearson para crear la red basada en la población (dimensión \(k \times k\)). En la red basada en la población, calculamos el ISN para cada individuo. Dichos ISN constituyen la entrada para los métodos de detección de valores atípicos propuestos, siendo los pesos de borde específicos individuales el conjunto de características. Los diversos pasos se ilustran en la Fig. S1. Por lo tanto, para cada individuo, su verdad básica se confronta con la puntuación atípica clasificada calculada por cada método. La puntuación de valores atípicos (OS) para un determinado individuo es el grado en que un determinado método clasifica al individuo como un valor atípico. La comparación de la efectividad de diferentes métodos se realiza bajo diferentes condiciones experimentales y utilizando una cuadrícula dada de valores de hiperparámetros. Como estudio de caso del mundo real, consideramos una parte de la cohorte LucKi28 con microbiomas infantiles recolectados a lo largo del tiempo. La exploración de métodos para identificar módulos significativos en una red es un campo amplio que excede el alcance de este documento. Los métodos propuestos son independientes del algoritmo de detección del módulo elegido. Para el estudio de caso del mundo real, usamos el algoritmo SPINGLASS29 para identificar módulos.

Los métodos evaluados y comparados en este artículo pertenecen a uno de los siguientes grupos: (i) propuestas novedosas, (ii) adaptaciones de métodos existentes y (iii) métodos de la literatura científica. De los métodos de la literatura científica, solo SSN21 se ha informado previamente en el campo de los ISN. Dado que Liu21 introduce un método de evaluación de importancia y una técnica de construcción de red, ambos generalmente denominados SSN, nos referiremos a ellos respectivamente como SSN-m y SSN-n. Además, según su justificación, los métodos se agrupan en las siguientes familias; (i) dejar uno fuera, (ii) distancia de Cook, (iii) Spoutlier, y (iv) kNN y OPTICS. La familia dejar uno fuera (LOO) explota el impacto de eliminar un individuo a la vez del conjunto de datos de análisis; incluye; (i) LOO-ISN, (ii) MultiLOO-ISN y (iii) SSN-m. La familia de distancias de Cook es una colección de agregaciones de distancias modulares de Cook, incluidas nuestras propuestas denominadas; Cook's med, Cook's max y Cook's mean, que se diferencian por la función de agregación adoptada, es decir, mediana, máxima y media respectivamente. Un procedimiento iterativo calcula las distancias de Cook. El algoritmo considera un borde como el objetivo y predice su valor (peso del borde) a través de todos los demás bordes que pertenecen al módulo dado. La familia Spoutlier se origina en el trabajo de Sugiyama30 y emplea un conjunto de referencia fijo en los vecinos más cercanos. Nos referimos a la implementación original como Spoutlier-l. Las adaptaciones de los métodos de Spoutlier se denominan OTS y giran en torno a medidas de distancia alternativas, cálculos de conjuntos de referencia y ensamblaje. OTS euclidiano y OTS coseno emplean distancia euclidiana y disimilitud de coseno, respectivamente, y ambos usan un conjunto de referencia modificado que Spoutlier-l. MOTS euc y mOTS coseno son un conjunto en OTS euclidiano y OTS coseno, respectivamente. Finalmente, mOTS glob emplea OTS euclidiana y OTS coseno como predictores base.

Hasta donde sabemos, los métodos pertenecientes a la familia kNN31 y OPTICS32 nunca se han aplicado en el campo de los ISN. Para cada método, exploramos múltiples valores de hiperparámetros. En la familia kNN, kNN 5,\(\sqrt{N}\) con los parámetros \(k_{min}\) y \(k_{max}\) establecidos en 5 y \(\sqrt{N}\) logra los mejores rendimientos de simulación y, por lo tanto, se denomina kNN. Puede encontrar una descripción detallada de cada método y la configuración de los parámetros en la sección de métodos, junto con una Tabla S2 completa que contiene las características de cada acrónimo en la sección Complementaria. Los métodos antes mencionados se aplican a ISNs-L, pero se han realizado los mismos experimentos numéricos en SSN-n con fines comparativos. Los resultados de la aplicación de los métodos SSN-n se identifican con el sufijo -n.

Por último, los experimentos numéricos basados ​​en datos sintéticos se han evaluado comparando la puntuación de valores atípicos OS calculada con la verdad del terreno GT y, por lo tanto, construyendo una curva ROC. El área bajo la curva AUC se utiliza como medida de rendimiento.

Este esquema de simulación tiene como objetivo imitar las redes de coexpresión de genes. En la Tabla complementaria S1 se proporcionan más detalles sobre las características de las redes de coexpresión de genes. Formamos una cuadrícula experimental generando datos sintéticos para diferentes valores de los siguientes parámetros; tamaño de muestra N, tamaño de módulo k, número de outliers M y distribución de probabilidad que genera outliers (más detalles en la Sección "Datos sintéticos" de los "Métodos"). Cada entrada (fila) de la cuadrícula experimental se denomina configuración que consta de 200 ejecuciones. Cada ejecución genera un conjunto de datos cuyas filas están asociadas con individuos y cuyas columnas están asociadas con variables (nodos). Además, cada fila está asociada con una variable binaria, la verdad básica, que indica si un individuo es atípico o no.

El conjunto de datos se utiliza para calcular la red basada en la población (dimensión \(k\times k\)), siendo su elemento base la asociación entre los nodos \(v_i\) y \(v_j\). Dicha red de base poblacional caracteriza las asociaciones (en nuestro trabajo, correlación de Pearson) entre las variables y define la matriz de adyacencia. A partir de la red basada en la población, se calcula una red individual (ISNs-L o SSN-n21) para que sea la entrada de análisis descendente. El conjunto de pesos de borde específicos de un individuo en un módulo constituye el conjunto de características de los métodos de detección de valores atípicos.

Una realización se define como el resultado de aplicar un método a un escenario; para cada realización, el sistema operativo se calcula para cada red individual específica, cuantificando el soporte para que el individuo sea un valor atípico. Por lo tanto, estos valores de puntaje se pueden clasificar para encontrar a los individuos con mayor probabilidad de ser atípicos. Luego, para cada método y para cada configuración, resumimos los resultados de las 200 ejecuciones correspondientes con la mediana de AUC debido a su solidez frente a valores extremos. Como resumen aproximado, promediamos todas las configuraciones, calculando los valores de AUC media y mediana para cada método. Estos puntajes se reportan en la Tabla 1.

Cook's med logra el mejor valor de Median AUC (0.920), mientras que el coseno mOTS logra el mejor valor de Mean AUC (0.866). Los métodos OPTICS no son efectivos, logrando valores de rendimiento que son apenas mejores que una suposición aleatoria. Finalmente, ni kNN ni mOTS euc logran un valor agregado de AUC superior a 0,7, mientras que todos los métodos de exclusión (MultiLOO-ISN, LOO-ISN, SSN-m) logran valores agregados de AUC inferiores a 0,64. Como se explica en detalle en la sección de métodos, no todos los métodos se aplican a todos los entornos, por lo que la comparación está incompleta. Para mayor claridad, solo los mejores métodos para cada familia, en términos de AUC, se informan en la Tabla 1. Una Tabla S3 completa está disponible en el Suplementario.

Esta sección compara diferentes métodos en términos del rendimiento logrado al agrupar los datos sintéticos muestreados por tamaño de muestra N = \(\{100,500,1000,2000\}\). Al comparar diferentes implementaciones de Spoutlier en un solo disparo (es decir, el método aplicado una vez, sin conjunto), el coseno OTS funciona mucho mejor que el euclidiano OTS. Como se destaca en la Fig. 1a,b, el coseno de OTS y mOTS alcanza un valor de AUC que oscila entre 0,75 y 0,90. Las contrapartes euclidianas alcanzan un valor de AUC inferior a 0,65. Al mismo tiempo, no se detecta ninguna diferencia entre el Spoutlier-l de la literatura y el enfoque euclidiano OTS personalizado: el cálculo del conjunto de referencia introducido no funciona ni mejor ni peor que el de la literatura. Las implementaciones de conjunto propuestas logran mejores resultados que sus contrapartes de un solo disparo. Considerar la mediana de las predicciones OTS sobre todas las repeticiones es altamente efectivo. El coseno mOTS es el mejor método de Spoutlier, logrando un valor de AUC superior a 0,8 para cada valor de N.

Datos sintéticos: normalmente distribuidos. Valores AUC de varios métodos. (a) Se comparan los métodos Spoutlier de disparo único. El coseno OTS domina uniformemente sobre el euclidiano OTS canónico. (b) se comparan los métodos de conjunto, y el coseno de mOTS es el mejor para todos los valores del tamaño de muestra N. (c) se comparan los métodos que producen el valor p, y MultiLOO-ISN supera a sus contrapartes. (d) se comparan los métodos restantes, con la med de Cook dominando consistentemente para todos los valores del tamaño de muestra N. En el panel inferior, se comparan los métodos seleccionados. e) la comparación comprende todas las configuraciones: mOTS coseno y métodos de Cook (tanto Cook's med como Cook's max) dominan consistentemente a sus contrapartes. f) la comparación está restringida a configuraciones de un solo borde (\(k=2\)): ningún método logra un valor de AUC superior a 0,7.

Los métodos que arrojan valores de p, es decir, LOO-ISN, MultiLOO-ISN y SSN-m, representan una faceta relevante del estudio actual y proporcionan un umbral claro para detectar valores atípicos. Una comparación entre estos métodos se muestra en la Fig. 1c y muestra que MultiLOO-ISN supera a LOO-ISN para todos los valores del tamaño de muestra N. En particular, para el método de la literatura SSN-m solo de un solo borde (\(k=2 \)) la comparación es posible, por lo tanto, solo se representan esos casos. kNN y OPTICS nunca alcanzan AUC\(> 0.7\) (Fig. 1d). Además, los mejores métodos para cada familia se muestran juntos para obtener una idea de su desempeño bajo diferentes valores de tamaño de muestra, Fig. 1e. Se destacan la distancia de Cook y el coseno mOTS, logrando valores de AUC superiores a 0,8 para todos los valores de tamaño N. Estos métodos dominan a sus contrapartes correspondientes en más de 0,2 para cada configuración. Ningún método logra un valor de rendimiento aceptable, es decir, AUC\(> 0,7\), para configuraciones de un solo borde (Fig. 1f), lo que destaca la necesidad de evaluaciones modulares. Finalmente, notamos una asociación ligeramente positiva entre AUC y tamaño de muestra N.

En configuraciones modulares (\(k>2\)), los métodos de distancias de Cook adaptados, es decir, Cook's med y Cook's max, logran los mejores valores de rendimiento. Les sigue de cerca el método del coseno mOTS. Al agrupar los datos sintéticos por tamaño de módulo \(k= \{2,3,5,7,9,11,17 \}\), surge una relación positiva entre el tamaño k del módulo y el rendimiento AUC en (m)OTS coseno (Fig. 2a,b) y métodos de distancias de Cook (Fig. 2d,e). Otros métodos (Fig. 2c) no muestran asociación con el tamaño k del módulo. Fundamentalmente, ningún método logra un valor de rendimiento satisfactorio en la configuración de análisis de un solo borde: cuando k = 2, todos los métodos logran un valor de AUC inferior a 0,6. La información limitada de un borde solo surge de esos resultados. Otras ideas notables se originan al comparar los métodos de Spoutlier (Fig. 2a, b). mOTS euclidiana tiene un límite superior de 0,7, mientras que el coseno de mOTS alcanza un valor de AUC superior a 0,9 para módulos de gran tamaño k. El AUC de mOTS glob se asocia positivamente con el tamaño k del módulo y, en términos generales, es alrededor de 0,05 peor que el coseno de mOTS. El rendimiento de mOTS glob, aunque subóptimo, sugiere el valor de combinar un punto de vista aritmético y geométrico. El escenario es una copia al carbón de la configuración de disparo único: el coseno de OTS se asocia positivamente con el tamaño k del módulo, y los resultados son más de 0,2 mejores que la contraparte euclidiana de OTS para valores altos de k.

Datos sintéticos: normalmente distribuidos. AUC mediana en el eje y y tamaño k del módulo en el eje x. (a) Se comparan los métodos de Spoutlier de disparo único. El coseno OTS domina uniformemente a su contraparte euclidiana (OTS euclidiana) para \(k>2\). (b) se comparan los métodos de conjunto de la familia Spoutlier, y el coseno mOTS es el mejor para \(k>2\). (c) se comparan los métodos de rendimiento del valor p y MultiLOO-ISN logra el mejor rendimiento para \(k\ge 5\). (d) se comparan los métodos restantes, con el med de Cook dominando consistentemente a todos los demás cuando \(k>2\). en el panel inferior, los métodos seleccionados se comparan entre sí. (e) la comparación incluye todas las configuraciones: OTS basado en coseno y los métodos de distancia de Cook dominan consistentemente a sus contrapartes cuando \(k>2\). Ningún método logra un rendimiento satisfactorio bajo la configuración \(k=2\).

La Figura S2 muestra que el número de valores atípicos no afecta el comportamiento de AUC con respecto al tamaño k del módulo. Al cambiar el número de valores atípicos M = \(\{1, 5, 10\}\), la clasificación relativa de los métodos parece ser estable. Además, la pendiente entre el rendimiento AUC y el tamaño k del módulo no cambia. El rendimiento, es decir, la mediana de AUC en todas las ejecuciones, logrado con los mejores métodos, se asocia negativamente con el número de valores atípicos M: cuando hay más individuos atípicos, el rendimiento disminuye. Además, no surge interacción entre el número de valores atípicos M y el tamaño del módulo k. Los métodos de distancias de Cook, es decir, Cook's max y Cook's med, dominan otros métodos independientemente del número de valores atípicos M. Estos métodos también exhiben robustez para el número de valores atípicos M, al lograr un valor de rendimiento estable en todos los entornos, con referencia específica a esos casos donde el tamaño del módulo k es grande.

Este esquema de simulación tiene como objetivo imitar las redes de coocurrencia microbiana, descritas detalladamente en la Tabla complementaria S1. En esta sección, presentamos y discutimos el desempeño logrado por los métodos en un esquema de simulación microbiana. Un subconjunto de la cuadrícula utilizada para simular datos distribuidos normalmente se combina con una cuadrícula diseñada explícitamente para simulaciones de composición, lo que aumenta la carga computacional. En detalle, los parámetros adicionales son (i) la heterogeneidad de los datos, (ii) el multiplicador del factor multiplicador (Mult) para diferenciar el conjunto de variables (nodo) de cada individuo entre valores atípicos (también denominados casos) y no valores atípicos (controles) y (iii) ) la proporción de taxones inflados con respecto al total. Por lo tanto, desarrollamos una implementación paralela donde se han realizado múltiples instancias de la misma configuración de simulación, con diferentes inicios aleatorios. El plan experimental general representa 150 ejecuciones para cada configuración incluida en la cuadrícula de parámetros aumentados (en total, 972 configuraciones).

Luego, siguiendo el mismo procedimiento que en la sección anterior, creamos las redes ISNs-L y SSN-n para el análisis descendente. Para cada realización, el valor de AUC correspondiente se calcula y se promedia sobre las 150 ejecuciones para obtener el valor de AUC medio logrado por cada método.

Identificamos el nivel de heterogeneidad de los datos y el factor multiplicador como principales impulsores del rendimiento. Por lo tanto, promediamos todas las configuraciones agrupadas por el controlador principal del rendimiento, es decir, la heterogeneidad de los datos y el factor multiplicador, calculando los valores de AUC media y mediana para cada método. La Tabla 2 informa sobre los valores de AUC media y mediana de los métodos seleccionados bajo diferentes configuraciones de factor de multiplicación y heterogeneidad de datos. Remitimos al lector interesado al Complemento para un análisis en profundidad.

Los rendimientos logrados por varios métodos se correlacionan positivamente tanto con la heterogeneidad de los datos como con el factor multiplicador. Logramos los mejores valores de AUC cuando Mult = 2 y Heterogeneidad de datos = alta (Tabla 3). Los métodos kNN y LOO-ISN se encuentran constantemente entre los métodos de mejor rendimiento para todos los entornos. Los métodos OTS basados ​​en euclides, es decir, tanto OTS como mOTS euclidianos, junto con los métodos de distancia de Cook, son competitivos. Además, ningún método logra un AUC \(>0.51\) en configuraciones donde Mult = 1.1. Bajo este escenario, la discrepancia entre casos y controles es débil.

Destacamos las principales diferencias entre los métodos considerados centrándonos en escenarios con alta heterogeneidad y alto multiplicador, es decir, alta diferenciación entre taxones en individuos de casos y controles. kNN logra los mejores valores de AUC media (0,801) y mediana (0,803). Entre los mejores, con valores de AUC tanto medios como medianos superiores a 0,77, encontramos LOO-ISN, Spoutlier-L, Cook's max, OTS euclidian y mOTS euc. Los métodos OTS basados ​​en la similitud del coseno logran valores bajos de AUC y no parecen adecuados para realizar la tarea. Además, observamos que las diferentes opciones para los parámetros de los métodos, excepto la medida de la distancia en el caso de OTS, tienen una influencia débil o nula en el rendimiento final.

Aquí, analizamos el rendimiento al agrupar ejecuciones de simulación por tamaño de módulo k = \(\{2,5,11,17\}\). Dada la considerable heterogeneidad en los datos analizados, el enfoque se establece en la agregación de iteraciones en entornos donde \(Mult=2\) y el nivel de Heterogeneidad es alto. En particular, LOO-ISN funciona mejor que MultiLOO-ISN para \(k<5\), mientras que OTS euclidiana funciona mejor que sus contrapartes basadas en coseno, en contraste con los resultados de las simulaciones bajo el supuesto de normalidad. En la Fig. 3 se observa una leve asociación positiva entre el tamaño k del módulo y el rendimiento (AUC mediana), lo que destaca la naturaleza modular interna de esas estimaciones.

A diferencia de lo que observamos para las simulaciones bajo el supuesto de normalidad, la evaluación es informativa para configuraciones de un solo borde: la mediana de AUC es de alrededor de 0,75 para la mayoría de los métodos considerados. Otros resultados dignos de mención se originan al comparar los métodos de Spoutlier. De hecho, los métodos basados ​​en Euclides superan significativamente a sus contrapartes basados ​​en coseno (Fig. 3a). Solo hay un ligero beneficio, menos de 0,05 en promedio, en AUC al emplear un método basado en conjuntos en comparación con un solo disparo (Fig. 3b). MultiLOO-ISN, LOO-ISN y SSN-m tienen un rendimiento similar para configuraciones de un solo borde (Fig. 3c). Los enfoques a distancia de Cook se encuentran entre los de mejor desempeño cuando el tamaño del módulo k es alto; son subóptimos para tamaños de módulos pequeños (Fig. 3d, e).

Datos sintéticos: composicionales. AUC mediana en el eje y y tamaño k del módulo en el eje x. (a) Se comparan los métodos Spoutlier de disparo único. Los métodos euclidianos, tanto OTS Euclidean como Spoutlier-l, dominan el coseno OTS. (b) Se comparan los métodos de conjunto de Spoutlier y mOTS euc surge uniformemente como la mejor implementación de Spoutlier cuando \(k>2\). (c) se comparan los métodos de rendimiento del valor p y MultiLOO-ISN logra el mejor rendimiento a partir de entornos modulares, es decir, \(k>5\). En (d), se comparan los métodos restantes, con kNN y el máximo de Cook dominando consistentemente a sus contrapartes. En el panel inferior, los métodos seleccionados se comparan entre sí. En (e), la comparación incluye todas las configuraciones: KNN, mOTS euc, LOO-ISN, Cook's max y Cook's med logran un buen desempeño consistentemente.

Como se muestra en la Fig. S3, el comportamiento de AUC con respecto al tamaño k del módulo no se ve afectado por la cantidad de valores atípicos M. La clasificación relativa de los métodos parece ser consistente con respecto a la cantidad de valores atípicos M, con un rango M = \ (\{1,5,10 \}\). Aumentar el número de valores atípicos M empeora el rendimiento de todos los métodos: ningún método muestra una alta robustez frente a los valores atípicos. Finalmente, la heterogeneidad del rendimiento, es decir, la diferencia entre el mejor y el peor método, aumenta ligeramente cuando aumenta el número de valores atípicos M.

Se sabe que las redes de co-ocurrencia de microbiomas son ricas en términos de información sobre las condiciones de salud de los individuos4,33. Por lo tanto, usamos datos de la cohorte LucKi Gut, un estudio en curso que monitorea el desarrollo de la microbiota intestinal durante la infancia y la primera infancia, para validar los hallazgos.

El LucKi Gut está incrustado dentro del Estudio de Cohorte de Nacimientos de Lucki más grande28; se enfoca principalmente en los recién nacidos, recolectando taxones microbianos en varias etapas después del parto y, por lo tanto, calculando las asociaciones microbianas. El microbioma en el mes 6 se ha identificado como un hito en la maduración de la comunidad microbiana; por lo tanto, constituye el objeto del análisis. Nos enfocamos en los 81 recién nacidos que tienen perfiles microbianos disponibles en el mes 6 y, a través de métodos de evaluación de importancia, tratamos de descubrir cuáles son los módulos específicos de individuos periféricos, si los hay. Aplicamos filtros basados ​​en la prevalencia de taxones microbianos (\(< 10\%\)). Todas las muestras tienen una profundidad de secuenciación sustancial (se lee: mediana = 57 248, IQR = 29 504; mínimo = 11 123); por lo tanto, no aplicamos ningún filtro en el número de lecturas. Los datos resultantes se componen de 81 recién nacidos por 126 microbios. Centramos la relación logarítmica (CLR) transformamos los datos y calculamos la red de correlación de Pearson en todo el conjunto de datos, es decir, la red basada en la población.

Los módulos considerados son los clusters obtenidos al aplicar el algoritmo de detección comunitaria SPINGLASS29 sobre la red basada en población. No aplicamos ninguna binarización ni transformaciones basadas en distribución. Establecemos la temperatura de parada del parámetro en 0,001 para aumentar la granularidad del algoritmo, mientras que los demás parámetros se establecen en sus valores predeterminados.

Aplicamos SPINGLASS29 a la cohorte Lucki Gut y encontramos 4 módulos microbióticos de taxones de dimensión {45, 41, 35, 5}. Los módulos 1–3 tienen un tamaño (número de taxones) fuera de la cobertura de las simulaciones (\(>17\)). Además, los módulos 1 a 3 constan de más aristas, calculadas según 27, que los individuos 81 y, por lo tanto, no se pueden utilizar todos los métodos basados ​​en la distancia de Cook. El Módulo 4, que consta de 5 nodos, es adecuado para validar nuestro enfoque, siendo el más cercano a las dimensiones del módulo en las simulaciones.

Por lo tanto, aplicamos técnicas sobresalientes a partir de datos sintéticos en los ISN-L del módulo 4. En particular, kNN 5 \(\sqrt{N}\), mOTS euc, MultiLOO-ISN, LOO-ISN, coseno mOTS máximo de Cook y mOTS coseno -n. MultiLOO-ISN y LOO-ISN encuentran 7 y 4 valores atípicos significativos respectivamente, visualizados en la Fig. 4a,b. Creamos una clasificación de conjuntos de los individuos a través de la comparación de rangos. Un estudio comparativo de Li et al.34 nos orienta hacia la media geométrica de los rankings, entre las mejores métricas en términos de rendimiento y generalizabilidad. Existe un fuerte acuerdo entre las puntuaciones atípicas de diferentes métodos, con una correlación en valor absoluto superior a 0,4 (Fig. 4d). Nos enfocamos en el top-6 en cuanto a la media geométrica (Fig. 4c). Elegimos 6 ya que se encuentran entre 7 y 4 valores atípicos con MultiLOO-ISN y LOO-ISN.

Datos de la vida real: la cohorte LucKi Gut. Curva de filtración de los ISN utilizando los valores de Fiedler como métrica. También se representa la desviación estándar. En el módulo 4, (a) las curvas de filtración de 4 valores atípicos (verde) identificados con LOO-ISN se representan contra el resto (rojo, identificado como "promedio"). En (b), la línea verde es la curva de filtración de 7 valores atípicos identificados con MultiLOO-ISN. En (c), los 6 valores atípicos principales, en cuanto a la media geométrica de la clasificación, se representan (verde) contra el resto (rojo). En (d), el acuerdo, en términos de correlación de OS, se calcula entre los métodos especificados. En (e), los 6 valores atípicos principales en toda la red se representan (verde) contra el resto (rojo). (f) Solo 2 muestras de las 6 principales en toda la red también son periféricas en el módulo 4.

La validación adicional proviene de las curvas de filtración de gráficos35, es decir, las representaciones de gráficos que se pueden aplicar a conjuntos de datos etiquetados y no etiquetados utilizando los atributos relevantes del gráfico y la información estructural. Se considera un umbral creciente y aquellos bordes cuyo peso es menor que el valor del umbral actual se ponen a cero. A continuación, se calcula una métrica que resume el subgráfico para diferentes valores de umbral. Más detalladamente, usamos la conectividad algebraica de grafos, el llamado valor de Fiedler36; mide qué tan bien está conectado un gráfico37. Se puede encontrar más información en el Suplementario.

En la Fig. 4a–c, representamos los grupos de valores atípicos contra el promedio de todos los demás ISN-L en la población, mostrando así una fuerte separación en el módulo dado. Por lo tanto, corroborar los hallazgos de LOO-ISN, MultiLOO-ISN y los 6 valores atípicos principales.

Comparamos los 6 valores atípicos principales con fenotipos externos, como el modo de parto (vaginal o cesárea) o el tipo de dieta (lactancia materna, dieta mixta, alimentos sólidos). Encontramos enriquecimiento para la dieta de alimentos sólidos y levemente para el parto por cesárea (pruebas hipergeométricas, respectivamente, valor de p de 0,032 y 0,079, con corrección FDR).

Luego, consideramos, como extremo, toda la red como un módulo (Fig. 4e). Iteramos la canalización en toda la red (es decir, en los ISN de 81 individuos y 126 taxones) y clasificamos los 6 valores atípicos principales (como antes). Notamos que no se calculó el máximo de Cook ya que hay más bordes que muestras. Encontramos un enriquecimiento significativo para los alimentos sólidos en el top 6 (6 de 6, valor de p hipergeométrico FDR corregido de 0.032). No se enriquece ningún nivel de tipo de entrega. Además, 5 de las 6 muestras principales se encuentran en el Grupo 2 del análisis de grupos DMM de Gallazzo et al.38 sobre los mismos datos. Sin embargo, no encontramos enriquecimiento (valor p hipergeométrico corregido por FDR \(= 0.35\)). No encontramos ninguna separación en las curvas de filtración al tomar los 6 valores atípicos principales del Módulo 4 en toda la red. De los 6 valores atípicos principales del Módulo 4, solo 2 también son valores atípicos en toda la red (Fig. 4f).

Las redes individuales específicas se han vuelto cada vez más populares. En general, un ISN se refiere a una red que se puede asignar a un solo individuo. Como tal, se puede adoptar un enfoque de sistemas para comparar individuos entre sí y evaluar la heterogeneidad en pacientes o grupos de población, lo que puede informar las prácticas de medicina de precisión. Aquí, nos enfocamos en los ISN con bordes que tienen pesos específicos individuales. A menudo, estos ISN también tienen valores de nodo específicos individuales, ya que estos se utilizan directamente en el cálculo de los bordes. Sin embargo, uno puede pensar en ejemplos para los cuales los valores de los nodos no estarían disponibles directamente. Por ejemplo, las redes de epistasis estadísticas a nivel de gen específicas de cada individuo podrían capturar la contribución epistática del individuo a un modelo de epistasis poblacional, en el sentido de Kuijjer et al.13. Sin embargo, los valores de nodos de genes específicos de cada individuo solo estarían disponibles cuando la derivación del modelo de epistasis de la población implique el cálculo de resúmenes de genes. Una vez que se derivan los ISN, se pueden consultar para subredes altamente conectadas. Cuando los ISN son moleculares, pueden seguirse mediante análisis de enriquecimiento para identificar vías significativas específicas para cada individuo. Sin embargo, antes de embarcarnos en tales análisis, primero investigamos si el individuo debe ser tratado como una muestra única o si se puede suponer que el individuo sigue las tendencias de la población. Por lo tanto, las conclusiones de los modelos de población se pueden extrapolar al individuo sin más preámbulos. Actualmente, los ISN a menudo están sujetos a flujos de trabajo de interpretación, independientemente de si los bordes o módulos son significativamente diferentes de lo que se puede esperar de una población. Por lo tanto, este trabajo explora varios métodos de detección de valores atípicos, formula otros nuevos y los traduce al contexto de los ISN, yendo más allá de las evaluaciones de importancia de un solo borde.

Los ISN, con bordes específicos individuales, se pueden calcular de varias maneras. Hemos restringido la atención al método de interpolación lineal de Kuijjer, ya que el método de construcción se puede aplicar a cualquier definición de un borde. Esto no implica que cualquier definición de peso de borde proporcione un rendimiento óptimo. Kuijjer informó13 (y Jahagirdan39 también) que se obtienen resultados más ruidosos con ponderaciones de borde de información mutua. Además, cada configuración de aplicación requerirá una evaluación exhaustiva de la idoneidad de la definición de ISN adoptada en los datos de simulación que capturan la verdadera naturaleza de los datos de la aplicación de destino. Cuando se aplica a la correlación de Pearson como una medida de asociación entre dos nodos, los bordes específicos del individuo de Kuijjer son bastante similares a los definidos por Liu et al.21 (SSN-n). Este último desarrolló una puntuación Z (SSN-m) a partir de los bordes de ISN para evaluar la importancia. Sin embargo, el error de tipo I para SSN-n fue ligeramente elevado. Para el razonamiento detrás de esta observación, nos referimos a Jahagirdan et al.27.

Este documento presenta varios métodos de diferentes campos de investigación para evaluar qué individuo es significativamente diferente de la población, donde la población se describe a través de una red de entidades biológicas que interactúan (por ejemplo, genes y sus expresiones o microbios y sus abundancias). Dado que las entidades a menudo no funcionan de forma aislada, hemos ampliado los métodos actuales de detección de valores atípicos de muestra de última generación para que funcionen condicionales en conjuntos interconectados de mediciones para cada individuo. Por lo tanto, en las simulaciones, no buscamos módulos sino condiciones en una subred dada, luego verificamos si los individuos son valores atípicos condicionados en la subred. Los individuos periféricos, no en todas las redes sino en un subconjunto, identificados con nuestras técnicas pueden señalar subredes interesantes de ISN para realizar análisis de seguimiento. Al darnos cuenta de que los nodos, ya sean genes, taxones o cualquier otra característica biológica, no actúan de forma aislada (sino en comunidades), ampliamos el análisis de vanguardia actual hacia un paradigma de significado modular.

En nuestro trabajo, hemos especificado claramente las hipótesis nula y alternativa que estamos probando con cada método de detección de valores atípicos considerado. Nuestros datos simulados imitan dos escenarios de la vida real: (1) redes de transcriptoma (coexpresión de genes) para distribución normal y (2) redes de coocurrencia microbiana para distribución de composición. La motivación para seleccionar estos dos contextos de aplicación es la siguiente. La coexpresión génica es el campo en el que se han aplicado principalmente los ISN. Además, como destaca Conesa et al.40, los recuentos de lectura se modelan mejor con una distribución discreta (como la binomial de Poisson o negativa41,42). Sin embargo, tan pronto como los datos se hayan normalizado, incluida la TMM y la eliminación por lotes, es posible que pierdan su naturaleza discreta y se parezcan más a una distribución continua. Además, existen numerosas ventajas que ofrece la distribución gaussiana, como ser una representación natural de un promedio para tamaños de muestra grandes, a una media y desviación completamente independientes. El supuesto de normalidad podría ser un problema, por lo que su uso se limita solo a escenarios en los que se cumple el supuesto. Para esos campos en particular, se necesita una técnica de generación de datos personalizada. El microbioma tiene un impacto considerable en la salud43. Además, el intestino humano es un ecosistema complejo donde los microbios interactúan entre ellos y con el huésped33. Se ha demostrado que las interacciones microbianas exhiben información rica sobre varias condiciones de salud potencialmente33.

En la era de la ciencia de datos y la medicina de precisión, la detección robusta de valores atípicos es de gran interés44,45. Determinar si una observación es improbable, dados los datos disponibles o una referencia, claramente depende del contexto. En nuestro contexto de ISN, que son redes, tiene más sentido buscar valores atípicos de forma multivariada, donde un valor atípico multivariado se define clásicamente como una observación que es inconsistente con una estructura de correlación dada. La complejidad de la detección de valores atípicos multivariados se ve exacerbada en el contexto de los ISN, que pueden consistir en miles de bordes. Para reducir la complejidad y, dado que los módulos suelen ser las unidades básicas para la interpretación y la traducción, restringimos la dimensionalidad de la detección de valores atípicos multivariados a los dictados por los módulos. Por lo tanto, nos enfocamos en simulaciones de baja dimensión para replicar la dimensionalidad de un módulo de la vida real. Nuestros métodos de detección de valores atípicos seleccionados son representativos de kNN, OPTICS, Spoutlier, la distancia de Cook y las familias SSN-m, y no están supervisados: kNN y Spoutlier tienen suposiciones diferentes, pero ambas son técnicas basadas en la distancia, mientras que OPTICS se basa en la densidad. SSN-m (como LOO-ISN y MultiLOO-ISN) se basa en dejar uno fuera, mientras que la distancia de Cook es tanto estadística como basada en la distancia. Los métodos desarrollados inicialmente para la detección de valores atípicos univariados (multivariados) son, respectivamente, SSN-m (kNN, OPTICS, Spoutlier, distancia de Cook). Si bien no existe el mejor desempeño general en todos los escenarios, se pueden hacer algunas observaciones: la mayor dimensión del módulo se asocia con desempeños más sólidos. Además, observamos una ligera mejora en el rendimiento al aumentar el tamaño de la muestra. La distancia de distribución, en los datos de composición, entre valores atípicos y no valores atípicos es un factor crítico de rendimiento. Particularmente los parámetros Mult y Heterogeneidad de datos. Las configuraciones donde Mult=1.1 son extremadamente desafiantes para todos los métodos, con un valor de la mediana de AUC que oscila entre 0.5 y 0.51. En este escenario, la discrepancia entre casos y controles es débil y no se detecta por ningún método. Por lo tanto, es crucial analizar más a fondo las características del conjunto de datos de destino antes de aplicar métodos de detección de valores atípicos de manera miope.

Podemos formular interpretaciones e ideas basadas en el rendimiento de los métodos. Mostramos que los métodos propuestos, es decir, los métodos de distancia de Cook aplicados en los bordes, Cook's max y Cook's med, son la primera opción. Los métodos de Cook se encuentran entre los mejores con mOTS coseno bajo la configuración de suposición de normalidad de datos sintéticos, con kNN y LOO-ISN bajo la configuración de composición de datos sintéticos. Por el contrario, OPTICS siempre tiene un desempeño deficiente. Una posible explicación para tal resultado es que la construcción de Cook puede dar la importancia adecuada a la visión del ecosistema que caracteriza la medicina de redes. De hecho, al calcular la influencia/extremidad de un borde, considera toda la estructura modular. Además, podemos deducir que podemos abordar los bordes en los datos transcriptómicos desde un punto de vista geométrico. Esto queda claro por el mejor desempeño del coseno mOTS que la contraparte euclidiana. El enfoque algebraico, mOTS euclidiano, tiene mejores resultados en las simulaciones de microbiomas.

Existen alternativas a los métodos de detección de valores atípicos propuestos. Los métodos de reducción de dimensionalidad (no lineales) como PCA (no lineal), MDS (núcleo) o SNE, en las entradas de celda de la matriz de asociación diagonal superior vinculada a cada ISN, también se pueden usar para identificar valores atípicos, aunque principalmente por inspección visual solamente. Algunos enfoques de agrupamiento son resistentes a los valores atípicos en el sentido de que identificarán los valores atípicos como un grupo separado: un desarrollo reciente que es prometedor en el contexto de los ISN es netANOVA, un enfoque novedoso de agrupamiento de redes jerárquicas con evaluación de significado basada en árboles46.

Los datos de la vida real confirman nuestros hallazgos. El estudio sobre los datos de microbiota de la cohorte LucKi Gut validó los métodos de detección de valores atípicos propuestos para encontrar valores atípicos locales, es decir, observaciones que no son valores atípicos globales pero que se convierten en valores atípicos solo cuando pertenecen a comunidades de características específicas. Esto es crucial en los microbiomas, dada su estructura heterogénea sustancial y la importancia de su variación47. Además, al hacer un conjunto de las técnicas más eficaces en el módulo más pequeño (es decir, el módulo 4), podemos segregar el tipo de dieta y el modo de entrega. En particular, se sabe que el modo de parto por cesárea es el principal impulsor de la microbiota en las primeras etapas de la vida48,49,50,51. Esto destaca la capacidad de captura de señal de los métodos mencionados. Además, los 6 individuos más atípicos en el módulo 4 no son atípicos en toda la red Fig. 4e. Por lo tanto, la detección de valores atípicos locales aporta información complementaria.

La mayoría de los métodos presentados son clasificadores, es decir, producen una clasificación de los valores atípicos, mientras que los métodos de exclusión (\(LOO-ISN\) y \(MultiLOO-ISN\)) son clasificadores adecuados, es decir, proporcionan una p -valor. Aunque los valores de p facilitan la identificación de una muestra excepcional, algunos de nuestros mejores resultados, es decir, kNN, la distancia de Cook y Spoutlier, no proporcionaron dichos valores de p. Para los clasificadores, se necesita más trabajo para traducir una lista clasificada en decisiones sobre qué individuos son realmente atípicos. La carga de cálculo varía según los métodos. MultiLOO-ISN y LOO-ISN son las técnicas de disparo único más intensas desde el punto de vista computacional. Los enfoques euclidianos de OTS son mucho más lentos que los de OPTICS, lo que destaca la necesidad de una mayor optimización. Los métodos de distancia de Cook son rápidos, pero su carga aumenta rápidamente con el aumento del tamaño del módulo. La comparación completa en un módulo de tamaño \(k=5\) y con \(N = 1000\) muestras se muestra en el Complemento.

La selección de los datos de referencia ha sido un punto de discusión en los documentos originales que presentan los ISN. Por ejemplo, en Kuijjer13, investigaron tomando subconjuntos de un conjunto de referencia inicial como fondo y demostraron que esto tenía poco impacto en la red específica de un individuo construida a partir de este fondo, especialmente cuando aumentaba el tamaño de las muestras (Kuijjer et al.,13). De manera similar, Liu et al.21 también evaluaron el impacto de cambiar los conjuntos de referencia y concluyeron que el método es robusto para conjuntos de referencia más pequeños. En Jaha et al.27, evaluaron diferentes opciones de conjuntos de referencia. En particular, el impacto de hacer un conjunto de referencia solo de casos, solo de control o agrupado. Llegaron a la conclusión de que el uso de conjuntos de referencia de solo control en la predicción es ventajoso, pero reduce la capacidad de generalización. Sin embargo, en este trabajo, la elección de los datos de referencia fue sencilla. Es imposible usar conjuntos de referencia solo de casos o controles en entornos no supervisados. Puede haber problemas derivados de la variabilidad del conjunto de referencia. Si las muestras del conjunto de referencia son una mezcla de diferentes poblaciones, los resultados se verían afectados. El impacto de la elección de los datos de referencia sobre el estado de los valores atípicos o el análisis posterior de los ISN significativos es objeto de trabajo futuro. Un proyecto de seguimiento tiene como objetivo encontrar conjuntos de referencia homogéneos como grupos de muestras que comparten el mismo patrón de asociación.

Finalmente, una vez que se han seleccionado individuos interesantes, estos pueden analizarse en un contexto de medicina de precisión para identificar biomarcadores o proporcionar información mecanicista. De acuerdo con Jahagirdan39, observamos que la precisión de la clase ya es muy alta cuando se usan los valores de borde (no publicados). Conjeturamos que es beneficioso ir más lejos de una representación de borde promedio (es decir, correlación de Pearson). En este trabajo, vamos más allá del uso directo de valores de borde como predictores, aplicando métodos más sofisticados. También se pueden emplear métodos más avanzados, como el aprendizaje de representación gráfica.

En conclusión, los ISN son construcciones prometedoras. Su aceptación en contextos de medicina de precisión se basará en avances para interpretar los ISN, pero también en evaluaciones para identificar individuos atípicos o excepcionales. Estas personas podrían beneficiarse de diagnósticos o intervenciones basadas en sus ISN en lugar de modelos de población genéricos. Este trabajo muestra el valor agregado de los métodos de detección de valores atípicos basados ​​en módulos sobre los enfoques de un solo borde comúnmente utilizados.

Para validar los métodos propuestos, utilizamos datos de la cohorte LucKi Gut, un estudio en curso que monitorea el desarrollo de la microbiota intestinal durante la infancia y la primera infancia. LucKi Gut está integrado en el Estudio de Cohorte de Nacimiento de Lucki más grande28. El ADN metagenómico se extrajo con un protocolo personalizado que implica lisis mecánica y enzimática52. El paso principal del análisis de las muestras fue el perfil microbiano mediante la secuenciación de última generación de la región del gen hipervariable 16S rRNA V3–V4. Luego, se usó una canalización basada en DADA2 para identificar variantes de secuencia de amplicón. El resultado de esos pasos es una colección de 1144 abundancias de taxones. Principalmente, nos enfocamos en las asociaciones microbianas de los recién nacidos recolectados en el mes 6 después del parto, identificado como un hito en la maduración de la comunidad microbiana, restringiendo aún más la atención a los 81 recién nacidos con perfil microbiano disponible.

La selección de individuos y taxones informativos y el filtrado del ruido aleatorio se lograron con un filtro de abundancia y prevalencia. Solo las variantes de la secuencia de amplicón con una prevalencia superior al 10 % sobrevivieron al filtrado. El filtrado ha sido reconocido como un paso crucial en el microbioma53 y seleccionamos el 10 % de acuerdo con53. Solo quedaron 126 (de 1144) taxones. En los datos prefiltrados, aplicamos la transformación de relación logarítmica centrada (CLR).

En general, una red se puede representar mediante un gráfico \(G=(V,E)\) donde V denota un conjunto finito no vacío de p nodos y E es un subconjunto de \(V\times V\) que contiene pares de nodos conectados \(e_{ij}:=(v_i,v_j)\) denominados aristas. En redes ponderadas, cada borde \(e_{ij}\) está asociado con un peso \(w_{ij} \in R\). Consulte también la Tabla complementaria S1. Para redes individuales específicas, asumimos que para cada individuo q \((q=1,\ldots , N)\) existe una única red \(G_q=(V_q,E_q)\), donde N es el número de individuos dentro de la cohorte de estudio. Además, una subred/módulo \(G^\prime =\left( V^\prime ,E^\prime \right)\) es una red tal que \(V^\prime \subseteq V\) y \(E ^\prime \subseteq E\).

Las redes individuales específicas consideradas en el estudio se derivaron a través de LIONESS13 de Kuijjer (ver también la Fig. S4), lo que dio lugar a redes no dirigidas, ponderadas y específicas de cada individuo en el estudio, con fuertes propiedades, desempeño y adaptabilidad en diferentes contextos13 ,27,54,55. Por lo tanto, en nuestro trabajo, un peso de borde específico de individuo \(w_{ij}^q\) para el individuo q se calcula con la siguiente fórmula:

donde \(w_{ij}^\alpha\) es el peso del borde en la red basada en la población y \(w_{ij}^{\alpha -q}\) es el peso del borde en la red calculado con la misma medida de asociación (correlación de Pearson en este trabajo) pero sin la observación q-ésima, es decir, la red LOO.

Esta fórmula explota la diferencia entre dos redes, en las que la única variación es la ausencia-presencia del individuo q, para sacar conclusiones sobre el impacto en la topología de la red al eliminar o agregar un individuo. Además, la inspiración para la fórmula radica en el deseo de construir ISN de tal manera que su promedio esté cerca de la red construida al agrupar a todos los individuos del estudio. El documento original demuestra efectivamente que, con \({N\rightarrow \infty }\) y bajo el supuesto de que la proporción de pesos es constante entre las redes LOO y basadas en la población, la linealidad se mantiene y la red basada en la población puede verse como promedio ponderado de los ISN (ver 13, Suplemento 5.2).

La red SSN-n está definida por la diferencia central \(w_{ij}^\alpha -w_{ij}^{\alpha -q}\). El artículo original21 basaba el conjunto de referencia en las muestras de control, pero se ha ampliado aún más en27 a toda la población. Dado que estamos en un entorno sin supervisión, utilizamos la última definición.

SSN-m, LOO-ISN y MultiLOO-ISN dan un valor p, mientras que OPTICS, kNN, Spoutlier son clasificadores, es decir, dan una puntuación atípica. Las características de los métodos se destacan en la Tabla 4.

Es esencial aclarar la hipótesis nula subyacente para encontrar los valores atípicos: individuos que se desvían de la estructura de asociación basada en la población. Específicamente, para una arista dada \(e_{ij}\):

Esta formulación muestra el vínculo directo entre \(w_{ij}^q\) y \(w_{ij}^{\alpha }\). Si \(H_0\) no se rechaza, entonces las conclusiones basadas en la población son directamente aplicables al q-ésimo individuo. Si la prueba cae en la zona de rechazo de dos colas, se considera que el individuo es un valor atípico para el borde/módulo objetivo. La ecuación anterior de la formulación. (2) es directamente generalizable a un módulo al extender la igualdad para cada borde dentro de un módulo. Tomamos Md como un módulo y definimos \(Me = \{w_{ij} :i,j \in Md\}\) como el conjunto de pesos de los bordes pertenecientes a un módulo. Por lo tanto, la hipótesis nula es:

Cualquier desviación fuerte de la ecuación. (2) (Ec. 3 en evaluaciones modulares) es parte de \(H_A\). Dependiendo del método, la formulación de \(H_0\) varía: (1) para SSN-m, \(H_0\) se refiere a la igualdad de aristas calculadas en la red de referencia y una red con la adición de la muestra q. En la subsección sobre SSN-m, mostramos la equivalencia de esta prueba con la ecuación. (2). (2) Para LOO-ISN y MultiLOO-ISN, la hipótesis nula es la Ec. (2) (Ec. (3) si probamos la significancia del módulo). Más detalles están en las subsecciones LOO-ISN y MultiLOO-ISN. Los otros métodos (3), kNN, OPTICS, Spoutlier, la distancia de Cook, no siguen una configuración clásica de prueba de hipótesis, es decir, no arrojan valores p o significación estadística. Asignan una puntuación, la puntuación atípica, para el borde/módulo de cada individuo. La clasificación de la puntuación atípica proporciona una cuantificación del grado en que el borde/módulo de un individuo es atípico.

Si \(H_0\) no se rechaza, no se puede hacer ningún reclamo en el borde/módulo probado como valores atípicos. Por lo tanto, el borde/módulo de destino no necesita caracterizarse individualmente, y la agregación basada en la población es la mejor estimación. En particular, de la Ec. (1), encontramos que la Ec. (2), es una condición necesaria y suficiente para:

Por lo tanto, la prueba entre pesos de borde específicos de individuos y basados ​​en la población es equivalente a la prueba entre redes LOO y basadas en la población bajo la fórmula ISNs-L. En la figura 5 se puede encontrar una descripción gráfica de las estrategias de evaluación de la importancia.

Tres escenarios de prueba diferentes para evaluar si un individuo es extremo en comparación con una población que está representada por una red ponderada completamente conectada (es decir, todos los nodos están conectados). (a) El ejemplo muestra una red de 3 nodos (3 aristas). Este podría ser un módulo como una subred de la red global más grande basada en la población. En (b), se calcula la distancia entre la red LOO y la red basada en la población. Tenga en cuenta que cuando la red basada en la población se deduce de N individuos, la red LOO se basa en \(N-1\) individuos. SSN-m utiliza este escenario de prueba, pero se limita al caso bivariante (2 nodos y 1 borde de conexión). En (c) podemos ver los tres tipos de redes consideradas: basadas en población, LOO e ISN, resaltadas para q individual. De manera similar a (b), en (d) la distancia entre la red LOO y la red basada en la población se confronta, esta vez, con la distancia entre la red basada en la población y la LOO esperada bajo la hipótesis nula de la ecuación. (4) \(E(w_{ij}^{\alpha }) = E(w_{ij}^{\alpha -q}\)). Las redes nulas se generan mediante el muestreo de características establecidas para N individuos a partir de la matriz de varianza/covarianza estimada, por lo tanto, sin diferencia entre los individuos, lo que provoca que no haya diferencia en los pesos de los bordes de la red. Este escenario de prueba se aplica a las implementaciones de MultiLOO-ISN y LOO-ISN, donde proporcionamos más información sobre el muestreo de red nula. La Figura S5 muestra la tubería en detalle. Por último, para (e), la red específica del individuo objetivo se compara con los ISN de otros individuos de la población, lo que lleva a una puntuación atípica para el individuo objetivo. Los pesos de los bordes de la red se utilizan en algoritmos de detección de valores atípicos kNN, distancia de Cook, OPTICS y OTS.

SSN-m21 calcula un valor p como una transformación de la diferencia entre \(w^{\alpha }\) y \(w^{\alpha +q}\). \(w^{\alpha +q}\) es un peso de borde calculado al agregar un individuo antes de calcular la correlación. SSN-m ha sido desarrollado en un paradigma de red diferencial y limitado a él. La red se calculó agregando una observación q, no eliminándola como en LIONESS. Esta discrepancia no es un problema, ya que las dos situaciones (agregar o quitar una observación) se pueden reconciliar cambiando el punto de vista. Definiendo \(PCC_n\) como la correlación de Pearson de dos nodos calculada sobre n observaciones, definimos \(\Delta PCC_n = PCC_{n+1}-PCC_{n}\) como la diferencia de correlación al sumar la observación n+1 . Es sencillo reconciliar con la situación de LEONA, estableciendo (n+1) = N, y luego eliminando una observación que produce n = N-1. El cálculo del valor p se basa en una puntuación z, calculada como:

El supuesto subyacente es la normalidad de la distribución.

LOO-ISN pertenece a la familia de dejar uno fuera. En el escenario de un solo borde (\(k=2\)), con nodos \(v_i\) y \(v_j\), y bajo la hipótesis nula \(H_0\) dada por la Eq. (2), el método LOO-ISN realiza los siguientes pasos; (1) Utilice el conjunto de datos de análisis (matriz \(N \times k\) que contiene valores de nodo) para calcular la red basada en la población, con un solo elemento \(w_{ij}^{\alpha }\), es decir, con correlación de Pearson en nuestro trabajo; (2) Generar datos simulados, es decir, N observaciones de una distribución normal bivariada con media cero (\(\mu = 0\)), varianza unitaria y correlación igual a \(w_{ij}^{\alpha }\) ; (3) Usar datos simulados para calcular \(\hat{w}_{ij}^{\alpha }\); (4) Retire una muestra (ind) de los datos de simulación y calcule la correlación \(\hat{e}_{ij}^{\alpha - ind}\) en los datos restantes; (5) Calcule la diferencia entre \(\hat{w}_{ij}^{\alpha }\) y \(\hat{w}_{ij}^{\alpha - ind}\); 6) Eliminar el q individual del conjunto de datos de análisis y calcular \(w_{ij}^{\alpha -q}\), para cada \(q=1, \cdots , N\); 7) Compare \(w_{ij}^{\alpha } - {w_{ij}^{\alpha - q}}\), calculado en el conjunto de datos de análisis, con \(\hat{w}_{ij} ^{\alpha } - \hat{w}_{ij}^{\alpha - ind}\), calculado sobre datos de simulación, para obtener un valor p asociado. Como se mencionó anteriormente en la Ec. (4), es equivalente a probar entre bordes basados ​​en población e individuales o entre bordes basados ​​en población y LOO.

Los pasos anteriores, que describen la canalización para la evaluación de la importancia de un único borde (\(k=2\)), se generalizan directamente en el caso en que se considere un módulo (\(k>2\)). Sin embargo, en tal caso, usamos una distribución normal multivariada para generar los datos de simulación en el paso 2), donde la dimensión de la distribución normal es igual al tamaño k del módulo. Las simulaciones normales multivariantes necesitan imitar la estructura de la red bajo la hipótesis nula \(H_0\). Por lo tanto, generamos N muestras, iguales al tamaño de la muestra empírica, con una normal donde establecemos la matriz de varianza/covarianza en la matriz de adyacencia A, con entradas de los pesos de borde ponderados \(w_{ij}^{\alpha }\) y el vector medio (\(k \times 1\)) a 0. Por lo tanto, los coeficientes de correlación se estiman en el conjunto de datos de análisis, es decir, los pesos de borde \(w_{ij}^\alpha\) para cada borde entre dos nodos \(v_i\) y \(v_j\) dentro del módulo. Remitimos al lector a la Fig. S5 para una representación visual.

Si bien el cálculo del valor p en el paso (7) es sencillo en una configuración de un solo borde, son posibles múltiples opciones en la configuración modular. LOO-ISN suma las diferencias entre dimensiones para crear una distribución univariada y una zona de rechazo. Por lo tanto, prueba todo el módulo.

Tomamos Md como un módulo y definimos \(Me = \{w_{ij}^q:i,j \in Md\}\) como el conjunto de pesos de borde pertenecientes a un módulo. Para cada individuo q definimos el estadístico de prueba \(T_q\) como:

\(T_q\) se compara luego con la distribución empírica de la suma de las diferencias bajo la hipótesis nula \(H_0\), es decir, \(\hat{T}=\sum _{(i,j)\in Me}{ (\hat{w}_{ij}^\alpha -\hat{w}_{ij}^{\alpha -q})}\), y se obtiene un valor p. Tanto para LOO-ISN como para MultiLOO-ISN, el pseudocódigo que explica los distintos pasos en detalle está disponible en el Complemento.

MultiLOO-ISN sigue la tubería de dejar uno fuera descrita anteriormente, que difiere solo en la agregación de características. MultiLOO-ISN considera el módulo como un punto en un espacio de alta dimensión y construye una zona de rechazo multidimensional con tantas dimensiones como bordes tenga el módulo. Pero, para calcular la estadística de prueba, necesitamos reducir la zona de rechazo a un escalar. Por lo tanto, aplicamos discrepancia máxima (no lineal) para crear una distribución univariada bajo \(H_0\).

Con Me el conjunto de pesos de borde pertenecientes a un módulo, para cada q individual, definimos el estadístico de prueba \(T_q\) como:

Luego comparamos \(T_q\) con la distribución empírica del máximo de la diferencia bajo \(H_0\), es decir, \(\hat{T}=\max _{(i,j)\in Md}{(\hat {w}_{ij}^\alpha -\ \hat{w}_{ij}^{\alpha -ind})}\) y recupera un valor p.

SSN-m, MultiLOO-ISN y LOO-ISN están fuertemente relacionados: todos asumen normalidad y tienen en cuenta, como parámetros, el tamaño de la muestra y la correlación empírica basada en la población \(w_{ij}^\alpha\). También muestran resultados similares en configuraciones de un solo borde.

Spoutlier30 es una implementación rápida basada en la lógica kNN. Define un conjunto de referencia y luego calcula las distancias entre este conjunto y la observación de destino q. Luego extrae el mínimo de esas distancias, ya que los autores afirmaron que un valor atípico es una observación muy alejada de todas las observaciones en el conjunto de datos. La mínima de esas distancias es el SO. El único parámetro es el número de individuos en el conjunto de referencia s. Arreglamos \(s = 20\) de acuerdo con las sugerencias del documento original. En este trabajo, tomamos los pesos de los bordes específicos de cada individuo en un módulo como nuestras características.

Cuantificar el OS para una parte de observación del conjunto de referencia de tamaño s es un caso de esquina. Si no se toman medidas, esos individuos tendrían una distancia de 0, no indicativa de su grado atípico. En el artículo original, los autores superaron esta limitación al calcular la distancia distinta de cero más baja del conjunto de referencia s. Este enfoque pasa por alto las similitudes en el entorno con tamaños de muestra altos y características discretas; En esos entornos, es plausible tener múltiples observaciones con el mismo perfil, es decir, una réplica. Si una réplica de la observación objetivo está en el conjunto de referencia, no debemos descartar una distancia 0. Por lo tanto, introdujimos una modificación menor del código original. Muestreamos \(s+1\) observaciones, y cuando el objetivo está en el conjunto de referencia, usamos las otras s observaciones. De lo contrario, muestreamos aleatoriamente s de \(s+1\) observaciones.

La medida de la distancia es crucial para la actuación final. Proponemos la similitud de coseno (OTS coseno) para considerar la naturaleza geométrica de los datos. La disimilitud se calcula a través de su complemento. El cálculo geométrico del coseno necesita un espacio de características multidimensional y es inviable en configuraciones de un solo borde. Considerando el conocido paradigma de la sabiduría de las multitudes56, proponemos una técnica de conjunto. Iteramos el algoritmo (mOTS coseno, mOTS euc) varias (10) veces para tener un rendimiento más estable. Además, también proponemos una combinación de similitud euclidiana y coseno (mOTS glob). Por lo tanto, se combinan facetas aritméticas y geométricas. Implementamos todos los métodos en las redes SSN-n e ISNs-L.

La distancia de Cook se basa en la lógica del módulo. Un módulo es una colección de variables fuertemente asociadas (posiblemente genes/taxones). Por lo tanto, la distancia de Cook explota la información compartida entre los componentes del módulo, ya sean bordes o nodos. La adaptación propuesta de la distancia de Cook predice un peso de borde a través de un modelo lineal utilizando todos los demás pesos de borde en el módulo como predictores para cada iteración. Dado un módulo de tamaño k, con \(k=\) número de nodos, el número de combinaciones por pares (no se considera el orden) entre las aristas es \(C = \frac{k(k-1)}{2}\ ). En particular, para \(q= \{1,\ldots,N\}\) y \(c=\{1,\ldots,C\}\), usamos un modelo lineal (LM) para predecir un borde peso \(w_{ij}^q\) con cualquier otro borde peso \(w_{lm}^q\) en el módulo, \((l,m) \in \{1, 2, \dots , k \ }^2\) con \((l,m) \ne (i,j)\) y \(l < m\):

Luego, aplicamos la distancia de Cook para identificar qué observación es periférica (residuo alto) y con un apalancamiento sustancial, es decir, que tiene una fuerte influencia en la estimación de \(w_{ij}^q\). La distancia de Cook para una observación q y el peso del borde \(w_{ij}\) (nodos de conexión \(v_i\) y \(v_j\)) como objetivo, se define de la siguiente manera:

donde \(\hat{w}_{ij}^{p(q)}\) es el valor de la respuesta ajustada que se obtiene al excluir al individuo q, con

El cálculo de la distancia de Cook se repite para (1) cada observación, dando \(D_{ij}^1\), \(\ldots\), \(D_{ij}^N\), y 2) para cada borde en el módulo como objetivo, produciendo \(D_{12}^q\), \(\ldots\), \(D_{k-1k}^q\). Finalmente, para cada observación q, agregamos todos los \(D^q\)={\(D_{ij}^q\) con \(j=2,\ldots , k\), \(i=1, \ldots , k-1, i

Nos enfocamos en la implementación desde Angiulli31. Esta extensión ha sido desarrollada para la detección de valores atípicos. Como características, usamos todos los pesos de borde dentro de un módulo Me. Para más detalles, nos remitimos al artículo original y la sección de método del Complementario.

OPTICS-OF (simplemente denominado OPTICS en el documento) es una mejora de DBSCAN desarrollada para la detección de valores atípicos. Los pesos de borde dentro de un módulo de destino son las características. OPTICS produce una puntuación atípica. Para obtener más detalles, nos remitimos al artículo original y a la sección Método complementario.

Usamos datos sintéticos para evaluar y comparar los métodos anteriores donde la verdad del terreno está disponible. Creamos varios escenarios heterogéneos con diferentes suposiciones, esquemas de generación y parámetros. En particular, empleamos dos esquemas de generación diferentes: (i) distribución normal y (ii) esquema de composición. En ambos esquemas, simulamos el conjunto de datos de análisis (individuos en las filas, características en las columnas, dimensión \(N\times k\)) a través de diferentes parámetros de distribución para los controles \(NM\) y los M casos, es decir , los valores atípicos.

Los parámetros compartidos en ambos esquemas son (1) tamaño de muestra N, que varía entre 100 y 2000; (2) número de individuos atípicos M, que varía entre 1 y 10 (en porcentaje de \(0.05\%\) a \(10\%\)); (3) el tamaño del módulo k que cuantifica el número de nodos en el módulo, que varía de 2, un escenario de un solo borde, a 17. Tanto en los esquemas de simulación de distribución normal como en los de composición, definimos una variable aleatoria multivariante [normal multivariante para (i )], y muestreamos el conjunto de variables de cada individuo (es decir, los nodos) de esta distribución multivariante. Los individuos se muestrean de forma independiente y todos los individuos de control se muestrean de una distribución con los mismos parámetros. Luego, la correlación de Pearson se aplica al conjunto de datos de análisis muestreado, para construir la red basada en la población (entrada única \(w_{ij}^{\alpha }\)). Esta red basada en la población es la entrada para el cálculo del ISN. Además, empleamos dos distribuciones de generación de valores atípicos diferentes para el esquema de distribución normal, especificando si los valores atípicos pertenecen a la misma distribución o si cada uno proviene de su propia distribución. Los parámetros específicos del esquema microbiano controlan: (1) el grado de heterogeneidad de los datos (que varía de uniforme a alta); (2) el factor multiplicador entre diferentes microbios (de 1,1 a 2); y (3) el porcentaje de parámetros inflados que diferencian casos y controles (de \(10\%\) a \(40\%\)).

Exploramos múltiples configuraciones de parámetros, en particular, en el supuesto de distribución de datos. Una combinación de parámetros se almacena en una cuadrícula. Para cada entrada (fila) de la cuadrícula de parámetros creada en los pasos de simulación de datos, realizamos múltiples ejecuciones (200 en distribución normal y 150 en composición). Por lo tanto, se generan el conjunto de datos de análisis (individuos en las filas, características/nodos en las columnas) y la verdad del terreno. Para cada una de esas ejecuciones, aplicamos todos los métodos presentados y cada uno de ellos produce el vector OS, con dimensión N. Este vector contiene los M casos y los controles \(NM\) y representa los puntajes atípicos para los individuos. La etiqueta GT de cada individuo hace referencia a la pertenencia al grupo: pertenencia al grupo caso (outliers) o control. Para cada individuo \(i=1,\cdots , N:\)

Los datos que componen el conjunto de datos de análisis se muestrean a través de una normal multivariada. El vector medio se fija en cero, mientras que la estructura de varianza-covarianza difiere entre M casos y \(NM\) controles. El parámetro k, el tamaño del módulo, controla la dimensionalidad de la normal. Las observaciones de casos y controles muestreados se unen y constituyen el conjunto de datos de análisis, es decir, imitando la expresión de genes en nuestra población. La GT de verdad del terreno de los individuos se utiliza para evaluar el rendimiento de los métodos propuestos. En la Fig. S6 se muestra una canalización visual.

Los parámetros básicos son N, M, k, generación de valores atípicos, y nos referimos a la Tabla 5 para obtener más detalles. Generamos datos variando múltiples parámetros y luego expandiéndolos en una cuadrícula donde cada fila es una combinación única de los parámetros base y se denomina configuración. En total, generamos 168 configuraciones diferentes a través de las combinaciones de parámetros. Los pasos de generación y evaluación, es decir, aplicar los métodos propuestos a los datos, se repitieron Rep = 200 veces para reducir el ruido y garantizar resultados sólidos y reproducibles.

Ampliamos el trabajo de Harrison57, proponiendo un modelo basado en Dirichlet para simular datos microbianos. En primer lugar, tomamos muestras de: (1) Una distribución de Pareto con umbral = 1 y \(\alpha\) = 0,7; o (2) Una distribución de Pareto con umbral = 1 y \(\alpha\) = 4; o (3) Una distribución uniforme con valor = 1. La distribución de Pareto describe datos con pocas características abundantes y muchas características raras. Cada nodo tiene igual masa de probabilidad en la distribución uniforme. Por lo tanto, generamos el vector D, con un escalar de entrada única \(d_i\) con \(i=1,\cdots,p\). D es un resultado intermedio utilizado como parámetro de concentración (\(\alpha\)) en el muestreo de Dirichlet. Tener un vector de \(d_i\) nos dice cuánta masa de probabilidad asignar a cada nodo, cada taxón.

Luego, las observaciones de casos y controles se diferencian a través de un multiplicador (Mult), para producir \({E^1}\) de D, con un escalar de entrada única \(e^1_i\). El multiplicador infla la masa de probabilidad de los nodos en casos y rangos en \(Mult=\{1.1,\ 1.5,\ 2\}\). El porcentaje de nodos que inflamos viene dado por el parámetro: \(PercIncrease=\{\ 10\%,\ 25\%,\ 40\%\}\). Al igual que en el esquema de simulación de normalidad, combinamos parámetros en una cuadrícula. Después de la diferenciación de casos y controles, los parámetros, es decir, \({E^1}\) y D, se estandarizan a la misma suma para evitar efectos de escala debido a las diferentes densidades:

con \(i=1,\ldots,p\), formando así el vector \(E*\).

Luego multiplicamos \(E*\) y D por \(Int=3\), el parámetro de intensidad, para acentuar la diferenciación. Luego, para cada uno de los individuos de control \(NM\), D se usa como parámetro de concentración en un muestreo de Dirichlet. Para un q individual, el muestreo de Dirichlet da como resultado \(pr^q\), dimensión \(p \times 1\). Combinando todos los \(pr^q\) para los \(NM\) individuos, obtenemos la matriz pr, de dimensión \((NM) \times p\), de entrada única \(pr_i^q\) la probabilidad de taxones i en el individuo q. Usamos \(pr^q\) como parámetro de entrada aguas abajo de un procedimiento de muestreo multinomial, para q individual, con un número de parámetro adicional de lecturas\(=5000\). Número de lecturas especifica el número total de objetos para dividir en p cajas (los nodos) en el muestreo multinomial con \(prob=pr^q\) vector de probabilidades. Este paso imita una lectura de microbioma en un individuo con un número de lecturas = 5000 y un vector de probabilidades heterogéneas, composicionales e infladas a cero. El resultado producido, para el individuo q, es un vector de abundancias bajo el marco de control. Se aplica un procedimiento análogo para generar los M casos individuales con el parámetro \({E^*}\) en lugar de D. Unimos las abundancias de los controles \(NM\) y los M casos en el conjunto de datos de análisis simulado. La canalización exhaustiva se puede encontrar en la Fig. S7.

Para evitar correlaciones negativas perfectas sesgadas, muestreamos una red diez veces más grande (en términos de número de nodos) que el módulo del objetivo, \(p=10\times k\). Luego, aplicamos una transformación de relación logarítmica centrada (CLR)58. Solo en el último paso nos enfocamos en el módulo de destino. Nos aseguramos de que dicho procedimiento conserve al menos una diferenciación deducida por Mult en el módulo k-dimensional. De lo contrario, no hay justificación teórica para las diferencias entre casos y controles.

La Tabla 5 destaca la cuadrícula final de valores de parámetros. En total, generamos 972 configuraciones diferentes a través de combinaciones de parámetros. Los pasos de generación y evaluación se repiten \(Rep=150\) veces para cada configuración para reducir el ruido y garantizar resultados sólidos y reproducibles. En comparación con las simulaciones de normalidad, los parámetros N y k varían en un conjunto limitado. Esta limitación compensa la adición de parámetros específicos del microbioma y mantiene la carga de cálculo bajo control.

El resultado de un método en una ejecución es un sistema operativo de vector de puntuación de valores atípicos. Este vector se ordena de forma descendente y se compara con el vector de verdad fundamental GT (1 si es atípico, 0 en caso contrario). Si bien la fijación de un umbral y la binarización del sistema operativo ayudarían en la tarea de evaluación, no existe un cálculo de umbral o valor p conocido para la mayoría de los métodos considerados. La forma natural de evaluar nuestros resultados es variando el umbral y creando la curva ROC correspondiente. Agregamos los rendimientos, promediando todas las ejecuciones (200 distribuidas normalmente, 150 para microbianas) para cada entorno. Usamos la mediana como la métrica de agregación, dada la variabilidad y asimetría de los desempeños.

Dado que la mayoría de esas familias tienen parámetros para ajustar o se pueden usar diferentes agregaciones, la cantidad de implementaciones es enorme. Para mantener la coherencia, aplicamos todos los métodos, cuando fue posible, tanto en SSN-n como en ISNs-L para la elección de cada parámetro. En kNN, definimos 2 conjuntos diferentes de parámetros \(k_{min}\) y \(k_{max}\). 1) En primer lugar, \(k_{min}\) y \(k_{max}\) son respectivamente el mínimo y el máximo entre log(N) yk, con tamaño de muestra N y tamaño de módulo k. La configuración de este parámetro resume tanto las variables como el espacio de muestras; Entonces (2), \(k_{min}\) y \(k_{max}\) son el mínimo y el máximo entre 5 (visto como parámetro de referencia para kNN) y sqrt(N), también tomado como referencia en 30 . En OPTICS-OF, establecemos el parámetro n, es decir, el número de vecinos, como para kNN, como 5, \(\sqrt{N}\) o \(mean(log(n), k+1)\), para resumir tanto el módulo como el tamaño de la muestra. El único parámetro de Spoutlier, la dimensión del conjunto de referencia, se establece como \(s=20\) como se encuentra empíricamente en el artículo original30. Implementamos (1) distancia euclidiana y (2) similitud de coseno como medidas de distancia. Aplicamos técnicas de conjunto a los métodos mOTS, eligiendo repetidamente las 20 muestras de referencia y agregando los diferentes resultados con la mediana. Las agregaciones consideradas en las distancias de Cook fueron (1) máx., (2) promedio o (3) mediana en todos los bordes de un módulo. Todas las combinaciones y enfoques se describen en el Complemento.

El conjunto de datos en el que se basa este artículo está disponible previa solicitud al Euregional Microbiome Center (www.microbiomecenter.eu). Los datos, el código y los gráficos de simulación están disponibles públicamente en el repositorio de GitHub en https://github.com/FedericoMelograna/Sign_ISN.

El código y las simulaciones están disponibles gratuitamente en GitHub en https://github.com/FedericoMelograna/Sign_ISN. Para obtener más información sobre el análisis, el software y la visualización, consulte la sección de análisis y visualización del software en los Métodos complementarios.

Ozturk, K., Dow, M., Carlin, D., Bejar, R. y Carter, H. El potencial emergente del análisis de redes para informar la medicina oncológica de precisión. J. Mol. Biol. 430, 2875–2899. https://doi.org/10.1016/j.jmb.2018.06.016 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Barabási, A., Gulbahce, N. & Loscalzo, J. Medicina en red: un enfoque basado en la red para las enfermedades humanas. Nat. Rev. Genet. 12, 56–68. https://doi.org/10.1038/nrg2918 (2010).

Artículo CAS Google Académico

Sonawane, A., Weiss, S., Glass, K. y Sharma, A. Medicina de red en la era de los grandes datos biomédicos. Frente. Gineta. 10, 294. https://doi.org/10.3389/FGENE.2019.00294 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, L. et al. Las redes de coabundancia microbiana intestinal muestran especificidad en la enfermedad inflamatoria intestinal y la obesidad. Nat. común 11, 1–12. https://doi.org/10.1038/s41467-020-17840-y (2020).

Artículo CAS Google Académico

Urbanowicz, RJ, Meeker, M., La Cava, W., Olson, RS & Moore, JH Selección de características basadas en el relieve: Introducción y revisión. J. Biomédica. Informar. 85, 189–203. https://doi.org/10.1016/j.jbi.2018.07.014 (2018).

Artículo PubMed PubMed Central Google Académico

Duroux, D., Climente-González, H., Azencott, C.-A. & Van Steen, K. Detección de epistasis guiada por red interpretable. GigaSciencehttps://doi.org/10.1093/gigascience/giab093 (2022).

Artículo PubMed PubMed Central Google Académico

Menche, J. et al. Integración de perfiles de expresión génica personalizados en grupos de genes predictivos asociados a enfermedades. Sistema NPJ. Biol. Apl.https://doi.org/10.1038/s41540-017-0009-0 (2017).

Artículo PubMed PubMed Central Google Académico

Kosorok, M. & Laber, E. Medicina de precisión. año Rdo. Estado. aplicación 6, 263–286. https://doi.org/10.1146/annurev-statistics-030718-105251 (2019).

Artículo MathSciNet PubMed PubMed Central Google Scholar

Bzdok, D., Varoquaux, G., Prediction, SE & Association, N. Allana el camino hacia la medicina de precisión. Psiquiatría JAMA 78(2), 127–128. https://doi.org/10.1001/jamapsychiatry.2020.2549 (2021).

Artículo PubMed Google Académico

Moore, J. & Williams, S. Atravesando la división conceptual entre epistasis biológica y estadística: Biología de sistemas y una síntesis más moderna. Bioensayos 27(6), 637–46. https://doi.org/10.1002/bies.20236 (2005).

Artículo CAS PubMed Google Académico

Liu, W. et al. Descubrimiento eficiente de marcadores de red específicos de muestras gaussianas y validación de análisis de enriquecimiento de fármacos. computar Biol. Química. https://doi.org/10.1016/j.compbiolchem.2019.107139 (2019).

Artículo ADS PubMed Google Scholar

Huang, Y., Chang, X., Zhang, Y., Chen, L. & Liu, X. Caracterización de enfermedades utilizando una red específica de muestra basada en correlación parcial. Breve. Bioinform.https://doi.org/10.1093/bib/bbaa062 (2020).

Artículo PubMed PubMed Central Google Académico

Kuijjer, M., Tung, M., Yuan, G., Quackenbush, J. & Glass, K. Estimación de redes reguladoras específicas de muestra. Cienciahttps://doi.org/10.1016/j.isci.2019.03.021 (2019).

Artículo Google Académico

Dai, H., Li, L., Zeng, T. & Chen, L. Red específica de células construida por datos de secuenciación de ARN de una sola célula. Ácidos nucleicos Res. https://doi.org/10.1093/nar/gkz172 (2019).

Artículo PubMed PubMed Central Google Académico

Li, L., Dai, H., Fang, Z. & Chen, L. c-csn: análisis de datos de secuenciación de ARN de una sola célula mediante una red condicional específica de células. genoma Proteoma. Bioinform.https://doi.org/10.1016/J.GPB.2020.05.005 (2021).

Artículo Google Académico

Flashner-Abramson, E., Vasudevan, S., Adejumobi, I., Sonnenblick, A. y Kravchenko-Balasha, N. Decodificación de la heterogeneidad del cáncer: estudio de las firmas de señalización específicas del paciente hacia una terapia personalizada contra el cáncer. Theranostics 9, 5149–5165. https://doi.org/10.7150/thno.31657 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Guo, W.-F., Zhang, S.-W., Zeng, T., Akutsu, T. y Chen, L. Principios de control de red para identificar genes impulsores personalizados en el cáncer. Breve. Bioinformar. 21, 1641–1662. https://doi.org/10.1093/bib/bbz089 (2019).

Artículo CAS Google Académico

Bian, J., Xie, M., Topaloglu, U. y Cisler, JM Un modelo probabilístico de red de conectividad cerebral funcional para descubrir nuevos biomarcadores. Cumbres AMIA Trad. ciencia proc. 2013, 21 (2013).

PubMed PubMed Central Google Académico

Doucet, G. et al. Las medidas de la teoría de grafos locales en estado de reposo previas a la cirugía predicen los resultados neurocognitivos después de la cirugía cerebral en la epilepsia del lóbulo temporal. Epilepsia 56(4), 517–26. https://doi.org/10.1111/epi.12936 (2015).

Artículo PubMed Google Académico

Gosak, M. et al. Ciencia de redes de sistemas biológicos a diferentes escalas: una revisión. física Vida Rev.https://doi.org/10.1016/j.plrev.2017.11.003 (2018).

Artículo PubMed Google Académico

Liu, X., Wang, Y., Ji, H., Aihara, K. & Chen, L. Caracterización personalizada de enfermedades utilizando redes específicas de muestra. Ácidos Nucleicos Res. 44, 772. https://doi.org/10.1093/nar/gkw772 (2016).

Artículo CAS Google Académico

Marón, B. et al. Interactomas individualizados para la medicina de precisión basada en la red en la miocardiopatía hipertrófica con implicaciones para otros patofenotipos clínicos. Nat. Comun.https://doi.org/10.1038/s41467-021-21146-y (2021).

Artículo PubMed PubMed Central Google Académico

Ha, M et al. Modelado personalizado de redes integradas del atlas del proteoma del cáncer. ciencia Rep.https://doi.org/10.1038/s41598-018-32682-x (2018).

Artículo PubMed PubMed Central Google Académico

Gregorich, M. et al. Redes específicas del tema como características para el modelado predictivo: una revisión del alcance de los métodos. ciencia Rep.https://doi.org/10.13140/RG.2.2.24616.499 (2021).

Artículo Google Académico

Elo, LL & Schwikowski, B. Análisis de mediciones de expresión génica resueltas en el tiempo entre individuos. PLOS UNO 8, 1–8. https://doi.org/10.1371/journal.pone.0082340 (2013).

Artículo CAS Google Académico

Yu, X. et al. Análisis de redes perimetrales específicas de cada individuo para la predicción de enfermedades. Ácidos Nucleicos Res. 45, 787. https://doi.org/10.1093/nar/gkx787 (2017).

Artículo CAS Google Académico

Jahagirdar, S. & Saccenti, E. Evaluación de métodos de inferencia de red de muestra única para medicina de sistemas basada en metabolómica. J. Proteoma Res. 20, 932–949. https://doi.org/10.1021/acs.jproteome.0c00696 (2021).

Artículo CAS PubMed Google Académico

Korte-de Boer, D. et al. Estudio de cohorte de nacimiento de Lucki, justificación y diseño. BMC Salud Pública 15, 1–7. https://doi.org/10.1186/S12889-015-2255-7 (2015).

Artículo Google Académico

Tripathi, S., Moutari, S., Dehmer, M. y Emmert-Streib, F. Comparación de algoritmos de detección de módulos en redes de proteínas e investigación del significado biológico de los módulos predichos. BMC Bioinform.https://doi.org/10.1186/s12859-016-0979-8 (2016).

Artículo Google Académico

Sugiyama, M. & Borgwardt, K. Detección rápida de valores atípicos basada en la distancia mediante muestreo. Adv. Información neuronal Proceso. sist. 26, 1–10 (2013).

Google Académico

Angiulli, F. & Pizzuti, C. Detección rápida de valores atípicos en espacios de alta dimensión. En Lecture Notes in Computer Science (incluidas las subseries Lecture Notes in Artificial Intelligence y Lecture Notes in Bioinformatics), 2431 LNAI, 15–27, https://doi.org/10.1007/3-540-45681-3_2 (2002).

Ankerst, M., Breunig, MM, Kriegel, HP y Sander, J. Óptica: puntos de ordenación para identificar la estructura de agrupamiento. Rec. SIGMOD. 28, 49–60. https://doi.org/10.1145/304181.304187 (1999).

Artículo Google Académico

Fausto, K. et al. Relaciones microbianas de co-ocurrencia en el microbioma humano. Cómputo PLOS. Biol. 8, 1002606. https://doi.org/10.1371/JOURNAL.PCBI.1002606 (2012).

Artículo Google Académico

Li, X., Wang, X. y Xiao, G. Un estudio comparativo de los métodos de agregación de rangos para listas parciales y de mayor rango en aplicaciones genómicas. Breve. Bioinformar. 20, 178–189. https://doi.org/10.1093/bib/bbx101 (2017).

Artículo CAS PubMed Central Google Académico

O'bray, L., Rieck, B. y Borgwardt, K. Curvas de filtración para representación gráfica; curvas de filtración para representación gráfica. Breve. Bioinform.https://doi.org/10.1145/3447548.3467442 (2021).

Artículo PubMed Google Académico

Fiedler, M. Conectividad algebraica de grafos. Checo. Matemáticas. J. 23, 298–305 (1973).

Artículo MathSciNet MATEMÁTICAS Google Académico

de Abreu, NMM Viejos y nuevos resultados sobre conectividad algebraica de grafos. Aplicación de álgebra lineal. 423, 53–73. https://doi.org/10.1016/j.laa.2006.08.017 (2007).

Artículo MathSciNet MATEMÁTICAS Google Académico

Galazzo, G. et al. Desarrollo de la microbiota y asociaciones con el modo de nacimiento, la dieta y los trastornos atópicos en un análisis longitudinal de muestras de heces, recolectadas desde la infancia hasta la primera infancia. Gastroenterología 158, 1584–1596. https://doi.org/10.1053/j.gastro.2020.01.024 (2020).

Artículo CAS PubMed Google Académico

Jahagirdar, S. & Saccenti, E. Sobre el uso de la correlación y mi como medida de la asociación metabolito-metabolito para el análisis de conectividad diferencial de red. Metabolitoshttps://doi.org/10.3390/metabo10040171 (2020).

Artículo PubMed PubMed Central Google Académico

Conesa, A., Madrigal, P. & Tarazona, S. Una encuesta de mejores prácticas para el análisis de datos rna-seq. Genoma Biol. 17, 13. https://doi.org/10.1186/s13059-016-0881-8 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Anders, S. & Huber, W. Análisis de expresión diferencial para datos de recuento de secuencias. Genoma Biol. 11, 1–12. https://doi.org/10.1186/gb-2010-11-10-r106 (2010).

Artículo CAS Google Académico

Robinson, MD & Smyth, GK Pruebas estadísticas moderadas para evaluar las diferencias en la abundancia de marcas. Bioinformática 23, 2881–2887. https://doi.org/10.1093/bioinformatics/btm453 (2007).

Artículo CAS PubMed Google Académico

Walker, W. La importancia de la colonización bacteriana inicial adecuada del intestino en la salud de recién nacidos, niños y adultos. pediátrico Res.https://doi.org/10.1038/pr.2017.111 (2017).

Artículo ADS PubMed Google Scholar

Smiti, A. Una descripción crítica de los métodos de detección de valores atípicos. computar ciencia Rev. 38, 100306. https://doi.org/10.1016/j.cosrev.2020.100306 (2020).

Artículo MathSciNet MATEMÁTICAS Google Académico

Wang, H., Bah, M. y Hammad, M. Avances en las técnicas de detección de valores atípicos: una encuesta. Acceso IEEE 7, 107964–108000. https://doi.org/10.1109/access.2019.2932769 (2019).

Artículo Google Académico

Duroux, D. & Steen, K. netanova: Nueva técnica de agrupación de gráficos con evaluación de importancia a través de Anova jerárquica. BioRxivhttps://doi.org/10.1101/2022.06.28.497741 (2022).

Artículo Google Académico

Yu, X., Chen, X. & Wang, Z. Caracterización de la dinámica de la microbiota personalizada para la clasificación de enfermedades mediante el análisis de red perimetral específico de cada individuo. Frente. Genet.https://doi.org/10.3389/fgene.2019.00283 (2019).

Artículo PubMed PubMed Central Google Académico

Reyman, M., Houten, M. y Baarle, D. Impacto de la dinámica de la microbiota intestinal asociada al modo de parto en la salud durante el primer año de vida. Nat. común 10, 4997. https://doi.org/10.1038/s41467-019-13014-7 (2019).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Domínguez-Bello, MG et al. El modo de entrega da forma a la adquisición y estructura de la microbiota inicial en múltiples hábitats corporales en los recién nacidos. proc. nacional Academia ciencia Estados Unidos 107, 11971–11975. https://doi.org/10.1073/pnas.1002601107 (2010).

Artículo ADS PubMed PubMed Central Google Scholar

Sevelsted, A., Stokholm, J., Bønnelykke, K. & Bisgaard, H. Cesárea y trastornos inmunitarios crónicos. Pediatría 135, e92–e98. https://doi.org/10.1542/peds.2014-0596 (2015).

Artículo PubMed Google Académico

Müller, NT et al. Exposición prenatal a antibióticos, cesárea y riesgo de obesidad infantil. En t. J. Obes. 2005(39), 665–670. https://doi.org/10.1038/ijo.2014.180 (2015).

Artículo Google Académico

Stearns, JC et al. Los perfiles basados ​​en cultivos y moleculares muestran cambios en las comunidades bacterianas del tracto respiratorio superior que ocurren con la edad. ISME J. 9, 1246–1259. https://doi.org/10.1038/ismej.2014.250 (2015).

Artículo PubMed PubMed Central Google Académico

Nearing, J., Douglas, G. & Hayes, M. Los métodos de abundancia diferencial de microbioma producen resultados diferentes en 38 conjuntos de datos. Nat. común 13, 342. https://doi.org/10.1038/s41467-022-28034-z (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Guo, W., Yu, X., Shi, Q., Liang, J. y Zhang, S. Evaluación del rendimiento de los métodos de control de red específicos de muestras para el análisis de datos biológicos a granel y de una sola célula. Cómputo PLOS. Biol. 17, 1008962. https://doi.org/10.1371/journal.pcbi.1008962 (2021).

Artículo CAS Google Académico

Kuijjer, M., Hsieh, P. & Quackenbush, J. lionessr: Inferencia de red de muestra única en r. BMC Cáncer 19, 1003. https://doi.org/10.1186/s12885-019-6235-7 (2019).

Artículo PubMed PubMed Central Google Académico

Surowiecki, J. La sabiduría de las multitudes (Anchor, 2005).

Google Académico

Harrison, JG, Calder, WJ, Shastry, V. & Buerkle, CA El modelado multinomial de Dirichlet supera a las alternativas para el análisis del microbioma y otros datos de conteo ecológico. ciencia Rep. https://doi.org/10.1101/711317 (2019).

Artículo PubMed PubMed Central Google Académico

Aitchison, J. El análisis estadístico de los datos de composición (Chapman y Hall, 1986).

Libro MATEMÁTICAS Google Académico

Descargar referencias

Este estudio se incorporó al Euregional Microbiome Center (www.microbiomecenter.eu), una iniciativa transfronteriza sobre las interacciones huésped-microbioma entre la Universidad de Lieja, la Universidad de Maastricht, el Centro Médico de la Universidad de Maastricht+ y Uniklinik RWTH Aachen. Se recibió financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea en el marco de los acuerdos de subvención Marie Sklodowska-Curie N° 813533 (mlfpm.eu) y N° 860895 (h2020transys.eu). Muchas gracias a Diane Duroux del laboratorio BIO3 de la Universidad de Lieja (Bélgica) por inspirar los debates sobre los ISN y a Alice Giampino de la Universidad de Milán-Bicocca por los debates y aclaraciones sobre el muestreo de Dirichlet.

Estos autores contribuyeron por igual: Fabio Stella y Kristel Van Steen.

BIO3 - Laboratorio de Medicina de Sistemas, Departamento de Genética Humana, KU Leuven, Lovaina, Bélgica

Federico Melograna, Zuqi Li y Kristel Van Steen

Facultad de Nutrición e Investigación Traslacional del Metabolismo (NUTRIM), Departamento de Microbiología Médica, Enfermedades Infecciosas y Prevención de Infecciones, Centro Médico de la Universidad de Maastricht+, Maastricht, Países Bajos

Gianluca Galazzo y John Penders

Instituto de Microbiología Médica, Hospital Universitario RWTH Aachen, Universidad RWTH, Aachen, Alemania

Niels van mejor

Instituto de Investigación del Departamento de Epidemiología, Atención y Salud Pública (CAPHRI), Universidad de Maastricht, Maastricht, Países Bajos

Niels van Best y Monique Mommers

Instituto de Investigación de Atención y Salud Pública (CAPHRI), Universidad de Maastricht, Maastricht, Países Bajos

Juan Pender

Departamento de Informática, Sistemas y Comunicación, Universidad de Milano-Bicocca, 20126, Milán, Italia

fabio estela

BIO3 - Laboratorio de Genética de Sistemas, GIGA-R Medical Genomics, Universidad de Lieja, Lieja, Bélgica

cristal van steen

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

FM, FS y KVS desarrollaron los métodos, FM, FS y KVS concibieron las simulaciones, FM realizó las simulaciones, FM y ZL analizaron los resultados. KVS, FM y JP ayudaron a interpretar los resultados, mientras que MM, JP, GG y NVB ayudaron a analizar e interpretar la aplicación de datos de la vida real; GG y JP realizaron análisis DMM en la cohorte LucKi.

Correspondencia a Federico Melograna.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Melograna, F., Li, Z., Galazzo, G. et al. Evaluación de la importancia modular y de borde en redes individuales específicas. Informe científico 13, 7868 (2023). https://doi.org/10.1038/s41598-023-34759-8

Descargar cita

Recibido: 19 Septiembre 2022

Aceptado: 07 mayo 2023

Publicado: 15 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-34759-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR