banner

Blog

Nov 10, 2023

Modelos estadísticos versus aprendizaje automático para riesgos competitivos: desarrollo y validación de modelos pronósticos

BMC Medical Research Methodology volumen 23, Número de artículo: 51 (2023) Citar este artículo

1353 Accesos

9 Altmetric

Detalles de métricas

En la investigación en salud, varias enfermedades crónicas son susceptibles a riesgos competitivos (RC). Inicialmente, se desarrollaron modelos estadísticos (SM) para estimar la incidencia acumulada de un evento en presencia de RC. Dado que recientemente existe un interés creciente en aplicar el aprendizaje automático (ML) para la predicción clínica, estas técnicas también se han extendido para modelar RC, pero la literatura es limitada. Aquí, nuestro objetivo es investigar el papel potencial de ML frente a SM para CR dentro de datos no complejos (tamaño de muestra pequeño o mediano, entorno dimensional bajo).

Se utiliza un conjunto de datos con 3826 pacientes recopilados retrospectivamente con sarcoma de tejido blando de las extremidades (eSTS) y nueve predictores para evaluar el rendimiento predictivo del modelo en términos de discriminación y calibración. Se comparan dos SM (Cox de causa específica, Fine-Gray) y tres técnicas de ML para CR en un entorno clínico simple. Los modelos ML incluyen una red neuronal artificial logística parcial original para CR (PLANNCR original), un PLANNCR con especificaciones novedosas en términos de arquitectura (PLANNCR extendido) y un bosque de supervivencia aleatorio para CR (RSFCR). El criterio de valoración clínico es el tiempo en años entre la cirugía y la progresión de la enfermedad (evento de interés) o la muerte (evento competitivo). Los puntos temporales de interés son 2, 5 y 10 años.

En función de los datos originales de eSTS, se dibujan 100 conjuntos de datos de entrenamiento con arranque. El rendimiento de los modelos finales se evalúa en los datos de validación (muestras omitidas) empleando como medidas la puntuación de Brier y el Área bajo la curva (AUC) con CR. También se estima la mala calibración (error de precisión absoluta). Los resultados muestran que los modelos ML pueden alcanzar un rendimiento comparable al SM a los 2, 5 y 10 años con respecto a la puntuación de Brier y el AUC (intervalos de confianza del 95 % superpuestos). Sin embargo, los SM suelen estar mejor calibrados.

En general, las técnicas de ML son menos prácticas ya que requieren un tiempo de implementación sustancial (preprocesamiento de datos, ajuste de hiperparámetros, intensidad computacional), mientras que los métodos de regresión pueden funcionar bien sin la carga de trabajo adicional del entrenamiento del modelo. Como tal, para datos de supervivencia de la vida real no complejos, estas técnicas solo deben aplicarse de forma complementaria a SM como herramientas exploratorias del rendimiento del modelo. Se necesita urgentemente más atención a la calibración del modelo.

Informes de revisión por pares

El análisis de supervivencia (también conocido como análisis de tiempo hasta el evento) se usa para estimar la vida útil de una población particular bajo estudio. Con frecuencia, los datos de supervivencia están censurados por la derecha; el tiempo hasta el evento no se observa para todos los pacientes debido a la interrupción del seguimiento antes de experimentar el evento de interés o limitaciones de tiempo (terminación del estudio). Los riesgos competitivos (RC) ocurren con frecuencia en las aplicaciones clínicas de los datos de supervivencia [1,2,3,4]. En este tipo de datos, un individuo puede fallar por una de varias causas. Una RC es un evento cuya ocurrencia impide la ocurrencia de un evento de interés (por ejemplo, la muerte puede impedir la ocurrencia de una recaída de la enfermedad) [5, 6]. En la investigación de la salud, es poco probable que las RC sean independientes, ya que la biología sugiere al menos cierta dependencia entre eventos. En varias enfermedades crónicas atribuibles al envejecimiento y la fragilidad, como el cáncer, la insuficiencia cardíaca crónica o la demencia, las poblaciones de estudio son susceptibles a las RC [7].

El enfoque no paramétrico más popular para estimar la supervivencia en presencia de datos de tiempo hasta el evento censurados por la derecha es la metodología de Kaplan-Meier (KM) [8]. Sin embargo, en presencia de RC, esta metodología sobrestima la probabilidad de fracaso, lo que podría conducir a un tratamiento excesivo de los pacientes [1, 5, 9]. Se han desarrollado diferentes modelos estadísticos (SM) para estimar la incidencia acumulada (riesgo absoluto) de un evento en presencia de RC, como el modelo de Cox de causa específica [10] y el modelo de regresión de peligros de subdistribución de Fine-Gray [ 11]. El primero es una extensión natural del modelo de Cox de riesgos proporcionales estándar para el entorno de RC donde se aplica un modelo de Cox para cada riesgo de causa específica. Este último modela el efecto de las covariables directamente en la función de incidencia acumulada (CIF) a lo largo del tiempo, informando sobre la relación de riesgo de subdistribución [9].

Hoy en día, existe un interés creciente en aplicar el aprendizaje automático (ML) para la predicción (diagnóstico o pronóstico) de los resultados clínicos [12, 13], lo que ha generado un debate sobre el valor agregado de las técnicas de ML versus SM en el campo médico. Las críticas se atribuyen a los modelos de predicción de ML. A pesar de que no se hacen suposiciones sobre la estructura de los datos y de que pueden incorporar naturalmente interacciones entre las características predictivas, son propensos a sobreajustar los datos de entrenamiento y carecen de una evaluación exhaustiva de la precisión predictiva (es decir, ausencia de curvas de calibración) [14, 15 ]. Por otro lado, los métodos de regresión tradicionales se consideran fáciles de usar y más difíciles de sobreajustar. Dicho esto, hacen ciertas suposiciones (generalmente fuertes), como los riesgos proporcionales a lo largo del tiempo para el modelo de Cox, y requieren una especificación previa manual de los términos de interacción.

Entre las técnicas de ML, las redes neuronales artificiales han sido una opción común en el cuidado de la salud. Esta tendencia es pertinente con la recopilación de información de pacientes grande y compleja en registros de salud electrónicos y el aumento del poder computacional [16]. A lo largo de los años, se han desarrollado redes neuronales y otras técnicas de ML para datos de supervivencia. Wang et al. en 2019 proporciona una encuesta exhaustiva de enfoques convencionales y modernos para datos de tiempo hasta el evento censurados por la derecha [17]. Los autores describen varias técnicas de ML y sugieren que las redes neuronales son adecuadas para predecir la supervivencia y estimar el riesgo de enfermedad.

A common approach in the literature is the partial logistic artificial neural network (PLANN) of Biganzoli et al. (1998) [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e784"> 18]. A los efectos de la implementación, el tiempo se especifica en intervalos de tiempo discretos que no se superponen y que se agregan como una característica de entrada en una red de avance transformada longitudinalmente con activación logística y función de error de entropía. La capa de salida estima los peligros discretos suavizados para cada intervalo de tiempo. PLANN fue ampliado por Lisboa et al. (2003) bajo un marco de regularización bayesiano que realiza la determinación de relevancia automática (PLANN-ARD) [19]. Recientemente, Kantidakis et al. en 2020 propuso extensiones de PLANN en términos de arquitectura, es decir, nuevos hiperparámetros, nuevas funciones de activación y especificación de intervalos de tiempo como características de entrada múltiple [20]. Además de las redes neuronales de supervivencia (SNN), otra técnica de aprendizaje automático bien conocida para la predicción clínica de los datos de supervivencia son los bosques de supervivencia aleatorios (RSF, Ishwaran et al. 2008) [21]. RSF adapta el método de bosque aleatorio de Breiman utilizando una colección de árboles de supervivencia [22].

Los enfoques de ML también se han empleado para RC, pero la literatura es limitada. El enfoque PLANNCR fue desarrollado por Biganzoli et al. en 2006 para el modelado conjunto de peligros discretos de causa específica [23]. Esto amplía PLANN mediante el uso del tiempo (en intervalos de tiempo discretos) como característica de entrada en una red transformada longitudinalmente con función de error multinomial y funciones logísticas de activación softmax para la capa oculta y de salida (múltiples nodos de salida), respectivamente. Más tarde, Lisboa et al. (2009) implementaron PLANNCR bajo un marco de regularización bayesiano (PLANNCR-ARD) [24]. Ishwaran et al. RSF extendido para CR (RSFCR) en 2014 para estimar el CIF de eventos competitivos [25].

Para este trabajo, se analiza un conjunto de datos con un tamaño de muestra pequeño/mediano y un número limitado de características predictivas (configuración de baja dimensión). Esto se refiere a una cohorte recopilada retrospectivamente de 3826 pacientes con sarcomas de tejido blando de las extremidades de alto grado (eSTS) tratados quirúrgicamente con intención curativa. Se utilizan nueve factores pronósticos para desarrollar y validar varios modelos de predicción clínica con RC para técnicas de ML y SM. El criterio de valoración clínico del estudio se define como el tiempo en años entre la cirugía y la progresión de la enfermedad (como recurrencia local o metástasis a distancia; evento de interés) del eSTS, donde la muerte es un evento competitivo. Los puntos temporales de interés son 2, 5 y 10 años (el horizonte de 5 años es de mayor interés clínico). Los análisis se realizaron en el lenguaje de programación R versión 4.1.2 [26].

Los objetivos de este manuscrito se pueden resumir como: (i) examen de extensiones del método PLANNCR (PLANNCR extendido) para el desarrollo y validación de modelos de predicción clínica pronóstica con eventos competitivos, (ii) evaluación sistemática del rendimiento predictivo del modelo para técnicas de ML (PLANNCR original, PLANNCR extendido, RSFCR) y SM (Causa específica Cox, Fine-Gray) con respecto a la discriminación y calibración, (iii) investigación del papel potencial de ML en contraste con los métodos de regresión convencionales para CR en datos eSTS no complejos (tamaño de muestra pequeño/mediano, configuración dimensional baja), (iv) utilidad práctica de los métodos para la predicción.

El documento está organizado de la siguiente manera. En la sección "Métodos", se presentan los datos de eSTS. Otras secciones analizan los conceptos básicos de las CR, las técnicas SM y ML, el entrenamiento del modelo y cómo se evaluó el rendimiento predictivo. La sección "Resultados" describe PLANNCR extendido ajustado con dos medidas y compara el rendimiento predictivo de todos los métodos en términos de discriminación y calibración. El manuscrito termina con una "Discusión" sobre los hallazgos, las limitaciones y las perspectivas futuras de este trabajo.

Esta sección se divide en varias subsecciones donde se presenta al lector la metodología utilizada para este trabajo. Para empezar, se describen los datos clínicos. A continuación, se discuten las técnicas SM y ML. Se emplean dos modelos estadísticos bien conocidos para CR: el modelo de Cox de causa específica [10] y el modelo de regresión de peligros de subdistribución de Fine-Gray [11], así como dos extensiones de técnicas populares de ML para RC: el RSFCR [25], y el PLANNCR [23] tal como se desarrolló originalmente o con algunas modificaciones. Posteriormente, se presenta cómo se entrenaron los modelos y qué medidas de rendimiento se utilizaron para evaluar su capacidad predictiva. Se proporcionan más detalles técnicos en el material complementario.

Los sarcomas de partes blandas de las extremidades (eSTS) constituyen una amplia variedad de subtipos histológicos con diferentes tamaños y grados que afectan a pacientes de cualquier grupo de edad. Los protocolos de tratamiento pueden diferir entre institutos y países. Por lo tanto, se pueden observar diferencias importantes en el curso clínico y el pronóstico de los pacientes [27]. A lo largo de los años, se han desarrollado varios modelos de predicción de pronóstico para la supervivencia global y la recurrencia local [28,29,30].

Para este proyecto, se utilizó una cohorte recopilada retrospectivamente de 3826 pacientes con eSTS [29]. El conjunto de datos contenía pacientes pseudoanonimizados del Centro Médico de la Universidad de Leiden (Leiden, Países Bajos), el Royal Orthopaedic Hospital (Birmingham y Stanmore, Reino Unido), el Instituto del Cáncer de los Países Bajos (Ámsterdam, Países Bajos), el Hospital Mount Sinai (Toronto, Canadá), el Norwegian Radium Hospital (Oslo, Noruega), Aarhus University Hospital (Aarhus, Dinamarca), Skåne University Hospital (Lund, Suecia), Medical University Graz (Graz, Austria), Royal Marsden Hospital (Londres, Reino Unido), Daniel den Hoed (Rotterdam , Países Bajos), Radboud University Medical Center (Nijmegen, Países Bajos), University Medical Center Groningen (Groningen, Países Bajos), Haukeland University Hospital (Bergen, Noruega), Helios Klinikum Berlin-Buch (Berlín, Alemania), MedUni Viena ( Viena, Austria), Hospital General de Viena (Viena, Austria). Además, se incluyeron pacientes con eSTS del ensayo controlado aleatorio EORTC 62931 [31]. Los datos de los centros se recopilaron entre enero de 2000 y diciembre de 2014. Los pacientes del ensayo EORTC se reclutaron entre febrero de 1995 y diciembre de 2003.

Los pacientes fueron seleccionados del registro de sarcomas de cada hospital en base al diagnóstico histológico. Aquellos tratados inicialmente sin intención curativa, mostraron recidiva local o metástasis a distancia al inicio del estudio, tenían sarcoma de Kaposi o rabdomiosarcoma (forma pediátrica), tumor presente en el abdomen, tórax, cabeza o cuello, o fueron tratados con perfusión laxa aislada como tratamiento neoadyuvante. excluidos de la colección.

El conjunto de datos contenía nueve factores pronósticos. Siete fueron categóricos; género (femenino o masculino), margen quirúrgico (\(R_{0}\) para negativo o \(R_{1-2}\) para positivo con células tumorales en la superficie entintada del margen de resección), quimioterapia adyuvante (no o sí), grado del tumor (II o III), profundidad del tumor en relación con la fascia de revestimiento (superficial o profunda), radioterapia (no, neoadyuvante o adyuvante), subtipo histológico (mixofibrosarcoma, sarcoma sinovial, histiocitoma fibroso maligno/sarcoma pleomórfico indiferenciado/ sarcomas de tejidos blandos (pleomórficos) no especificados en otra categoría, leiomiosarcoma, liposarcoma u otros). Dos eran continuos; edad al inicio (en años) y tamaño del tumor por el diámetro más grande medido en el examen patológico (en centímetros).

El tiempo medio de supervivencia durante el seguimiento es de 5,98 años estimado por Kaplan-Meier inverso (cuartil del 25 %: 3,94 años, cuartil del 75 %: 8,80 años, rango: de 0,01 a 16,85 años) [8]. El punto final de interés se define como el tiempo en años entre la cirugía y la progresión de la enfermedad (recurrencia local o metástasis a distancia) del eSTS, con la muerte como evento competitivo; 1773 pacientes estaban vivos/censurados al final del seguimiento (46,34%), 1554 tenían progresión de la enfermedad (40,62%) y 499 fallecieron sin recurrencia local/metástasis a distancia (13,04%).

El conjunto de datos contenía un 3,70 % de datos faltantes en general para las nueve variables, con 2514 casos completos (65,71 %). Más específicamente, faltaban valores (0,97-11%) para todas las variables; 11,00% para profundidad tumoral (421/3826), 8,21% para subtipo histológico (314/3826), 7,40% para margen quirúrgico (283/3826), 4,36% para quimioterapia adyuvante (167/3826), 4,05% para tamaño tumoral ( 155/3826), 3,53% por género (135/3826), 2,61% por radioterapia (100/3826), 1,99% por grado tumoral (76/3826), y 0,97% por edad (37/3826), en orden decreciente , respectivamente.

Se utilizó una imputación simple para evitar descartar observaciones de registros casi completos. Se aplicó el algoritmo missForest para reconstruir cualquier valor faltante, que es el algoritmo de bosque aleatorio más exhaustivo/preciso para datos faltantes [32]. Este es un método de imputación no paramétrico que no hace suposiciones a priori con respecto a la estructura de datos. Se construyó un bosque aleatorio con 1000 árboles (para la estabilidad del modelo) para cada variable con información faltante, probando todas las combinaciones de variables posibles como respuestas. La Tabla 1 proporciona los datos demográficos de los pacientes del conjunto de datos final (los datos demográficos del conjunto de datos original se proporcionan en la Tabla S1 del Archivo adicional 1).

Por lo general, para los datos de supervivencia, si ocurren varios tipos de eventos, se necesita un modelo que describa la progresión para cada una de las CR. Los datos observables están representados por el tiempo de falla T, la causa de la falla D (\(D \in 1, \cdots , k\), \(k \ge 1\); aquí k = 2), y una covariable vector \(\mathbf{Z}\). Por lo general, hay un tipo de evento que es de interés (es decir, la progresión de la enfermedad como recurrencia local o metástasis a distancia), mientras que los otros eventos podrían evitar que ocurra (aquí, el evento competitivo es la muerte).

Siguiendo a Putter et al. (2007) [1], un concepto fundamental en el modelado de CR es la función de riesgo de causa específica que denota el riesgo de fallar por una causa dada en presencia de CR:

Entonces, el peligro acumulativo específico de la causa se puede especificar como

y la función de supervivencia (probabilidad de no haber fallado por ninguna causa en el tiempo t) se puede escribir como

La función de incidencia acumulada (CIF) de la causa k se define como \(I_{k}(t) = Prob(T \le t, D = k)\), la probabilidad de fallar por la causa k antes del tiempo t. Esto se puede vincular a los peligros específicos de la causa a través de la expresión:

Esto también se denomina función de subdistribución basada en el hecho de que la probabilidad acumulada de fallar por la causa k no puede alcanzar uno y, por lo tanto, no es una distribución de probabilidad adecuada.

La regresión sobre los riesgos específicos de la causa es una extensión del popular modelo de riesgos proporcionales de Cox para RC [10, 33]. El peligro específico de la causa de la causa k de un sujeto con el vector covariable \(\mathbf {Z}\) se modela como

donde \(\lambda _{k, 0}(t)\) es el riesgo específico de la causa, y el vector \(\varvec{\beta }_{k}\) representa los efectos de las covariables en la causa k. Los pacientes que se trasladan a otro estado que no sea k son censurados en su tiempo de transición.

En 1999, Fine y Gray introdujeron un modelo de riesgos de subdistribución, que puede retroceder directamente en CIF [11]:

Para el modelo de Cox de causa específica, el conjunto de riesgos (número de pacientes en riesgo) disminuye en cada punto de tiempo en el que falla otra causa. En cambio, para el modelo de Fine y Gray, los individuos que fracasan por otra causa permanecen en el conjunto de riesgo. Los riesgos de subdistribución se modelan luego asumiendo riesgos proporcionales:

Similar al modelo estándar de Cox, el enfoque de verosimilitud parcial se utiliza para estimar los parámetros.

Los bosques aleatorios de supervivencia para riesgos competitivos (RSFCR) [25] son ​​una extensión del marco RSF [21, 22] para CR con datos censurados por la derecha propuestos por Ishwaran et al. en 2014. Es un enfoque de árbol de conjuntos totalmente no paramétrico para la estimación del CIF para eventos competitivos (el CIF y la función de riesgo de causa específica están relacionados como se muestra en la ecuación (4)). RSFCR puede modelar directamente efectos e interacciones no lineales para realizar predicciones precisas sin hacer suposiciones previas sobre los datos subyacentes.

El algoritmo de RSFCR se basa en la partición binaria recursiva mientras inyecta aleatoriedad de dos maneras: (a) extrayendo B muestras de arranque de los datos de aprendizaje, y (b) haciendo crecer un único árbol de CR para cada muestra de arranque seleccionando aleatoriamente un subconjunto de variables candidatas en cada nodo (región del árbol). Una regla de división CR se maximiza para dividir cada nodo principal en nodos secundarios utilizando las variables seleccionadas. Los autores proponen dos reglas de división: ya sea una regla de división específica del evento o una combinación de reglas de división específicas del evento en los k eventos. En este caso, se aplicó la regla de división específica del evento porque la progresión de la enfermedad era de gran interés (división de rango logarítmico ponderado, detalles técnicos en [25]). Luego, cada árbol crece a su tamaño completo bajo la restricción de que los nodos terminales (los extremos de cada árbol) deben tener al menos un caso único. En los nodos terminales se utilizan las metodologías de Kaplan-Meier [8] y Aalen-Johansen [34] para estimar la función de supervivencia libre de eventos y el CIF causa-específico, respectivamente. Finalmente, las estimaciones del conjunto se calculan promediando cada estimador sobre los árboles B crecidos. Se proporcionan más detalles técnicos en el archivo adicional 2.

In 2006, Biganzoli et al. extended the partial logistic artificial neural network to competing risks (PLANNCR) for the joint modelling of discrete cause-specific hazards [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e2646"> 18, 23]. PLANNCR es una red feed-forward compuesta por un grupo de unidades llamadas nodos (o neuronas) en cada capa. Tiene una capa de entrada que recoge las señales y las pasa a una sola capa oculta después de la aplicación de una función de activación (también llamada transformación). Una función de activación modula el grado de no linealidad transferido desde las entidades de entrada a la capa oculta. Las conexiones entre las neuronas artificiales de diferentes capas se denominan bordes, cada uno con un peso. Los pesos se ajustan a través del entrenamiento aumentando o disminuyendo la fuerza de cada conexión [35]. Las señales se transmiten hacia la capa de salida, que proporciona una estimación suavizada de las probabilidades de eventos condicionales discretos (en múltiples nodos de salida, cada uno para un evento), con otra función de activación.

A los efectos de la implementación, los tiempos de supervivencia se discretizan en un conjunto de \(l = 1, \cdots, L\) intervalos disjuntos \(A_{l} = (\tau _{l-1}, \tau _{l }]\), donde \(0=\tau _{0}<\tau _{1}<\cdots <\tau _{L}\) es un conjunto de puntos de tiempo predefinidos (generalmente años). el intervalo \(l^{th}\), los tiempos observados se agrupan en un solo punto \(\tau _{l}\). Los datos deben transformarse a un formato longitudinal donde se agrega la variable de tiempo (en intervalos) como parte de las características de entrada junto a las características de pronóstico. Los sujetos se repiten para el número de intervalos observados en los datos de entrenamiento y para todos los intervalos de tiempo en los datos de prueba. PLANNCR puede modelar no lineal, no proporcional y no efectos aditivos entre los factores pronósticos sobre los riesgos específicos de la causa. Aquí, sin pérdida de generalidad, cada sujeto se repitió durante 1 hasta 11 intervalos de tiempo que denotaban años desde la cirugía. El último intervalo incluía tiempos de supervivencia de más de 10 años (los intervalos subsiguientes fueron no es de interés).

En el modelo CRs, el vector de respuesta tiene \(R + 1\) variables, con \(r = 1, \cdots ,R\) las posibles causas de interés (aquí \(R = 2\)). Sea \(\mathbf {z}_{k} = (\tau _{l}, \mathbf {x}_{k}\)) definida por dos componentes: el vector covariable \(\mathbf {x}_ {k}\) (\(k = 1, 2, \cdots , p\)) y el intervalo de tiempo \(\tau _{l}\). La dependencia conjunta de los peligros discretos de causa específica se modela como:

donde \(h = 1, \cdots , H\) nodos en la capa oculta, \(\varvec{\beta }\) el vector de pesos estimados para la entrada oculta (\(\beta _{01}, \ cdots , \beta _{0H}, \beta _{1}, \cdots , \beta _{H}\)), capas de salida oculta (\(\beta _{0}, \beta _{1}^ {a}, \cdots , \beta _{R}^{a}\)), y \(\alpha _{h}\) la función de activación sigmoidea (logística) para la capa oculta \(\alpha _{h} }(\mathbf {z}_{k}, \varvec{\beta }_{h}) = \frac{\exp (\beta_{0h} + \beta_{h}^T \mathbf {z} _{k})}{1 + \exp (\beta_{0h} + \beta_{h}^T\mathbf {z}_{k})}\).

La función de activación para la capa de salida es el softmax que proporciona los peligros discretos específicos de la causa:

para \(l = 1, \cdots , L\) intervalos y \(r = 1, \cdots ,R\) causas de interés. Dado que PLANNCR tiene un nodo de salida diferente para cada CR (nodos de salida 1 + R en total), es una extensión de las redes neuronales estándar para la clasificación múltiple que recurre a la verosimilitud multinomial. Para el resto de este documento, esto se llamará PLANNCR original [23].

Se proporcionan extensiones similares a la especificación del PLANNCR como en Kantidakis et al. (PLAN ampliado, 2020) [20]. Más específicamente, PLANNCR extendido está sintonizado investigando dos nuevas funciones de activación para la capa oculta: (1) la unidad lineal rectificada (ReLU) una función de activación común, \(\alpha _{h}(\mathbf {z}_{k} , \varvec{\beta }_{h}) = \max (0, \beta _{0h} + \beta _{h}^T \mathbf {z}_{k})\), o (2) la tangente hiperbólica (tanh), \(\alpha _{h}(\mathbf {z}_{k}, \varvec{\beta }_{h}) = \frac{1 - \exp (-2(\ beta _{0h} + \beta _{h}^T \mathbf {z}_{k}))}{1 + \exp (-2(\beta _{0h} + \beta _{h}^T \mathbf {z}_{k}))}\). Cada vez que una red neuronal está equipada con una de estas funciones de activación para la capa oculta o con la función de activación sigmoidea (logística) (como en el PLANNCR original). Tenga en cuenta que la función de activación para la capa de salida es necesariamente el softmax para proporcionar una estimación de riesgo discreta suavizada. Los nuevos hiperparámetros se especifican en una biblioteca R de última generación [36]. En contraste con Kantidakis et al. (2020), los L intervalos que no se superponen se especifican en una variable de tiempo (en lugar de L variables separadas) para no inflar la cantidad de entidades de entrada. Además, las redes con dos capas ocultas no se prueban aquí debido al peligro de sobreajuste (tamaño de muestra pequeño-mediano, número pequeño de predictores). En el archivo adicional 2 se proporcionan más detalles técnicos para PLANNCR original y PLANNCR extendido.

La Figura 1 muestra cómo se realizó el entrenamiento del modelo. Sobre la base de los datos originales de eSTS, se extrajeron 100 conjuntos de datos de entrenamiento de arranque con 3826 pacientes cada uno (muestreo con reemplazo, \(\approx\) 63,2 % de los datos originales). Estos conjuntos de datos se dividieron aleatoriamente en dos partes complementarias para ajustar los hiperparámetros de los modelos de ML mediante la búsqueda en cuadrícula (\(\frac{3}{4}\) para entrenar los modelos y \(\frac{1}{4}\) para probar su rendimiento, las mismas piezas para todos los métodos). El rendimiento de los modelos finales se evaluó en los datos de validación, que eran las muestras excluidas (fuera de bolsa, \(\approx\) 36,8 % de los datos). Las estimaciones de error out-of-bag son casi idénticas a la validación cruzada N-fold [37]. Para los enfoques de regresión estándar, los modelos se construyeron en cada conjunto de datos de entrenamiento completo (compuesto por 3826 pacientes) utilizando las nueve covariables. Su rendimiento predictivo se evaluó en el respectivo conjunto de datos de validación. No se investigaron las dependencias de formas funcionales complejas (efectos dependientes del tiempo, no lineales y no aditivos). Todos los análisis se realizaron en el lenguaje de programación R versión 4.1.2 [26]. Los paquetes utilizados en la implementación y los parámetros de ajuste para las técnicas de ML se proporcionan en el archivo adicional 2.

Ilustración del enfoque de entrenamiento modelo repetido 100 veces. Para las técnicas de ML, se ajustaron los hiperparámetros en los conjuntos de datos de entrenamiento. El rendimiento final de todos los modelos se evaluó en los conjuntos de datos de validación (muestras omitidas)

El rendimiento predictivo de los métodos se evaluó en términos de discriminación y calibración en cada conjunto de datos de validación. Se utilizaron el área bajo la curva (AUC) y la puntuación de Brier con CR. También se estimó la mala calibración (error de precisión absoluta). Estas medidas de evaluación se emplearon ya que son independientes del modelo: se pueden aplicar a cualquier modelo para evaluar su desempeño predictivo. No se seleccionaron otras medidas como el criterio de información de Akaike (AIC) o el criterio de información bayesiano (BIC), ya que no se pueden calcular (fácilmente) para comparar las diferentes técnicas de SM y ML aplicadas aquí.

Siguiendo a Blanche et al. [38], presentamos la versión dinámica de las medidas con CR (ver también [39]). Sea \(\pi _{i}(\cdot ,\cdot )\) un proceso de predicción específico del sujeto-i (\(i = 1, 2, \cdots , n\) sujetos independientes e idénticamente distribuidos) para todos los hitos tiempos s (tiempos en los que se realizan las predicciones) y horizonte de predicción t. Sin pérdida de generalidad, establecemos \(\pi _{i} (s, t) = 0\) para todos los sujetos i que ya no están en riesgo en el momento s, y nos enfocamos en la predicción del evento \(D = 1\ ) (evento principal investigado). Un AUC dinámico en el tiempo de referencia s para un horizonte de predicción t se puede definir como

donde \(\Delta _{i} (s, t)\) = \(\mathbbm {1}_{s

El AUC dinámico con CR es una medida de discriminación. Por lo general, oscila entre 0,5 y 1 (cuanto más alto, mejor). Una buena precisión predictiva es proporcionada por un modelo que normalmente da mayores riesgos previstos de eventos para los sujetos que experimentan el evento de interés en comparación con los sujetos que no experimentan el evento de interés.

Una medida de precisión predictiva más completa con CR es la puntuación de Brier. La puntuación dinámica de Brier esperada se puede escribir como

This expression can be expanded based on Graaf et al. 1999 [3.0.CO;2-5 ." href="/articles/10.1186/s12874-023-01866-z#ref-CR41" id="ref-link-section-d54317150e5094">41] tomando la siguiente forma

donde \(H(s) = \{ \mathbf {X}, Y(s), T>s \}\) la información en el momento s utilizada para calcular la predicción de \(\pi (s, t)\) . El primer término en (12) mide la calibración: qué tan cerca están las predicciones de \(\mathbb{E} [\Delta (s, t) | H(s)]\), el riesgo subyacente "verdadero" del evento en \ ((s, s+t]\) dado H(s). Además, el segundo término depende de la capacidad de discriminación de H(s). Por lo tanto, la puntuación de Brier es una medida tanto de calibración como de discriminación. de 0 a 0,25 (los valores más bajos significan un error de predicción más pequeño).

Cuando hay datos censurados, el indicador \(\Delta _{i}(s, t)\) es desconocido (no se puede calcular) para todos los sujetos que censuré dentro del intervalo \((s, s+t]\). Por lo tanto , se debe aplicar la técnica de ponderación de probabilidad inversa de censura (IPCW, por sus siglas en inglés) para la estimación tanto del AUC dinámico como de la puntuación de Brier para las RC. Para obtener más información, consulte [38]. Aquí, el tiempo de referencia se estableció en \(s = 0\) (línea de base) para todos los análisis ya que todos los factores pronósticos se fijaron en el tiempo.

Por último, se evaluó la capacidad predictiva de los métodos en función de su mala calibración en cada conjunto de datos de validación (ver Fig. 1). La calibración del modelo se refiere a la concordancia entre los resultados observados y pronosticados, en este caso, la concordancia entre las probabilidades de eventos de incidencia acumulada observada y pronosticada para una causa \(D = k\) en el momento \(t = t_{0}\) [42, 43 ]. Para cada modelo SM y ML, las probabilidades de eventos de incidencia acumulada previstas se estiman en un conjunto de datos de validación, y los datos se dividen en \(m = 4\) grupos de igual tamaño en función de los cuantiles de las probabilidades de eventos previstos. Se seleccionaron cuantiles en lugar de (por ejemplo) deciles para evitar problemas de cálculo. Luego, se calculan las probabilidades de incidencia acumulada observadas para cada grupo. La mala calibración se define como el error cuadrático medio (MSE) de la diferencia entre las probabilidades acumuladas de falla observadas y pronosticadas por una causa específica \(D = k\) en el horizonte de tiempo \(t = t_{0}\)

con \(I_{k}^{(m)}(t_{0})\) y \(\hat{I_{k}}^{(m)}(t_{0})\) lo observado y lo predicho probabilidad acumulada de eventos para el grupo m, respectivamente.

En esta sección, se presentan los resultados de los datos de eSTS. Los siguientes modelos se comparan en términos de desempeño predictivo: (1) Cox de causa específica, (2) Fine-Gray, (3) PLANNCR original, (4) PLANNCR extendido, (5) RSFCR. Cada modelo se evalúa en 100 conjuntos de datos de validación (ver Fig. 1). En el archivo adicional 3 se proporcionan más resultados sobre la comparación entre los métodos.

Los hiperparámetros seleccionados para PLANNCR original y PLANNCR extendido se proporcionan en la sección 1 del archivo adicional 3. Las combinaciones más efectivas se informan por separado en función de la puntuación de Brier/AUC a los 5 años (el horizonte de 5 años fue de gran interés clínico).

Para PLANN original, ambas medidas de rendimiento seleccionaron los mismos valores para los 2 hiperparámetros (tamaño y decaimiento). Por otro lado, se seleccionaron hiperparámetros separados para PLANNCR extendido en un espacio 5-D (tamaño de nodo, tasa de abandono, tasa de aprendizaje, impulso, peso de clase débil). Los detalles técnicos se pueden encontrar en el archivo adicional 2. De las 3 funciones de activación probadas para la capa oculta ("sigmoid", "relu", "tanh"), el "sigmoid" proporcionó el mejor rendimiento en los datos de entrenamiento para Brier puntuación y AUC. Se seleccionó un peso de clase débil de 1 (sin ajuste por progresión de la enfermedad o muerte).

Se comparó el rendimiento del PLANNCR extendido sintonizado para la progresión de la enfermedad (evento de interés). Los resultados se presentan en la Tabla 2. PLANNCR ampliado sintonizado con la puntuación de Brier a los 5 años tuvo un mejor desempeño en términos de puntuación de Brier y mala calibración a los 2, 5 o 10 años. Sin embargo, PLANNCR extendido sintonizado con AUC a 5 años tuvo un mejor desempeño con respecto a AUC a 5 y 10 años. Estos resultados eran los esperados ya que la puntuación de Brier es una medida más completa que tiene en cuenta tanto la discriminación como la calibración. Para el resto de los resultados que se presentan a continuación, se seleccionaron combinaciones óptimas para el puntaje de Brier a los 5 años para PLANNCR extendido.

En esta sección, los cinco métodos se comparan en los 100 conjuntos de datos de validación para diferentes medidas de desempeño predictivo: (1) puntajes de Brier, (ii) AUC, (iii) calibración incorrecta a los 2, 5 y 10 años, respectivamente, para la progresión de la enfermedad ( recurrencia local o metástasis a distancia). Los hiperparámetros óptimos y gráficos adicionales para el evento de interés (progresión de la enfermedad) y el evento competitivo (muerte) se incluyen en las secciones 1 y 2 del archivo adicional 3.

La Figura 2 muestra la puntuación de Brier (valores más bajos mejor) y AUC (valores más altos mejor) a los 2, 5 y 10 años desde la cirugía para todos los métodos con respecto a la progresión de la enfermedad.

Rendimiento predictivo del modelo de Cox de causa específica, modelo Fine-Gray, PLANNCR original, PLANNCR extendido (ajustado con la puntuación de Brier a los 5 años e incluida la función de activación "sigmoide" para la capa oculta) y RSFCR para el evento de interés: enfermedad progresión ± 95% percentil intervalos de confianza basados ​​en 100 conjuntos de datos de validación. Panel izquierdo: puntuación de Brier, panel derecho: AUC a los 2, 5 y 10 años desde la cirugía

Para la puntuación de Brier dependiente del tiempo, el modelo de Cox de causa específica tuvo en general el mejor desempeño seguido por el modelo Fine-Gray y RSFCR a los 2 años, y el PLANNCR extendido y Fine-Gray a los 5 y 10 años. PLANNCR original tuvo ligeramente el peor rendimiento en estos momentos. Intervalos de confianza (IC) del 95 % basados ​​en el método de percentiles para 100 conjuntos de datos de validación utilizando los datos de fábrica superpuestos. PLANNCR extendido tuvo un IC del 95 % marginalmente mayor a los 2 años y RSFCR a los 10 años. En cuanto a AUC a 2, 5 y 10 años, el modelo de Cox de causa específica y PLANNCR extendido tuvieron el mejor desempeño (muy cerca uno del otro) seguido por el modelo Fine-Gray, RSFCR y PLANNCR original en orden decreciente de desempeño. Los intervalos de confianza del 95% fueron muy similares para los métodos, excepto para PLANNCR original que tuvo intervalos mucho más amplios en todo momento. Esto significa que su capacidad de discriminación (AUC) no fue consistente (fluctuó) en los conjuntos de datos de validación.

La figura S1 en el archivo adicional 3 proporciona la misma trama con PLANNCR ampliado sintonizado con AUC a 5 años. La capacidad predictiva disminuyó en términos de la puntuación de Brier pero aumentó ligeramente en cuanto al AUC a los 5 y 10 años (ver también la Tabla 2). Las figuras S3 y S5 en el archivo adicional 3 ilustran la capacidad de pronóstico (puntaje de Brier, AUC) de todos los modelos para la muerte (el evento competitivo). El SM (Cox y Fine-Gray de causa específica) obtuvo la puntuación de Brier más baja, seguido del RSFCR. Los modelos PLANNCR tuvieron peor rendimiento y mayor IC que el resto a los 2 años. PLANNCR original continuó teniendo IC más grandes a los 5 y 10 años, mientras que PLANNCR extendido tuvo IC más estrechos a los 5 y 10 años (rendimiento más consistente). Para AUC, el modelo de Cox de causa específica y el PLANNCR extendido tuvieron los valores más altos seguidos por el modelo Fine-Gray y el RSFCR. PLANNCR original el rendimiento más bajo y el IC del 95% más grande.

Los cinco modelos se investigaron en términos de mala calibración (definición en la sección "Evaluación predictiva del desempeño") a los 2, 5 y 10 años. Los resultados se representan en la Fig. 3 con diagramas de caja. El SM (modelo de Cox de causa específica, Fine-Gray) tuvo, con mucho, el error de mala calibración más bajo a los 2 años para la progresión de la enfermedad (causa 1). El SM y luego el PLANNCR original tuvieron la descalibración más baja a los 5 años (el SM y el PLANNCR extendido a los 10 años). PLANNCR extendido tuvo el mayor error de mala calibración a los 2 años, el segundo más alto a los 5 años y el más bajo a los 10 años (junto al modelo de Cox de causa específica para este punto de tiempo). El RSFCR tuvo la peor calibración a los 5 y 10 años para la incidencia acumulada del evento de interés.

Calibración incorrecta del modelo de Cox de causa específica, modelo Fine-Gray, PLANNCR original, PLANNCR ampliado (ajustado con la puntuación de Brier a los 5 años) y RSFCR a los 2, 5 y 10 años para el evento de interés: progresión de la enfermedad basada en una validación de 100 conjuntos de datos La mala calibración se calculó como el error cuadrático medio (MSE) entre las probabilidades de eventos de incidencia acumulada observada y predicha (para 4 grupos)

El gráfico de calibración incorrecta para PLANNCR extendido sintonizado con AUC a 5 años está disponible en el Archivo adicional 3 (Fig. S2). PLANNCR ampliado está peor calibrado en comparación con la figura 3. Este resultado era el esperado, ya que en la figura complementaria el modelo se ajustó solo para la discriminación (AUC a 5 años), mientras que en la figura 3 se ajustó teniendo en cuenta tanto la discriminación como la calibración. (puntuación de Brier a los 5 años). Las figuras S4 y S6 muestran el error de mala calibración de los cinco métodos para el evento competitivo (muerte). El modelo de Cox de causa específica y el modelo Fine-gray tuvieron el error de mala calibración más bajo. RSFCR muestra un error de calibración erróneo similar para la muerte a los 2 y 5 años y un error ligeramente peor a los 10 años. Las dos redes neuronales tuvieron el mayor error de mala calibración en cualquier momento (distinto de los otros tres modelos). Una explicación tentativa de la mayor mala calibración de PLANNCR para el evento competitivo es que surge de una mayor regularización de las probabilidades de muerte previstas (para un punto de tiempo dado), lo que resulta en una menor dispersión de las predicciones allí. Una solución para mejorar la calibración podría ser ajustar el rendimiento de PLANNCR (p. ej., puntuación de Brier a los 5 años) para el evento de competencia. Sin embargo, dado que la progresión de la enfermedad era de gran interés aquí, tanto el PLANNCR original como el extendido se ajustaron para la progresión de la enfermedad.

Hasta donde sabemos, este es el primer estudio que comparó las técnicas SM con ML para RC en sarcoma de tejido blando. Se analizó un total de 3826 pacientes recolectados retrospectivamente con eSTS de alto grado en función de nueve factores pronósticos (tamaño de muestra pequeño/mediano, configuración de baja dimensión). El SM (Cox de causa específica, Fine-Gray) y el RSFCR usaron tiempos exactos para el evento, mientras que las redes neuronales (PLANNCR original, PLANNCR extendido) requirieron una preparación de datos en un formato largo donde los puntos de tiempo exactos se convirtieron en L tiempo separado intervalos (años). Los cinco métodos predijeron la incidencia acumulada de progresión de la enfermedad (evento de interés) y muerte (evento competitivo) desde la fecha de la cirugía.

Los resultados mostraron que los modelos ML tienen un rendimiento similar al SM en términos de puntuación de Brier y AUC a los 2, 5 y 10 años para la progresión de la enfermedad y la muerte (intervalos de confianza del 95 % superpuestos). La capacidad predictiva de PLANNCR extendido fue generalmente mejor que RSFCR y PLANNCR original, especialmente para AUC. Esto significa que PLANNCR extendido tenía la capacidad de discriminar mejor entre grupos de pacientes de bajo y alto riesgo. Sin embargo, las SM estuvieron frecuentemente mejor calibradas que las tres técnicas ML. La mala calibración de PLANNCR original y extendida fue más pronunciada para el evento de competencia. Estos hallazgos son consistentes con un estudio de simulación de nuestro grupo que comparó el rendimiento predictivo de SNN (PLANN original y extensiones) con modelos de Cox para datos de osteosarcoma en un entorno simple similar (250 o 1000 pacientes, cinco factores pronósticos) [44]. Por lo tanto, se necesita urgentemente más atención a la calibración del modelo (precisión predictiva absoluta) para los métodos ML.

Para este trabajo, tomamos muestras con reemplazo 100 veces (bootstrapping) de los datos de eSTS para entrenar los modelos de ML. Luego, las muestras omitidas se usaron para validar internamente el rendimiento de todos los modelos y obtener los IC empíricos del 95 % (ver Fig. 1). Este puede ser un enfoque ventajoso cuando el tamaño de la muestra es limitado porque evita disminuir el número de pacientes para el desarrollo/validación del modelo. Sin embargo, tiene un costo, ya que este procedimiento se repite varias veces y, por lo tanto, es computacionalmente costoso. El rendimiento de todos los modelos se evaluó con dos medidas dependientes del tiempo: puntuación de Brier (discriminación y calibración) y AUC (discriminación) a los 2, 5 y 10 años, respectivamente. Elegimos el AUC dependiente del tiempo sobre la adaptación del índice de concordancia de Harrell a la configuración de CR [45, 46], una medida de rendimiento global para la discriminación, ya que esta última no es una medida adecuada para la evaluación de los riesgos predichos de t-año (ver [47]).

Se aplicaron dos modelos de regresión para RC para la comparación con técnicas de ML; la regresión de riesgo de causa específica de Cox y el Fine-Gray. El modelo de Cox de causa específica podría ser más adecuado para abordar cuestiones etiológicas, mientras que el Fine-Gray para estimar el pronóstico clínico de los pacientes, que era el objetivo aquí [3, 5, 48]. No obstante, ambos SM se emplearon para un enfoque más integral, proporcionando resultados similares y superando a los modelos ML en calibración. No se investigaron las dependencias funcionales complejas, como los efectos no lineales y no aditivos, lo que muestra cuán efectivo puede ser el SM en entornos simples (con un tamaño de muestra pequeño o mediano y un número limitado de predictores) a pesar de que asumen la aditividad de los efectos y la proporcionalidad de los mismos. peligros a lo largo del tiempo. Por otro lado, los métodos de ML pueden ser muy flexibles (sin suposiciones de modelado a priori), pero generalmente requieren conjuntos de datos (muy) grandes para garantizar un pequeño sobreajuste de sus modelos de predicción clínica desarrollados [49, 50].

Recientemente se han propuesto otros modelos impulsados ​​por ML para el análisis de supervivencia con RC y su capacidad de pronóstico se comparó con los puntos de referencia típicos, como Cox, Fine-Gray y RSFCR de causa específica. En 2017, Alaa y van der Schaar [51] propusieron un modelo bayesiano no paramétrico para evaluar conjuntamente el riesgo de un paciente de múltiples eventos adversos competitivos. Los tiempos de supervivencia específicos de la causa del paciente se modelan como una función de las covariables utilizando procesos gaussianos multitarea profundos. Bellot y van der Schaar [52] desarrollaron en 2018 un modelo mixto bayesiano basado en árboles para CR. Construyeron un modelo mixto bayesiano jerárquico a través de bosques de supervivencia aleatorios multivariados y evaluaron la importancia de las variables para cada causa. Recientemente, Nagpal et al. emplearon una red neuronal profunda (múltiples capas ocultas). llamadas máquinas de supervivencia profunda [53]. Esta es una metodología paramétrica para aprender conjuntamente una representación no lineal profunda común de las características de entrada. Esta red estima por separado la distribución de eventos para cada CR. Tenga en cuenta que para este proyecto, solo especificamos redes neuronales poco profundas (1 capa oculta) para evitar un peligro excesivo de sobreajuste en esta configuración simple.

Centrándose en la utilidad práctica, los dos SM tienen la ventaja en comparación con las tres técnicas de ML examinadas. Estos últimos requieren un tiempo de implementación sustancial para el preprocesamiento de datos, el ajuste de los parámetros y son computacionalmente más intensivos para ejecutarse (en términos de horas aquí). Al mismo tiempo, la optimización del modelo de PLANNCR es una tarea delicada que requiere métodos numéricos robustos y un uso hábil, de lo contrario, la red podría converger en mínimos subóptimos en la función de error [35]. De las tres técnicas de ML, PLANNCR extendido exigió más tiempo y esfuerzo para el entrenamiento debido a la mayor cantidad de parámetros de ajuste (cinco frente a dos para PLANNCR original y RSFCR). Por el contrario, los modelos Cox y Fine-Gray específicos de la causa no requieren ningún ajuste de hiperparámetro y ofrecen una implementación rápida.

Hoy en día, el empleo de ML está sobrevalorado en algunos contextos de la medicina debido al creciente interés en aplicar técnicas modernas para crear modelos de predicción. Por lo tanto, es necesario informar los modelos de predicción impulsados ​​por inteligencia artificial de manera completa y transparente para permitir la evaluación crítica, la reproducibilidad de los pasos y resultados del modelado por parte de una audiencia más amplia y para evitar el desperdicio de investigación [14, 15, 54]. En general, un enfoque de regresión tradicional aún puede proporcionar probabilidades de supervivencia pronosticadas y un rendimiento pronóstico más precisos en comparación con un modelo de ML de última generación, especialmente en entornos médicos no complejos (tamaño de muestra medio-bajo, número pequeño de predictores) . En este caso, la aplicación de algoritmos ML solo debe estar motivada para la exploración de los datos recopilados.

En el futuro, podría ser útil comparar la capacidad predictiva del modelo de Cox de riesgo proporcional de causa específica con el PLANNCR original/ampliado para variables dependientes del tiempo. El primer método permite la inclusión de covariables dependientes del tiempo en el software estándar, y el segundo puede incorporar de forma natural covariables dependientes del tiempo debido a la transformación esencial de los datos en un formato largo para cada paciente. Además, Fine-Gray y RSFCR se pueden ampliar para proporcionar predicciones dinámicas con covariables dependientes del tiempo para CR mediante la creación de un conjunto de datos de referencia en un conjunto de puntos de referencia en el tiempo \(t_{LM}\) [55]. Por último, pero no menos importante, sería interesante comparar las técnicas SM y ML con respecto a la interpretación. En general, SM ofrece una interpretación más sencilla a través de las proporciones de riesgo de causa específica, mientras que PLANNCR puede proporcionar la forma de la función de riesgo de causa específica a lo largo del tiempo y las covariables, y RSFCR la importancia de la variable. Se necesita más investigación sobre una métrica común para comparar directamente todos los métodos.

En este artículo, discutimos las alternativas de ML (PLANNCR original, PLANNCR extendido, RSFCR) a SM (modelo de Cox de causa específica, Fine-Gray) para construir modelos de pronóstico para el análisis de supervivencia con RC en datos de eSTS con tamaño de muestra pequeño/mediano y limitado. número de predictores (configuración simple). Los métodos se compararon en términos de discriminación y calibración. Los modelos de ML alcanzaron un rendimiento equivalente en términos de medidas de rendimiento predictivo adecuadas a los 2, 5 o 10 años desde la cirugía (intervalos de confianza del 95 % superpuestos), pero los modelos de regresión convencionales en general estaban mejor calibrados. Por lo tanto, se necesita más atención a la calibración. Las técnicas modernas impulsadas por ML son menos prácticas, ya que requieren un tiempo de implementación considerable (preprocesamiento de datos, ajuste de hiperparámetros, intensidad computacional), mientras que los modelos de regresión son fáciles de usar y pueden funcionar bien sin la carga de trabajo adicional del entrenamiento del modelo. En general, se requiere un informe completo y transparente de todos los métodos para permitir la evaluación crítica, la reproducibilidad y evitar el desperdicio de investigación. En nuestra opinión, para datos de la vida real no complejos como este, las técnicas de ML solo deben emplearse como complemento de SM como herramientas exploratorias del rendimiento del modelo.

Los datos clínicos utilizados para este proyecto de investigación son privados. El código R desarrollado para realizar este análisis se proporciona en el siguiente repositorio de GitHub https://github.com/GKantidakis/SM-vs-ML-for-CRs. El lector también encontrará un archivo zip con códigos R, que es un ejemplo completo de este análisis en los datos R disponibles públicamente para el linfoma de células foliculares (datos "follic"). Las gráficas de análisis de los datos "follic" (n = 541, p = 4), que ilustran las mismas metodologías dentro de datos no complejos, respaldan los hallazgos de los datos de eSTS.

Área bajo la curva

Intervalo de confianza

Función de incidencia acumulada

Riesgos competitivos

Sarcomas de partes blandas de las extremidades

Probabilidad inversa de ponderación de censura

Kaplan Meier

Aprendizaje automático

Error medio cuadrado

Red neuronal artificial logística parcial

Red neuronal artificial logística parcial: determinación automática de relevancia

Red neuronal artificial logística parcial para riesgos competitivos

Red neuronal artificial logística parcial para riesgos competitivos - determinación automática de relevancia

Unidad lineal rectificada

Bosques de supervivencia aleatorios

Bosques de supervivencia aleatorios para riesgos competitivos

Modelos estadísticos

Redes neuronales de supervivencia

Putter H, Fiocco M, Geskus RB. Tutorial en bioestadística: riesgos competitivos y modelos multiestado. Stat Med. 2007;26(11):2389–430. https://doi.org/10.1002/SIM.2712.

Artículo CAS PubMed Google Académico

Varadhan R, Weiss CO, Segal JB, Wu AW, Scharfstein D, Boyd C. Evaluación de los resultados de salud en presencia de riesgos competitivos: revisión de métodos estadísticos y aplicaciones clínicas. Atención Médica. 2010;48(6 SUPL.):96–105. https://doi.org/10.1097/MLR.0b013e3181d99107.

Artículo Google Académico

Geskus RB. Análisis de datos con riesgos competitivos y estados intermedios. 1ª ed. Boca Ratón: Chapman and Hall/CRC; 2015.

Zhang Z, Cortese G, Combescure C, Marshall R, Lim M, et al. Descripción general de la validación del modelo para el modelo de regresión de supervivencia con riesgos competitivos utilizando datos de estudios de melanoma. Ann Transl Med. 2018;6(16):325. https://doi.org/10.21037/atm.2018.07.38.

Artículo PubMed PubMed Central Google Académico

Austin PC, Lee DS, Fine JP. Introducción al Análisis de Datos de Supervivencia en Presencia de Riesgos Competitivos. Circulación. 2016;133(6):601–9. https://doi.org/10.1161/CIRCULATIONAHA.115.017719.

Artículo PubMed PubMed Central Google Académico

Austin PC, Multa JP. Contabilización de riesgos competitivos en ensayos controlados aleatorios: una revisión y recomendaciones para mejorar. Stat Med. 2017;36(8):1203–9. https://doi.org/10.1002/sim.7215.

Artículo PubMed PubMed Central Google Académico

Koller MT, Raatz H, Steyerberg W, Wolbers M. Riesgos competitivos y la comunidad clínica: ¿irrelevancia o ignorancia? Stat Med. 2012;31(11–12):1089–97. https://doi.org/10.1002/sim.4384.

Artículo PubMed Google Académico

Kaplan EL, Meier P. Estimación no paramétrica a partir de observaciones incompletas. J Am Stat Asociado. 1958;53(282):457–81. https://doi.org/10.2307/2281868.

Artículo Google Académico

Zhang Z. Análisis de supervivencia en presencia de riesgos competitivos. Ann Transl Med. 2016;5(3). https://doi.org/10.21037/atm.2016.08.62.

Cox DR. Modelos de regresión y tablas de vida. JR Stat Soc Ser B (Methodol). 1972;34(2):187–220.http://www.jstor.org/stable/2985181.

Fino JP, Gris RJ. Un modelo de riesgos proporcionales para la subdistribución de un riesgo competitivo. J Am Stat Asociado. 1999;94(446):496–509. https://doi.org/10.1080/01621459.1999.10474144.

Artículo Google Académico

Kourou K, Exarchos TP, Exarchos KP, Karamouzis MV, Fotiadis DI. Aplicaciones de aprendizaje automático en el pronóstico y predicción del cáncer. Comput Struct Biotechnol J. 2015;13:8–17. https://doi.org/10.1016/j.csbj.2014.11.005.

Artículo CAS PubMed Google Académico

Sidey-Gibbons JAM, Sidey-Gibbons CJ. Aprendizaje automático en medicina: una introducción práctica. Método BMC Med Res. 2019;19(1):1–18. https://doi.org/10.1186/s12874-019-0681-4.

Artículo Google Académico

Collins GS, Reitsma JB, Altman DG, Moons KGM. Informe transparente de un modelo de predicción multivariable para el pronóstico o diagnóstico individual (TRIPOD): la declaración TRIPOD. BMC Med. 2015;13(1). http://www.biomedcentral.com/1741-7015/13/1. https://doi.org/10.1186/s12916-014-0241-z.

Collins GS, Collins KGM. Informes de modelos de predicción de inteligencia artificial. Lanceta. 2019;393(10181):1577–9. https://doi.org/10.1016/S0140-6736(19)30037-6.

Artículo PubMed Google Académico

Shahid N, Rappon T, Berta W. Aplicaciones de redes neuronales artificiales en la toma de decisiones organizacionales de atención médica: una revisión de alcance. Más uno. 2019;14(2):e0212356. https://doi.org/10.1371/journal.pone.0212356.

Artículo CAS PubMed PubMed Central Google Scholar

Wang P, Li Y, Reddy CK. Aprendizaje automático para el análisis de supervivencia: una encuesta. Cómputo ACM Surv. 2019;51(6):1–36. https://doi.org/10.1145/3214306.

Artículo Google Académico

Biganzoli E, Boracchi P, Mariani L, Marubini E. Feed forward neural networks for the analysis of censored survival data: a partial logistic regression approach. Stat Med. 1998;17(10):1169–86. 3.0.CO;2-D">https://doi.org/10.1002/(SICI)1097-0258(19980530)17:10<1169::AID-SIM796>3.0.CO;2-D.

Lisboa PJG, Wong H, Harris P, Swindell R. Un enfoque de red neuronal bayesiana para modelar datos censurados con una aplicación para el pronóstico después de la cirugía por cáncer de mama. Artif Intel Med. 2003;28(1):1–25. https://doi.org/10.1016/S0933-3657(03)00033-2.

Artículo CAS PubMed Google Académico

Kantidakis G, Putter H, Lancia C, de Boer J, Braat AE, Fiocco M. Modelos de predicción de supervivencia desde el trasplante de hígado: comparaciones entre modelos de Cox y técnicas de aprendizaje automático. Método BMC Med Res. 2020;20(1):1–14. https://doi.org/10.1186/s12874-020-01153-1.

Artículo Google Académico

Ishwaran H, Kogalur UB, Blackstone EH, Lauer MS. Bosques de supervivencia aleatorios. Ann Appl Stat. 2008;2(3):841–60. https://doi.org/10.1214/08-AOAS169.

Artículo Google Académico

Breiman L. Bosques aleatorios. Aprender Mach. 2001;45(1):5–32. https://doi.org/10.1023/A:1010933404324.

Artículo Google Académico

Biganzoli E, Boracchi P, Ambrogi F, Marubini E. Red neuronal artificial para el modelado conjunto de peligros discretos de causa específica. Artif Intel Med. 2006;37(2):119–30. https://doi.org/10.1016/j.artmed.2006.01.004.

Artículo PubMed Google Académico

Lisboa PJG, Etchells TA, Jarman IH, Arsene CTC, Aung MSH, Eleuteri A, et al. Red neuronal artificial logística parcial para riesgos competitivos regularizada con determinación automática de relevancia. Red transneuronal IEEE. 2009;20(9):1403–16. https://doi.org/10.1109/TNN.2009.2023654.

Artículo PubMed Google Académico

Ishwaran H, Gerds TA, Kogalur UB, Moore RD, Gange SJ, Lau BM. Bosques aleatorios de supervivencia para riesgos competitivos. Bioestadística. 2014;15(4):757–73. https://doi.org/10.1093/biostatistics/kxu010.

Artículo PubMed PubMed Central Google Académico

Equipo RC. R: un lenguaje y entorno para la computación estadística. R Fundación para la Computación Estadística. 2014. http://www.r-project.org/.

Rueten-Budde AJ, van Praag VM, van de Sande MAJ, Fiocco M, Aston W, Bonenkamp H, et al. Validación externa y adaptación de un modelo de predicción dinámica para pacientes con sarcoma de tejido blando de extremidades de alto grado. J Surg Oncol. 2021;123(4):1050–6. https://doi.org/10.1002/jso.26337.

Artículo PubMed Google Académico

Mariani L, Miceli R, Kattan MW, Brennan MF, Colecchia M, Fiore M, et al. Validación y adaptación de un nomograma para predecir la supervivencia de pacientes con sarcoma de partes blandas de extremidades utilizando un sistema de tres grados. Cáncer. 2005;103(2):402–408. https://pubmed.ncbi.nlm.nih.gov/15578681/. https://doi.org/10.1002/CNCR.20778.

van Praag VM, Rueten-Budde AJ, Jeys LM, Laitinen M, Pollock R, Aston W, et al. Un modelo de predicción para decisiones de tratamiento en sarcomas de tejido blando de extremidades de alto grado: Atención personalizada de sarcoma (PERSARC). Eur J Cáncer. 2017;83:313–23. https://doi.org/10.1016/j.ejca.2017.06.032.

Artículo PubMed Google Académico

Callegaro D, Miceli R, Bonvalot S, Ferguson P, Strauss DC, Levy A, et al. Impacto de la quimioterapia y la radioterapia perioperatorias en pacientes con sarcoma primario de tejidos blandos de las extremidades: análisis retrospectivo entre los principales subtipos histológicos y los principales centros de referencia. Eur J Cáncer. 2018;105:19–27. https://doi.org/10.1016/j.ejca.2018.09.028.

Artículo PubMed Google Académico

Woll PJ, Reichardt P, Le Cesne A, Bonvalot S, Azzarelli A, Hoekstra HJ, et al. Quimioterapia adyuvante con doxorrubicina, ifosfamida y lenograstim para el sarcoma de tejido blando resecado (EORTC 62931): un ensayo controlado aleatorio multicéntrico. Lanceta Oncol. 2012;13(10):1045–54. https://doi.org/10.1016/S1470-2045(12)70346-7.

Artículo CAS PubMed Google Académico

Stekhoven DJ, Bühlmann P. Missforest: imputación de valores perdidos no paramétricos para datos de tipo mixto. Bioinformática. 2012;28(1):112–8. https://doi.org/10.1093/bioinformatics/btr597.

Artículo CAS PubMed Google Académico

Holt JD. Análisis de riesgos competitivos con especial referencia a los experimentos de pares emparejados. Biometrika. 1978;65(1):159–65. https://doi.org/10.1093/BIOMET/65.1.159.

Artículo Google Académico

Aalen OO, Johansen S. Una matriz de transición empírica para cadenas de Markov no homogéneas basada en observaciones censuradas. Escanear J Stat. 1978;5(3):141–150. https://www.jstor.org/stable/4615704.

Obispo CM. Reconocimiento de patrones y aprendizaje automático. Nueva York: Springer; 2006.

Chollet F. keras. R Fundación para la Computación Estadística. 2015. https://github.com/keras-team/keras.

Hastie T, Tibshirani R, Friedman J. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. 2ª ed. Serie Springer en Estadística. Saltador; 2009. https://doi.org/10.1007/978-0-387-84858-7.

Blanche P, Proust-Lima C, Loubère L, Berr C, Dartigues JF, Jacqmin-Gadda H. Cuantificación y comparación de la precisión predictiva dinámica de modelos conjuntos para marcador longitudinal y tiempo hasta el evento en presencia de censura y riesgos competitivos. Biometría. 2015;71(1):102–13. https://doi.org/10.1111/biom.12232.

Artículo PubMed Google Académico

Schoop R, Beyersmann J, Schumacher M, Binder H. Cuantificación de la precisión predictiva de los modelos de tiempo hasta el evento en presencia de riesgos competitivos. Biom J. 2011;53(1):88–112. https://doi.org/10.1002/bimj.201000073.

Artículo PubMed Google Académico

Blanche P, Dartigues JF, Jacqmin-Gadda H. Estimación y comparación de áreas dependientes del tiempo bajo curvas características operativas del receptor para tiempos de eventos censurados con riesgos competitivos. Stat Med. 2013;32(30):5381–97. https://doi.org/10.1002/sim.5958.

Artículo PubMed Google Académico

Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999;18(17-18):2529–2545. http://www.ncbi.nlm.nih.gov/pubmed/10474158. 3.0.CO;2-5">https://doi.org/10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5.

Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N, et al. Evaluación del rendimiento de los modelos de predicción: un marco para algunas medidas tradicionales y novedosas. Epidemiología. 2010;21(1):128–138. https://pubmed.ncbi.nlm.nih.gov/20010215/. https://doi.org/10.1097/EDE.0b013e3181c30fb2.

Gerds TA, Andersen PK, Kattan MW. Gráficos de calibración para modelos de predicción de riesgos en presencia de riesgos competitivos. Stat Med. 2014;33(18):3191–203. https://doi.org/10.1002/sim.6152.

Artículo PubMed Google Académico

Kantidakis G, Biganzoli E, Putter H, Fiocco M. Un estudio de simulación para comparar el rendimiento predictivo de las redes neuronales de supervivencia con modelos de Cox para datos de ensayos clínicos. Calcular Métodos Matemáticos Med. 2021;2021:1–15. https://doi.org/10.1155/2021/2160322.

Artículo Google Académico

Wolbers M, Koller MT, Witteman JCM, Steyerberg EW. Modelos pronósticos con métodos de riesgos competitivos y aplicación a la predicción del riesgo coronario. Epidemiología. 2009;20(4):555–61. https://doi.org/10.1097/EDE.0b013e3181a39056.

Artículo PubMed Google Académico

Wolbers M, Blanche P, Koller MT, Witteman JCM, Gerds TA. Concordancia de modelos pronósticos con riesgos competitivos. Bioestadística. 2014;15(3):526–39. https://doi.org/10.1093/biostatistics/kxt059.

Artículo PubMed PubMed Central Google Académico

Blanche P, Kattan MW, Gerds TA. El índice c no es adecuado para la evaluación de los riesgos predichos de t-año. Bioestadística. 2019;20(2):347–57. https://doi.org/10.1093/biostatistics/kxy006.

Artículo PubMed Google Académico

Tullio A, Magli A, Moretti E, Valent F. Por qué debemos cuidarnos del sesgo de riesgo competitivo en el análisis de supervivencia: un ensayo de fase II sobre el perfil de toxicidad de la radioterapia para el cáncer de próstata. Rep Pract Oncol Radiother. 2019;24(6):511–519. https://doi.org/10.1016/j.rpor.2019.08.001.

Van Der Ploeg T, Austin PC, Steyerberg EW. Las técnicas modernas de modelado tienen hambre de datos: un estudio de simulación para predecir puntos finales dicotómicos. Método BMC Med Res. 2014;14(1):1–13. https://doi.org/10.1186/1471-2288-14-137.

Artículo Google Académico

Riley RD, Ensor J, Snell KIE, Harrell FE, Martin GP, ​​Reitsma JB, et al. Cálculo del tamaño de muestra necesario para desarrollar un modelo de predicción clínica. BMJ. 2020;368 (marzo): 1–12. https://doi.org/10.1136/bmj.m441.

Artículo Google Académico

Alaa AM, Van Der Schaar M. Profundos procesos gaussianos multitarea para el análisis de supervivencia con riesgos competitivos. Adv Neural Inf Process Syst. 2017;2326–2334. http://medianetlab.ee.ucla.edu/papers/Alaa-Deep-Competing-Risk.pdf.

Bellot A, van der Schaar M. Modelo de mezcla bayesiana basado en árboles para riesgos competitivos. Int Conf Artif Intell Stat PMLR 2018. 2018;910–918. http://proceedings.mlr.press/v84/bellot18a/bellot18a.pdf.

Nagpal C, Li X, Dubrawski A. Máquinas de supervivencia profunda: regresión de supervivencia totalmente paramétrica y aprendizaje de representación para datos censurados con riesgos competitivos. IEEE J Biomed Salud Inf. 2021;25(8):3163–75. https://doi.org/10.1109/JBHI.2021.3052441.

Artículo Google Académico

Dhiman P, Ma J, Navarro CA, Speich B, Bullock G, Damen JA, et al. Es necesario mejorar la presentación de informes de modelos de predicción clínica pronóstica basados ​​en métodos de aprendizaje automático en oncología. J Clin Epidemiol. 2021;138:60–72. https://doi.org/10.1016/j.jclinepi.2021.06.024.

Artículo PubMed PubMed Central Google Académico

Nicolaie MA, van Houwelingen JC, de Witte TM, Putter H. Predicción dinámica mediante puntos de referencia en riesgos competitivos. Estado Med. 2013;32(12):2031–47. https://doi.org/10.1002/sim.5665.

Artículo CAS PubMed Google Académico

Descargar referencias

Esta publicación fue financiada con una donación de Kom Op Tegen Kanker (Stand up to Cancer), la sociedad flamenca contra el cáncer de Bélgica. Los autores desean agradecer a los miembros del Grupo de Estudio de Atención Personalizada del SARcoma (PERSARC) por el suministro de los datos utilizados en este documento.

Ibtissam Acem, Will Aston, Han Bonenkamp, ​​Ingrid ME Desar, Peter C Ferguson, Marta Fiocco, Hans Gelderblom, Anthony M Griffin, Dirk J Grünhagen, Rick L Haas, Andrew J Hayes, Lee M Jeys, Johnny Keller, Minna K Laitinen, Andreas Leithner, Katja Maretty-Kongstad, Rob Pollock, Anja Rueten-Budde, Myles Smith, Maria A Smolle, Emelie Styring, Joanna Szkandera, Per-Ulf Tunn, Jos A van der Hage, Robert J van Ginkel, Winan J van Houde, Veroniek van Praag, Michiel van de Sande, Kees Verhoef, Madeleine Willegger, Reinard Windhager, Jay S Wunder, Olga Zaikova.

El trabajo de Georgios Kantidakis como becario en la sede de la EORTC recibió el apoyo de una subvención del Grupo de Sarcoma Óseo y Tejido Blando de la EORTC y el Departamento de Oncología Médica del Centro Médico de la Universidad de Leiden (LUMC). Las fuentes de financiación no tuvieron ningún papel en el diseño del estudio y la recopilación, el análisis y la interpretación de los datos o la preparación del manuscrito.

Instituto Matemático (MI) Universidad de Leiden, Niels Bohrweg 1, 2333 CA, Leiden, Países Bajos

Georgios Kantidakis y Marta Fiocco

Departamento de Ciencias de Datos Biomédicos, Sección de Estadísticas Médicas, Centro Médico de la Universidad de Leiden (LUMC), Albinusdreef 2, 2333 ZA, Leiden, Países Bajos

George Kantidakis, Hein Putter y Martha Fiocco

Departamento de Estadística, Sede de la Organización Europea para la Investigación y el Tratamiento del Cáncer (EORTC), Ave E. Mounier 83/11, 1200, Bruselas, Bélgica

Georgios Kantidakis y Saskia Lithier

Centro de datos y ensayos, Centro Princesa Máxima de oncología pediátrica (PMC), Heidelberglaan 25, 3584 CS, Utrecht, Países Bajos

marta arco

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

MF escribió una propuesta para consultar los datos. GK y MF concibieron y diseñaron el estudio. GK llevó a cabo el análisis estadístico. GK, HP, SL y MF interpretaron los resultados. GK redactó el manuscrito y HP, SL y MF lo revisaron críticamente. Todos los autores leyeron y aprobaron la versión final.

Correspondencia a Georgios Kantidakis.

La junta de revisión institucional del Departamento de Ortopedia del Centro Médico de la Universidad de Leiden renunció a la aprobación ética para este estudio porque los datos clínicos se recopilaron de los registros médicos y fueron pseudoanonimizados. Todos los participantes dieron su consentimiento informado por escrito en los estudios originales. La investigación se realizó de acuerdo con la Declaración de Helsinki.

No aplica.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Archivo adicional 1.

Archivo adicional 2.

Archivo adicional 3.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/. La renuncia de Creative Commons Public Domain Dedication (http://creativecommons.org/publicdomain/zero/1.0/) se aplica a los datos disponibles en este artículo, a menos que se indique lo contrario en una línea de crédito a los datos.

Reimpresiones y permisos

Kantidakis, G., Putter, H., Litière, S. et al. Modelos estadísticos versus aprendizaje automático para riesgos competitivos: desarrollo y validación de modelos pronósticos. Método BMC Med Res 23, 51 (2023). https://doi.org/10.1186/s12874-023-01866-z

Descargar cita

Recibido: 15 Septiembre 2022

Aceptado: 13 febrero 2023

Publicado: 24 febrero 2023

DOI: https://doi.org/10.1186/s12874-023-01866-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

COMPARTIR