Sensibilidad, Especificidad Y Valores Predictivos

REV. CHIL. ANEST. 1998; 27: 2: 115-121 BIOESTADISTICA 9

Dr. Jorge Dagnino S*

 

Introducción

Desde los albores de la Medicina, los médicos (y los brujos...) usaron los datos que les entregaba el paciente y el examen físico para hacer un diagnóstico, formular un tratamiento o hacer un pronóstico. Luego contaron con instrumentos, como el fonendoscopio o el termómetro, que aumentaban su capacidad de acopiar información y de discriminar. Al igual que ahora, al diagnóstico se llegaba por una mezcla de intuición y raciocinio probabilístico en su mayor parte subconsciente. Luego iría aumentando el número y complejidad de las pruebas y procedimientos diagnósticos. En general, éstos deberían pedirse o hacerse, cuando los antecedentes -anamnesis, examen físico o tests previos- no permiten resolver las dudas diagnósticas y lo que se espera del resultado es precisamente que reduzca esa incertidumbre. El proceso supone una estimación del grado de incertidumbre existente antes de requerir la información adicional y de cómo ésta 7puede modificar aquella. Supone considerar también qué nivel de incertidumbre requiere de mayor información diagnóstica antes de proceder con el tratamiento. Aun en la actualidad, raramente se tiene cifras de fácil interpretación o aplicación, infrecuentemente se citan exactamente y generalmente se tiende a sobrestimar lo raro y a subestimar lo frecuente. Y aquí está envuelta no sólo la ciencia de la Medicina sino que buena parte de su arte.

El juicio clínico se basa en un bagaje suficiente de datos y en la habilidad para combinarlos apropiadamente. En la educación médica se le ha dedicado poca atención a este proceso y el énfasis recae sobre la adquisición de datos y en la comprensión de los procesos fisiopatológicos. El desarrollo de la lógica en la toma de decisiones clínicas ha recibido escasa atención formal y se deja un poco al azar, esperando que el aprendiz copie los modelos de sus maestros, no necesariamente exitosos. El raciocinio clínico sigue una determinada secuencia que asegura la mayor eficiencia en el proceso:

  1. Historia y examen físico

  2. Pruebas diagnósticas
  3. Probabilidades diagnósticas
  4. Alternativas terapéuticas
  5. Preferencias del paciente
  6. Plan terapéutico

El objetivo de este capítulo es comentar algunos aspectos de las pruebas diagnósticas para aplicarlos, en el próximo, en su uso preoperatorio.

 

Pruebas Diagnósticas

El principio fundamental de las pruebas diagnósticas reside en la creencia que los individuos que tienen una enfermedad arrojan resultados distintos a aquellos que no la tienen. Para ser perfectas, los resultados de estas pruebas debieran tener un valor uniforme en todos los individuos con la enfermedad, otro valor uniforme diferente del anterior en los sanos, y que todos fueran consistentes en cada grupo. Sin embargo, para la mayoría de las pruebas ninguno de estos tres requisitos se cumple cabalmente, existiendo variaciones en torno a la prueba, en torno a los enfermos y en torno a los sanos. Ello hace que frecuentemente los valores de los dos grupos tengan un mayor o menor grado de traslape (Figura 1), determinando la discriminación diagnóstica de la prueba.


Variaciones de una prueba diagnóstica.

Variabilidad de la prueba: Una prueba perfecta debe ser reproducible y exacta. La reproducibilidad implica que debe tener iguales resultados cada vez que se repite bajo condiciones idénticas y se interpreta sin conocer el o los resultados previos. La reproducibilidad, que debe ser menor que la variabilidad biológica reflejada en el intervalo de normalidad, puede verse afectada por cambios en las condiciones del paciente y/o del laboratorio y por variaciones en la interpretación del observador u observadores.

La exactitud implica producir resultados cercanos a la verdadera medida del fenómeno que se quiere medir. Una adecuada reproducibilidad no garantiza exactitud pues puede existir un sesgo en una sola dirección.

Variabilidad en los sanos: La variabilidad en sanos se expresa con el intervalo de normalidad o rango normal del resultado, concepto estadístico esencial para la adecuada interpretación de cualquier test. Pretende medir y cuantificar el rango de resultados en sujetos considerados sanos. Es un parámetro descriptivo y no diagnóstico: estar fuera de los límites no equivale a estar enfermo y viceversa, estar dentro de los límites no equivale a estar sano (Figura 2).

Intervalo de normalidad de una prueba diagnóstica. Las flechas en A indican el grupo de sujetos supuestamente sanos que caen fuera del intervalo de normalidad. La flecha en B muestra el grupo de individuos enfermos que tienen resultados dentro del rango de normalidad.

Al evaluar por primera vez una variable a través de un test, los límites de lo que se va a considerar normal se establecen con los resultados en un elevado número de sujetos que se suponen libres de enfermedad. Hay varias limitantes en esta aproximación:

Como la mayoría de los resultados anormales no esperados se salen sólo leve o moderadamente del rango de normalidad surge un problema de interpretación. La explicación más común para un resultado inesperado es alguno de los factores mencionados arriba o bien una asociación desconocida entre el examen en cuestión y otra patología no relacionada.

Variabilidad en los enfermos. Puede responder a diferentes grados de la enfermedad o a una respuesta individual diferente. A pesar de esta variabilidad es necesario definir un grupo de sujetos que sin lugar a dudas tengan la enfermedad. Para cada enfermedad existe una prueba, criterio o procedimiento que se considera como el mejor existente para definir inequívocamente la presencia de enfermedad. Esta se denomina como prueba de oro o estándar de oro y puede ser la necropsia, biopsia, angiograma o cualquier otro test o conjunto de ellos. Este criterio es indispensable para evaluar la discriminación diagnóstica de una nueva prueba. Como la prueba de oro no necesariamente es perfecta, las conclusiones al evaluar un nuevo test siempre deben ser interpretadas tomando en cuenta el rendimiento de ésta.

La adherencia a estándares metodológicos rigurosos puede aumentar la calidad y utilidad de nuevos test diagnósticos. La Tabla 1 muestra algunos de estos criterios en forma de preguntas. Cada trabajo que evalúe la eficiencia diagnóstica de una nueva prueba o la aplicación de una antigua en un nuevo escenario debería responder estas interrogantes. Desafortunadamente, el cumplimiento de estos requisitos dista mucho de lo adecuado y muchos tests diagnósticos se diseminan sin una evaluación metodológica rigurosa por lo que su utilidad muchas veces termina siendo escasa. La situación no sólo aumenta los costos sino que puede introducir riesgos concretos (Tabla 1),

TABLA 1
Estándares Metodológicos Al Evaluar Una Prueba Diagnóstica

  1. ¿Se comparó el test con el verdadero estándar de oro?

  1. ¿Se incluyó un espectro apropiado de pacientes?

  1. ¿ Se excluyó los sesgos de verificación?

  1. ¿Se excluyó los sesgos de interpretación?

  1. ¿Se evaluó la reproducibilidad?

  1. ¿Se incluyó los límites de confianza para las características operativas del test?

  1. ¿Se puede dar un rango de normalidad?

  1. ¿Se puso el test en perspectiva con otras alternativas en el diagnóstico?

 

Características Operativas De Una Prueba

La valoración de la discriminación o eficiencia diagnóstica de una prueba diagnóstica se hace a través de lo que se denominan las características operativas de un test: sensibilidad, especificidad y valores predictivos. Requiere comprobar que la prueba es reproducible, que se defina qué se considera un resultado positivo y qué uno negativo, y también la identificación de un grupo de sujetos sanos y otro de enfermos diagnosticados con el estándar de oro.

En una tabla de dos por dos se tabulan los datos de los pacientes agrupándolos por la presencia o ausencia de enfermedad y según si la prueba dio un resultado positivo o uno negativo.

ENFERMEDAD

Presente

Ausente

Total

Prueba
Diagnóstica

Positiva

a

b

a+b

Negativa

c

d

c+d

Total

a+c

b+d

T

En a están los enfermos en los que la prueba arrojó un resultado positivo, los verdaderos positivos. En d se agrupan los resultados negativos en sujetos sin la enfermedad, los verdaderos negativos. En b, la prueba es positiva en sujetos sanos, los falsos positivos. Y en c, la prueba es negativa en casos con la enfermedad, los falsos negativos.

La sensibilidad mide la proporción de individuos que tienen la enfermedad, diagnosticada con el criterio de referencia, que son identificados correctamente como enfermos con la prueba estudiada. Es la capacidad del test de hacer el diagnóstico correcto en casos confirmados, la positividad en enfermedad. Se calcula como la razón entre los verdaderos positivos sobre el total de enfermos (verdaderos positivos más falsos negativos):

S = a/(a+c)

La especificidad mide la proporción de individuos que no tienen la enfermedad, según el criterio de referencia, y que son identificados correctamente como tales con la prueba en cuestión. Es la negatividad en salud. Se calcula como la razón entre los verdaderos negativos sobre el total de sujetos sanos o no confirmados (verdaderos negativos más falsos positivos):

E = d/(b+d)

A éstas características se pueden agregar la:

Tasa de falsos negativos = c/(a+c)
(total de falsos negativos sobre el total de enfermos)

y la

Tasa de falsos positivos = b/(b+d)
(total de falsos positivos sobre el total de sanos)

Por ejemplo: un test de esfuerzo en pacientes con y sin enfermedad coronaria, definida como tal si existe una obstrucción de >70% en una o más arterias coronarias en una angiografía. El test de esfuerzo a su vez se considera positivo si aparece un desnivel negativo del segmento ST> 1 mm horizontal o descendente de por lo menos 0,08 segundos de duración. En 1465 pacientes varones, 1023 tienen evidencias de enfermedad coronaria y 815 tienen un test de esfuerzo positivo. De los 442 sin enfermedad coronaria, el test de esfuerzo es positivo en 115. En estas circunstancias:

ENFERMEDAD CORONARIA

enfermo

sano

Total

Test De Esfuerzo

positivo

815

115

930

negativo

208

27

535

Total

1023

442

1465

S = 815/(815+208) = 80%
E = 327/(327+115) = 74%

La sensibilidad y la especificidad son teóricamente independientes de la prevalencia de la enfermedad que se estudia y permitirían comparar los resultados de diferentes pruebas en grupos con características similares. Sin embargo, es importante reconocer que estas características son muy dependientes del grupo de pacientes estudiados; por ejemplo, pueden ser diferentes en etapas tempranas de una enfermedad comparadas con etapas tardías.

Las características operativas también varían de acuerdo con los criterios usados para dividir los positivos de los negativos. Un criterio menos estricto aumenta la sensibilidad pero a expensas de una reducción en la especificidad y viceversa. Por ejemplo, si en el ejemplo anterior se usa un desnivel STChile00090002.gifChile00090005.gifde 2 mm como criterio de positividad ello resulta en una menor detección de enfermos (disminuye su sensibilidad) y en una menor cantidad de falsos positivos (aumenta su especificidad):

ENFERMEDAD CORONARIA

enfermo

sano

Total

Test De Esfuerzo

positivo

614

88

702

negativo

409

354

763

Total

1023

442

1465

S = 614/(614+409) = 60%
E = 354/(354+88) = 80%

La importancia relativa de estos factores depende de la razón por la cual se pide el test: para confirmar una enfermedad es preferible una elevada especificidad; en el screening o en la exclusión de una posibilidad diagnóstica, una elevada sensibilidad.

El conocimiento de las características de un test no permite, per se, determinar la presencia o ausencia de una enfermedad a menos que sea positivo en todos los casos con enfermedad (100% sensible) o siempre negativo cuando no existe la enfermedad (100% especifico). En caso contrario, el conocimiento de las características operativas del examen debe combinarse con la estimación clínica de la probabilidad de la enfermedad.

Podemos resumir que las características operativas de un test, su sensibilidad y especificidad, son independientes de la prevalencia de la enfermedad, pero son críticamente dependientes de los grupos de referencia. Indican la proporción en que se clasifica correctamente como sanos y como enfermos, pero no el número real de individuos clasificados correctamente.

Si los resultados de la evaluación de una nueva prueba diagnóstica son buenos pueden ser publicados con mayor facilidad que si son malos y además hay mayor probabilidad de que se use en clínica. Sin embargo, en la evaluación de la prueba los investigadores trabajan con pacientes cuya condición se sabe de antemano; en clínica se usan en pacientes cuya condición es desconocida y en los cuales el propósito del test es la de identificar o predecir cuál es la verdadera condición del paciente. Por lo tanto, el clínico necesita saber cuál es la capacidad predictiva del test y no su sensibilidad y especificidad pues éstas no entregan información sobre la probabilidad de tener la enfermedad si el resultado es positivo o negativo. En otras palabras, cuando el resultado es positivo cuál es la probabilidad de que el paciente esté realmente enfermo o bien si el resultado es negativo, cuál es la probabilidad de que el paciente en realidad esté sano. Es aparente entonces que son necesarios otros índices que nos digan cuan frecuentemente un resultado positivo y cuantas veces un resultado negativo resultaron ser correctos. Estos son los valores predictivos.

 

Valores Predictivos

Valor predictivo positivo (VPP): proporción en que se identifica correctamente a los enfermos en una situación clínica determinada.

VPP: a/a+b

Valor predictivo negativo (VPN): proporción en que se descarta la enfermedad en una situación clínica determinada.

VPN: d/c+d

Alternativamente se usa el índice de falsos positivos (1 -VPP) o el de falsos negativos (1 -VPN)

A diferencia de la sensibilidad y especificidad, los valores predictivos sí dependen de la probabilidad antes del test de tener la enfermedad. En pacientes asintomáticos ésta es igual a la prevalencia de la enfermedad y va aumentando al agregarse síntomas o signos sugerentes de la enfermedad. Por ejemplo, un paciente con dolor precordial a quien se le pide un test de esfuerzo. Con los valores del primer ejemplo, la sensibilidad es de 80% y la especificidad de 74% (tomando como positivo un desnivel del segmento ST Chile00090002.gif 1 mm horizontal o descendente de por lo menos 0,08 segundos de duración). La estimación de probabilidad pretest de que el paciente tenga efectivamente un dolor coronario es de alrededor de 50%. Para poder hacer los cálculos es necesario poner algunos números en la tabla y para simplificar se usa el número de pacientes y no los porcentajes. En mil pacientes habrían 500 con enfermedad coronaria y 500 sin ella. Como la sensibilidad es de 80%, el test de esfuerzo identificará correctamente a 450 de esos 500 con la enfermedad. Como la especificidad es de 74%, el test identificará correctamente a 370 de los sanos. Rellenando la tabla con los falsos positivos y negativos (130 y 100 respectivamente) se calcula que el VPP es de 75% (400/530): esto significa que un test positivo eleva la probabilidad del paciente de tener una enfermedad coronaria de 50% antes del test a 75% después del test. Por el otro lado, el VPN es de 79% (370/470) por lo que un resultado negativo baja la probabilidad de tener la enfermedad de 50 a 21 %, sin descartarla obviamente.

ENFERMEDAD CORONARIA

enfermo

sano

Total

Test De Esfuerzo

positivo

400

130

530

negativo

100

370

470

Total

500

500

1000

Las cifras cambian si la probabilidad pretest es diferente. Por ejemplo, un test de esfuerzo en una población en la cual se estima que la prevalencia de enfermedad coronaria es del 10%, por ejemplo, un sujeto asintomático mayor de 50 años. Usando las mismas cifras de sensibilidad y especificidad:

ENFERMEDAD CORONARIA

enfermo

sano

Total

Test De Esfuerzo

positivo

80

230

310

negativo

20

670

690

Total

100

900

1000

con un VPP 26% y un VPN de 97%. Esto significa que un resultado negativo mejora poco las probabilidades de excluir el diagnóstico, de 90% antes a 97% después. Un resultado positivo tampoco ayuda mucho pues, aunque sube la estimación de 10 a 25%, la mayoría de los resultados positivos son falsos positivos, los pacientes no tienen enfermedad coronaria (75%).

De lo anterior se desprende que se debe tener mucho cuidado en extrapolar los valores predictivos de un contexto clínico a otro. Por ejemplo, una prueba muy útil para diagnosticar una enfermedad en presencia de síntomas puede ser prácticamente inútil para el tamizaje en individuos asintomáticos.

La capacidad de predecir de una prueba depende entonces de la prevalencia, probabilidad a priori o probabilidad pretest de tener la enfermedad o condición que se investiga. Si ésta es elevada, los resultados mostrarían una preponderancia de verdaderos positivos y pocos falsos negativos. A la inversa, si es escasa, los verdaderos positivos serían pocos y aumentaría desproporcionadamente la cantidad de falsos positivos. De esta manera, manipulando la prevalencia, un investigador podría hacer que los resultados entreguen las cifras que quiera de exactitud positiva o negativa, sin importar en realidad cuál es la sensibilidad y la especificidad del test. Por ejemplo, un test no mejor que lanzar una moneda al aire, tiene una sensibilidad y especificidad de 50%. Si en la evaluación se eligen 100 enfermos y 10 sanos, el valor predictivo positivo del test es de 91% y un valor predictivo negativo sólo del 9%.

ENFERMEDAD CORONARIA

enfermo

sano

Total

Test De Esfuerzo

positivo

50

5

55

negativo

50

5

55

Total

100

10

110

VPP = 50/(50+5) = 91%
VPN = 5/(50+5) = 9%

Si se eligen los valores al revés, con 10 positivos y 100 controles, los resultados también se invierten, con un 9% de valor predictivo positivo y un 91% de valor predictivo negativo.

ENFERMEDAD CORONARIA

enfermo

sano

Total

Test De Esfuerzo

positivo

5

50

55

negativo

5

50

55

Total

10

100

110

VPP = 5/(50+5) = 9%
VPN = 50/(50+5) = 91%

Un test malo puede servir para confirmar un diagnóstico si la prevalencia de la condición es elevada. A la inversa, si las probabilidades pretest son bajas, un resultado negativo tiende a excluir la enfermedad, pero un resultado positivo no ayuda mucho en confirmarla. Intuitivamente, sin embargo, los médicos tienen mayor probabilidad en afirmar un diagnóstico cuando el resultado es impensadamente positivo que a rechazar un diagnóstico cuando el test confirmatorio es normal. De esta manera, cuando los resultados de un test no se usan cuantitativamente, el error que más comúnmente se hace es concluir que una enfermedad está presente cuando en realidad no lo está.

 

Otras Maneras De Mirar Las Pruebas Diagnósticas

Hay otras maneras de expresar los mismos conceptos. Sus resultados numéricos son iguales y la razón de incluirlos aquí es que cada vez aparecen con mayor frecuencia en la literatura.

Razón De Probabilidades (Likehood Ratios)

Expresa las posibilidades de que un resultado de la prueba ocurra en pacientes con o sin la enfermedad. Hay por lo tanto un LR para resultados positivos y uno para negativos. Por ejemplo:

LR+= sensibilidad/1 -especificidad
(Probabilidad positivo en enfermedad/probabilidad positivo en salud)

Se puede calcular la posibilidad postest de tener la enfermedad multiplicando la probabilidad pretest por el LRI. Alternativamente se puede usar el nomograma de Fagan.

 

Curvas ROC

Los procedimientos anteriores son directamente aplicables cuando el resultado del test es positivo o negativo. Sin embargo, para la mayoría de los test lo que existe es un resultado numérico continuo de manera que la elección del punto en que se separan los resultados positivos y negativos resulta crítico en el cálculo de la sensibilidad y especificidad, como vimos en el ejemplo del test de esfuerzo. Se puede construir un gráfico que correlaciona las tasas de verdaderos positivos y falsos positivos (sensibilidad versus 1 -especificidad) para una serie de puntos de corte de un test. Este gráfico se conoce como la "Receiver Operator Characteristic" de un test o curvas ROC (Figura 3). Pueden usarse para comparar dos tests o bien para determinar el mejor nivel de corte de un test dependiendo del propósito con que se pidió: su información diagnóstica, costos de salud y costos financieros.

Curvas ROC de dos exámenes usados para una misma enfermedad. Cada punto marcado por 0 o por x muestra las variaciones en sensibilidad y especificidad al tomar diferentes valores del test para separar los positivos de los negativos. Se puede apreciar que la prueba A tiene un mejor desempeño diagnóstico que la prueba B.

 

BIBLIOGRAFIA

  1. Fagan TJ. Nomogram for Bayes Theorem (Carta). N Engl J Med 1975; 293: 257.

  2. Feinstein AR. Clinical Biostatistics. St. Louis: Mosby, 1977.

  3. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982; 143:29-36.

  4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. JAMA 1995; 274: 645-651.

  5. Riegelman RK, Hirsch RP. Cómo estudiar un estudio y probar una prueba: lectura crítica de la literatura médica. 2ª edición. Washington D.C.: Organización Panamericana de la Salud, Publicación Científica N°531. 1992.