Revista nº 793

130

Francisco Javier Moreno Rodríguez

Los outliers en los grupos diagnósticos relacionados

DISCUSIÓN

Es clásica la definición de outlier de Hawkins, calificada por

él mismo de intuitiva. A la pregunta sobre qué es un outlier, Haw-

kins responde que “sería una observación que se desvía tanto de

otras observaciones como para despertar sospechas de que fue

generada por un mecanismo diferente” (12). Los métodos esta-

dísticos paramétricos de detección de outliers parten del supues-

to de una distribución de los datos conocida, que generalmente

es una distribución Normal, y se basan en estimaciones estadísti-

cas de los parámetros de la distribución. En general, la media y la

varianza de la muestra dan una buena estimación de la distribu-

ción de los datos. Pero cuando la base de datos está contaminada

por outliers, esos estimadores pueden desviarse, pues son alta-

mente sensibles a los valores extremos. Se dice entonces que son

estimadores poco robustos (13). Tukey abordó en 1977 el proble-

ma de los estimadores robustos e introdujo el diagrama de caja

(boxplot) en el análisis exploratorio de datos (14). El diagrama de

caja es una representación gráfica basada en la distribución de los

cuartiles, en la que los valores atípicos aparecen remarcados. Los

cuartiles primero (Q1) o percentil 25 y tercero (Q3) o percentil 75

se utilizan para obtener una medida robusta de variabilidad, el

rango intercuartílico (Q3 – Q1), que puede sustituir a la desvia-

ción típica (DT), mientras que el cuartil segundo o mediana se usa

como una medida robusta de centralización, en lugar de la media.

El gráfico de caja y bigotes proporciona una representación de la

distribución de la variable en la que los límites inferior y superior

de la caja corresponden a los cuartiles primero y tercero, respec-

tivamente, coincidiendo por tanto la altura de la caja con el rango

intercuartílico. La línea horizontal dentro de la caja corresponde

a la mediana y los bigotes inferior y superior al mínimo y máximo

valor tales que su distancia a los límites inferior y superior de la

caja sea igual a 1,5 (Q3 – Q1). Los puntos de corte son entonces

Q1 – 1,5 (Q3 – Q1) y Q3 + 1,5 (Q3 – Q1), más allá de los cuales las

observaciones serán consideradas valores atípicos. El coeficiente

1,5 se elige por las características propias de la distribución Nor-

mal, ya que para una gran muestra de una población con este

tipo de distribución los puntos de corte deben estar cercanos a

la media ± 2,67 DT y sólo alrededor del 0,8% de los datos serán

observaciones atípicas (14,15).

La metodología descriptiva de los datos propuesta por

Tukey mediante el diagrama de caja es adoptada por M. Casas

en 1991 para la detección y eliminación de las altas con valores

atípicos de estancia hospitalaria en el sistema de clasificación

de pacientes de los GRD. Casas afirma que “un GRD puede con-

tener algunas observaciones con valores muy prolongados de

estancia. Estas observaciones tienen la capacidad de alterar los

estadísticos del conjunto de los datos, en especial la media arit-

mética – la estancia media – y las medidas de dispersión. Por

consiguiente, respecto a estas observaciones es de interés su

detección y exclusión, para la caracterización sin distorsiones de

los estadísticos del conjunto restante” (2). Y señala, sin citar la

referencia del diagrama de caja de Tukey como fundamento ori-

ginario de su método, que “la detección y posterior exclusión se

realiza mediante el procedimiento de ‘trimming’ (depuración),

que determina los puntos de corte fuera de los cuales los ca-

sos se consideran observaciones atípicas” (2). Pero el objetivo

de Tukey era identificar las observaciones que se encuentran

en la llamada “zona outlier” o región de valor atípico y no su

eliminación, que de ningún modo puede hacerse integralmen-

te para todos los datos atípicos mediante la depuración masiva

propuesta por Casas, pues es preceptivo para ello un procedi-

miento específico que sucesivamente someta a cada una de

las observaciones atípicas a una prueba de hipótesis para ser

considerada outlier, empezando por la observación que más

diste de la media (12,14,16,17). En el proceso de depuración

de cada GRD, Casas utiliza solamente el punto de corte supe-

rior del diagrama de caja Q3 + 1,5 (Q3 – Q1), indicando que

“todas las observaciones cuya estancia supera el valor de corte

se consideran observaciones extremas atípicas (outliers) y son

excluidas para el cálculo de estadísticos sobre las observaciones

restantes (estadísticos depurados)” (2). Sin embargo, la mera

aplicación de un solo punto de corte unilateral supone implíci-

tamente la aceptación de la asimetría de la distribución de las

estancias hospitalarias, lo cual es contradictorio con la hipótesis

de Normalidad en que se basan la detección y eliminación de los

outliers (12,14,17).

El método de Casas ha sido admitido en España de forma

acrítica por todo tipo de organismos oficiales, autonómicos y na-

cionales, incluido el Ministerio de Sanidad. En las dos ediciones

de los indicadores clave del SNS se asume el criterio de excluir

los llamados casos extremos en el cálculo de los indicadores de

casuística y funcionamiento hospitalarios. Aunque, bien es ver-

dad, con una nota oficial complementaria: la de añadir al punto

de corte superior, establecido para la detección y eliminación

de los valores atípicos superiores, un punto de corte inferior

opuesto, para la detección y eliminación asimismo de los valo-

res atípicos inferiores (6,7). Esta aportación ministerial es lógica

y pretende dotar de coherencia interna al sistema de detección

y eliminación de los casos extremos, si bien la prueba informal

de Normalidad que habitualmente supone la aplicación bilateral

de los puntos de corte del diagrama de caja viene a mostrar de

modo fehaciente la asimetría de la distribución de las estancias

hospitalarias, ya que regularmente el 99,9% de los casos extre-

mos son valores superiores. Es ilustrativo a este respecto que en

la norma estatal del año 2009 los puntos de corte inferiores, ob-

tenidos mediante la fórmula Q1 - 1,5 (Q3 – Q1), señalan valores

positivos de estancia solamente en 13 de los 676 GRD (10). Las

fórmulas de los puntos de corte están basadas en el supuesto de

una distribución Normal de los datos. Pero esta premisa no se

cumple en el caso de las estancias hospitalarias, ya que la curva

de su distribución es asimétrica, con una cola hacia la derecha

más prolongada. Ello se debe a que el límite inferior de la es-

tancia es un día - aunque se incluyen en el CMBD determinadas

altas con estancia de cero días (18) – no habiendo, en cambio,

límite superior para la duración de la misma, que puede exten-

derse de forma ilimitada, con el consiguiente sesgo positivo de

sus valores (19). Si la distribución de las estancias hospitalarias

fuera Normal, la exclusión de los casos extremos no supondría

una variación sustancial en la estimación puntual de la EM, de-

bido a la simetría que caracteriza a ese tipo de distribución. Pero

el sesgo positivo de los datos convierte a los casos extremos

superiores, de modo sistemático, en valores influyentes sobre

un estimador tan poco robusto como la media, a la que una

sola observación puede hacer variar considerablemente (20).

Por ello, el efecto de la eliminación de los casos extremos, que

representan más de un 5% de las altas hospitalarias del CMBD,

es una gran disminución de la varianza de las estancias y una

importante subestimación de la media.

Gráfico 2. Diagrama de caja del GRD 1: Craneotomía edad >17 con

complicaciones. CMBD 2009