12.4 Glosario de términos
Término | Definición |
Área bajo la curva (AUC) | En un análisis de curva ROC (receiver operating characteristic), índice del rendimiento de una medida de diagnóstico o cribado en relación con la exactitud diagnóstica, resumido en un único valor que suele oscilar entre 0,50 (clasificación no mejor que aleatoria) y 1,0 (clasificación perfecta) (Polit y Yang, 2016); una medida de validez de criterio o capacidad de respuesta. |
Efecto techo | El efecto de tener puntuaciones restringidas en el extremo superior de un continuo de puntuación que limita la discriminación en el extremo superior de la medición, restringe la verdadera variabilidad y restringe la cantidad de cambio ascendente posible (Polit & Yang, 2016); una medida de validez de contenido. |
Clinimetría | El estudio de instrumentos en los que los ítems pueden ser mayores o menores; o estar presentes o ausentes (Gewitz et al., 2015). |
Índice de ajuste comparativo (CFI) | Estadístico utilizado para evaluar la bondad del ajuste de un modelo propuesto a los datos (por ejemplo, en un análisis factorial confirmatorio o un análisis de teoría de respuesta al ítem) que implica la comparación del modelo propuesto con un modelo nulo; un valor superior a 0,95 suele considerarse indicativo de un buen ajuste (Polit y Yang, 2016); una medida de validez de constructo. |
Validez de constructo | El grado en que la evidencia sobre las puntuaciones de una medida en relación con otras puntuaciones apoyan la inferencia de que un constructo se ha representado adecuadamente; el grado en que una medida capta el constructo focal (Polit y Yang, 2016). |
Validez de contenido | El grado en que un instrumento de múltiples ítems tiene un conjunto adecuado de ítems relevantes que reflejan el contenido completo del dominio del constructo que se mide (Polit y Yang, 2016); incorpora la validez aparente. |
Índice de validez de contenido (IVC) | Índice que resume el grado en que un panel de expertos está de acuerdo en la validez de contenido de un instrumento (es decir, la pertinencia, la exhaustividad y el equilibrio de los ítems que componen una escala) (Polit y Yang, 2016). Existen IVC a nivel de ítem y a nivel de escala. |
Validez de criterio | El grado en que las puntuaciones de una medida son un reflejo adecuado de (o predictor de) un criterio (es decir, medida "patrón oro") (Polit & Yang, 2016). |
Coeficientes alfa de Cronbach (Coeficiente alfa) | Índice de consistencia interna que indica el grado en que los ítems de una escala de múltiples ítems miden el mismo constructo subyacente (Polit y Yang, 2016); una medida de fiabilidad. |
Validez transcultural | Grado en que los ítems de una escala traducida o adaptada culturalmente funcionan de forma adecuada y equivalente, individualmente y en conjunto, en relación con su funcionamiento en el instrumento original; un aspecto de la validez de constructo (Polit y Yang, 2016). |
Funcionamiento diferencial del ítem (DIF) | El grado en que un ítem funciona de forma diferente para un grupo o cultura que para otro a pesar de que los grupos sean equivalentes con respecto al rasgo latente subyacente (Polit y Yang, 2016); una medida de validez transcultural. |
Validez aparente | El grado en que un instrumento parece medir el constructo objetivo (Polit y Yang, 2016). Un aspecto de la validez de contenido. |
Análisis factorial | Procedimiento estadístico para desentrañar interrelaciones complejas entre ítems e identificar los ítems que "van juntos" como una dimensión unificada; una medida de la validez de constructo (Polit y Yang, 2016). |
Efecto suelo | El efecto de tener puntuaciones restringidas en el extremo inferior de un continuo de puntuación que limita la capacidad de la medida para discriminar en el extremo inferior de la medición, restringe la verdadera variabilidad y limita la cantidad de cambio descendente posible (Polit y Yang, 2016); una medida de validez de contenido. |
Índice de bondad de ajuste (GFI) | Estadística utilizada para evaluar la bondad del ajuste de un modelo propuesto a los datos (por ejemplo, en el análisis factorial confirmatorio); un valor superior a 0,90 suele considerarse un ajuste adecuado (Polit y Yang, 2016); una medida de fiabilidad. |
Consistencia interna | Grado en que las subpartes de una escala compuesta (es decir, los ítems) están interrelacionadas y miden todas el mismo atributo o dimensión; una medida de fiabilidad (Polit y Yang, 2016). |
Fiabilidad entre evaluadores | Variación entre dos o más evaluadores que miden al mismo grupo de sujetos. |
Coeficientes de correlación intraclase (ICC) | Estima la proporción de la varianza total en un conjunto de puntuaciones que es atribuible a verdaderas diferencias entre las personas u objetos que se miden (por ejemplo, la fiabilidad test-retest); una medida de fiabilidad (Polit & Yang, 2016). |
Fiabilidad intraevaluador | La variación de los datos medidos por un único evaluador en dos o más ocasiones. |
Kappa | Índice estadístico de concordancia o coherencia corregida por azar entre dos mediciones nominales (u ordinales); a menudo se utiliza para evaluar la fiabilidad interevaluador o intraevaluador (Polit y Yang, 2016). |
Límites de acuerdo (LOA) | Una estimación del rango de diferencias en dos conjuntos de puntuaciones que podría considerarse error de medición aleatorio, normalmente con un 95 % de confianza; representado gráficamente en gráficos de Bland-Altman (Polit & Yang, 2016); una medida de fiabilidad. |
Error de medición | El error sistemático y aleatorio de la puntuación de una persona en una medida, que refleja factores distintos del constructo que se está midiendo y da lugar a una puntuación observada que es diferente de una puntuación hipotética verdadera; una propiedad de medición dentro del dominio de la fiabilidad (Polit y Yang, 2016). |
Propiedades de medición | Instrumentos que incorporan características psicométricas o clinimétricas. |
Índice de ajuste no normalizado (NNFI) | También conocido como índice de Tucker-Lewis (TLI). Ver más abajo. |
Psicometría | Estudio de instrumentos que constan de ítems de igual ponderación. |
Fiabilidad | El grado en que una medición está libre de error de medición; la medida en que las puntuaciones de las personas que no han cambiado son las mismas para mediciones repetidas; estadísticamente, la proporción de la varianza total en un conjunto de puntuaciones que es atribuible a las verdaderas diferencias entre los que están siendo medidos (Polit & Yang, 2016). |
Capacidad de respuesta | La capacidad de una medida para detectar cambios a lo largo del tiempo en un constructo que ha cambiado, proporcional a la cantidad de cambio que se ha producido (Polit y Yang, 2016). |
Error cuadrático medio de aproximación (RMSEA) | Índice utilizado para evaluar lo bien que un modelo hipotético se ajusta a los datos (por ejemplo, en el análisis factorial confirmatorio o en la modelización de la teoría de respuesta al ítem); un RMSEA inferior a 0,06 se considera un indicador de ajuste adecuado (Polit y Yang, 2016); una medida de la validez de constructo. |
Sensibilidad | Capacidad de un instrumento de cribado o diagnóstico para identificar correctamente un "caso" (es decir, para diagnosticar correctamente una afección) (Polit y Yang, 2016); una medida de la validez de criterio o la capacidad de respuesta. |
Cambio más pequeño detectable (SDC) | Índice que estima el umbral para un cambio "real" en las puntuaciones (es decir, un cambio que, con un 95 % de confianza, está más allá del error de medición); el SDC es una puntuación de cambio que queda fuera de los límites de acuerdo en un gráfico de Bland-Altman (Polit y Yang, 2016); una medida de fiabilidad. |
Especificidad | Capacidad de un instrumento de cribado o diagnóstico para identificar correctamente los no casos de una afección (Polit y Yang, 2016); una medida de validez de criterio o capacidad de respuesta. |
Error estándar de medición (EEM) | Índice que cuantifica la cantidad de error "típico" en una medida e indica la precisión de las puntuaciones individuales (Polit & Yang, 2016); una medida de fiabilidad. |
Residuo cuadrático medio normalizado (SRMR) | Índice utilizado para evaluar lo bien que un modelo hipotetizado se ajusta a los datos (por ejemplo, en un análisis factorial confirmatorio); un SRMR inferior a 0,08 se considera un indicador de ajuste adecuado (Polit & Yang, 2016); una medida de validez de constructo. |
Validez estructural | Medida en que un instrumento capta la dimensionalidad hipotetizada del constructo amplio; un aspecto de la validez de constructo (Polit & Yang, 2016). |
Fiabilidad test-retest | La variación en las mediciones utilizando un instrumento en el mismo sujeto bajo las mismas condiciones. |
Índice de Tucker-Lewis (TLI) | También conocido como índice de ajuste no normalizado (NNFI). Estadística utilizada para evaluar la bondad del ajuste de un modelo propuesto a los datos (por ejemplo, en el análisis factorial confirmatorio) que implica la comparación del modelo propuesto con un modelo nulo; un valor superior a 0,95 suele considerarse indicativo de un buen ajuste (Polit y Yang, 2016); una medida de la validez de constructo. |
Validez | En un contexto de medición, el grado en que un instrumento mide el constructo que pretende medir (Polit y Yang, 2016). |