Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

This section of the protocol details the basis on which studies will be considered for inclusion into the systematic review and should be as clear and unambiguous as possible. The mnemonic PICO is recommended for setting the inclusion criteria for systematic reviews of measurement properties:

...

Population

Important characteristics of the population should be detailed, including age and other qualifying criteria (e.g. disease status, occupation, etc.) that make them appropriate for the objectives of the systematic review and match the review question. The reasons for the inclusion or exclusion of participants should be explained in the introduction and be based on clear justifications. When assessing the measurement properties of instruments, the setting in which the instrument is used is often important. Hence, defining characteristics of the population for a review should also include details of the setting of interest, such as acute care, primary health care, or the community.

Instruments and Construct

The term ‘instrument’ refers to a specific named instrument, for example the Beck Depression Inventory, while the term ‘construct’ refers more broadly to what is being measured, in this case, depression. Reviewers may choose to nominate specific named instruments that they wish to assess. Alternatively, if reviewers wish to assess all or commonly used instruments measuring that construct they may specify the type(s) of instruments that are of interest for the review (e.g. patient-reported, clinician-reported, performance-based, etc.). For clarity, the construct of interest must always be included even if specific instruments of interest are named, as some instruments may measure more than the construct of interest.

The example titles presented above include three cases in which a construct is referred to i.e. “screening instruments for frailty”, “self-report instruments to identify anxiety”, and “instruments for measuring functional performance”. The fourth example is where a specific named instrument, the ‘Confusion Assessment Method’, is specified.

In principle, a modified measurement instrument should be treated as a new instrument. Studies utilizing a modified version of an instrument can be included in the review, although it is important to extract and report details of the modifications made.

Outcomes (measurement properties)

‘Outcomes’ for systematic reviews of measurement properties refer to the psychometric properties of the measurement instruments assessed in the review. Sufficient detail regarding the measurement properties of interest must be provided, with definitions. It may also be useful to provide examples of how the measurement properties of interest are commonly assessed and reported e.g. internal consistency (assessed by Cronbach’s alpha), criterion validity (assessed by area under the curve [AUC]). See section 12.4 Glossary of Terms for definitions of measurement properties.

This section should focus on describing the relevant measurement properties which are of interest to the systematic review. As a minimum, measures of reliability and validity should be included. Measures of reliability could include internal consistency and measurement error (Mokkink et al., 2018b). Measures of validity could include content validity, face validity, structural validity, hypothesis testing, cross-cultural validity, and criterion validity (Mokkink et al., 2018b). Measures of responsiveness may be included if the research question of the systematic review is concerned with detecting changes in the construct over time.  

Reliability measures are typically reported as either Cronbach’s alpha coefficients, intra-class correlation coefficients (ICC), weighted or un-weighted Kappa statistics, standard error of measurement (SEM), limits of agreement (LoA), smallest detectable change (SDC), concordance correlation coefficients, or goodness of fit statistics.

The statistics that are reported for validity measures depend on which measure of validity is being reported. Content validity is evaluated by relevant items for the construct (e.g. Content Validity Index (Lynn, 1986)), purpose, target population, the comprehensiveness of the instrument, and floor or ceiling effects (if available). Construct validity is evaluated by factor analysis and measures are comparative fit index (CFI), Tucker-Lewis index (TLI), root mean square error of approximation (RMSEA) and standardized root mean residuals (SRMR). The differential item functioning (DIF) could be reported for cross-cultural validity. Hypothesis testing measures are typically reported as either absolute or relative differences or correlations between two instruments or two groups of participants. Criterion validity measures are typically reported as either correlations, area under Receiver Operating Curves (ROC), or as sensitivity and specificity.

Responsiveness measures are typically reported as either absolute or relative correlations or differences of the change scores, area under the Receiver Operating Curve (ROC), or sensitivity and specificity.  

Types of studies

In this section, the types of studies which will be considered for inclusion in the review are described. Any quantitative study design may be eligible for inclusion in a systematic review of measurement properties, however it is suggested to prioritize studies that focus on the development and/or validation of measurement instruments. For example, it is recommended to exclude studies that only use the measurement instrument as an outcome measure. The reason for this is that identifying all studies that have simply used a particular instrument as an outcome measure would require an extended search strategy and significantly increase the work involved at the study selection/full-text screening stage. Furthermore, data on measurement properties in studies that only use the instrument as an outcome measure are likely to be of limited value to the systematic review.

...

Esta sección del protocolo detalla la base sobre la que se considerarán los estudios para su inclusión en la revisión sistemática y debe ser lo más clara e inequívoca posible. Se recomienda utilizar la nemotecnia PICO para establecer los criterios de inclusión de las revisiones sistemáticas de las propiedades de medición:

image-20240213-052853.pngImage Added

Población

Deben detallarse las características importantes de la población, incluida la edad y otros criterios de calificación (por ejemplo, estado de enfermedad, ocupación, etc.) que las hagan apropiadas para los objetivos de la revisión sistemática y coincidan con la pregunta de la revisión. Las razones para la inclusión o exclusión de participantes deben explicarse en la introducción y basarse en justificaciones claras. Al evaluar las propiedades de medición de los instrumentos, a menudo es importante el contexto en el que se utiliza el instrumento. Por lo tanto, la definición de las características de la población para una revisión también debe incluir detalles del entorno de interés, como los cuidados intensivos, la atención primaria de salud o la comunidad.

Instrumentos y constructo

El término "instrumento" se refiere a un instrumento específico, por ejemplo, el Inventario de Depresión de Beck, mientras que el término "constructo" se refiere más ampliamente a lo que se está midiendo, en este caso, la depresión. Los revisores pueden optar por designar instrumentos específicos que deseen evaluar.

Alternativamente, si los revisores desean evaluar todos los instrumentos o los instrumentos comúnmente utilizados que miden ese constructo, pueden especificar el tipo o tipos de instrumentos que son de interés para la revisión (por ejemplo, informados por el paciente, informados por el clínico, basados en el rendimiento, etc.). Para mayor claridad, el constructo de interés debe incluirse siempre, incluso si se nombran instrumentos específicos de interés, ya que algunos instrumentos pueden medir más que el constructo de interés.

Los títulos de ejemplo presentados anteriormente incluyen tres casos en los que se hace referencia a un constructo, es decir, "instrumentos de cribado para la fragilidad", "instrumentos de autoinforme para identificar la ansiedad" e "instrumentos para medir el rendimiento funcional". El cuarto ejemplo se refiere a un instrumento específico, el "Método de evaluación de la confusión".

En principio, un instrumento de medición modificado debe tratarse como un instrumento nuevo. Los estudios que utilizan una versión modificada de un instrumento pueden incluirse en la revisión, aunque es importante extraer e informar los detalles de las modificaciones realizadas.

Resultados (propiedades de medición)

Los "resultados" de las revisiones sistemáticas de las propiedades de medición se refieren a las propiedades psicométricas de los instrumentos de medición evaluados en la revisión. Deben proporcionarse detalles suficientes sobre las propiedades de medición de interés, con definiciones. También puede ser útil proporcionar ejemplos de cómo se evalúan e informan habitualmente las propiedades de medición de interés, por ejemplo, consistencia interna (evaluada por el alfa de Cronbach), validez de criterio (evaluada por el área bajo la curva [AUC]). Ver las definiciones de las propiedades de medición en el apartado 12.4 Glosario de términos.

Esta sección debe centrarse en la descripción de las propiedades de medición relevantes que son de interés para la revisión sistemática. Como mínimo, deben incluirse medidas de fiabilidad y validez. Las medidas de fiabilidad podrían incluir la consistencia interna y el error de medición (Mokkink et al., 2018b). Las medidas de validez podrían incluir validez de contenido, validez aparente, validez estructural, comprobación de hipótesis, validez transcultural y validez de criterio (Mokkink et al., 2018b). Las medidas de capacidad de respuesta pueden incluirse si la pregunta de investigación de la revisión sistemática se ocupa de detectar cambios en el constructo a lo largo del tiempo.

Las medidas de fiabilidad suelen presentarse como coeficientes alfa de Cronbach, coeficientes de correlación intraclase (CCI), estadísticas Kappa ponderadas o no ponderadas, error estándar de medición (EEM), límites de acuerdo (LoA), cambio detectable más pequeño (SDC), coeficientes de correlación de concordancia o estadísticas de bondad de ajuste.

Las estadísticas que se presentan para las medidas de validez dependen de la medida de validez de la que se informe. La validez de contenido se evalúa mediante ítems relevantes para el constructo (por ejemplo, el Índice de Validez de Contenido (Lynn, 1986)), el propósito, la población objetivo, la exhaustividad del instrumento y los efectos suelo o techo (si existen). La validez de constructo se evalúa mediante análisis factorial y las medidas son el índice de ajuste comparativo (CFI), el índice de Tucker-Lewis (TLI), el error cuadrático medio de aproximación (RMSEA) y los residuos medios de raíz estandarizados (SRMR). El funcionamiento diferencial de los ítems (DIF) podría informarse para la validez transcultural. Las medidas de comprobación de hipótesis suelen presentarse como diferencias o correlaciones absolutas o relativas entre dos instrumentos o dos grupos de participantes. Las medidas de validez de criterio suelen presentarse como correlaciones, área bajo las curvas operativas del receptor (ROC) o como sensibilidad y especificidad.

Las medidas de la capacidad de respuesta se presentan normalmente como correlaciones o diferencias absolutas o relativas de las puntuaciones de cambio, área bajo la curva operativa del receptor (ROC) o sensibilidad y especificidad.

Tipos de estudios

En esta sección se describen los tipos de estudios que se tendrán en cuenta para su inclusión en la revisión. Cualquier diseño de estudio cuantitativo puede ser elegible para su inclusión en una revisión sistemática de propiedades de medición, sin embargo, se sugiere dar prioridad a los estudios que se centran en el desarrollo y/o validación de instrumentos de medición. Por ejemplo, se recomienda excluir los estudios que solo utilizan el instrumento de medición como medida de resultado. La razón de ello es que identificar todos los estudios que simplemente han utilizado un instrumento concreto como medida de resultado requeriría una estrategia de búsqueda ampliada y aumentaría significativamente el trabajo necesario en la fase de selección de estudios/cribado de texto completo. Además, es probable que los datos sobre las propiedades de medición de los estudios que solo utilizan el instrumento como medida de resultado tengan un valor limitado para la revisión sistemática.

Se recomienda excluir los estudios que dupliquen los datos de validación de un instrumento en un estudio anterior, es decir, que no presenten nuevos datos sobre las propiedades de medición.