Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Assessing the quality of diagnostic studies being considered for inclusion is a vital part of the systematic review process. Methodological quality relates to the risk of bias resulting from the design and conduct of the study. The quality of a diagnostic study is determined by its design, the methods by which the study sample is recruited, the conduct of tests involved, blinding in the process of interpreting tests, and the completeness of the study report. The process of critical appraisal examines the methodology of a study against pre-defined criteria, with the aim of considering individual sources of risk of bias and is used to evaluate the extent to which the results of a study should be believed or to be deemed valid after rigorous assessment La evaluación de la calidad de los estudios de diagnóstico que se consideran para su inclusión es una parte vital del proceso de revisión sistemática. La calidad metodológica se refiere al riesgo de sesgo derivado del diseño y de la realización del estudio. La calidad de un estudio de diagnóstico viene determinada por su diseño, los métodos de reclutamiento de la muestra del estudio, la realización de las pruebas implicadas, el cegamiento en el proceso de interpretación de las pruebas y la exhaustividad del informe del estudio. El proceso de valoración crítica examina la metodología de un estudio en función de criterios predefinidos, con el objetivo de considerar las fuentes individuales de riesgo de sesgo, y se utiliza para evaluar hasta qué punto se debe creer en los resultados de un estudio o considerarlos válidos tras una evaluación rigurosa (Reitsma et al. 2009).

Table La Tabla 9.3 is modified and expanded from “Synthesizing se ha modificado y ampliado a partir de "Synthesizing evidence of diagnostic accuracy” accuracy" (White et al. 2011; Reitsma et al. 2009) and highlights the major types of bias that can occur in diagnostic accuracy studies as a result of flawed or incomplete reporting. Attempts such as those by the y destaca los principales tipos de sesgo que pueden producirse en los estudios de exactitud diagnóstica como resultado de una notificación defectuosa o incompleta. Se han realizado intentos, como los de la iniciativa Standards for Reporting of Diagnostic  Accuracy Accuracy (STARD) initiative (Bossuyt et al. 2003; Meyer et al. 2003), have been made to improve reporting, methodological quality and to aid primary researchers to address and avoid sources of bias.

Table 9.3: Types of bias in studies of diagnostic test accuracy

Type of bias

When does it occur?

Impact on accuracy

Preventative measures

Patients/Subjects

Spectrum bias

When included patients do not represent the intended spectrum of severity for the target condition or alternative conditions  

Depends on which end of the disease spectrum the included patients represent 

Ensure that the included patients represent a broad sample of those that the test is intended for use with in clinical practice

Selection bias

When eligible patients are not enrolled consecutively or randomly

Usually leads to overestimation of accuracy

Consider all eligible patients and enroll either consecutively or randomly

Index test

Information bias

When the index results are interpreted with knowledge of the reference test results, or with more (or less) information than in practice 

Usually leads to overestimation of accuracy, unless less clinical information is provided than in practice, which may result in an under estimation of accuracy

Index test results should be interpreted without knowledge of the reference test results, or with more (or less) information than in practice

Reference test

Misclassification bias

When the reference test does not correctly classify patients with the target condition 

Depends on whether both the reference and index test make the same mistakes

Ensure that the reference correctly classifies patients within the target condition

Partial verification bias

When a non-random set of patients does not undergo the reference test

Usually leads to overestimation of sensitivity, effect on specificity varies

Ensure that all patients undergo both the reference and index tests

Differential

verification bias

When a non-random set of patients is verified with a second or third reference test, especially when this selection depends on the index test result

Usually leads to overestimation of accuracy 

Ensure that all patients undergo both the reference and index tests

Incorporation bias

When the index test is incorporated in a (composite) reference test 

Usually leads to overestimation of accuracy 

Ensure that the reference and test are performed separately

Disease/Condition progression bias

When the patients’ condition changes between administering the index and reference test

Under- or Over-estimation of accuracy, depending on the change in the patients’ condition

Perform the reference and index with minimal delay. Ideally at the same time where practical

Information bias

When the reference test data is interpreted with the knowledge of the index test results

Usually leads to overestimation of accuracy 

Interpret the reference and index data independently

Data analysis

Excluded data

When uninterpretable or intermediate test results and withdrawals are not included in the analysis

Usually leads to overestimation of accuracy

Ensure that all patients who entered the study are accounted for and that all uninterpretable or intermediate test results are explained

The most widely used tool for examining diagnostic accuracy is the QUADAS 2 which was released in 2011 following the revision of the para mejorar la presentación de informes, la calidad metodológica y ayudar a los investigadores primarios a abordar y evitar las fuentes de sesgo.

Tabla 9.3: Tipos de sesgo en los estudios sobre la exactitud de las pruebas diagnósticas

 

Tipo de sesgo

¿Cuándo se produce?

Impacto en la exactitud

Medidas preventivas

Pacientes/Sujetos

Sesgo de espectro

Cuando los pacientes incluidos no representan el espectro de gravedad previsto para la enfermedad objetivo o las enfermedades alternativas

 

Depende del extremo del espectro de la enfermedad que representen los pacientes incluidos

Garantizar que los pacientes incluidos representan una amplia muestra de aquellos con los que se pretende utilizar la prueba en la práctica clínica

Sesgo de selección

Cuando los pacientes elegibles no se inscriben de forma consecutiva o aleatoria

Suele llevar a sobrestimar la exactitud

Considerar a todos los pacientes elegibles e inscribirlos de forma consecutiva o aleatoria

Prueba índice

Sesgo de información

Cuando los resultados de la prueba índice se interpretan con conocimiento de los resultados de la prueba de referencia, o con más (o menos) información que en la práctica

Suele dar lugar a una sobrestimación de la exactiutd, a menos que se proporcione menos información clínica que en la práctica, lo que puede dar lugar a una subestimación de la exactitud

Los resultados de las pruebas índice deben interpretarse sin conocer los resultados de las pruebas de referencia, o con más (o menos) información que en la práctica

Prueba de referencia

Sesgo de clasificación errónea

Cuando la prueba de referencia no clasifica correctamente a los pacientes con la enfermedad objetivo

Depende de si la prueba de referencia y la prueba índice cometen los mismos errores

Garantizar que la referencia clasifica correctamente a los pacientes dentro de la enfermedad objetivo

Sesgo de verificación parcial

Cuando un conjunto no aleatorio de pacientes no se somete a la prueba de referencia

Suele provocar una sobrestimación de la sensibilidad, el efecto sobre la especificidad varía

Garantizar que todos los pacientes se someten tanto a la prueba de referencia como a la prueba índice

 

Sesgo de verificación diferencial

Cuando se verifica un conjunto no aleatorio de pacientes con una segunda o tercera prueba de referencia, especialmente cuando esta selección depende del resultado de la prueba índice

Suele llevar a sobrestimar la exactitud

Garantizar que todos los pacientes se someten tanto a la prueba de referencia como a la prueba índice

 

Sesgo de incorporación

Cuando la prueba índice se incorpora a una prueba de referencia (compuesta)

Suele llevar a sobrestimar la exactitud

Garantizar que la prueba de referencia y la prueba índice se realizan por separado

 

Sesgo de progresión de la enfermedad/afección

Cuando el estado del paciente cambia entre la administración de la prueba índice y la de referencia

Subestimación o sobrestimación de la exactitud, en función del cambio en el estado de los pacientes

Realizar la prueba de referencia y la prueba índice con un desfase mínimo.

En la medida de lo posible, al mismo tiempo

 

Sesgo de información

Cuando los datos de la prueba de referencia se interpretan conociendo los resultados de la prueba índice

Suele llevar a sobrestimar la exactitud

Interpretar los datos de referencia e índice de forma independiente

Análisis de datos

Datos excluidos

Cuando no se incluyen en el análisis los resultados no interpretables o intermedios de las pruebas y las retiradas

Suele llevar a sobrestimar la exactitud

Garantizar que se contabilizan todos los pacientes que entraron en el estudio y que se explican todos los resultados no interpretables o intermedios de las pruebas

La herramienta más utilizada para analizar la exactitud diagnóstica es QUADAS 2, que se publicó en 2011 tras la revisión de la herramienta original QUADAS (Quality Assessment of Diagnostic Accuracy Studies) tool (Whiting et al. 2011).   JBI encourages  the use of QUADAS 2, and this chapter includes a checklist which incorporates the “signaling questions” from QUADAS 2 (Appendix I). It should be noted that QUADAS 2 includes questions regarding the level of concern that reviewers have for the applicability of the study under consideration to the research question. For JBI DTA systematic reviews, a primary research study should not proceed to critical appraisal if there is concern that the study does not match the inclusion criteria and research question. As such, this element of QUADAS2 is not addressed in the below checklist (DomainsEl JBI fomenta el uso de QUADAS 2, y este capítulo incluye una lista de verificación que incorpora las "preguntas de señalización" de QUADAS 2 (Anexo I). Cabe señalar que QUADAS 2 incluye preguntas relativas al nivel de preocupación de los revisores por la aplicabilidad del estudio considerado a la pregunta de investigación. Para las revisiones sistemáticas de la exactitud de pruebas diagnósticas (EPD) del JBI, un estudio de investigación primaria no debe proceder a la valoración crítica si existe la preocupación de que el estudio no se ajusta a los criterios de inclusión y a la pregunta de investigación. Como tal, este elemento de QUADAS 2 no se aborda en la siguiente lista de verificación (Dominios 1, 2, 3, 4).

Domain Dominio 1: Patient selection

In this section the risk of selection bias is assessed by how patients were selected for the study.

  • Was a consecutive or random sample of patients enrolled?

  • Was a case-control design avoided?

  • Did the study avoid inappropriate exclusions?

Domain 2: Index tests

In this section consideration is on whether the conduct and interpretation of the index test being investigated could have introduced bias.

  • Were the index test results interpreted without knowledge of the results of the reference standard?

  • If a threshold was used, was it pre-specified?

Domain 3: Reference standard/test

The focus of this section is to determine if and the extent that the way in which the reference test was conducted and interpreted could introduce bias into the study.

  • Is the reference standard likely to correctly classify the target condition?

  • Were the reference standard results interpreted without knowledge of the results of the index test?

Domain 4: Flow and timing

The aim of this section is to determine the risk of bias attributable to the order in which the index and reference tests were conducted in the study. If there is a long time delay between conduct of the two tests, the status of the patient may change and therefore impact the results of the later test. In addition, if the later test is conducted with knowledge of the results of the previous test, interpretation of the results may be impacted.

  • Was there an appropriate interval between the index test and reference standard?

  • Did all patients receive the same reference standard?

  • Were all patients included in the analysis?

The primary and secondary reviewer should discuss each item of appraisal for each study design included in their review. In particular, discussions should focus on what is considered acceptable for the review in terms of the specific study characteristics. The reviewers should be clear on what constitutes acceptable levels of information to allocate a positive appraisal compared with a negative, or a response of “unclear”.

This discussion should take place before independently conducting the appraisal. The weight placed on specific critical appraisal questions will vary between reviews and it is up to the reviewers to set what criteria will result in the inclusion/exclusion of a study. Many reviewers select a set of questions which must be answered “Yes” or the review will be excluded. It is important that these criteria be applied consistently across studies. Formerly, systematic review protocols published in JBI Evidence Synthesis appended the appraisal tool which would be used to their protocols. Instead Campbell et al. 2015 which describes the appraisal process and tool should be cited in the relevant section of the protocol methodSelección de pacientes

En esta sección se evalúa el riesgo de sesgo de selección en función de cómo se seleccionaron los pacientes para el estudio.

  • ¿Se incluyó una muestra consecutiva o aleatoria de pacientes?

  • ¿Se evitó un diseño de casos y controles?

  • ¿Evitó el estudio exclusiones inadecuadas?

Dominio 2: Pruebas índice

En esta sección se analiza si la realización e interpretación de la prueba índice investigada podría haber introducido sesgos.

  • ¿Se interpretaron los resultados de la prueba índice sin conocer los resultados del estándar de referencia?

  • Si se utilizó un umbral, ¿se especificó previamente?

Dominio 3: Estándar/prueba de referencia

El objetivo de esta sección es determinar si la forma en que se realizó e interpretó la prueba de referencia podría introducir sesgos en el estudio, y en qué medida.

  • ¿Es probable que el estándar de referencia clasifique correctamente la enfermedad objetivo?

  • ¿Se interpretaron los resultados del estándar de referencia sin conocer los resultados de la prueba índice?

Dominio 4: Flujo y tiempo

El objetivo de esta sección es determinar el riesgo de sesgo atribuible al orden en que se realizaron las pruebas índice y de referencia en el estudio. Si transcurre mucho tiempo entre la realización de las dos pruebas, el estado del paciente puede cambiar y, por tanto, influir en los resultados de la prueba posterior. Además, si la prueba posterior se realiza con conocimiento de los resultados de la prueba anterior, la interpretación de los resultados puede verse afectada.

  • ¿Hubo un intervalo adecuado entre la prueba índice y la prueba de referencia?

  • ¿Recibieron todos los pacientes la misma prueba de referencia?

  • ¿Se incluyó a todos los pacientes en el análisis?

El revisor principal y el secundario deben discutir cada punto de valoración para cada diseño de estudio incluido en su revisión. En particular, las discusiones deben centrarse en lo que se considera aceptable para la revisión en términos de las características específicas del estudio. Los revisores deben tener claro qué constituye niveles aceptables de información para asignar una valoración positiva en comparación con una negativa, o una respuesta de "poco claro".

Esta discusión debe tener lugar antes de realizar la valoración de forma independiente. El peso asignado a las preguntas específicas de la valoración crítica variará entre las revisiones y depende de los revisores establecer qué criterios darán lugar a la inclusión/exclusión de un estudio. Muchos revisores seleccionan una serie de preguntas que deben responderse "Sí" o la revisión será excluida. Es importante que estos criterios se apliquen de forma coherente en todos los estudios. Anteriormente, los protocolos de revisión sistemática publicados en la revista JBI Evidence Synthesis indicaban la herramienta de valoración que se utilizaría en sus protocolos. En su lugar, Campbell et al. 2015, que describe el proceso y la herramienta de valoración, debe citarse en la sección correspondiente del método del protocolo.