Artículos

REDUCCIÓN DE LA VARIABILIDAD INTEROBSERVADOR EN LA EVALUACIÓN EMBRIONARIA TRAS SESIÓN DE CONSENSO ENTRE EXPERTOS

Descarga la revista en PDF

Rafael Ruiz de Assín (1), Maria del Carmen Gonzalvo (1), Ana Clavero (1), Sandra Zamora (1), Ana Fernández (1), María Roldán (1), Belén Rabelo (1), Juan Pablo Ramírez (2)(3), Juan Manuel Moreno (4), José Antonio Castilla (1)(2)(3). (1) Unidad de Reproducción Humana, Hospital Universitario “Virgen de las Nieves”, Granada. (2) Banco de Semen CEIFER, Granada. (3) Programa de Control de Calidad Externo para el Laboratorio de Reproducción de la Asociación para el Estudio de la Biología de la Reproducción (ASEBIR), Madrid. (4) Unidad de Reproducción, Clínica Vistahermosa, Alicante.

josea.castilla.sspa@juntadeandalucia

Publicado en la revista 13 de diciembre de 2008.

Resumen: La variabilidad interobservador es muy importante cuando pretendemos hablar de calidad embrionaria, diversos autores han demostrado que existen diferencias entre distintos laboratorios al evaluar videos de embriones, la participación en programas de control de calidad externo puede disminuir estas diferencias. Por otro lado se presenta la necesidad de que las imágenes enviadas sean evaluadas por un consenso de expertos para compararlo con los resultados de los laboratorios.

El objetivo de este estudio es ver si tras una sesión de consenso aumenta el acuerdo entre expertos en la evaluación de embriones.

Para ello empleamos imágenes de embriones en Día 2 y Día 3, que son evaluadas por un grupo de cinco expertos, antes y después de una sesión de consenso. Nuestros resultados demuestran que las sesiones de consenso entre expertos son útiles para disminuir la variabilidad entre observadores en la clasificación embrionaria y decisión clínica, y que podrían ser utilizadas para asignar valores de referencia a las imágenes de embriones que se envían en programas de control de calidad externa de evaluación embrionaria.

 

Palabras clave: Evaluación embrionaria, sesión de consenso, fecundación in vitro.

 

REDUCTION OF THE INTER-OBSERVER VARIABILITY IN THE EMBRYO EVALUATION AFTER CONSENSUS SESSION AMONG EXPERTS

 

Summary: The inter-observer variability is very important when we talk about embryo quality, various authors have demonstrated that a difference exists between distinct laboratories upon evaluation of the embryonic videos; participation in quality control programs can reduce these differences. On the other hand the need arises to send the images to a consensus of experts to be evaluated to compare laboratory results.

The objective of the study is to see if a consensus meeting will increase agreement between experts of embryo evaluation.

To facilitate this we use images of embryos in the 2nd and 3rd day, which are evaluated by a group of 5 experts, before and after a consensus session. Our results demonstrate that the consensus sessions of experts are useful to diminish the variability between embryo classification and clinical decision. Also, could be utilized to assign values of reference to the embryonic images that are sent to an external quality control program of embryo evaluation.

 

Key words: Embryo evaluation, session of consensus, in vitro fertilization.

INTRODUCCIÓN

La capacidad de implantación de un embrión, y por tanto, la consecución de un embarazo está relacionada con diversos factores, entre otros la calidad embrionaria (Sharpe-Timms et al., 2000; Fisch et al., 2001; De Placido et al., 2002; Holte et al., 2007), por lo que la valoración de ésta es una parte clave en los tratamientos de FIV/ICSI. Entre los factores que pueden afectar la valoración de la calidad embrionaria, se encuentran los diferentes sistemas de clasificación de embriones y las diferencias intra e interobservador (Keck et al., 2004; Arce et al., 2006; Baxter et al., 2006).

La variabilidad interobservador es la variación a la hora de asignar un grado a un mismo embrión cuando es evaluado por varios embriólogos, la variabilidad intraobservador es la variación al establecer el grado de un embrión cuando es evaluado por un mismo embriólogo en más de una ocasión. El problema de la variabilidad inter e intraobservador ha sido descrito ya en muchas disciplinas (Miglior et al., 2004; Al-Aynati et al., 2003). En el contexto de la reproducción ha sido descrito ampliamente por diferentes investigadores, en lo que al análisis de semen se refiere (Álvarez et al., 2005), y diversos estudios han demostrado cómo tras sesiones de entrenamiento se pueden disminuir mucho estas diferencias (Björndahl et al., 2002; Franken and Kruger, 2006). En cuanto a la evaluación embrionaria se ha observado una importante variabilidad entre observadores, tanto a la hora de clasificar un embrión (Arce et al. 2006; Baxter et al. 2006) como de decidir que hacer con él (Matson, 1998); pero no tanto dentro de un mismo observador, la cual es relativamente baja (Arce et al. 2006; Baxter et al. 2006). Varios autores han acentuado la importancia del correcto entrenamiento de los miembros del equipo para disminuir las diferencias dentro de un mismo laboratorio (Keck et al., 2004).

La participación en programas de control de calidad externo para la evaluación embrionaria es recomendado por diversas sociedades científicas (The Practice Committee of the ASRM and the Practice Committee of the SART, 2006; Magli et al., 2008; ASEBIR, 2008); habiéndose demostrado que la incorporación de los centros en este tipo de programas disminuye las diferencias entre laboratorios (Castilla et al., 2003; Hurtado de Mendoza et al., 2008).

La falta general de la estandardización de criterios de evaluación es otro de los grandes problemas con los que se enfrenta un embriólogo a la hora de decidir si un embrión es de buena o mala calidad. Diferentes autores defienden el sistema de scoring (Desai et al., 2000; Sharpe-Timms et al., 2000; Fisch et al., 2001; De Placido et al., 2002; Holte et al., 2007), mientras que otros prefieren clasificarlos en categorías (Sharpe- Timms et al., 2000, Baxter et al., 2006). Estas discrepancias hacen que sea controvertido establecer valores de referencia en los programas de control de calidad externo de evaluación embrionaria que utilizan imágenes de embriones.

El objetivo de este estudio fue investigar el efecto de una reunión de consenso entre expertos en las diferencias interobservador para la clasificación de embriones y la posible utilidad de estas reuniones en programas de control de calidad externo de evaluación embrionaria.

MATERIAL Y MÉTODOS

Para esta experiencia se utilizaron 140 videos de embriones en diferentes estadios (cigotos, embriones en Día 2 y embriones en Día 3) divididas en 28 bloques de 5 vídeos cada uno.

Los cinco miembros participantes fueron escogidos debido a su calidad de expertos en el ámbito de la embriología humana en España, y son miembros del grupo de trabajo de calidad embrionaria de la Asociación para el Estudio de la Biología de la Reproducción (ASEBIR). Estos cinco expertos fueron reunidos en Madrid en el Hospital Gregorio Marañón, y esta reunión se dividió en tres partes.

En primer lugar se les realizó un test presesión en el que tenían que evaluar cinco bloques con cinco videos de embriones cada uno en diferentes estadios de división, en el primer bloque se incluían cinco vídeos de cigotos, el segundo y tercer bloque se componía de cinco vídeos cada uno con embriones en Día 2, y el cuarto y quinto bloque se correspondía con cinco vídeos cada uno con embriones en Día 3. De cada uno de los bloques debían decidir de manera individual cuál era la calidad de cada uno de los embriones (Buena, Regular, Mala) y que decisión clínica tomar con esos embriones, suponiendo que cada bloque perteneciera a una punción diferente y que las parejas quisieran que se mantuviesen tan solo dos cigotos en cultivo (en el caso de los cigotos) y que se transfirieran dos embriones (en el caso de los embriones en Día 2 y 3), con el resto de cigotos y embriones en Día 2 y 3 se debería decidir si congelarlos o desecharlos.

La segunda parte de la reunión consistió en una sesión de consenso, en la que en primer lugar se mostraron los resultados obtenidos durante el test pre-sesión, así como los vídeos, que fueron discutidos por los cinco expertos. Tras esto se incluyó la evaluación de 19 bloques de 5 embriones cada uno, sumando un total de 95 embriones. Estos 95 embriones fueron evaluados de manera consensuada, discutiendo uno por uno sobre su calidad y de cada uno de los 19 bloques, decidir qué dos embriones mantener en cultivo (en el caso de los cigotos) o transferir (en el caso de los embriones en Día 2 y 3), y de los otros 3 embriones del bloque decidir cuáles se congelarían y cuáles se desecharían. Durante esta fase de la reunión, los
expertos pudieron consultar las recomendaciones del II Cuaderno de Embriología Clínica de ASEBIR (ASEBIR, 2008).

Por último, la tercera parte de la reunión consistió en un test post-sesión, en el que se evaluaron 4 bloques de cinco embriones cada uno (dos bloques de embriones en Día 2 y dos bloques de embriones en Día 3). Los vídeos de estos 20 embriones no fueron mostrados durante el test pre-sesión ni durante la sesión de consenso para que no se viera afectada tanto la clasificación como la decisión clínica tomada sobre los mismos.

En los resultados fueron evaluadas de manera separada la clasificación y la decisión clínica de cada uno de los embriones.

Fue considerado que había acuerdo sobre un embrión en su clasificación o decisión clínica cuando los cinco miembros participantes realizaban la misma elección, y fue considerado como desacuerdo cuando al menos uno de los participantes discrepaba del resto.

Para la comparación de las diferentes variables analizadas se utilizó el test de 2 con una significación del 5%.

RESULTADOS

De los 20 embriones evaluados durante el post-training test hubo uno (en Día 3) que no se pudo evaluar debido a la mala calidad del vídeo mostrado, por lo que lo excluimos de los resultados.

CLASIFICACIÓN EMBRIONARIA

En la Tabla I se observan los resultados de la clasificación embrionaria del test pre-sesión comparada con los resultados de la clasificación del test postconsenso, observando diferencias significativas (p<0.05) en el porcentaje de embriones en los que se obtenían acuerdo antes y después de la sesión de consenso (36.0% vs. 73.7%).

En el test pre-sesión se alcanzó acuerdo en 9/25 (36.0%) embriones, de los cuales 2/5 (40.0%) fue en estadio de cigoto, 4/10 (40.0%) fue en embriones en Día 2, y 3/10 (30.0%) fue en embriones de Día 3. De los 9 vídeos en los que se alcanzó acuerdo, 3 fueron clasificados como Buenos, 3 como Regular y 3 como Malos.

En el test post-sesión se observó acuerdo en 14/19 (73.7%), de los cuales 6/10 (60.0%) fue en embriones de Día 2, y 8/9 (88.9%) fue en embriones de Día 3. De los 14 vídeos en los que se alcanzó acuerdo, 8 fueron clasificados como Buenos, 5 como Regular y 1 como Malo.

Tabla I: Porcentaje de embriones sobre los que existió acuerdo entre los embriólogos expertos antes y después de la sesión de consenso

Revista dic2008 Art. 10-13 Tabla I

DECISIÓN CLÍNICA

En la Tabla I se observan los resultados de la decisión clínica del test pre-sesión comparada con los resultados de la clasificación del test post-sesión, observando diferencias significativas (p<0.005) en el acuerdo antes y después de la sesión de consenso (36.0% vs. 84.2%).

En el test pre-consenso se alcanzó acuerdo en 9/25 (36.0%) embriones, de los cuales 3/5 (60.0%) fue en estadio de cigoto, 4/10 (40.0%) fue en embriones en Día 2, y 2/10 (20.0%) fue en embriones de Día 3.

En el test post-sesión se observó acuerdo en 16/19 (84.2%), de los de Día 2, y 9/9 (100%) fue en embriones de Día 3.

DISCUSIÓN

De estos resultados se deriva que tras una sesión de consenso y puesta en común, se produce un aumento significativo del acuerdo entre expertos, tanto en la clasificación como en la decisión clínica tomada, al observar vídeos de embriones en diferentes estadios. Resultados similares se han observado en la evaluación de semen (Björndahl et al., 2002; Franken and Kruger, 2006).

Aunque no se alcanzan diferencias significativas, es de destacar que el grado de acuerdo se incrementó más en embriones de Día 3 que de Día 2, tanto en clasificación embrionaria como en decisión clínica. Esto nos sugiere que los embriólogos pueden asimilar más fácilmente las modificaciones de criterios de Día 3 que Día 2, manteniéndose más firmes en sus criterios de Día 2. Dado que Arce et al. (2006) observan mayor variabilidad interobservador en la evaluación en Día 3 que en Día 2, consideramos este hallazgo significativo, pues supone que las reuniones de consenso tienen más efecto sobre el día en que más variabilidad interobservador se ha descrito.

Se observa un mayor aumento del acuerdo en la decisión clínica (de 36.0% a 84.2%) que en la evaluación embrionaria (de 36.0% a 73.7%), lo cual creemos de mucha utilidad, pues es la decisión clínica la que realmente afectará al resultado de la técnica.

Está claro que este estudio presenta una serie de limitaciones como la utilización de un vídeo, que cuenta con un tiempo limitado de grabación y los embriones no fueron rodados para observarlos desde diferentes ángulos, presentando un ambiente artificial en el que el embriólogo no tiene el control. Sin embargo Arce et al. (2006) han demostrado la validez de un sistema de imagen digital similar al nuestro para la comparación entre embriólogos. Tampoco sabemos si este aumento en el acuerdo entre los cinco expertos tras sesión de consenso se mantendrá en el tiempo o cada cuánto tiempo habría que realizar nuevas sesiones de consenso para disminuir las diferencias entre embriólogos a la hora de evaluar un embrión. Por otro lado este estudio se ha realizado con expertos, y desconocemos si estos resultados podrían ser extrapolados a grupos de embriólogos que no posean este nivel de experiencia. Estudios previos de nuestro grupo (Castilla et al., 2003; Hurtado de Mendoza et al., 2008), demuestran que en programas de control de calidad externa donde participan laboratorios con diferentes niveles de actividad, existe una tendencia al aumento en el grado de acuerdo entre laboratorios, cuando se participa en programas de control de calidad externo en los que se incluye evaluación de embriones mediante vídeos.

Nuestros resultados demuestran que las sesiones de consenso entre expertos son útiles para disminuir la variabilidad entre observadores en la clasificación embrionaria y decisión clínica, y que podrían ser utilizadas para asignar valores de referencia a las imágenes de embriones que se envían en programas de control de calidad externa de evaluación embrionaria.

AGRADECIMIENTOS

Los autores de este trabajo agradecen a los miembros del grupo de trabajo de calidad embrionaria de la Asociación para el Estudio de la Biología de la Reproducción (ASEBIR): Manuel Ardoy (U Reproducción, Hospital Gregorio Marañón, Madrid), Jorge Cuadros (FIV Madrid, Madrid), María José Torelló (Clínica Quirón, Barcelona), Gema Arroyo (IU Dexeus, Barcelona) y Luz Rodríguez (Fundación Jiménez Díaz, Madrid) la confianza depositada en los autores y su colaboración en este trabajo, sin la cual no hubiera sido posible su realización.

Referencias

Al-Aynati M, Chen V, Salama S, Shuhaibar H, Treleaven D, Vincic L. Interobserver and intraobserver variability using the Furman grading system for renal cell carcinoma. Arch Pathol Lab Med 2003;127:593–596.

Álvarez C, Castilla JA, Ramírez JP, Vergara F, Yoldi A, Fernández A, et al. External quality control program for semen analysis: Spanish experience. J Assist Reprod Genet. 2005;22:379-387.

Arce JC, Ziebe S, Lundin K, Janssens R, Helmgaard L, Sorensen P. Interobserver agreement and intraobserver reproducibility of embryo quality assessments. Hum Reprod
2006;21:2141-2148.

ASEBIR, II. Criterios de valoración morfológicos de oocitos, embriones tempranos y blastocistos humanos. Cuadernos de Embriología Clínica. 2007.

Baxter AE, Mayer JF, Shipley SK, Catherino WH. Interobserver and intraobserver variation in day 3 embryo grading. Fértil Steril 2006;86:1608-1615.

Björndahl L, Barratt CLR, Fraser LR, Kvist U, Mortimer D. ESHRE basic semen analysis courses 1995-1999: immediate beneficial effects of standardized training. Hum Reprod 2002;17:1299-1305.

Castilla JA, Ortiz A, Magán R, Ortiz-Galisteo JR, González E, Aguilar J, et al. Resultados de un ensayo piloto para un Programa Nacional de Control de Calidad Externo de Laboratorio de FIV. ASEBIR 2003;8:40-45.

Desai NN, Goldstein J, Rowland DY, Goldfarb JM. Morphological evaluation of human embryos and derivation of an embryo quality scoring system specific for day 3 embryos: a preliminary study. Hum Reprod 2000;15:2190-2196.

De Placido G, Wilding M, Strina I, Alviggi E, Alviggi C, Mollo A, et al. High outcome predictability alter IVF using a combined store for zygote and embryo morphology and growth rate. Hum Reprod 2002;17:2402-2409.

Fisch JD, Rodriguez H, Ross R, Overby G, Sher G. The graduated embryo score (GES) predicts blastocyst formation and pregnancy rate from cleavage-stage embryos. Hum Reprod 2001;16:1970-1975.

Franken DR, Kruger TF. Lessons learned from a sperm morphology quality control programme. Andrología 2006;38:225-229.

Holte J, Berglund L, Milton K, Garello C, Gennarelli G, Revelli A, et al. Construction of an evidence-based integrated morphology cleavage embryo score for implantation potential of embryos scored and transferred on day 2 after oocyte retrieval. Hum Reprod 2007;22:548-557.

Hurtado de Mendoza V, Ruiz de Assín R, Vergara F, Moyano C, Gonzalvo MC, Clavero A, et al. Five years of external quality control for embryology laboratory: Spanish experience. Hum Reprod 2008;23(Suppl1):160.

Keck C, Fischer R, Baukloh V, Alper M. Quality management in reproductive medicine. In: Gadner DK, Weissman A, Howles CM, Shohan Z. Textbook of Assisted Reproductive
Techniques. Laboratory and clinical perspectives. 2nd edition. London and New Cork: Taylor and Francis 2004;477-494. Magli MC, Van den Abbeel E, Lundin K, Royere D, Van der Elst J, Gianaroli L; Committee of the Special Interest Group on Embryology. Revised guidelines for good practice in IVF laboratories. Hum Reprod 2008;23:1256-1262.

Matson PL. Internal and external quality assurance in the IVF laboratory. Hum Reprod 1998;13:156-165.

Miglior S, Albe E, Guareschi M, Mandelli G, Gomarasco S, Orzales N. Intraobserver and interobserver reproducibility in the evaluation of ultrasonic pachymetry measurements of central corneal thickness. Br J Ophthalmol 2004;88:174 –177.

Sharpe-Timms KL, Zimmer RL. Oocyte and pre-embryo classification. In: Kal BA, May JV, De Jonge CI. Handbook of the assisted reproduction laboratory. 1st edition. United Stated of America: CRC; 2000;179-196.

The Practice Committee of the American Society for Reproductive Medicine and the Practice Committee of the Society for Assisted Reproductive Technology. Revised guidelines for human embryology and andrology laboratories. Fertil Steril 2006;86(Suppl 4):57-72.

← Volver