Las neurociencias y el gatillazo estadístico

neuroscienceLos estudios de neurociencias son al clásico experimento de psicología lo que un crucero por las Bahamas a un viaje en interrail. Extremadamente caros. Pagar a los participantes por desplazarse hasta el laboratorio, pagar por el uso del fMRI, pasar cientos de horas analizando datos… Todo ello supone dinero, dinero y más dinero. En muchos laboratorios donde se hacen experimentos con ERPs hasta contratan un servicio de peluquería para adecentar al pobre participante, que termina el experimento con la cabeza llena de gel. Una consecuencia directa del elevado coste es que los investigadores, lógicamente, intentan ahorra dinero por todas partes. Si el experimento puede hacerse con diez personas, mejor que con treinta. ¿Verdad?

Posiblemente no. Reducir el número de participantes nos permite hacer un experimento “low cost”, pero la integridad de los resultados se puede ver gravemente comprometida. Utilizar un número demasiado pequeño de observaciones reduce la probabilidad que tiene el investigador de detectar efectos que realmente existen, lo que normalmente se denomina potencia estadística. El primer inconveniente de no tener potencia es lo que señala la propia definición del concepto: que lo más probable es que ningún resultado del experimento sea estadísticamente significativo. Incluso si es cierto que, por ejemplo, las personas deprimidas muestran una actividad anómala en la zona cerebral X, si nuestro estudio sólo tiene una potencia del 10% esto quiere decir que sólo uno de cada diez experimentos como ese conseguiría detectar el efecto.

Pero los inconvenientes de la “impotencia” estadística no terminan aquí. Según un artículo que acaban de publicar Katherine Button y un elenco de colaboradores en la prestigiosa Nature Reviews Neuroscience, una escasa potencia estadística también puede plantear el inconveniente contrario. No sólo es posible que no detectemos efectos que existen, sino que también es probable encontrar efectos que en realidad no existen (falso positivo). Y si un efecto existe y se detecta, entonces es muy probable que el tamaño que ese efecto parece tener sea mayor que el tamaño real. En otras palabras, de un estudio con poca potencia estadística es poco o nada lo que puede concluirse. Si el estudio no arroja resultados positivos, no puede descartarse que los efectos que se buscaban no existan realmente. Y si el estudio arroja resultados positivos, tampoco se puede estar del todo seguro de que esos efectos existan realmente. El peso del azar es demasiado grande.

Para saber cuál es la potencia estadística habitual de los experimentos de neurociencias, Button y colaboradores recopilaron  48 meta-análisis sobre diversos temas. Observaron cuál era el tamaño del efecto que se investigaba en esos estudios y también cuál era el tamaño de las muestras que se habían utilizado. Con estos dos datos, puede computarse cuál es la potencia estadística. El resultado que encontraron Button y colaboradores deja la boca abierta: La potencia media en los estudios de neurociencias es de un 21%. Más aún, el valor cae al 18% si se excluyen del cómputo varios meta-análisis que arrojan una potencia inusualmente alta. Los resultados son particularmente negativos si se tienen en cuenta únicamente los experimentos de neuroimagen, cuyo poder estadístico se sitúa en el 8%. Dicho en otras palabras, si uno repitiera 100 veces un experimento típico de neuroimagen, sólo conseguiría replicar sus resultados en ocho ocasiones, y eso asumiendo que los resultados del experimento original no reflejaran un falso positivo.

Por si esto no fuera suficiente, los autores señalan que lo más probable es que estas cifras estén pecando de optimistas. El cálculo de la potencia estadística se basa en el tamaño del efecto y en el número de participantes de cada estudio. Pero, como se ha señalado más arriba, uno de los problemas de los estudios con poca potencia estadística es que tienden a sobre estimar el verdadero tamaño del efecto. Si esto es así, entonces es probable que los datos que se han usado para computar la potencia estadística estén en realidad “hinchados” y arrojen una potencia estadística mayor que la real. En otras palabras, es muy posible que la verdadera potencia estadística sea más baja aún de lo que sugieren las cifras del párrafo anterior.

¿Existe una solución a este problema? Button y colaboradores plantean una serie de medidas para reducir la probabilidad de que se publiquen falsos positivos y para facilitar su detección. Entre otras sugerencias, proponen que los artículos deban incluir una justificación de por qué se utilizó un tamaño muestral y no otro. Si los investigadores de un estudio utilizaron una muestra pequeña, deben explicar por qué pensaban que ese tamaño debería haber sido suficiente. También proponen que antes de realizar un experimento sea necesario registrarlo, junto con las predicciones que se hacen, para evitar así problemas de publicación selectiva o que un estudio que era exploratorio se presente como si fuera la confirmación de una teoría, lo que de nuevo aumenta la probabilidad de falsos positivos. Uno de los consejos más interesantes, a mi juicio, es incentivar a los investigadores para que repliquen sus propios experimentos y aquellos de sus colegas. Sólo repitiendo una y otra vez los mismos experimentos es posible asegurarse de que los resultados reflejan un efecto robusto y genuino. Pero esto sólo sirve si se cuida la potencia estadística de esas réplicas, claro.

__________

Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013). Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews, 14, 365-376.

Anuncios

Acerca de Miguel A. Vadillo

Profesor en el Dpto. de Salud Pública y Atención Primaria de King's College London e investigador en el Dpto. de Psicología Experimental del University College London. Visita su web en mvadillo.com
Esta entrada fue publicada en Artículos y etiquetada , , , . Guarda el enlace permanente.

22 respuestas a Las neurociencias y el gatillazo estadístico

  1. Pingback: Las neurociencias y el gatillazo estadístico | mvadillo.com

  2. DAVID L dijo:

    Esto pasa en casi todos los ámbitos de la psicología experimental. De todos modos, es que en nuestra área hay efectos de baja potencia casi por definición, como los efectos implícitos o enmascarados. Si alguien consigue un resultado de condicionamiento inconsciente, este va a ser de baja potencia en comparación con el consciente, pero da un poco igual mientras que sea claramente significativo…¿no?.

    • Así lo veía yo también. Tendía a pensar que si un estudio obtenía resultados significativos incluso teniendo un poder estadístico muy bajo, entonces es que el efecto tenía que ser muy claro. Pero este artículo te convence bastante bien de lo contrario. Incluso cuando el resultado es significativo, la probabilidad de que refleje un falso positivo es mucho mayor si la potencia estadística es baja que si es alta.

  3. Me ha gustado mucho la entrada y ayuda a clarificar conceptos.
    Aprovecho para hacer una pregunta, ¿Cómo es de común o apropiado la realización de experimentos n=1 en ese contexto? ¿Se han hecho? ¿se tiene en cuenta la posibilidad?
    Enhorabuena por el post

    • Gracias por el comentario, Jesús! No es extraño ver artículos con muestras extremadamente pequeñas. Ahora mismo no recuerdo ninguno con n=1, aunque estoy seguro de que los hay. Lo que sí conozco es unos cuantos con n=4 y muestras similares… No es nada raro.

  4. Parece que estos estudios estadísticos no hacen si no corroborar uno de los varios errores conceptuales que subyacen a este tipo de experimentos.
    El más típico es el creer que la conducta se halla en el cerebro y que los fMRI, TOMs y demás escáneres nos darán acceso a esa “conducta escondida” en forma de imagen.

    Buen artículo, enhorabuena.

    • Muchas gracias por tu comentario @autismoaba! En realidad creo que lo que tú señalas tiene que ver con un tema distinto. Una cosa es cuánto nos pueda enseñar el cerebro sobre la conducta y otra cuáles son los métodos ideales para descubrirlo. Personalmente soy optimista con el primer asunto. Los estudios de neurociencias, pese a sus imperfecciones metodológicas y al aura de falsa “cientifidad” que les rodea, nos están enseñando muchísimo sobre las bases de la conducta. Pero cuánto pueda progresar esa línea de investigación depende lógicamente de la calidad de los métodos utilizados, que por ahora dejan mucho que desear.

  5. jjgibaja dijo:

    Aunque estoy bastante de acuerdo con lo que aquí se afirma, creo que conviene matizar el mensaje. En concreto:

    – Coincido plenamente con la afirmación de que si la potencia es baja dejaremos de detectar efectos que realmente existen. En otras palabras, cometeremos falsos negativos.

    – Sin embargo, no comparto la afirmación de que AUTOMÁTICAMENTE si la potencia es baja necesariamente comenzaremos a detectar erróneamente efectos que no existen, es decir, a cometer falsos positivos.

    La cuestión radica en que, dado el tamaño de muestra de que dispongamos, tendremos que decidir cómo repartir nuestra capacidad de detectar efectos entre “no cometer falsos negativos” (potencia de la prueba) y “no cometer falsos positivos” (nivel de confianza de la prueba). Un tamaño de muestra pequeño nos puede llevar a que tanto la potencia como el nivel de confianza de la prueba sean pequeños y, por tanto, la tasa de falsos positivos y de falsos negativos sean elevadas. Es habitual encontrarse estudios con bajos tamaños de muestra en los que ha sido necesario fijar tanto la potencia como el nivel de confianza en niveles muy bajos (porque la muestra “no daba más de si”).

    Sin embargo, FIJADO EL TAMAÑO DE MUESTRA, la reducción de la potencia (el incremento en la tasa de falsos negativos) lleva aparejada de forma automática un incremento del nivel de confianza (es decir, una reducción en la tasa de falsos positivos) y viceversa.

    ¿Cómo os suena?

  6. jjgibaja dijo:

    Por concretar aún más mi comentario:

    – Un estudio con una muestra grande y una potencia pequeña tendrá un elevado nivel de confianza y cometerá muchos falsos negativos y pocos falsos positivos.
    – Un estudio con una muestra grande y una potencia grande tendrá un reducido nivel de confianza y cometerá pocos falsos negativos pero muchos falsos positivos.
    – Un estudio con una muestra pequeña se verá obligado a fijar tanto la potencia como el nivel de confianza en niveles muy reducidos y, por tanto, cometerá muchos falsos positivos y muchos falsos negativos.

    Saludos.

    Juanjo

    • Hola @jjgibaja! Este es tu terreno! Así que me da miedo decir cualquier cosa y meter la pata hasta el fondo! Jajaja! Así que voy a dejar que los autores respondan ;-)

      Lo que estos autores comentan es que al bajar la potencia, también baja lo que llaman “positive predictive value”, que definen así: “The positive predictive value (PPV) is the probability that a ‘positive’ research finding reflects a true effect (that is, the finding is a true positive). This probability of a research finding reflecting a true effect depends on the prior probability of it being true (before doing the study), the statistical power of the study and the level of statistical significance.”

      Y en el texto principal, continúan explicando: “[…] the lower the probability that an observed effect that passes the required threshold of claiming its discovery (that is, reaching nominal statistical significance, such as p < 0.05) actually reflects a true effect. This probability is called the PPV of a claimed discovery. The formula linking the PPV to power is:

      PPV = ([1 – β] x R) / ([1 – β] x R + α)

      where (1 − β) is the power, β is the type II error, α is the type I error and R is the pre-study odds (that is, the odds that a probed effect is indeed non-null among the effects being probed). The formula is derived from a simple two-by-two table that tabulates the presence and nonpresence of a non-null effect against significant and non-significant research findings. The formula shows that, for studies with a given pre-study odds R, the lower the power and the higher the type I error, the lower the PPV. And for studies with a given pre-study odds R and a given type I error (for example, the traditional p = 0.05 threshold), the lower the power, the lower the PPV."

    • Igual me estoy liando, pero creo que este PPV no es lo mismo que el nivel de confianza. Dándole un poco la vuelta, en plan Bayesiano, una cosa es cómo de probables son mis datos si la hipótesis es falsa (y esto depende del nivel de confianza) y otra es dados mis datos, cómo de probable es que la hipótesis sea verdadera o falsa (y esto sería el PPV). Tiene sentido?

      • jjgibaja dijo:

        En efecto, el PPV y el nivel de confianza parecen conceptos relacionados pero diferentes. Antes de equivocarme en mis comentarios, será mejor echar un vistazo con calma al documento original.

        Muchas gracias por el post.

      • A ti por el comentario, @jjgibaja! La verdad es que el artículo original es muy recomendable. La discusión de los tamaños del efecto, me parece que merece especialmente la pena.

  7. ¡Gran post, como siempre! :-)
    Conste que no he leído el paper de Nature, pero aquí hay algo que no entiendo, Miguel.
    El poder estadístico por definición es la probabilidad de cometer un error tipo II, es decir, de no rechazar la hipótesis nula cuando ésta es falsa. Por lo tanto, no entiendo cómo un estudio con falta de poder estadístico puede conducir a un “falso positivo” (que implica que la hipótesis nula es verdadera).
    Tal vez hay algo que se me escapa, o es que necesito leer ese paper :-D

    • jjgibaja dijo:

      Mm, no… el poder estadístico no es la probabilidad de cometer un error de tipo II sino su complemento. Si la probabilidad de cometer un error de tipo II (aceptar una hipótesis nula falsa o falso negativo) es beta, la potencia es uno menos beta. La baja potencia lleva a cometer muchos falsos negativos.

  8. Gracias, Fer! Efectivamente, parece completamente contraintuitivo. Por eso es fácil caer en la idea de que si un efecto es significativo con una muestra pequeña es que su efecto debe ser muy grande. Pero creo que la clave para entender el argumento de Button et al. reside en lo que le comentaba antes a Juanjo. Los errores de Tipo I y II se refieren a cuál es la probabilidad de obtener ciertos datos, dado que la hipótesis nula es cierta o que es falsa. Es decir, algo del estilo P(datos|hipótesis). Pero lo que aquí interesa es lo contrario. Nosotros no sabemos qué hipótesis es la correcta. Lo que conocemos son los datos. Así que lo que queremos saber es la probabilidad de que una hipótesis sea cierta dados los datos. Es decir, P(hipótesis|datos). Y cuando el poder estadístico es bajo, la hipótesis nula es más difícil de descartar, incluso cuando los datos señalan una diferencia significativa. En fin, esta es mi interpretación. Pero puedo estar liándome completamente. En cualquier caso, nada de lo que yo diga sustituye la lectura del paper. Es muy recomendable! Por cierto, que arriba le he pegado a Juanjo el fragmento clave donde desarrollan este argumento.

    • Sí, acabo de ver los comentarios de arriba. ¡Vaya lujo de comentarista! :-)
      Me sigue pareciendo que aquí hay dos cosas distintas:
      -Por un lado, muestras pequeñas implican poco poder. Y esto, por definición, *reduce* la tasa de falso positivo, a costa de aumentar el falso negativo (error tipo II).
      -Por otro lado, muestras pequeñas también implican menos confianza en la estimación del parámetro. Y eso puede aumentar tanto el error tipo I como el error tipo II. Creo que jjgibaja ha dicho algo muy parecido a esto, si no me equivoco.
      Entonces, según este razonamiento el problema sería con las muestras pequeñas, no con el bajo poder. ¿Me equivoco? Y además la consecuencia principal sería el falso negativo, no el falso positivo…

      Ahora bien, creo que toda la cuestión está en ese fragmento que has copiado sobre el PPV. Parece que es una especie de “tasa de positivo correcto” ponderada por el prior sobre la hipótesis (esa “R” de la ecuación). ¿Algo así?
      Más me vale dejar de especular a lo tonto: tendré que sacar un rato para leer el paper, que desde casa no puedo acceder.

      Y deja que te anime otra vez a publicar de estos temas de “escepticismo” sobre la ciencia y sobre todo de metodología. Modas aparte, es muy interesante y tienes muy buena mano para ello. Suele ser un engorro leer posts “divulgativos” sobre estadística, pero tú lo has hecho sorprendentemente sencillo.
      Y ha dado para la polémica, además :-D

  9. Qué bien que te haya gustado, Fer! :-) La verdad es que en el paper no dan mucha más justificación que ese párrafo sobre el PPV. Posiblemente, merece la pena acudir a las referencias en las que se basa ese párrafo. Tiene pinta de que el tema va a dar de sí.

  10. Interesante artículo Miguel. Si me lo permites, recomendaría la lectura de mi propio comentario sobre el artículo que describes:

    http://robertocolom.blogspot.com.es/2013/05/neuro-basura.html

    Replicar puede no ser la mejor estrategia si se hace con muestras ‘impotentes’ o inadecuadamente construidas.

    Lo que propongo es aunar esfuerzos.

    Saludos, Roberto

  11. Pingback: Weekly Magapsine – S20 | elDronte

  12. Pingback: Un problema estadístico: tamaño de la muestra y potencia de la prueba | psy'n'thesis

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s