Lo que te cuento aquí viene de probar cosas y leer mucho sobre el tema. Los detectores de IA, esos que dicen saber si un texto lo escribió ChatGPT o una persona, funcionan buscando patrones que, en teoría, son de máquina. Analizan dos cosas raras con nombres técnicos: la «perplejidad» y la «burstiness».
La perplejidad mide lo predecible que es el texto. La IA suele escribir de forma muy lógica y común, usando las palabras que estadísticamente tienen más sentido. Lo humano tiene más sorpresas, giros inesperados, incluso errores creativos. La burstiness es la variación en la longitud y estructura de las oraciones. Nosotros escribimos con ritmo: frases cortas, largas, una exclamación, un punto y aparte. La IA tiende a la uniformidad, a un ritmo monótono de oraciones medianas y bien construidas.
El gran problema es que esto no es una ciencia exacta, sino un juego de probabilidades. La herramienta no te dice «esto es IA», te da un porcentaje de probabilidad. Y ese porcentaje puede fallar, a veces de forma grave.
La cruda realidad de su fiabilidad
Aquí es donde se pincha la burbuja. Se venden como la solución definitiva, pero tienen fallos que pueden hacer mucho daño.
- Los falsos positivos son un drama real. Textos 100% humanos son marcados como IA. Esto pasa mucho con escritos muy formales (como un informe científico), con redacciones de personas que están aprendiendo el idioma o cuyo estilo es muy estructurado. Imagina que un estudiante extranjero, que se ha partido la espalda escribiendo un ensayo en inglés, es acusado de hacer trampa porque su vocabulario es «demasiado correcto» para el detector. Es inaceptable.
- Los falsos negativos también abundan. Textos generados por IA y luego ligeramente editados por una persona se vuelven casi invisibles. Además, los modelos de IA avanzan más rápido que los detectores. Un texto hecho con la última versión de un modelo puede burlar fácilmente un detector entrenado con datos de hace meses.
- La longitud lo es todo. Con un párrafo suelto, cualquier detector patina. Necesitan texto largo para encontrar esos patrones estadísticos, así que un fragmento corto puede colar.
He visto pruebas independientes donde les pasan el mismo texto a diferentes herramientas y los resultados son un cachondeo. Unas dicen que es 1% IA, otras 63%, otras 98%. No hay consenso. Algunas de las que mejor puntúan en estas comparativas son QuillBot AI Detector y Scribbr, pero incluso ellas tienen márgenes de error considerables. Otras como GPTZero o Copyleaks también se mencionan como de las más consistentes.
El verdadero problema: usarlos como verdugo
Esto para mí es lo más importante. El error no está (solo) en la tecnología, está en cómo la usamos. Estas herramientas dan una pista, no una prueba. Nunca deberían ser el único elemento para acusar a alguien de plagio o falta de integridad.
El camino ético, especialmente en educación, sería usarlas como punto de partida para una conversación. Si un trabajo levanta sospechas, el detector puede ser la excusa para sentarse con el estudiante y hablar sobre el contenido: «Esta parte me ha sonado distinta, ¿me la puedes explicar con tus palabras?» «¿Cómo llegaste a esta conclusión?». La comprensión profunda del tema delata a la IA mejor que cualquier algoritmo.
Entonces, ¿qué hago si necesito usar uno?
Si aún así quieres o necesitas probar uno, hazlo con la cabeza fría:
- Nunca uses solo uno. Compara resultados de al menos dos o tres herramientas diferentes. Si todos coinciden en un porcentaje alto, es una señal más fuerte, pero no una condena.
- Busca herramientas que expliquen el «por qué». Algunas, como GPTZero, te resaltan las frases que les han hecho sospechar. Eso te permite juzgar tú mismo: ¿es una frase realmente genérica o tiene un matiz personal?
- Combínalo con tu propio criterio humano. Lee el texto preguntándote: ¿Tiene voz propia? ¿Hay anécdotas, emociones, puntos de vista subjetivos? ¿Las transiciones son naturales o parecen de manual? La IA aún lucha con lo anecdótico y lo emocionalmente complejo.
- Para documentos críticos (tesis, publicaciones), considera herramientas de trazabilidad. Existen soluciones como Grammarly Authorship que registran el proceso de escritura (tecleos, tiempo, ediciones), creando un historial que demuestra la autoría humana. Es una prueba mucho más sólida que un mero análisis a posteriori.
Al final, los detectores son un parche temporal en una carrera armamentística que probablemente la IA va a ganar. Confiar ciegamente en ellos es peligroso. La mejor defensa, por ahora, sigue siendo fomentar y valorar la voz humana imperfecta, original y llena de matices que las máquinas aún no pueden replicar del todo.