Detección de textos generados por IA

1. Qué hacen las herramientas de detección

Las herramientas que intentan detectar textos generados por IA normalmente analizan patrones estadísticos y lingüísticos para calcular una probabilidad de origen automático. Entre los enfoques más comunes están:

Perplejidad: mide qué tan predecible es el texto para un modelo de lenguaje.
Riqueza léxica: evalúa variedad de vocabulario y repeticiones.
Patrones sintácticos: estructuras y frases típicas de modelos.
Análisis de distribución de n-gramas: frases o secuencias que aparecen con más frecuencia en textos generados por IA.

Resultado: la mayoría de detectores entrega una estimación probabilística, no una prueba absoluta.

2. Pero no es infalible

La detección basada solo en texto tiene problemas importantes:

Falsos positivos: textos humanos muy cuidados pueden parecer generados por IA.
Falsos negativos: IA editada o reescrita por humanos puede pasar por humana.
Textos cortos o técnicos: carecen de suficiente señal para una clasificación fiable.
Evolución de modelos: a medida que los modelos mejoran, se vuelven menos distinguibles.

Conclusión: la precisión real suele variar mucho; en muchos escenarios prácticos no es suficiente para decisiones críticas.

3. Qué se puede hacer realmente

En la práctica, las estrategias más efectivas para atribuir origen no dependen únicamente del texto:

Trazabilidad y metadatos: revisar registros, logs o flujos que indiquen uso de APIs o herramientas automáticas.
Marcas de agua digitales: algunos modelos o plataformas pueden incorporar señales intencionales en el texto (ámbito experimental y regulado).
Proceso humano: combinar análisis automatizado con revisión humana experta, especialmente en contextos importantes.

Práctica recomendada: usar detectores como apoyo informativo, no como la única evidencia.