Datos sintéticos en la Inteligencia Artificial Generativa: soluciones y riesgos para el futuro tecnológico

La Inteligencia Artificial Generativa (IAG) ha alcanzado un punto crítico debido a su propio éxito y rápida evolución. La gran cantidad de datos necesarios para entrenar a los chatbots de las principales empresas tecnológicas se está agotando, lo que demuestra que la información y los textos conversacionales en internet no son infinitos. Ante esta problemática, la industria explora una solución: el uso de datos sintéticos.

¿Qué son los datos sintéticos y cómo se generan?

Los datos sintéticos, según el Supervisor Europeo de Protección de Datos, son «datos artificiales» generados a partir de información original u orgánica, cuya autoría es humana. En esencia, la IAG utiliza productos generados por la misma IA para entrenarse a sí misma. Esta técnica se plantea como una opción viable para mantener la competitividad y rentabilidad económica del sector, especialmente ante la previsión de que, para 2026, el contenido de internet se agotará por completo para alimentar a la IAG.

Riesgos y desafíos de los datos sintéticos

El principal problema de los datos sintéticos radica en los errores, alucinaciones, inexactitudes y sesgos que pueden contener. Estos problemas podrían generar una espiral que acentúe estas limitaciones en la IA, afectando la calidad de las actualizaciones de los chatbots y, en consecuencia, las ganancias económicas de los consorcios tecnológicos. Esta situación ha llevado a hablar del “Horizonte de Sucesos” de la Inteligencia Artificial, un término tomado de la astrofísica que en los modelos de lenguaje de gran tamaño (LLM) significa llegar a un punto crítico.

La necesidad de nuevas técnicas de entrenamiento

Sam Altman, director ejecutivo de OpenAI, la firma creadora de ChatGPT, ha reconocido que la IAG necesitará nuevas técnicas para ser entrenada. Es ingenuo pensar que los chatbots escalarán solo con los “tokens” obtenidos de internet. En el procesamiento del lenguaje natural (NLP), el texto que alimenta a los LLM se convierte en tokens, que son palabras, símbolos o caracteres, y constituyen el insumo básico con el que la IAG aprende.

Implicaciones éticas del uso de datos sintéticos

Para mantener nuevas versiones de chatbots, se requieren datos actuales y de calidad. Ante el agotamiento de la información en internet, el uso de datos sintéticos es la alternativa más viable. Sin embargo, esto plantea varios dilemas éticos:

Propiedad intelectual: Parte de los datos sintéticos proviene de información obtenida sin permiso de obras protegidas por derechos de autor. Escritores, periodistas, fotógrafos e ilustradores han demandado a varias empresas de IAG en Estados Unidos por esta razón. Si las Cortes les dan la razón, la utilización de datos sintéticos derivaría en una trasgresión continua a la propiedad intelectual.
Calidad de los datos: La calidad de los datos sintéticos depende de las fuentes originales con las que se entrenaron los chatbots. Sin un proceso de curaduría y verificación, existe el riesgo de que la IAG produzca información falsa o errónea de manera generalizada en internet.

Preguntas sin respuestas certeras

Aún hay más preguntas que respuestas respecto al futuro de la IAG y el uso de datos sintéticos:

¿Los chatbots incluirán en sus resultados que estos tienen como fuente datos sintéticos y no orgánicos?
¿Producir datos sintéticos a partir de datos también sintéticos es realmente un avance para la Inteligencia Artificial?
Si los datos sintéticos provienen de un entrenamiento hecho con datos generados por los mismos chatbots, ¿afectará esto la integridad de internet y la coherencia de la web?
¿Las empresas están tomando información de redes sociales para entrenar a la IAG, y pueden detectar si parte de ese contenido es generado por la misma IAG?
Considerando que la mayoría de las instrucciones (prompts) tienen autoría humana, ¿la tecnología distingue estos datos como orgánicos o los trata como parte de su acervo de datos sintéticos?

El futuro económico y tecnológico de la Inteligencia Artificial

La solución a estas preguntas está siendo discutida no solo al interior de las empresas que utilizan modelos de transformadores generativos preentrenados (GPT), sino también en la academia y en los ámbitos jurídicos y gubernamentales. El desafío es significativo, ya que de las respuestas que se obtengan depende el futuro económico y tecnológico de la Inteligencia Artificial.