La IA nos ofrece modelos cada vez más potentes y capaces, pero ¿de dónde provienen los datos que hacen todo eso posible? Documentos judiciales, correos internos y testimonios de antiguos empleados, revelados recientemente por el medio francés Mediapart, arrojan nueva luz sobre una práctica ya conocida como el uso masivo de libros pirateados para entrenar modelos de lenguaje , pero también sobre la participación en la misma de quien hoy es una figura central de la IA europea. El corazón del escándalo: LibGen y los modelos LLaMA En el centro de las revelaciones se encuentra Library Genesis , conocida como Library Genesis (LibGen) , una 'biblioteca no autorizada' que reúne millones de libros protegidos por derechos de autor , accesibles sin autorización de los titulares legales. Según la investigación de Mediapart , Meta habría recurrido de forma reiterada a LibGen para entrenar su familia de modelos LLaMA , destinados a competir con sistemas como ChatGPT. Los documentos analizados indican que las descargas comenzaron en octubre de 2022 , alcanzando un volumen estimado en 70 terabytes de datos , es decir, decenas de miles de libros digitalizados. El uso de estas fuentes no habría sido marginal ni accidental. Correos electrónicos internos y fragmentos de código sugieren que la práctica fue conocida y discutida dentro de los equipos , pese a las dudas expresadas por algunos empleados sobre su legalidad. La responsabilidad de la dirección de Meta Las revelaciones no se limitan a iniciativas individuales. Según los documentos judiciales, la dirección de Meta estaba informada : algunos archivos sugieren incluso que Mark Zuckerberg respaldó el uso de estos conjuntos de datos, en un contexto donde adquirir licencias legales para millones de libros habría supuesto costes astronómicos y largos plazos de negociación . El laboratorio FAIR, dirigido entonces por el reconocido investigador Yann LeCun , aparece como el espacio donde se tomaron muchas de estas decisiones. Tras el lanzamiento de LLaMA, Meta habría considerado brevemente regularizar el acceso a contenidos licenciados , antes de volver a recurrir a fuentes 'gratuitas'. En Genbeta Las tecnológicas empezaron a bajarse torrents con miles de libros y nacieron los chatbots. De aquellos polvos estos lodos Guillaume Lample, de Meta a Mistral AI Uno de los nombres que emerge con fuerza es el de Guillaume Lample , entonces investigador en el laboratorio FAIR (Fundamental AI Research) de Meta y hoy cofundador y director científico de Mistral AI . De acuerdo con los documentos revelados durante el juicio que enfrenta a Meta con varios autores, entre ellos el escritor Richard Kadrey, Guillaume Lample habría impulsado activamente el uso de LibGen dentro de Meta. En intercambios internos, citados por Mediapart, se le atribuye la afirmación de que "todo el mundo usa LibGen" , mencionando a OpenAI, Google y DeepMind como ejemplos. Cuando otros empleados plantearon la necesidad de consultar al departamento legal, Lample habría respondido que no había hecho preguntas , asumiendo que se trataba de una práctica común en el sector. Mistral AI y sus promesas de transparencia bajo sospecha El interés mediático por Guillaume Lample no se explica solo por su pasado en Meta: en 2023, fundó Mistral AI , una start-up francesa que se convirtió en tiempo récord en uno de los actores más influyentes del ecosistema europeo de la IA, con una valoración multimillonaria. Desde su creación, Mistral AI ha defendido una estrategia basada en datos 'de alta calidad' y acuerdos de licencia , firmando alianzas con instituciones como la AFP, el INA o la Biblioteca Nacional de Francia. Sin embargo, ex empleados de Meta citados por Mediapart sostienen que LibGen también pudo haber sido utilizado en las primeras fases de desarrollo del modelo Mistral 7B , aunque no existe por ahora prueba documental que lo confirme. La empresa, tras ser contactada por Mediapart, asegura entrenar sus modelos con "Información públicamente disponible, conjuntos de datos licenciados y datos sintéticos generados internamente" . Un debate que va más allá de lo tecnológico Este caso se inscribe en un conflicto más amplio: tanto en Estados Unidos como en Europa, autores, editoriales y artistas multiplican las demandas judiciales contra empresas de IA, acusándolas de apropiarse de obras protegidas sin compensación. Las revelaciones sobre Meta y LibGen muestran que el problema no es marginal, sino estructural. Entrenar grandes modelos de lenguaje requiere cantidades colosales de datos, y el acceso legal a ese material choca con los intereses económicos y la velocidad del mercado. En última instancia, todo se resume a una pregunta: ¿puede la innovación tecnológica justificarse a costa de los derechos de los creadores? Vía | Mediapart Imagen | Marcos Merino mediante IA En Genbeta | Pidieron a ChatGPT que escribiera un libro de ‘Juego de Tronos’. El resultado fue tan bueno que acabará en los tribunales - La noticia Un cofundador del campeón europeo de la IA 'open source' usó millones de libros con copyright cuando trabajaba en los modelos de Meta fue publicada originalmente en Genbeta por Marcos Merino .