Microsoft borra un post que animaba a desarrolladores a entrenar IA con libros pirateados de Harry Potter

por Edgar Otero 24/02/2026

Microsoft se ha visto obligada a eliminar una entrada de blog publicada en noviembre de 2024 que aparentemente animaba a los desarrolladores a utilizar archivos de texto de los libros de Harry Potter para entrenar modelos de IA. La eliminación se produjo después de que usuarios en un hilo de Hacker News criticaran duramente la publicación por promover la piratería de contenido protegido por derechos de autor.

El artículo, escrito por Pooja Kamath, gerente senior de producto en Microsoft, utilizaba la saga completa de Harry Potter de J.K. Rowling como ejemplo práctico para demostrar una nueva funcionalidad de Azure que permite agregar capacidades de IA a las aplicaciones. El objetivo era usar un conjunto de datos conocido para mostrar ejemplos atractivos y relacionables que funcionaran con una audiencia amplia.

La publicación enlazaba a un dataset de Kaggle que incluía los siete libros de Harry Potter, marcado incorrectamente como "dominio público". Según Ars Technica, el dataset solo fue descargado unas 10.000 veces, una cifra relativamente baja considerando que el post estuvo disponible durante más de un año. El dataset fue eliminado la semana pasada después de que el medio contactara con Shubham Maindola, un científico de datos en India sin afiliaciones conocidas con Microsoft.

"El dataset fue marcado como dominio público por error", declaró Maindola a Ars Technica. "No hubo intención de tergiversar el estado de licencia de las obras". Microsoft no ha emitido un comunicado oficial sobre la eliminación del post, que ahora solo es accesible a través de Internet Archive.

La guerra del copyright en la IA

El incidente llega en un momento especialmente delicado para las empresas de inteligencia artificial, que enfrentan múltiples demandas por uso no autorizado de contenido con copyright. El New York Times demandó a OpenAI y Microsoft, mientras que numerosos autores, artistas y medios han presentado acciones legales similares contra diversas compañías del sector.

Sam Altman, CEO de OpenAI, ha admitido abiertamente que es "virtualmente imposible" desarrollar modelos avanzados como ChatGPT sin utilizar contenido protegido por derechos de autor. Altman argumenta que la ley de copyright no prohíbe categóricamente a las empresas de IA usar este material, y defiende su posición apelando a la doctrina del fair use o uso legítimo.

La ironía del caso de Microsoft es notable: la compañía ha invertido 13.000 millones de dólares en OpenAI, que afronta sus propias batallas legales por copyright, y ahora se ve involucrada en una controversia similar con su plataforma Azure, posicionada como una solución empresarial seria y legal. Además, el dataset estaba alojado en Kaggle, una plataforma propiedad de Google, otra compañía que enfrenta acusaciones similares de uso indebido de contenido protegido.

La escasez de datos de calidad

Detrás de estos incidentes se encuentra un problema fundamental que afecta a toda la industria: la escasez de datos de alta calidad para entrenar modelos de IA. Informes recientes sugieren que Google, OpenAI y Anthropic están sufriendo esta carencia, lo que está ralentizando los avances en el desarrollo de inteligencia artificial.

Desarrollar IA generativa no es una tarea sencilla ni barata. Los principales laboratorios de investigación están quemando cantidades sustanciales de dinero para mantener el impulso, mientras crecen las preocupaciones entre los inversores sobre el retorno de sus inversiones. OpenAI, por ejemplo, está en camino de registrar pérdidas de 14.000 millones de dólares en 2026, con informes que sugieren que podría enfrentar la bancarrota a mediados del próximo año si no logra revertir la situación.

Esta presión financiera y la necesidad de datos de calidad explican en parte por qué las empresas recurren a contenido protegido por copyright. Los libros publicados, artículos periodísticos y otros materiales profesionales ofrecen exactamente el tipo de texto bien estructurado y gramaticalmente correcto que los modelos de lenguaje necesitan, pero obtener licencias legales para todo ese contenido resultaría prohibitivamente caro o simplemente imposible.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!