¿Están Meta, Google y OpenAI entrenando a la Inteligencia Artificial de manera ilegal?

Redcómputo Ltda
12 abr 2024
6 Min. de lectura

Una investigación del diario The New York Times concluyó que las empresas más grandes de tecnología pasaron por encima de la información de sus propios clientes: usaron contenido de youtubers, periodistas y artistas para entrenar lenguajes artificiales. Esto se sabe.

Por Leonardo Bautista - Foto tomada: Elcolombiano.com

Este fin de semana estalló una bomba en la industria tecnológica mundial gracias a una investigación del diario The New York Times: OpenAI, creadores de ChatGPT, fueron acusados de entrenar su modelo de Inteligencia Artificial (IA) con transcripciones de más de un millón de horas de videos de YouTube, contenido que pertenece a los creadores.

Al tiempo, Meta y Google estarían transgrediendo sus políticas (términos de uso) al utilizar información protegida por derechos de autor, e incluso información privada de sus usuarios, para entrenar sus propios modelos de IA. ¿Cómo entender que las compañías tecnológicas más importantes del mundo pasen por encima de su activo más valioso?

Una primera explicación

Hay que repasar el auge de la IA, sus orígenes y cómo funciona. El 20 de febrero de 1947, ante la Sociedad Matemática de Londres, el inglés Alan Turing pronunció la que, posiblemente, fue la primera conferencia en que se mencionó la posibilidad del desarrollo de inteligencias artificiales.

“Queremos una máquina que pueda aprender de la experiencia”, dijo el padre de la informática, en un momento en que sus palabras no eran más que sueños y especulaciones, décadas antes del desarrollo del primer computador personal (1970).

Sin que el resto del mundo lo entendiera, ese día Turing sentó las bases del largo camino de la Inteligencia Artificial, una rama de la ciencia enfocada en el desarrollo de sistemas informáticos capaces de realizar tareas que normalmente requieren inteligencia humana, es decir, replicar en máquinas los procesos cognitivos que solo una persona podría hacer.

Desde los primeros programas de ajedrez hasta los sistemas complejos basados en reglas, cada avance en este campo ha llevado consigo dilemas éticos, morales e incluso legales frente a los límites que la tecnología no debería cruzar.

Entre estos avances, los Modelos de Lenguaje de Aprendizaje Profundo (LLM, por sus siglas en inglés) han tomado protagonismo en los últimos años, siendo la base de sistemas como ChatGPT, desarrollado por OpenAI, o Gemini, de Google, que miles de personas usan a diario hoy en día como herramientas para la generación de textos, traducción automática, análisis de información, entre otras.

La capacidad para comprender y generar contenido de manera similar a la humana ha catapultado la popularidad de estas plataformas en varias industrias, pero su uso conlleva una polémica que toma cada vez más vuelo en Estados Unidos, donde tienen base empresas como Google (propietaria de YouTube), Meta y OpenAI, que están en el ojo del huracán por el posible uso indebido de contenido protegido por derechos de autor para entrenar sus plataformas.

La controversia actual

El debate cobró mayor relevancia desde el pasado mes de noviembre, cuando el diario The New York Times demandó a OpenAI y Microsoft tras descubrir que millones de sus artículos periodísticos habrían sido utilizados para entrenar chatbots que, paradójicamente, ahora representan una competencia directa para ese medio de comunicación, debido al uso de ChatGPT y plataformas similares en salas de redacción de todo el mundo para la generación de contenido.

La demanda del Times se cimienta en el funcionamiento de los LLM y el concepto de sus “entrenamientos” con datos textuales o tokens. Durante cada entrenamiento, estos modelos reciben enormes cantidades de información proveniente de libros, artículos de noticias y, en general, textos disponibles en internet.

“Este proceso es intensivo y requiere una gran cantidad de recursos computacionales. Además, la calidad y diversidad de los datos de entrenamiento son cruciales para el rendimiento final del modelo. Es por eso que las empresas tecnológicas a menudo buscan obtener acceso a grandes cantidades de datos para alimentar sus modelos de IA”, describe OpenAI en su blog.

Es en ese punto donde las empresas tecnológicas entran en una zona gris desde la perspectiva legal para el uso de datos protegidos por derechos de autor, la privacidad de los usuarios y la potencial generación y réplica de sesgos y prejuicios.

La discusión se avivó este fin de semana, cuando el NY Times publicó una investigación que reveló que en el 2021 OpenAI y Google entrenaron a sus modelos de IA con transcripciones de videos de YouTube, cuyo contenido pertenece a los creadores y youtubers, y está protegido por las propias políticas de Google. Incluso, se dice que el equipo legal de esa empresa (Google) cambió la redacción de sus Términos de Servicio para librarse de posibles responsabilidades legales por esa práctica.

¿De dónde sacar más datos?

Cuando estaban entrenando a su famoso ChatGPT los ingenieros de OpenAI se enfrentaron a un problema de suministro de información con la cual se puliría su plataforma.

En ese momento, el laboratorio de inteligencia artificial agotó las bases de datos a las que tenían acceso, que principalmente se reducían al archivo de códigos informáticos del sitio web GitHub, bases de datos de movimientos de ajedrez, así como exámenes de secundaria y tareas en la página Quizlet.

El modo de entrenamiento con bases de datos a gran escala se basa en una publicación de enero de 2020 de Jared Kaplan, físico teórico de la Universidad Johns Hopkins, quien publicó un artículo que cambió el paradigma de la IA y avivó el apetito por los datos en línea. Su conclusión fue que, cuantos más datos hubiera para entrenar un modelo de lenguaje, mejor funcionaría. Ya no importaba tanto la calidad del contenido, sino la cantidad.

“Todo el mundo quedó muy sorprendido de que estas tendencias, estas leyes de escala, como las llamamos, fueran básicamente tan precisas como lo que se ve en la astronomía o la física”, señala en el texto el Dr. Kaplan.

Desesperados por continuar con los entrenamientos a gran escala, en OpenAI decidieron desarrollar una herramienta de reconocimiento de voz llamada Whisper, que usaron para transcribir más de un millón de horas de videos de YouTube, según revelaron al New York Times empleados de esa empresa.

Según la investigación, en el proceso habría participado personalmente el presidente de OpenAI, Greg Brockman.

Los textos generados por Whisper al parecer fueron empleados para instruir a GPT-4 en un acto que se contrapone a las políticas establecidas por YouTube, tal y como explicó recientemente el CEO de esa plataforma, Neal Mohan.

Días antes de la revelación que hizo el New York Times, el ejecutivo concedió una entrevista a Bloomberg y puso los puntos sobre las íes al señalar que el uso de sus videos para entrenar una IA sería una “clara violación” de sus políticas.

Lo curioso es que Mohan no se refería a Whisper, cuya existencia apenas se conoció el sábado, sino a otra inteligencia artificial que OpenAI lanzará próximamente, denominada Sora, creada para producir vídeos realistas a partir de una descripción textual de los usuarios y que al parecer habría sido entrenada con videos de YouTube.

Meta, una rueda suelta

La cereza del pastel es Meta, anteriormente conocida como Facebook, otra de las compañías tecnológicas que desarrolla modelos de lenguaje grande (LLM) e inteligencia artificial.

La investigación del diario norteamericano reveló que esa empresa ha considerado incluso la posibilidad de adquirir editoriales para obtener acceso a obras protegidas por derechos de autor, mientras que simultáneamente explora estrategias para utilizar información disponible públicamente en línea sin infringir los derechos de los creadores, es decir, sus propios usuarios.

Además, habrían recurrido a Internet para recopilar una gran cantidad de datos que necesitarían para su sistema de Inteligencia Artificial que aún está en desarrollo, sin importarles si esos contenidos están protegidos por la ley.

¿Se toma el tiempo de leer la política de tratamiento de datos al momento de registrarse en sitios web o redes sociales?

Para no perder esta carrera, el propio Mark Zuckerberg habría presionado a su equipo a optar por esta práctica y asumir los costes de acciones judiciales en su contra, según se recoge en grabaciones internas a las que tuvo acceso el medio citado.

De momento, Google, OpenAI y Meta no han emitido respuestas oficiales a estas acusaciones, pero desde ya se anticipa lo que será una larga polémica sobre el equilibrio entre la innovación tecnológica y el respeto por los derechos individuales y la propiedad intelectual.

El auge de la inteligencia artificial abrió una caja de pandora en el mundo digital, el debate apenas comienza.

Tomado de: Elcolombiano.com