El mundo de la tecnología está loco por las nuevas funciones de la Inteligencia Artificial, especialmente cuando se trata de Inteligencia Artificial Generativa, que ganó inmensa popularidad cuando ChatGPT llegó al mercado a finales de 2022.
Pero… ¿Tienes alguna idea de cómo los distintos modelos de IA se volvieron tan inteligentes? ¿Cómo se entrenan?
¡Es con toda la información que está presente en Internet! Incluyendo todo lo que has estado publicando en blogs, foros o redes sociales. Ya sea texto, fotos o vídeo.
En otras palabras, para las grandes empresas, toda la información que publican en Internet, tenga o no derechos de autor, es “gratuita” y se puede utilizar de forma gratuita en el entrenamiento de modelos de IA.
¡Para Microsoft, todo lo que pones en Internet es gratis!
Entonces, muy brevemente, el CEO de Microsoft en el lado de la IA declaró muy públicamente que la gran mayoría del contenido que se publica en Internet es «software gratuito”para el entrenamiento de algoritmos.
- software gratuito: Es un término que se refiere al software que, aunque protegido por derechos de autor, está disponible sin costo para uso ilimitado.
Bueno, más concretamente, Mustafa Suleyman (CEO de Microsoft AI) concedió una entrevista en la que abordó un tema muy delicado relacionado con el uso de datos generales disponibles en Internet para entrenar herramientas de IA, como es el caso de Windows 11 Copilot o OpenAI. ChatGPT (que también utiliza Bing de Microsoft).
Esta discusión ocurre porque simplemente no hay transparencia por parte de las empresas en el uso de estos datos. Precisamente por eso varios autores ya han demandado a Microsoft y OpenAI, tras encontrar su trabajo en los resultados de las herramientas de IA ya mencionadas.
Lo mismo ha sucedido con varias publicaciones, como el New York Times, que no quiere que sus publicaciones se utilicen como herramientas de formación, sin ninguna compensación monetaria.
Básicamente, la gran mayoría de estas empresas utilizan lo que encuentran en Internet, sin cuestionar a quién pertenece y cuánto vale.
¡Lo que está mal!
Precisamente por eso el ejecutivo afirmó:
- “Creo que, cuando se trata de contenido que ya está en la Web abierto a todos, el contrato social para ese contenido, desde los años 90, ha sido el uso justo. En otras palabras, cualquiera puede copiarlo, recrearlo, reproducirlo. Esto ha sido software gratuito, por así decirlo. Ese ha sido el entendimiento hasta ahora”.
- «Hay una categoría separada donde un sitio web, editor u organización de noticias dice explícitamente, ‘no raspe ni rastree por ningún motivo que no sea el de indexarme’, para que otras personas puedan encontrar ese contenido», explicó. “Pero esa es la zona gris. Creo que esto se resolverá en los tribunales”.
Antes que nada, ¿qué opinas de todo esto? ¿Es justo? ¿Usar información disponible para todos, pero que le dio a “alguien” mucho trabajo, para obtener ganancias? Después de todo, ¡incluso en la escuela teníamos que dejar el origen de todo el material utilizado!