ChatGPT permitirá que sitios web bloquen el acceso de su bot que recopila información
El chatbot de OpenAI ahora permitirá que operadores de sitios web bloquen el rastreo de información. Evitará que los modelos IA se salten los muros de pago. No es retroactivo.
La compañía OpenAI, dueña del reconocido chatbot de inteligencia artificial generativa, ChatGPT, lanzó una función para que los operadores de páginas web puedan bloquear el acceso a su bot que rastrea información para entrenar los modelos GPT. De esta manera se podría evitar que el robot ingrese a sitios que son pagos para nutrirse de data, salteando los muros de pago.
“Las páginas web rastreadas con el agente de usuario de GPTBot pueden potencialmente usarse para mejorar modelos futuros y se filtran para eliminar fuentes que requieren acceso de pago, se sabe que recopilan información de identificación personal (PII) o tienen texto que viola nuestras políticas”, indicaron desde Open IA, en una publicación de su blog.
Poder bloquear el acceso del GPTBot a un sitio es una medida importante por parte de OpenIA que podría marcarle la cancha al resto de las empresas con proyectos similares. En otras palabras, esta decisión le da autonomía a los usuarios para evitar que sus datos se utilicen para entrenar grandes modelos de lenguaje.
Vale señalar que esta nueva herramienta no elimina de forma retroactiva el contenido extraído previamente de un sitio de los datos de entrenamiento de ChatGPT.
Internet fue clave para que los grandes modelos de lenguaje se entrenen, no solo los modelos GPT de OpenAI, sino otros como Bard, de Google. Sin embargo, OpenAI no detalla si obtuvo sus datos a través de publicaciones en las redes sociales, obras con derechos de autor o qué partes de Internet recopiló para obtener información.
ChatGPT: cómo se llama el bot
El rastreador web de OpenAI se denomina GPTBot y se puede identificar mediante el siguiente agente de usuario (user agent) y cadena (string).
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
“Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad”, señalaron desde OpenAI.
ChatGPT: cómo hacer para que el bot no indexe un sitio
Para evitar que el bot ingrese a una web se puede agregar el GPTBot al archivo robots.txt del sitio:
User-agent: GPTBot
Disallow: /
ChatGPT: cómo personalizar el acceso
Para permitir que GPTBot acceda a partes específicas de un sitio, se puede agregar el token de GPTBot al archivo robots.txt de esta manera:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Comentarios