ChatGPT permitirá que sitios web bloquen el acceso de su bot que recopila información 

El chatbot de OpenAI ahora permitirá que operadores de sitios web bloquen el rastreo de información. Evitará que los modelos IA se salten los muros de pago. No es retroactivo.  

La compañía OpenAI, dueña del reconocido chatbot de inteligencia artificial generativa, ChatGPT, lanzó una función para que los operadores de páginas web puedan bloquear el acceso a su bot que rastrea información para entrenar los modelos GPT. De esta manera se podría evitar que el robot ingrese a sitios que son pagos para nutrirse de data, salteando los muros de pago.  

Las páginas web rastreadas con el agente de usuario de GPTBot pueden potencialmente usarse para mejorar modelos futuros y se filtran para eliminar fuentes que requieren acceso de pago, se sabe que recopilan información de identificación personal (PII) o tienen texto que viola nuestras políticas”, indicaron desde Open IA, en una publicación de su blog. 

Poder bloquear el acceso del GPTBot a un sitio es una medida importante por parte de OpenIA que podría marcarle la cancha al resto de las empresas con proyectos similares. En otras palabras, esta decisión le da autonomía a los usuarios para evitar que sus datos se utilicen para entrenar grandes modelos de lenguaje.   

Vale señalar que esta nueva herramienta no elimina de forma retroactiva el contenido extraído previamente de un sitio de los datos de entrenamiento de ChatGPT. 

Internet fue clave para que los grandes modelos de lenguaje se entrenen, no solo los modelos GPT de OpenAI, sino otros como Bard, de Google. Sin embargo, OpenAI no detalla si obtuvo sus datos a través de publicaciones en las redes sociales, obras con derechos de autor o qué partes de Internet recopiló para obtener información. 


ChatGPT: cómo se llama el bot 


El rastreador web de OpenAI se denomina GPTBot y se puede identificar mediante el siguiente agente de usuario (user agent) y cadena (string). 

User agent token: GPTBot 

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 

Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad”, señalaron desde OpenAI.


ChatGPT: cómo hacer para que el bot no indexe un sitio 


Para evitar que el bot ingrese a una web se puede agregar el GPTBot al archivo robots.txt del sitio: 

User-agent: GPTBot 

Disallow: / 


ChatGPT: cómo personalizar el acceso 


Para permitir que GPTBot acceda a partes específicas de un sitio, se puede agregar el token de GPTBot al archivo robots.txt de esta manera: 

User-agent: GPTBot 

Allow: /directory-1/ 

Disallow: /directory-2/ 


Formá parte de nuestra comunidad de lectores

Más de un siglo comprometidos con nuestra comunidad. Elegí la mejor información, análisis y entretenimiento, desde la Patagonia para todo el país.

Quiero mi suscripción

Comentarios