
En la carrera por desarrollar los modelos de IA más expertos, hay un factor que se presenta constantemente como fundamental: los datos. Los modelos lingüísticos extensos (LLM) lo demuestran, ya que consumen grandes volúmenes de fichas para su formación. A medida que estos modelos de IA aumentan en complejidad y capacidad, la extracción de datos web, a menudo facilitada por proxies residenciales, se convierte en una herramienta fundamental que garantiza el acceso a los amplios y variados conjuntos de datos que demandan.
Tokens: los componentes básicos
Antes de profundizar, es imprescindible entender qué es un token. En los LLM, las fichas pueden representar varias unidades lingüísticas, desde caracteres individuales hasta palabras completas. Piense en las fichas como piezas únicas de un rompecabezas; cada una contiene información específica y, cuando se juntan, forman una imagen coherente o, en el caso de la IA, una comprensión integral del lenguaje. Según el enfoque, una oración como «es esencial buscar información en la web» podría dividirse en cinco elementos (cada palabra como muestra) o más si se consideran por separado los signos de puntuación y las subcadenas más pequeñas.
El voraz apetito de los LLM por los datos
El documento titulado»Entrenamiento de modelos de lenguaje de gran tamaño óptimos para la computación» explora el tamaño óptimo del modelo y la cantidad de tokens necesarios para entrenar un modelo de lenguaje transformador. Los investigadores capacitaron a más de 400 modelos lingüísticos con parámetros que oscilaban entre 70 millones y más de 16 000 millones, y utilizaron entre 5 y 500 000 millones de fichas1. Descubrieron que para un entrenamiento óptimo desde el punto de vista informático, el tamaño del modelo y la cantidad de fichas de entrenamiento deberían escalarse por igual. En otras palabras, por cada vez que se duplique el tamaño del modelo, también se debería duplicar la cantidad de fichas de entrenamiento.
Los LLM subrayan el creciente hambre de datos en la IA. El modelo de OpenAI de 2020, basado en 300 mil millones de tokens, tenía 175 mil millones de parámetros. Lo que implicaba 1,7 fichas por parámetro2. En 2022, la investigación de DeepMind sobre la proporción óptima de parámetros favorece más fichas y menos parámetros, con una proporción de 20 fichas por parámetro. Un modelo con 70 000 millones de parámetros y 1,4 billones de tokens superó al modelo de 175 000 millones de parámetros de OpenAI y requirió menos ajustes y costes de inferencia más bajos.1 Estas cifras enfatizan la profundidad y la amplitud de los datos que exige el entrenamiento moderno de IA.
El papel del web scraping
Aquí, el raspado web ocupa un lugar central. Actúa como un minero digital, ya que examina el vasto panorama de Internet (desde sitios de comercio electrónico hasta foros) para extraer valiosos datos. La diversidad es clave. Para una formación integral, los modelos requieren un amplio espectro de información, lo que hace que la función del raspado web sea aún más crucial.
El papel de los proxies residenciales en el raspado web
Pero, ¿cómo acceden los raspadores web a la gran cantidad de datos requerida sin ser bloqueados o marcados? Aquí es donde entran en juego los proxies residenciales. Estos proxies enmascaran las actividades del rastreador y hacen que parezcan solicitudes genuinas de los usuarios. Al enrutar los procesos de extracción de datos a través de direcciones IP residenciales reales, estos proxies dan a los raspadores web un manto de legitimidad. Garantizan una ventaja en la recopilación de datos al proporcionar un acceso constante y sin ser detectado a una amplia gama de fuentes de datos.
La IA y el web scraping: una evolución recíproca
Sin embargo, la relación entre la IA y el web scraping es simbiótica. A medida que los espacios digitales se vuelven más complejos, las herramientas básicas de raspado pueden tener dificultades. Los algoritmos impulsados por la inteligencia artificial resuelven estos desafíos, identifican patrones y garantizan una extracción de datos eficiente.
Tokenización y alimentación de datos
Con una comprensión más clara de los tokens, es evidente por qué son fundamentales para los LLM. Las herramientas de extracción web deben garantizar que los modelos de IA puedan tokenizar y procesar de manera eficiente los datos que recuperan. El hecho de que un símbolo sea una palabra o un carácter puede influir en la forma en que se extrae y entiende la información.
Extracción de datos ética y responsable
A medida que el raspado web consolida su papel a la hora de proporcionar datos a la IA, el peso de la responsabilidad aumenta. Los raspadores no solo deben operar dentro de los límites legales y éticos, sino que también deben garantizar que los datos que extraen no generen sesgos en los modelos de IA. El desafío se agudiza si tenemos en cuenta las LLM: estos modelos, alimentados con enormes cantidades de datos, suelen desglosarlos y recrearlos de formas tan intrincadas que resulta casi imposible discernir el plagio.
Las ramificaciones legales ya están surgiendo, con varios casos judiciales que comienzan a analizar la delgada línea que los LLM trazan entre la inspiración y la imitación. Estén atentos al próximo artículo, en el que profundizaremos en el intrigante panorama legal que rodea a los LLM.
En conclusión
En la intrincada danza de la evolución de la IA, el web scraping se destaca como socio líder, ya que obtiene y entrega los datos que impulsan el motor de la IA. A medida que la IA siga superando los límites, la relación entre la extracción de datos y los modelos avanzados no hará más que fortalecerse y entrelazarse más.
Fuentes
1https://arxiv.org/abs/2203.15556
2https://www.mssqltips.com/sqlservertip/7786/large-language-models-train-ai-tools-chatgpt/