Back to Blog

Ready for a free 2 GB trial?

Book a call with one of our Data Nerds to unlock a super-sized free trial.

START TRIAL

Captura de dados na web na era da IA: alimentando a fera do aprendizado de máquina

Jason Grad
Proxy Network Manager
November 29, 2023

Na corrida para desenvolver os modelos de IA mais adequados, um fator sempre surge como crítico: os dados. Grandes modelos de linguagem (LLMs) destacam isso, consumindo grandes volumes de tokens para treinamento. À medida que esses modelos de IA crescem em complexidade e capacidade, o web scraping, muitas vezes facilitado por proxies residenciais, se torna uma ferramenta instrumental, garantindo acesso aos extensos e variados conjuntos de dados que eles exigem.

Tokens: os blocos de construção básicos

Antes de se aprofundar, é fundamental entender o que é um token. Em LLMs, os tokens podem representar várias unidades linguísticas, desde caracteres individuais até palavras inteiras. Pense nos tokens como peças únicas de um quebra-cabeça; cada um contém informações específicas e, quando se juntam, formam uma imagem coerente ou, no caso da IA, uma compreensão abrangente da linguagem. Dependendo da abordagem, uma frase como “A captura na Web é essencial” pode ser dividida em cinco símbolos (cada palavra como um símbolo) ou mais se a pontuação e as subcadeias menores forem consideradas separadamente.

Apetites vorazes de dados de LLMs

O artigo intitulado”Treinamento de modelos de grandes linguagens otimizados para computação” explora o tamanho ideal do modelo e o número de tokens necessários para treinar um modelo de linguagem de transformador. Os pesquisadores treinaram mais de 400 modelos de linguagem com parâmetros que variam de 70 milhões a mais de 16 bilhões e usando de 5 a 500 bilhões de tokens.1. Eles descobriram que, para um treinamento com computação otimizada, o tamanho do modelo e o número de tokens de treinamento devem ser dimensionados igualmente. Em outras palavras, para cada duplicação do tamanho do modelo, o número de fichas de treinamento também deve ser dobrado.

Os LLMs ressaltam a crescente fome por dados em IA. O modelo da OpenAI de 2020, treinado em 300 bilhões de tokens, tinha 175 bilhões de parâmetros. O que implicava 1,7 tokens por parâmetro2. Em 2022, a investigação da DeepMind sobre a proporção ideal de parâmetros favorece mais tokens e menos parâmetros com uma proporção de 20 tokens por parâmetro. Um modelo com 70 bilhões de parâmetros e 1,4 trilhão de tokens superou o modelo de 175 bilhões de parâmetros da OpenAI e exigiu menos ajustes e menores custos de inferência.1 Esses números enfatizam a profundidade e a amplitude dos dados que o treinamento moderno de IA exige.

O papel da captura de dados na web

Aqui, o web scraping ocupa o centro das atenções. Ela atua como uma mineradora digital, vasculhando o vasto cenário da Internet, de sites de comércio eletrônico a fóruns, para extrair dados valiosos. A diversidade é fundamental. Para um treinamento abrangente, os modelos exigem um amplo espectro de informações, tornando o papel da web scraping ainda mais crucial.

O papel dos proxies residenciais na captura de dados na web

Mas como os web scrapers acessam a infinidade necessária de dados sem serem bloqueados ou sinalizados? É aqui que entram os proxies residenciais. Esses proxies mascaram as atividades do raspador, fazendo com que apareçam como solicitações genuínas do usuário. Ao rotear os processos de extração de dados por meio de endereços IP residenciais reais, esses proxies conferem aos web scrapers um manto de legitimidade. Eles garantem uma vantagem na coleta de dados, fornecendo acesso estável e não detectado a uma ampla variedade de fontes de dados.

IA e captura de dados na web: uma evolução recíproca

Mas a relação entre IA e web scraping é simbiótica. À medida que os espaços digitais se tornam mais complexos, as ferramentas básicas de raspagem podem ter dificuldades. Algoritmos orientados por IA enfrentam esses desafios, identificando padrões e garantindo uma extração eficiente de dados.

Tokenização e alimentação de dados

Com uma compreensão mais clara dos tokens, fica evidente por que eles são fundamentais para os LLMs. As ferramentas de web scraping devem garantir que os dados recuperados possam ser tokenizados e processados com eficiência por modelos de IA. O fato de um token ser uma palavra ou um personagem pode influenciar a forma como as informações são extraídas e compreendidas.

Extração de dados ética e responsável

À medida que a web scraping solidifica seu papel no fornecimento de dados para a IA, o peso da responsabilidade aumenta. Os raspadores não só precisam operar dentro de limites legais e éticos, mas também precisam garantir que os dados que extraem não imprimam preconceitos nos modelos de IA. O desafio se aprofunda quando se considera LLMs: esses modelos, alimentados com grandes quantidades de dados, geralmente os decompõem e os recriam de maneiras tão complexas que discernir o plágio se torna quase impossível.

As ramificações legais já estão surgindo, com vários processos judiciais começando a examinar a linha tênue que os LLMs trilham entre inspiração e imitação. Fique ligado no próximo artigo, no qual nos aprofundaremos no intrigante cenário jurídico que envolve os LLMs.

Em conclusão

Na intrincada dança da evolução da IA, o web scraping se destaca como um parceiro líder, fornecendo e fornecendo os dados que alimentam o motor da IA. À medida que a IA continua ultrapassando limites, a relação entre extração de dados e modelos avançados só se fortalecerá e se tornará mais interligada.


Fontes

1https://arxiv.org/abs/2203.15556
2https://www.mssqltips.com/sqlservertip/7786/large-language-models-train-ai-tools-chatgpt/

Read More