Por Alexandre Pegoraro (*)
A Ethical Web Data Collection Initiative (EWDCI), um consórcio internacional liderado pela indústria de coletores de dados da web focados em fortalecer a confiança do público, promover diretrizes éticas e ajudar as empresas a fazerem melhores escolhas, receberá até o dia 28 de abril comentários das partes interessadas sobre o documento Princípios EWDCI 1.0. O material foi elaborado para chegar a um acordo sobre os padrões da indústria coletivamente e, desta forma, construir a confiança do consumidor e a segurança da comunidade relacionados à prática da Web Scrapping, ou raspagem de dados.
A versão 1.0 do documento foi lançada em 28 de fevereiro de 2023, descrevendo os compromissos assumidos pelos fundadores da EWDCI. Com a coleta pública de opiniões o grupo espera gerar interesse ainda mais forte das partes interessadas por um esforço conjunto para cumprir os compromissos públicos prometidos. O documento de princípios se concentra em quatro áreas principais que são a Legalidade, a Ética, a Responsabilidade Social e o Engajamento do Ecossistema.
O site da entidade afirma que os comentaristas são livres e permitem aos participantes focarem sua atenção em uma ou mais áreas problemáticas em seus comentários. As contribuições devem ser enviadas para o email: ewdcicomments@i2coalition.com.
Tal movimento se faz necessário uma vez que a web scraping esteve recentemente no centro de algumas polêmicas com marcas globais que acabaram por trazer um certo desconforto sobre aspectos importantes relacionados a esta prática.
Em janeiro deste ano, por exemplo, a Meta apresentou uma queixa contra uma empresa chamada Voyager Labs. Sua argumentação foi a de que o software da companhia denunciada era alimentado por dados coletados indevidamente do Facebook e Instagram, além de outros sites como Twitter, YouTube e Telegram.
Antes disso, o caso mais conhecido era o do LinkedIn, que travou uma batalha com a startup hiQ, alegando que a empresa estava coletando dados do usuário de forma ilegal para abastecer seu software de recursos humanos. No final do processo, as partes chegaram a um acordo, em dezembro de 2022, com uma sentença de US$ 500 mil a ser paga pela hiQ,
Raspagem é diferente de Mineração de dados
Apesar de muitas vezes serem consideradas atividades semelhantes, raspagem de dados e mineração de dados não são a mesma coisa, embora possam ser complementares em algumas situações.
A web scrapping é a prática de extrair informações a partir de websites, geralmente com o objetivo de obter dados específicos de várias fontes na web. Enquanto isso, a mineração de dados é um processo analítico que visa descobrir padrões, tendências ou correlações em grandes conjuntos de dados. No caso da mineração, são envolvidas ferramentas como a aplicação de algoritmos e técnicas estatísticas para extrair informações relevantes e úteis a partir dos dados brutos.
Já em relação à confiabilidade dos métodos, ambos podem ser considerados confiáveis se executados corretamente e com base em fontes de dados apropriadas. No entanto, é importante destacar que a mineração de dados é focada na análise de grandes conjuntos de dados para extrair informações valiosas, enquanto a raspagem de dados tem como objetivo coletar esses dados brutos de fontes online.
Seja como for, iniciativas como a da EWDCI são fundamentais para aprofundar as melhores práticas da web scraping e permitir que ela avance como solução própria ou associada à mineração de dados para apoiar empresas dos mais diversos setores em tomadas de decisões estratégicas que tragam inovação e eficiência cada vez maiores ao ambiente corporativo, mas sem abandonar padrões éticos, legais e seguros.
(*) Alexandre Pegoraro é CEO do Kronoos