O que é extração de dados e por que é uma ameaça?
fizkes / Shutterstock. com
A extração de dados é outra forma de extrair dados de seu site, portal ou plataforma. Surpreendentemente, a legalidade da extração de dados é uma área cinzenta. Veja como se defender disso.
O que são Data Scraping e Web Scraping?
A extração de dados e a extração da web são duas técnicas automatizadas diferentes que têm o mesmo objetivo. Eles coletam dados de sistemas de terceiros. Eles extraem os dados, os agrupam e os armazenam de maneiras que facilitam sua reutilização. Normalmente, isso significa colocá-lo em um banco de dados ou em um formato portátil como CSV.
A coleta de dados usa APIs fornecidas pela plataforma que está sendo removida, embora os termos de uso da API quase certamente proíbam a coleta de dados em massa.
Web scraping funciona fazendo solicitações para páginas da web da mesma forma que um navegador da web faz. Mas, em vez de exibir a página da web, o software extrai os dados de seu interesse, os salva e solicita outra página. Os termos e condições da maioria dos sites e certamente todas as plataformas de mídia social proíbem dados e web scraping. Apesar disso, os números de usuários associados a plataformas de mídia social os tornam alvos atraentes para scrapers.
A extração pode ser realizada por cibercriminosos que desejam coletar credenciais de login, detalhes de pagamento ou informações de identificação pessoal. Ele também pode ser usado por motivos legítimos, como agregar notícias, monitorar seus revendedores para ver se eles não quebram acordos de preços ou para análise de mercado. Ele também é usado para coletar inteligência de negócios, localizar leads de vendas e apoiar o marketing e a publicidade.
RELACIONADO: Como se defender contra ataques de API
Grandes números – Scraping and Cybercrime
Em 2020, o número de registros pessoais retirados do YouTube foi de 4 milhões. O número do TikTok foi dez vezes maior, de 42 milhões. Naquele mesmo ano, 191 milhões de registros pessoais foram retirados do Instagram. Todas essas plataformas proíbem a extração de dados.
Publicidade
Em abril de 2021, o LinkedIn chegou às manchetes quando um banco de dados de 500 milhões de registros pessoais foi colocado à venda na dark web. A Microsoft, dona do LinkedIn, disse que não houve violação de segurança. O banco de dados foi resultado de coleta de dados.
O banco de dados continha cada membro afetado &’ s:
- Nome real
- Sexo
- URLs de perfil do LinkedIn
- Endereços de e-mail registrados
- Números fixos e de smartphone
- Endereços físicos
- Detalhes de geolocalização
- nomes de usuário para outras contas de mídia social
Em junho de 2021, um banco de dados de 700 milhões de registros pessoais apareceu. Isso é mais de 90 por cento dos membros do LinkedIn. Junto com os 200 milhões de registros extras, o segundo banco de dados é cruzado com dados extraídos de outras fontes, fornecendo uma imagem mais detalhada dos indivíduos afetados.
Criado por cibercriminosos para cibercriminosos, o banco de dados pode ser comprado — por US $ 5.000 no momento da redação — em mercados e fóruns da dark web. As informações nele contidas serão usadas para crimes como ataques de phishing, ataques de spear-phishing, ataques de engenharia social e outras fraudes financeiras.
RELACIONADO: Como impedir que ladrões de identidade abram contas em seu nome
Sucateamento comercial também é problemático
E quanto à web comercial e à coleta de dados que ocorre? Existem empresas com as quais você pode se envolver e que coletarão dados para você. Você pode usar kits de ferramentas de análise de dados, como a biblioteca Beautiful Soup Python, disponível gratuitamente, para criar seus próprios aplicativos de web scraping.
O problema é que você quase certamente ainda está violando as regras da plataforma que está violando. E as plataformas vão tentar se defender. Se não o fizerem, seus membros, clientes ou outros usuários estão sujeitos a deixar sua plataforma.
Publicidade
Quando opta por fornecer dados pessoais a um serviço online, está a confiar os seus dados a essa organização. Você não está dando permissão a ninguém para vir e coletar esses dados e usá-los como quiserem. Quando as organizações coletam seus dados, você não sabe quem são, o que farão com os dados, como os protegerão e protegerão, nem quem os compartilharão com.
O LinkedIn levou a hiQ Labs Inc. ao tribunal por causa de seus dados e web scraping. Em sua defesa, a hiQ alegou que os dados que eles extraíam do LinkedIn eram de domínio público e isso significava que estavam disponíveis para serem adquiridos. Em 2019, o 9º Tribunal de Recursos do Circuito dos Estados Unidos decidiu a favor da hiQ ’. Mas em 14 de junho de 2021, a Suprema Corte anulou a decisão do Nono Circuito. Em julho de 2021, a extração de dados e a extração da web para fins não criminais estavam em uma área legal cinzenta.
E as coisas ficam mais complicadas quando você considera a legislação de dados que se aplica aos membros da plataforma. Por exemplo, estejam os dados de um cidadão da UE em domínio público ou não, você não pode coletá-los, armazená-los e processá-los digitalmente sem base legal — conforme definido pelo GDPR — para fazer isso. Além disso, há uma diferença entre visível publicamente e em domínio público.
No GDPR, existem apenas duas bases legais que podem ser aplicadas à coleta de dados. Um é “ consentimento ” e o outro é “ interesse legítimo. ” Obviamente, o consentimento não foi dado pelos indivíduos, de modo que está fora de questão. E seria extremamente difícil argumentar que você tem um interesse legítimo em copiar os dados que não atropele os interesses legítimos dos titulares dos dados e seus direitos e liberdades de privacidade de dados. O GDPR exige que você proteja esses direitos e liberdades e não os atropele.
O GDPR protege os direitos de privacidade de dados dos cidadãos da UE, independentemente de onde o processamento ocorre. Uma organização nos EUA que coleta dados de outra organização sediada nos EUA ainda deve cumprir o GDPR se houver informações de identificação pessoal de cidadãos da UE nos dados que estão sendo coletados.
A legislação de proteção de dados de outras regiões adota a mesma postura, com algumas pequenas variações. A legalidade da raspagem é tênue, para dizer o mínimo. É provável que vejamos desafios mais formais.
RELACIONADO: como as violações e vazamentos de dados podem afetar seus funcionários
Como proteger sua organização
Existem etapas e medidas que você implementa para dificultar a vida dos raspadores de dados.
Termos de Uso e Condições
Embora os Termos e Condições e os Termos de Uso não façam nada para impedir os cibercriminosos e nem mesmo parem os “ legítimos ” coleta, ainda faz sentido proibir explicitamente a coleta, processamento, armazenamento ou compartilhamento de quaisquer dados, incluindo, mas não se limitando a dados de identificação pessoal.
Isso pode impedir algumas pessoas de se intrometerem. Se isso acontecer, foi uma vitória fácil. Mesmo que isso não aconteça, ele lhe dará uma vantagem legal se as questões precisarem ser resolvidas no tribunal.
Desativar hotlinking
A exibição de imagens e outras mídias em um site com um link de volta ao site original é chamada de hotlinking. Ele usa a largura de banda do site original e outros recursos para servir a mídia.
Web scraping geralmente recupera imagens diretamente e, portanto, desabilitar hotlinking não afetará suas atividades de scraping. Mas, se ocorrer qualquer raspagem que dependa do hotlinking, pelo menos evita que o insulto seja adicionado à lesão. Eles não aumentarão a largura de banda quando seus dados roubados estiverem sendo visualizados.
Use tokens CSRF
Os sistemas automatizados que fazem a coleta fazem solicitações HTTPS sucessivas ao seu site. Eles rastejam de página em página, seguindo links. Eles também criam URLs para experimentar. Se eles encontrarem um padrão — como URLs que diferem em um único dígito — o software abre seu caminho através das combinações previsíveis até que a sequência falhe.
Publicidade
A introdução de tokens Cross-Site Request Forgery em seu site pode enganar todos, exceto o software de scraping mais inteligente. Um token CSRF é um identificador exclusivo enviado do servidor da web para o cliente que faz a solicitação. Em circunstâncias normais, seria um navegador.
O cliente deve enviar o token CSRF de volta ao servidor quando fizer sua próxima solicitação. O servidor não responderá a nenhuma solicitação que não inclua o token CSRF correto. A maioria dos softwares de web scraping não consegue lidar com tokens CSRF, então esta é uma medida eficaz para limitar sua exposição.
Solicitações de página com limite de taxa
A limitação de taxa define os limites do número de solicitações que podem ser feitas de um cliente em um determinado período de tempo. Normalmente, isso é feito por endereço IP, com restrições de quantas solicitações de página ou downloads podem ser feitos por segundo.
Use um software anti-raspagem dedicado
Estão disponíveis pacotes comerciais que detectam a atividade de scraping e a bloqueiam. Eles usam técnicas que vão muito além da simples identificação de um cliente por seu endereço IP. Eles usam técnicas de aprendizado de máquina para identificar a atividade do bot, medindo ações como a velocidade com que o cliente pode preencher os campos e formulários, a maneira como o mouse se move pela página e a maneira como o cliente se move pelo site. Qualquer atividade não humana é bloqueada.
Requer interação humana
Forçar os clientes a criar uma conta e usar CAPTCHA ou outros testes de desafio-resposta pode ajudar a rejeitar raspadores automáticos.
Torne suas APIs bem definidas
Proteja suas APIs e limite seus recursos para que retornem a quantidade mínima de dados para atender à chamada de API que estão atendendo.
Publicidade
É atraente para os desenvolvedores fornecer APIs ricas em dados e fornecer mais do que fornecer menos. Isso coloca a responsabilidade do cliente em analisar as informações que deseja e rejeitar o resto. Isso reduz a chance de o retrabalho ser necessário porque a API não forneceu uma informação específica. Mas essa verbosidade afeta os raspadores &’ mãos.
Em vez disso, torne suas APIs simples e médias. Forneça o que foi pedido e nada mais. Você também pode avaliar clientes de API limitados.
Use links chamariz
Links ocultos em uma página da web serão invisíveis para usuários genuínos, mas o software de web scraping encontrará e seguirá todos os links. Se um cliente segue um link oculto, provavelmente é um processo automatizado. você pode então bloqueá-los.
O tempo dirá
Os cibercriminosos, por definição, não se importam com a lei. As operações comerciais não têm escolha. Se o caso hiQ v. LinkedIn estabelecer um precedente legal e considerar que o scraping é uma violação da Lei de Fraude e Abuso de Computador, isso afetará apenas a execução de “ comercial ” raspagem. A coleta de dados por cibercriminosos continuará.
Portanto, seja qual for o resultado, você ainda precisará proteger sua organização.
Nenhum comentário