16 de fevereiro de 2023

5 Desafios para automação da coleta de dados em portais públicos

A imagem de um programador fazendo coleta de dados em portais públicos

Os portais públicos implementam diversas barreiras – como CAPTCHAs, bloqueios de IP e autenticação reforçada – para proteger dados e impedir acessos automatizados indesejados. Esses mecanismos não diferenciam entre robôs maliciosos, que visam práticas ilegais ou abusivas, e robôs legítimos, que realizam apenas a extração autorizada de informações públicas ou consentidas. Como resultado, mesmo ferramentas de automação éticas enfrentam os mesmos obstáculos e precisam de estratégias para contorná-los de forma responsável.

Por trás da automação, está o conceito de ETL (Extract, Transform, Load) – um processo estruturado que envolve extrair informações de portais, transformá-las em dados organizados e carregá-las para uso analítico. Para isso, é necessário desenvolver ou programar robôs capazes de acessar sites, preencher formulários, navegar entre páginas e estruturar resultados em formatos utilizáveis. No entanto, é nesse processo que os problemas surgem, como mudanças em códigos de páginas, CAPTCHAs e até a necessidade de autenticação.

Como desenvolver automações eficazes, evitando que sejam confundidas com acessos indevidos? Neste artigo, exploramos cinco desafios comuns da automação em portais públicos e apresentamos soluções práticas para superá-los. Continue a leitura e descubra como transformar obstáculos em oportunidades!

1. Diferentes estruturas

1. Diferentes Estruturas: Um Desafio Central na Automação

O primeiro grande desafio na automação da coleta de dados em portais públicos é lidar com as diferenças estruturais das páginas. Isso ocorre porque cada site possui um código HTML único, que precisa ser analisado detalhadamente para que os dados possam ser extraídos de maneira eficaz.

Análise de Estruturas HTML

Alguns sites apresentam códigos bem estruturados, com dados organizados e identificáveis por classes ou tags específicas. Nessas situações, a tarefa de desenvolver um robô para raspagem de dados é mais simples e rápida. No entanto, portais com códigos desorganizados ou pouco padronizados exigem um esforço adicional para localizar as informações relevantes.

Além disso, há diferenças significativas na forma de entrega dos dados. Alguns portais fornecem informações diretamente em tabelas visíveis no HTML, enquanto outros utilizam formatos mais complexos, como JavaScript para carregamento dinâmico ou APIs internas, o que demanda a utilização de ferramentas específicas, como Selenium ou bibliotecas avançadas como Scrapy e BeautifulSoup.

Exemplos Práticos de Complexidade

Portais Simples (Estrutura Clara):
Um exemplo são os sites com dados organizados em tabelas HTML, como portais de estatísticas públicas ou órgãos menores de transparência. A raspagem é facilitada quando o conteúdo é exibido diretamente no HTML, sem carregamento dinâmico.
Portais Intermediários (Carregamento Dinâmico):
Sites de tribunais e órgãos fiscais muitas vezes carregam dados dinamicamente usando AJAX ou JavaScript. Por exemplo, acessar processos no Tribunal de Justiça exige a programação de scripts que simulem cliques e interações humanas.
Portais Complexos (Múltiplos Obstáculos):
Alguns sites, como cartórios digitais ou Receita Federal, não apenas exigem autenticação, mas também aplicam mecanismos como CAPTCHAs e bloqueios de IP. Para esses casos, soluções avançadas com proxies rotativos e simulação de comportamento humano são necessárias.

Impacto das Mudanças Recorrentes nos Sites

Mesmo após uma implementação bem-sucedida da automação, mudanças nos sites podem interromper o funcionamento dos robôs. Isso acontece porque pequenas atualizações no código HTML ou no layout da página podem:

Quebrar o código: Tags, classes e estruturas que o robô usava como referência podem ser alteradas.
Gerar novos desafios: Sites podem implementar novas proteções, como CAPTCHAs ou políticas de acesso restrito.

Por exemplo, portais governamentais, como os de transparência, frequentemente sofrem atualizações de layout para atender às normas de acessibilidade ou para modernização da interface, o que pode interromper a automação temporariamente.

2. Servidores Proxy

Na automação da coleta de dados em portais públicos, o bloqueio de IP é uma das principais barreiras enfrentadas. Os bloqueios de IP são barreiras comuns aplicadas indiscriminadamente a todos os tipos de acessos automatizados. Isso inclui tanto robôs maliciosos, que buscam explorar falhas ou extrair dados ilegalmente, quanto robôs legítimos, que se limitam a informações públicas e consentidas. Para contornar essa limitação, utilizamos proxies rotativos e outras técnicas, garantindo que exista um acesso estável aos dados a que têm direito. É nesse cenário que os servidores proxy se tornam uma solução indispensável.

O Que São e Como Funcionam os Servidores Proxy?

Um servidor proxy atua como intermediário entre o seu dispositivo e o site que você deseja acessar. Em vez de acessar o portal diretamente com o seu IP real, o proxy faz a requisição usando um IP alternativo, mascarando sua identidade e evitando o bloqueio. Esse processo oferece duas vantagens essenciais:

Anonimização: O IP real é ocultado, dificultando a detecção da atividade automatizada.
Maior Volume de Coleta: A utilização de proxies possibilita um número elevado de requisições simultâneas com menor chance de bloqueios.

Benefícios dos Proxies em Cenários de Automação

Coleta Simultânea em Alta Escala: Proxies rotativos permitem que milhares de requisições sejam feitas simultaneamente sem sobrecarregar o sistema ou gerar bloqueios.
Acesso Geograficamente Distribuído: Alguns proxies possibilitam simular acessos de diferentes países ou regiões, essencial para portais com restrição geográfica.
Maior Eficiência: A coleta é otimizada, reduzindo o tempo necessário para a automação.

Exemplo Prático:
Para acessar dados fiscais distribuídos em portais estaduais (como as Secretarias da Fazenda), proxies garantem acesso estável, permitindo a coleta simultânea de diferentes regiões.

Proxies Rotativos

Os proxies rotativos são amplamente utilizados em projetos de raspagem de dados, especialmente em portais públicos com proteções mais severas. Eles funcionam da seguinte maneira:

A cada requisição feita ao site, um novo IP é utilizado.
Isso impede que o portal identifique um padrão repetitivo, minimizando as chances de bloqueio.

Exemplo

Imagine que você precisa coletar dados de 10 mil processos judiciais em um site de tribunais. Usando um único IP, após algumas centenas de acessos, seu endereço seria bloqueado. Com proxies rotativos, cada requisição vem de um IP diferente, permitindo coletas simultâneas e em grande escala sem interrupções.

Proxies Gratuitos vs. Pagos: Qual Escolher?

Existem dois tipos principais de proxies: gratuitos e pagos. A escolha depende do volume de dados a ser coletado, dos recursos disponíveis e do nível de confiabilidade desejado.

Por que investir em proxies pagos?

Os proxies pagos oferecem vantagens significativas, como estabilidade, velocidade e anonimato, fatores essenciais para a automação de grandes volumes de dados. Além disso, fornecedores profissionais geralmente disponibilizam proxies rotativos, possibilitando uma operação contínua e eficiente.

3. Captcha

Captcha é o acrônimo em inglês para “Completely Automated Public Turing test to tell Computers and Humans Apart”, ou – no bom português – Teste Turing público completamente automatizado para diferenciar computadores e humanos.

Assim como sugere o nome, tem o objetivo de identificar se a ação em um site está sendo realizada por uma pessoa ou um robô. Caso seja um robô, o acesso pode ser bloqueado. O uso de captcha é cada vez mais comum em sites para impedir atividades suspeitas e ameaças.

Porém, quando precisamos usar um robô para automatizar tarefas repetitivas, que seriam feitas manualmente, e facilitar o dia a dia da empresa, o captcha é um problema que precisa ser contornado.

Para isso, temos três opções:

Uso de Machine Learning: Modelos treinados podem reconhecer e resolver CAPTCHAs de texto ou imagem, embora essa abordagem exija recursos significativos para desenvolvimento e manutenção.
Personificação de Navegadores: Ferramentas como o Selenium permitem simular o comportamento humano na navegação, o que pode evitar a ativação de CAPTCHAs. No entanto, essa técnica pode não ser suficiente para CAPTCHAs mais avançados.
Serviços de Resolução de CAPTCHA: Empresas especializadas oferecem APIs que resolvem CAPTCHAs automaticamente, integrando-se aos sistemas de automação e garantindo maior eficiência.

Principais Tipos de CAPTCHA

CAPTCHA de Texto Distorcido: Apresenta palavras ou caracteres distorcidos que o usuário deve identificar e digitar corretamente.
CAPTCHA de Imagem: Solicita ao usuário que selecione imagens que correspondam a uma descrição específica, como identificar todas as fotos que contêm semáforos.
CAPTCHA Matemático: Propõe simples problemas matemáticos para serem resolvidos, como “Quanto é 3 + 5?”.
reCAPTCHA: Desenvolvido pelo Google, utiliza análises de comportamento e pode exigir interações como clicar em uma caixa de seleção (“Não sou um robô”) ou identificar elementos em imagens.

CAPTCHA em portais públicos

Portais públicos frequentemente utilizam CAPTCHAs para proteger dados sensíveis ou evitar atividades automatizadas excessivas. Alguns cenários comuns incluem:

Consulta de Processos Judiciais: Sites como os dos Tribunais de Justiça estaduais aplicam reCAPTCHAs ao realizar consultas processuais.
Consulta de Certidões: Portais de cartórios e serviços de registro aplicam CAPTCHAs matemáticos ou de imagem em buscas de certidões online.
Dados Fiscais: A Receita Federal e as Secretarias da Fazenda utilizam CAPTCHAs mais avançados para proteger informações sobre CNPJs e declarações.

4. Sistemas com autenticação

Em muitos casos, o acesso a determinadas informações públicas ou a dados cujo proprietário forneceu autorização requer etapas adicionais de autenticação, como login, uso de certificados digitais ou tokens temporários. Embora esses procedimentos busquem controlar o uso indevido de dados, eles não fazem distinção entre acessos legítimos e maliciosos.

As soluções precisam reproduzir fielmente o fluxo de autenticação, garantindo que apenas dados permitidos sejam coletados, mantendo total conformidade com as normas e protegendo o ambiente contra abusos.

Portais com Restrições e Métodos de Autenticação

Órgãos Fiscais:
Portais como os da Receita Federal ou Secretarias da Fazenda exigem autenticação avançada, incluindo:
- Certificados digitais (e-CNPJ ou e-CPF): Utilizados para validar a identidade do usuário ou empresa.
- Tokens temporários (2FA): Códigos gerados em aplicativos autenticadores, como Google Authenticator ou SMS.
Exemplo: A consulta de débitos fiscais ou emissão de certidões negativas no portal e-CAC (Centro Virtual de Atendimento da Receita Federal) demanda o uso de certificados digitais e autenticação em múltiplas etapas.
Sites Jurídicos:
Em sistemas como PJe (Processo Judicial Eletrônico) e e-SAJ, é necessário realizar autenticação por meio de login, senha e certificados digitais. O acesso a documentos e processos exige uma simulação exata do fluxo humano para não ser bloqueado.
Portais Cartoriais e Registros Públicos:
Em sites de cartórios digitais, a autenticação pode exigir tokens de acesso ou chaves criptografadas. A segurança nesses portais é elevada, dificultando acessos automatizados sem replicar as etapas de validação.

5. Retentativas

Mesmo após superar desafios como bloqueios de IP, CAPTCHAs e autenticação, podem ocorrer falhas durante o acesso ao site. Isso acontece quando:

O site está fora do ar: Problemas temporários no servidor podem impedir o carregamento.
Erro de timeout: O servidor leva mais tempo que o esperado para responder devido a sobrecarga ou lentidão.

Essas situações são comuns ao lidar com portais públicos, especialmente os que têm um grande volume de acessos ou infraestrutura limitada. Portanto, é essencial prever retentativas automáticas no código, permitindo que o robô tente novamente antes de desistir.

Estratégia de Retentativas: Como Definir o Melhor Fluxo

Quantidade de Tentativas Ideal:
Esse número deve equilibrar a insistência no acesso com a eficiência do processo. Pode-se iniciar avaliando um número de 3 a 5 tentativas. Nota: ferramentas de mercado, como o Plexi, podem ter maior número de retentativas por terem uma tecnologia mais robusta.
Intervalos Progressivos entre Tentativas:
Os intervalos entre as tentativas devem ser aumentados de forma progressiva, também conhecido como backoff progressivo. Por exemplo:
- 1ª tentativa: aguardar 10 segundos.
- 2ª tentativa: aguardar 20 segundos.
- 3ª tentativa: aguardar 40 segundos.
Esse modelo evita sobrecarregar o servidor e respeita eventuais limites impostos pelo site.

Prevendo Situações de Falha no Código

Além de definir o número de tentativas e os intervalos, é importante prever situações específicas no código, garantindo que a automação saiba como agir em diferentes cenários:

Site Fora do Ar:
Ao detectar que a página não está carregando, a automação deve registrar o erro e programar uma nova tentativa após um intervalo definido.
Erro de Timeout:
Caso o servidor leve tempo demais para responder, é necessário:
- Encerrar a tentativa atual.
- Registrar o erro para análise.
- Tentar novamente após o intervalo configurado.
Registro de Falhas:
Toda tentativa frustrada deve ser registrada em um log. Isso ajuda a monitorar os problemas enfrentados e permite ajustes futuros. Por exemplo:
- Quantos erros ocorreram?
- Quais sites apresentaram falhas frequentes?

Automatize com Eficiência e Simplicidade com o Plexi

A automação da coleta de dados em portais públicos apresenta desafios complexos: desde a diversidade estrutural dos sites até bloqueios de IP, CAPTCHAs e sistemas de autenticação restritos. Implementar soluções personalizadas para contornar esses obstáculos exige tempo, recursos financeiros e conhecimento técnico, além de um esforço contínuo de monitoramento e manutenção.

Com o Plexi, você não precisa se preocupar com nenhum desses desafios. Nossa solução automatiza a consulta de dados e certidões em mais de 100 portais públicos em segundos, permitindo que sua empresa acesse informações de forma rápida, precisa e sem interrupções.

Por que escolher o Plexi?

Automação Completa: Resolvemos problemas de proxies, CAPTCHAs, autenticação e retentativas automaticamente, garantindo um fluxo de dados contínuo e eficiente.
Produtividade e Eficiência: Reduza o tempo gasto em tarefas manuais e repetitivas, liberando sua equipe para atividades estratégicas e estimulantes.
Previsibilidade de Custos: Com um modelo de valores mensais fixos, você evita gastos variáveis com ferramentas externas, infraestrutura e manutenção ou desenvolvimento de robôs.
Manutenção e Evolução Constantes: Não se preocupe em priorizar a manutenção internamente vs. implementar melhorias na sua empresa, nós cuidamos da manutenção e otimização do sistema, sempre buscando adicionar novas fontes e funcionalidades para atender às necessidades do mercado.

Tudo isso é oferecido por meio de um portal intuitivo ou integração via API, com um tempo médio de obtenção das informações em apenas 20 segundos.

O Plexi é uma ferramenta SaaS que pode ser acessada de forma online em qualquer lugar, com implementação facilitada, eliminando a necessidade de instalação local e complicações de aplicações que rodam em máquina.

Fale agora com nossos especialistas e descubra como o Plexi pode simplificar sua rotina na Gestão de Riscos e impulsionar seus resultados.

FAQ

1. Quais são os principais desafios na automação da coleta de dados em portais públicos?
Os principais desafios incluem:

Diferenças nas estruturas dos sites: Cada portal tem um HTML único, o que exige scripts personalizados.
Bloqueio de IP: Sites podem identificar acessos automatizados e bloquear o IP do usuário.
CAPTCHAs: Mecanismos de segurança que dificultam ações automatizadas.
Sistemas de autenticação: Áreas restritas exigem login, tokens ou certificados digitais.
Falhas de acesso: Problemas como sites fora do ar ou timeouts exigem retentativas automáticas.

As proteções adotadas pelos portais públicos visam coibir atividades maliciosas, mas acabam impactando também as iniciativas legítimas que coletam dados públicos ou autorizados.

2. Como o Plexi resolve os problemas de bloqueio de IP e CAPTCHAs?
O Plexi utiliza tecnologias avançadas que automatizam o processo de coleta sem a necessidade de proxies ou resolução manual de CAPTCHAs. Sua infraestrutura já contempla soluções robustas que garantem o acesso contínuo aos portais, mesmo em cenários com bloqueios ou mecanismos de proteção avançados.

3. Por que as mudanças frequentes nos sites impactam a automação?
Pequenas alterações no código HTML, layout ou políticas de segurança de um site podem quebrar os scripts de automação existentes. Isso exige um monitoramento contínuo e ajustes rápidos no código para que o processo de coleta continue funcionando corretamente.

4. Quais são os benefícios de usar o Plexi ao invés de desenvolver uma solução interna?
O Plexi oferece:

Automação completa: Sem preocupações com proxies, CAPTCHAs ou sistemas de autenticação.
Previsibilidade de custos: Modelo mensal sem gastos extras com ferramentas, pessoal técnico ou desenvolvimento.
Manutenção contínua: O Plexi cuida das atualizações e do monitoramento dos portais.
Eficiência e rapidez: A coleta é feita em segundos, otimizando a produtividade da equipe.