Como o Archivarix funciona?

Postado por: 2019-12-03

O sistema Archivarix foi projetado para baixar e restaurar sites que não são mais acessíveis no Web Archive e aqueles que estão atualmente online. Essa é a principal diferença do restante dos "downloaders" e "site parsers". O objetivo do Archivarix não é apenas fazer o download, mas também restaurar o site de uma forma que seja acessível no seu servidor.

Vamos começar com o módulo que baixa sites da Web Archive. Estes são servidores virtuais localizados na Califórnia. Sua localização foi escolhida de forma a obter a velocidade máxima de conexão possível com o próprio Web Archive, porque seus servidores estão localizados em São Francisco. Depois de inserir dados no campo apropriado na página do módulo https://pt.archivarix.com/restore/, a captura de tela do site arquivado e endereça a API de arquivamento da Web para solicitar uma lista de arquivos contidos na data de recuperação especificada .

Após receber uma resposta à solicitação, o sistema gera uma mensagem com a análise dos dados recebidos. O usuário só precisa pressionar o botão de confirmação na mensagem recebida para iniciar o download do site.

O uso da API de arquivamento da Web oferece duas vantagens sobre o download direto quando o script simplesmente segue os links do site. Primeiro, todos os arquivos dessa recuperação são imediatamente conhecidos; você pode estimar o volume do site e o tempo necessário para fazer o download. Devido à natureza da operação de arquivamento da Web, algumas vezes funciona muito instável, de modo que são possíveis quebras de conexão ou download incompleto de arquivos; portanto, o algoritmo do módulo verifica constantemente a integridade dos arquivos recebidos e, nesses casos, tenta baixar o conteúdo reconectando-se a o servidor de arquivamento da Web. Segundo, devido às peculiaridades da indexação de sites pelo Web Archive, nem todos os arquivos de sites podem ter links diretos, o que significa que quando você tenta baixar um site simplesmente seguindo os links, eles ficam indisponíveis. Portanto, a restauração por meio da API de arquivamento da Web usada pelo Archivarix possibilita restaurar a quantidade máxima possível de conteúdo arquivado do site por uma data especificada.

Após a conclusão da operação, o módulo de download do Web Archive transfere dados para o módulo de processamento. Ele forma um site a partir dos arquivos recebidos adequados para instalação no servidor Apache ou Nginx. A operação do site é baseada no banco de dados SQLite, portanto, para começar, basta carregá-lo no servidor e não é necessário instalar módulos adicionais, bancos de dados MySQL e criação de usuários. O módulo de processamento otimiza o site criado; inclui otimização de imagem, além de compactação CSS e JS. Isso pode aumentar significativamente a velocidade de download do site restaurado, se comparado ao site original. A velocidade de download de alguns sites Wordpress não otimizados com vários plugins e arquivos de mídia não compactados pode ser significativamente aumentada após o processamento por este módulo. É óbvio que, se o site foi otimizado inicialmente, isso não dará um grande aumento na velocidade de download.

O módulo de processamento remove publicidade, contadores e análises, verificando os arquivos recebidos em um extenso banco de dados de fornecedores de publicidade e análise. A remoção de links externos e contatos clicáveis ​​ocorre simplesmente por código de soma de verificação. Em geral, esse algoritmo realiza uma limpeza bastante eficiente do site de “vestígios do proprietário anterior”, embora às vezes isso não exclua a necessidade de corrigir algo manualmente. Por exemplo, um script Java auto-escrito que redireciona o usuário do site para um determinado site de monetização não será excluído pelo algoritmo. Às vezes, você precisa adicionar fotos ausentes ou remover resíduos desnecessários, como um livro de visitas com spam. Portanto, é necessário contratar um editor do site resultante. E isso já existe. Seu nome é Archivarix CMS.

Este é um CMS simples e compacto projetado para editar sites criados pelo sistema Archivarix. Permite pesquisar e substituir código em todo o site usando expressões regulares, editando o conteúdo no editor WYSIWYG, adicionando novas páginas e arquivos. O Archivarix CMS pode ser usado junto com qualquer outro CMS em um site.

Agora vamos falar sobre outro módulo usado para baixar sites existentes. Ao contrário do módulo para baixar sites do Web Archive, é impossível prever quantos e quais arquivos você precisa baixar, para que os servidores do módulo funcionem de uma maneira completamente diferente. O Server spider simplesmente segue todos os links presentes em um site que você irá baixar. Para que o script não caia no ciclo de download interminável de qualquer página gerada automaticamente, a profundidade máxima do link é limitada a dez cliques. E o número máximo de arquivos que podem ser baixados do site deve ser especificado com antecedência.

Para o download mais completo do conteúdo que você precisa, existem vários recursos que foram inventados neste módulo. Você pode selecionar uma aranha de serviço de agente de usuário diferente, por exemplo, Chrome Desktop ou Googlebot. Referenciador para desvio de camuflagem - se você precisar fazer o download exato do que o usuário vê ao fazer login na pesquisa, poderá instalar um referenciador do Google, Yandex ou outro site. Para se proteger contra o banimento por IP, você pode optar por baixar o site usando a rede Tor, enquanto o IP do serviço da aranha muda aleatoriamente nessa rede. Outros parâmetros, como otimização de imagens, remoção de anúncios e análises, são semelhantes aos parâmetros do módulo de download do Web Archive.

Após a conclusão do download, o conteúdo é transferido para o módulo de processamento. Seus princípios de operação são completamente semelhantes aos da operação com o site baixado do Web Archive descrito acima.

Também vale mencionar a possibilidade de clonar sites restaurados ou baixados. Às vezes acontece que durante a recuperação, um escolheu outros parâmetros que, no final, eram necessários. Por exemplo, a remoção de links externos era desnecessária e, para alguns links externos, você não precisava iniciar o download novamente. Você só precisa definir novos parâmetros na página de recuperação e começar a recriar o site.

 

O uso de materiais de artigo é permitido apenas se o link para a fonte for publicado: https://pt.archivarix.com/blog/how-does-it-works/

Últimas notícias:
2020.02.14
Nova sexta-feira, novas atualizações!
Muito novo e útil foi feito no Archivarix CMS:
- Em Pesquisar e substituir, agora você pode filtrar por data do URL.
- Agora, os links externos de todas as páginas do site podem ser removidos com o clique de um botão. As âncoras são preservadas.
- Um novo parâmetro ACMS_SAFE_MODE, que proíbe alterar as configurações do Loader / CMS e carregar arquivos personalizados, também é proibido para importações importar configurações e arquivos personalizados.
- Configurações do carregador e CMS Os arquivos JSON agora podem ser baixados no seu computador e baixados no CMS a partir de um arquivo no seu computador. Assim, a transferência de configurações para outros sites se tornou ainda mais fácil.
- A criação de regras personalizadas tornou-se mais conveniente; existem padrões frequentemente usados que você pode escolher.
- Novos arquivos personalizados podem ser criados no gerenciador de arquivos sem precisar fazer o download do arquivo.
- A árvore de URL do domínio principal sempre vem em primeiro lugar.
- Se você ocultar a árvore de URL do domínio / subdomínio, essa configuração será salva ao trabalhar com o CMS.
- Em vez de dois botões, abra / reduza a árvore de URL, agora uma que pode fazer as duas coisas.
- A criação de um novo URL foi simplificada e, ao criar, você pode especificar imediatamente o arquivo no computador.
- No layout móvel, a parte principal de trabalho vem em primeiro lugar.
- Após cada manipulação do arquivo, seu tamanho é atualizado no banco de dados.
- Botões fixos para reversões seletivas do histórico.
- Corrigida a criação de novos URLs para subdomínios que contêm números no nome do domínio.
2020.02.07
Nova parte de atualizações!
Não há necessidade de alterar nada no código fonte dos arquivos agora.
- Agora você pode fazer upload de sites para o servidor, enviando para o servidor apenas um script do nosso Archivarix CMS.
- Para alterar algo nas configurações do CMS, você não precisa mais abrir seu código-fonte. Você pode definir uma senha ou limites inferiores diretamente na seção Configurações.
- Para conectar seus contadores, rastreadores, scripts personalizados, uma pasta "inclui" separada agora é usada dentro da pasta .content.xxxxxx. Você também pode fazer upload de arquivos personalizados diretamente através do novo gerenciador de arquivos no CMS. A adição de contadores e análises a todas as páginas do site também se tornou conveniente e compreensível.
- As importações suportam uma nova estrutura de arquivos com configurações e a pasta "inclui".
- Adicionado atalhos de teclado para trabalhar no editor de código.

Essas e muitas outras melhorias na nova versão. O carregador também foi atualizado e funciona com as configurações criadas pelo CMS.
2020.01.23
Mais uma mega atualização do Archivarix CMS!

Adicionadas ferramentas muito úteis que permitem o clique de um botão:
- limpe todos os links internos quebrados,
- excluir imagens ausentes,
- defina rel = "nofollow" para todos os links externos.

Agora, recuperação adicional pode ser importada diretamente do próprio CMS. Você pode combinar recuperação diferente em um site de trabalho.

Para aqueles que trabalham com sites grandes ou usam uma hospedagem ruim - todas as ações que anteriormente poderiam parar no tempo limite da sua hospedagem agora serão divididas em partes e continuarão automaticamente até serem concluídas. Deseja fazer uma substituição no código de 500 mil arquivos? Importar recuperação de vários gigabytes? Tudo isso agora é possível em qualquer hospedagem, mesmo que muito barata. O tempo limite (por padrão, 30 segundos) pode ser alterado no parâmetro ACMS_TIMEOUT.

Nosso carregador (index.php) agora funciona nos protocolos http e https, independentemente dos parâmetros de construção. Você pode forçar o protocolo alterando o valor do parâmetro ARCHIVARIX_PROTOCOL.
2020.01.07
A próxima atualização do Archivarix CMS com a adição de novas funcionalidades. Agora, qualquer site antigo pode ser convertido corretamente em UTF-8 com o clique de um botão. A filtragem de pesquisa se tornou ainda melhor, porque Agora os resultados podem ser filtrados por tipo MIME.
2019.12.20
Lançamos a tão esperada atualização do Archivarix CMS. Na nova versão, além de várias melhorias e otimizações, foi adicionado um recurso muito útil para filtragem adicional dos resultados da pesquisa e suporte completo à estrutura em árvore dos URLs para recuperações com um grande número de arquivos. Mais detalhes podem ser encontrados no log de alterações no script Archivarix CMS .