Personalizar write-back de arquivo no HPC Cache do Azure

Os usuários do HPC Cache podem solicitar que o cache escreva arquivos individuais específicos no armazenamento de back-end sob demanda usando o utilitário flush_file.py. Esse utilitário é um pacote de software baixado separadamente que você instala e usa em computadores cliente Linux.

Esse recurso foi projetado para situações em que você deseja que as alterações nos arquivos armazenados em cache sejam disponibilizadas o mais rápido possível para sistemas que não montam o cache.

Por exemplo, você pode usar o HPC Cache do Azure para dimensionar seus trabalhos de computação na nuvem, mas armazenar seu conjunto de dados permanentemente em um data center local. Se as tarefas de computação ocorrerem no data center que dependem das alterações criadas com o HPC Cache do Azure, você poderá usar esse utilitário para transferir a saída ou as alterações geradas por uma tarefa em nuvem de volta para o armazenamento NAS local. Isso permite que os novos arquivos sejam usados quase imediatamente por recursos de computação locais.

Escolher entre write-back personalizado e liberação

Você pode forçar os dados a serem gravados novamente com a opção "liberação de destino de armazenamento" interna no Azure HPC Cache, mas essa abordagem pode não estar certa para todas as situações.

Gravar todos os arquivos modificados de volta no sistema de armazenamento pode levar vários minutos ou até horas, dependendo da quantidade de dados e da velocidade do link de rede de volta para o sistema local. Além disso, você não pode escolher apenas os arquivos com os quais terminou a gravação; os arquivos que ainda estão sendo modificados ativamente serão incluídos neste cálculo.
O cache pode bloquear o processamento de algumas solicitações desse destino de armazenamento durante o processo de limpeza. Isso pode atrasar o processamento se houver outros clientes de computação usando arquivos que residem no mesmo destino de armazenamento.
Acionar essa ação requer o acesso de colaborador ao Azure Resource Manager, que os usuários finais talvez não possuam.

Por exemplo, você pode ter vários trabalhos de computação paralelos (mas não sobrepostos) que consomem dados que residem no mesmo destino de armazenamento do HPC Cache. Assim que um trabalho é concluído, você deve imediatamente escrever a saída desse trabalho do cache para o armazenamento de longo prazo no backend.

Você tem três opções:

Aguarde até que os arquivos armazenados em cache sejam gravados automaticamente a partir do cache, mas os arquivos podem permanecer no cache por mais de uma hora antes de serem completamente retornados. O tempo depende do atraso de write-back do modelo de uso do cache, juntamente com outros fatores, como o desempenho do link de rede e o tamanho dos arquivos. ( Leia Noções básicas sobre modelos de uso de cache para saber mais sobre atraso de write-back.)
Libere imediatamente os arquivos armazenados em cache para todo o destino de armazenamento , mas isso interromperia outros trabalhos de computação que também estão usando os dados desse destino de armazenamento.
Use esse utilitário de write-back personalizado para enviar uma solicitação NFS especial para o cache para gravar somente os arquivos específicos desejados. Esse cenário não interrompe o acesso a outros clientes e pode ser disparado a qualquer momento na tarefa de computação.

Sobre a função de write-back

O utilitário de write-back tem um script que você pode usar para especificar arquivos individuais que serão gravados do cache para o sistema de armazenamento de longo prazo.

O script utiliza um fluxo de entrada de dados dos arquivos a serem gravados, além do caminho do namespace de cache para o destino de exportação no armazenamento, e um endereço IP de montagem do Cache HPC.

O script usa uma chamada "commit" NFSv3 com argumentos especiais habilitados. O cliente comum nfs do Linux não pode passar esses argumentos adequadamente, portanto, o utilitário flush_file.py usa um emulador de cliente NFS em uma biblioteca Python para se comunicar com o serviço NFS do HPC Cache. A biblioteca inclui tudo o que é necessário, o que supera quaisquer limitações que possam existir no cliente NFS baseado no kernel do Linux do cliente de computação.

Para usar esse recurso, você precisa fazer o seguinte:

Instale a hpc-cache-nfsv3-client biblioteca do repositório gitHub Microsoft HPC-Cache-NFSv3-client em https://github.com/microsoft/hpc-cache-nfsv3-client. em um ou mais clientes computacionais. As informações e as instruções de pré-requisito são incluídas no arquivo README do repositório.
Use o script "flush_file.py" incluído para instruir o cache a gravar os arquivos exatos necessários no sistema de armazenamento de longo prazo.

Saiba mais sobre como instalar e usar o script flush_file.py no repositório GitHub.

Last updated on 2022-07-07

Personalizar write-back de arquivo no HPC Cache do Azure

Escolher entre write-back personalizado e liberação

Sobre a função de write-back

Recursos adicionais