Header Ads

Microsoft pode estar all-in na computação em nuvem, mas a confiabilidade do Azure está ficando para trás na competição

Em um mercado cada vez mais competitivo para computação em nuvem, a confiabilidade é importante, e a Microsoft tem um trabalho a fazer.

Dados compilados pela Gartner e pela Krystallize Technologies mostram uma diferença notável entre O Microsoft Azure e os outros dois grandes provedores de nuvem ao analisar o tempo de atividade na nuvem na América do Norte durante 2018. Segundo o Gartner, no ano passado a Amazon Web Services e o Google tinham estatísticas quase idênticas de tempo de atividade para as máquinas virtuais no coração dos serviços em nuvem - 99,9987 por cento e 99,9982 por cento, respectivamente - enquanto o Azure perdia por um valor pequeno, mas significativo, em 99,9792 por cento. “O Azure teve tempo de inatividade significativo, não apenas em 2018, mas mesmo os três primeiros meses de 2019 não foram bons para a Microsoft ”, disse Raj Bala, um analista da Gartner que compilou os dados.

Como a Microsoft corteja desenvolvedores esta semana na Build com uma série de novos serviços, também está fazendo vem fazendo mudanças nos bastidores para melhorar Azu re confiabilidade, disse Mark Russinovich, Microsoft Azure CTO, em uma entrevista esta semana com GeekWire. Ele planeja mostrar algumas dessas melhorias durante sua palestra anual de arquitetura do Azure na quarta-feira, mas também defendeu o histórico da empresa ao lidar com interrupções planejadas e não planejadas para o serviço na nuvem.

“Investimos uma tonelada. em capacidades que nos permitem fazer manutenção com pouco ou nenhum impacto nos clientes ”, disse Russinovich.

No entanto, isso não ajudou na semana passada, quando uma migração rotineira do DNS foi desordenada, desconectando os serviços do Azure dos clientes e causando uma grande interrupção que durou várias horas e tirou serviços essenciais da Microsoft, como o Office 365 e o Xbox Live, bem como sites como o que você está visitando no momento.

De acordo com uma análise de causa raiz divulgada pela Microsoft no início desta semana, esse problema foi causado por dois erros separados, e se um desses erros aconteceu sozinho, não estamos tendo essa discussão. Como resultado, a Microsoft está colocando procedimentos e salvaguardas adicionais em prática, na esperança de evitar que isso aconteça novamente no futuro, disse Russinovich.

"Quando você faz milhares destes e tudo vai bem, você está tipo, o processo funciona ”, disse ele. “Obviamente, algo assim nos mostra que há uma lacuna e estamos diminuindo essa lacuna.”

Houve dois grandes eventos não planejados que abalaram os serviços de nuvem da Microsoft na América do Norte durante 2018. < A descoberta dos bugs do chip Meltdown e Spectre em 2017 forçou todos os provedores de nuvem a atualizar seus serviços em janeiro de 2018 com mitigações de software que isolaram os clientes da nuvem desses bugs, mas a Microsoft precisou reinicializar os servidores de todos para colocar essas alterações em vigor. isso leva tempo. E em setembro de 2018, uma queda de um centro de dados em sua região do centro-sul dos EUA causou a falha de alguns sistemas de resfriamento, danificando servidores e derrubando alguns serviços por mais de 24 horas, enquanto engenheiros trabalhavam para preservar os dados dos clientes e substituir os sistemas danificados.

Nos meses seguintes ao ciclo de reinicialização do Specter, a Microsoft começou a implantar novos recursos de migração ao vivo que permitem a atualização de servidores que executam cargas de trabalho de clientes com pouca ou nenhuma interrupção. No início deste ano, a empresa começou a lançar esses recursos em toda a sua rede de data centers, e agora eles estão operando praticamente em todos os lugares, disse Russinovich.

Mas a AWS e o Google também precisavam atualizar seus servidores para adicionar os patches para o Specter e o Meltdown, e não parece ter um impacto tão grande no tempo de atividade do serviço. O Google gosta de divulgar seus recursos de migração ao vivo que podem atualizar servidores sem interromper as cargas de trabalho dos clientes, enquanto a AWS fala muito menos sobre as tecnologias que usa para executar seu serviço em nuvem, que é muito importante para o líder de mercado. A Microsoft também está usando a tecnologia de aprendizado de máquina para fazer análises preditivas em seu hardware de data center, disse Russinovich, na esperança de sinalizar componentes que estão prestes a falhar ou apresentar desempenho abaixo dos dados históricos de desempenho. Na quarta-feira, Russinovich planeja exibir o Projeto Tardigrade, um novo serviço do Azure com o nome dos animais microscópicos quase indestrutíveis, também conhecidos como ursos aquáticos. Esse esforço detectará falhas de hardware ou vazamentos de memória que podem levar a falhas no sistema operacional pouco antes de ocorrerem e congelar máquinas virtuais por alguns segundos, para que as cargas de trabalho possam ser movidas para um novo servidor.

A empresa também continua a implementar zonas de disponibilidade em suas regiões de computação em nuvem em todo o mundo. Executivos de nuvem da Microsoft raramente perdem uma oportunidade de apontar que eles têm a maioria das regiões do mundo, mas somente no ano passado a Microsoft começou a construir zonas de disponibilidade - instalações separadas em uma região com fornecimento independente de energia e resfriamento - que ajudar a garantir a disponibilidade no caso de um problema em um prédio em uma região.

A Microsoft lançou suas primeiras zonas de disponibilidade em março de 2018 em seus data centers em Iowa e Paris e desde rolou-os para várias outras regiões nos EUA, Europa e Ásia. Os provedores de nuvem se referem a regiões e zonas de maneira um pouco diferente, mas a AWS e o Google Cloud têm muito mais zonas de disponibilidade funcionando há vários anos.

Operar serviços de computação em nuvem em escala é realmente uma das coisas mais incríveis os seres humanos conseguiram; a complexidade envolvida é difícil de apreciar sem uma quantidade razoável de conhecimento sobre como esses sistemas funcionam. E mesmo que a Microsoft fique atrás da AWS e do Google em pontuações de confiabilidade, a menos que sua empresa seja abençoada com talentos de operações de classe mundial, a Microsoft provavelmente ainda é melhor operando centros de dados do que a maioria das empresas gerenciando seus próprios servidores. O controle excessivo de seus aplicativos comerciais mais importantes para um provedor terceirizado ainda requer um salto de fé. Como as empresas de nuvem lutam com unhas e dentes pela próxima geração de grandes clientes corporativos, considerando uma mudança para a nuvem, os números de tempo de atividade serão cada vez mais importantes.

Via: Geek Wire

Nenhum comentário