LLMs no Azure com residência de dados no Brasil: opções e trade-offs

LLMs no Azure com residência de dados no Brasil: opções e trade-offs
Com a entrada em vigor da LGPD e o aumento das exigências de compliance em setores regulados, a pergunta "onde os meus dados são processados?" passou a ser tão importante quanto "qual modelo eu uso?". Ao contratar um LLM via Microsoft Foundry, a resposta depende diretamente do tipo de deployment escolhido, e nem sempre o dado fica onde você imagina.
Este artigo reúne as opções disponíveis para clientes que precisam processar dados com LLMs no Azure, com foco especial em residência de dados no Brasil. Vamos cobrir cinco caminhos possíveis:

1. Pay-as-You-Go com deployment Regional diretamente nas regiões do Azure no Brasil

2. PTU (Provisioned Throughput Units), capacidade reservada e dedicada

3. Llama 3.3 70B via Microsoft Foundry (modelo direto do Azure)

4. Managed Compute, compute gerenciado do Azure ML para inferência5. IaaS e PaaS no Azure, VM com GPU ou Azure Container Apps com GPU serverless

Para cada opção, vamos detalhar como funciona, o que verificar antes de contratar e onde encontrar a documentação oficial.

Nota: as informações de disponibilidade, preços e configurações apresentadas neste artigo refletem o estado da documentação pública na data de escrita. A oferta do Azure evolui continuamente; modelos, regiões e tipos de deployment são adicionados e alterados com frequência. Sempre valide as informações diretamente no portal do Microsoft Foundry (https://ai.azure.com) e na documentação oficial antes de tomar qualquer decisão de contratação.

Pay-as-You-Go com deployment Regional no Brasil

O que é o deployment Regional
O deployment do tipo Regional Standard é a forma mais direta de fazer com que os prompts e as respostas da inferência sejam processados dentro da região Azure contratada. O Azure disponibiliza regiões no Brasil. No deployment Regional, o processamento da inferência ocorre na região selecionada, diferente do Global Standard (que roteia chamadas para a infraestrutura global da Microsoft) e do Data Zone (que pode transitar dentro de uma zona geográfica maior). Vale considerar que componentes adjacentes, como logs, telemetria e storage, podem ter seu próprio escopo de residência dependendo de como a solução for arquitetada.

Isso o torna a primeira opção a avaliar para clientes com requisitos de residência de dados no Brasil, especialmente em cenários regulados por LGPD, BACEN ou normas setoriais de saúde e telecomunicações.

Como verificar a disponibilidade
Antes de qualquer contratação, é obrigatório verificar se o modelo desejado está disponível via Regional Standard nas regiões do Azure no Brasil. Nem todo modelo está disponível em todas as regiões e tipos de deployment.

Acesse o Microsoft Foundry com uma assinatura Azure ativa.
Navegue até Operate > Quota para visualizar os modelos disponíveis na sua região.
Alternativamente, acesse Discover > Models, selecione o modelo desejado e verifique os tipos de deployment listados no model card.
Filtre pela região desejada no Brasil e confirme que o tipo Regional (ou Regional Standard) está listado.

Atenção: a disponibilidade varia por modelo, versão e assinatura. Um modelo disponível via Regional em East US pode não estar disponível via Regional nas regiões no Brasil. Sempre valide a combinação modelo + versão + tipo de deployment + região antes de avançar.

Como contratar

No portal Microsoft Foundry, acesse o projeto desejado ou crie um novo.
Vá em Build > Deployments e clique em + Deploy model.
Selecione o modelo e a versão desejados.
No campo Deployment type, selecione Regional Standard.
Confirme que a região exibida é uma das regiões do Azure no Brasil.
Configure os limites de tokens por minuto (TPM) e finalize o deployment.
Use o endpoint gerado nas chamadas da sua aplicação.

Com o Regional Standard, você paga por token consumido (Pay-as-You-Go), sem reserva de capacidade. É o modelo mais indicado para workloads variáveis com requisito de residência de dados.

PTU (Provisioned Throughput Units) no Microsoft Foundry

O que é PTU?
O PTU (Provisioned Throughput Unit) é uma unidade de capacidade de processamento de modelos de IA pré-alocada e dedicada ao seu ambiente no Azure. Diferente do Pay-as-You-Go, onde você paga por token consumido e compartilha infraestrutura com outros clientes, no PTU você reserva uma quantidade fixa de capacidade e paga por hora, independentemente do volume usado.

Vantagens

Custo previsível: cobrança horária fixa, sem variação por volume de tokens.
Performance garantida: latência máxima e throughput estáveis para workloads com tráfego constante.
Desconto significativo: reservas anuais oferecem descontos expressivos frente ao Pay-as-You-Go em cargas de trabalho intensas.
Capacidade dedicada: não há concorrência com outros clientes pelo mesmo recurso.
Quota model-independent: os PTUs podem ser usados para qualquer modelo suportado na região, sem necessidade de recompra ao trocar de modelo.

Observações importantes

Capacidade não garantida pela quota: ter quota de PTUs não garante que haverá capacidade disponível para criar o deployment, isso é verificado somente no momento do deploy.
Mínimo de contratação elevado: dependendo da região e tipo de deployment, o mínimo pode ser 15 ou 25 PTUs, com incrementos em blocos fixos.
Reserva não cancela deployment: ao deletar um deployment, a reserva continua sendo cobrada até ser cancelada separadamente no portal Azure.
Não recomendado para cargas variáveis: para tráfego muito irregular, o Pay-as-You-Go pode ser mais econômico.

Mínimos por região e tipo de deployment (GPT-4.1-mini)
Os valores abaixo são exemplos consultados na data de escrita deste artigo e podem variar por modelo, versão, região e oferta. Valide sempre na documentação oficial ou no portal antes de contratar.

Global Provisioned: mínimo 15 PTUs, incrementos de 5 PTUs.
Data Zone Provisioned: mínimo 15 PTUs, incrementos de 5 PTUs.
Regional Provisioned: mínimo 25 PTUs, incrementos de 25 PTUs.

Consideração para Regional Deployment no Brasil
A disponibilidade de cada modelo por tipo de deployment e região depende da combinação específica de modelo + versão + região + assinatura + capacidade disponível no momento.

Para o GPT-4.1-mini, a documentação pública lista suporte a Global Provisioned, Data Zone Provisioned e Regional Provisioned, mas a disponibilidade real de cada tipo nas regiões do Azure no Brasil deve ser validada diretamente no portal do Microsoft Foundry em Operate > Quota, antes de assumir qualquer disponibilidade.

Para clientes com requisitos de processamento de inferência exclusivamente no Brasil, as alternativas são:

Verificar se o Regional Provisioned está disponível para o modelo e versão desejados nas regiões no Brasil, sendo o portal a fonte mais confiável para essa validação.
Utilizar o Global Provisioned caso o Regional não esteja disponível, tendo ciência de que o processamento pode ocorrer em infraestrutura global da Microsoft.
Avaliar as opções descritas nas próximas seções.

Antes de contratar qualquer PTU, é obrigatório verificar a combinação modelo + tipo de deployment + região, pois nem toda combinação é suportada!

Como contratar

Acesse o Microsoft Foundry e navegue até Operate > Quota.
Confirme que há PTUs disponíveis na região desejada para o modelo e tipo de deployment escolhidos.
Caso não haja quota suficiente, solicite aqui.
Com quota disponível, vá em Build > Deployments > + Deploy model.
Selecione o modelo e o tipo de deployment PTU desejado.
Configure o número de PTUs e confirme.

Exemplo de cálculo, GPT-4.1-mini (East US, Regional Deployment)

Valores aproximados com base em estimativas de referência. Consulte a Azure Pricing Calculator para valores atualizados!

Premissas:

Chamadas por minuto: 42
Tokens de entrada por chamada: 5.000- Tokens de saída por chamada: 1.000
Operação: 24/7 (43.200 min/mês)
Total de chamadas/mês: 1.814.400

Comparativo Pay-as-You-Go vs PTU (reserva anual):

Pay-as-You-Go, Input: 9.072.000K tokens × $0,00044/1K = USD 3.991,68
Pay-as-You-Go, Output: 1.814.400K tokens × $0,00176/1K = USD 3.193,34
Pay-as-You-Go total: ~USD 7.185/mês-
PTU (reserva anual): 25 unidades × USD 243,00 = USD 6.075/mês
Economia estimada: ~USD 1.110/mês (~USD 13.320/ano)

Obs.: as 42 chamadas por minuto levam a um consumo de 25 PTUs, que é o mínimo para Regional Deployment do GPT-4.1-mini. Se o consumo fosse menor, o Pay-as-You-Go poderia ser mais econômico. O PTU é vantajoso quando a capacidade reservada é efetivamente utilizada de forma contínua.

Obs. 2: o dimensionamento de PTU é feito por chamadas por minuto e vazão de tokens, e não pelo número total de registros a processar. Um volume de 400.000 registros, por exemplo, precisa ser convertido em taxa de chamadas/minuto e tokens médios por chamada para determinar o número correto de PTUs.

Llama 3.3 70B via Microsoft Foundry
O modelo disponível no catálogo do Microsoft Foundry é o Llama-3.3-70B-Instruct, da Meta. Esse modelo é categorizado como "Direct from Azure": vendido, hospedado e suportado diretamente pela Microsoft, com billing via Azure meters e sujeito às políticas enterprise do Azure, da mesma forma que os modelos Azure OpenAI.

Tipos de deployment disponíveis
Segundo a documentação pública de modelos vendidos diretamente pelo Azure (consultada na data de escrita), o Llama-3.3-70B-Instruct está documentado com os seguintes tipos de deployment:

Global Standard: Pay-as-You-Go por token, disponível em todas as regiões. O processamento da inferência ocorre em infraestrutura global da Microsoft.
Global Provisioned: PTU, disponível em todas as regiões (mínimo 100 PTUs). O processamento da inferência ocorre em infraestrutura global da Microsoft.
Regional Provisioned: não documentado para este modelo na data de escrita.

Consideração para o Brasil
Os tipos de deployment disponíveis para o Llama 3.3 70B, Global Standard e Global Provisioned, processam as requisições em infraestrutura global da Microsoft, com dados podendo transitar por diferentes regiões. O Regional Provisioned, que garantiria processamento exclusivo dentro das regiões do Azure no Brasil, não está documentado para esse modelo no momento.

Isso significa que, para clientes com requisitos de residência de dados exclusivamente no Brasil, o Llama 3.3 70B via Microsoft Foundry não atende esse requisito atualmente.

As alternativas são:

Aguardar a disponibilização do Regional Provisioned para esse modelo nas regiões do Azure no Brasil.
Avaliar uma solução self-hosted dentro do ambiente Azure Brasil do cliente.

Managed Compute no Microsoft Foundry

O Managed Compute é uma opção de deployment do Azure ML / Microsoft Foundry em que os modelos são implantados em infraestrutura de compute gerenciada pela plataforma, dentro do escopo da sua assinatura Azure.

Diferente de uma VM tradicional (IaaS), o compute é gerenciado, você não administra o sistema operacional nem os drivers. Esse compute expõe uma REST API para inferência, e a cobrança é feita pelos core hours de compute consumidos pelos deployments, ou seja, você paga pela infraestrutura provisionada, independentemente do volume de tokens processados.

Esse modelo de deployment se apoia nas capacidades do Azure Machine Learning para suportar o ciclo completo de GenAIOps/LLMOps, incluindo fine-tuning, avaliação e monitoramento.

Quando usar
O Managed Compute é indicado para cenários que exigem:

Controle total sobre a infraestrutura de inferência.
Fine-tuning do modelo com dados próprios.
Requisitos específicos de rede (VNet, private endpoints).
Uso de modelos que não estão disponíveis via Global Standard ou PTU.

Para a maioria dos casos de uso baseados em volume de tokens com modelos disponíveis via Global Standard ou PTU, como o Llama 3.3 70B, o Managed Compute tende a ser mais caro e mais complexo de operar. Os outros modelos de contratação devem ser avaliados primeiro.

Modelos disponíveis
O catálogo do Microsoft Foundry possui centenas modelos. Especialmente os modelos da Hugging Face, suportam Managed Compute para inferência em tempo real.

Para modelos de parceiros e comunidade, o próprio provider define se o modelo pode ser implantado via Managed Compute ou somente via Serverless.

A disponibilidade deve ser verificada diretamente no model card de cada modelo no portal do Foundry, e assim como mencionado nas seções anteriores, é obrigatório verificar a combinação modelo + tipo de deployment + região antes de qualquer contratação.

Como contratar

Acesse o Microsoft Foundry com uma assinatura Azure com método de pagamento válido.
Vá em Discover > Models e selecione o modelo desejado.
No model card, verifique os deployment options disponíveis.
Selecione Deploy e siga o fluxo de configuração do Managed Compute.
O pricing information é exibido antes da confirmação do deploy. Para modelos de parceiros e comunidade, pode ser necessário aceitar termos via Azure Marketplace.
Acompanhe os custos via Monitor tab no modelo e pelo Azure Cost Management.

IaaS no Azure, VM com GPU

Conforme discutido nas seções anteriores, quando o processamento da inferência precisa ocorrer exclusivamente nas regiões do Azure no Brasil e os deployments gerenciados não atendem esse requisito, uma alternativa é hospedar o modelo em infraestrutura própria dentro do Azure Brasil.

Esta seção cobre a opção IaaS (máquina virtual gerenciada pelo cliente), enquanto a próxima seção cobre a opção PaaS gerenciada (Azure Container Apps com GPU serverless).

Importante: as informações desta seção são um levantamento inicial. Para uma decisão de arquitetura e contratação, seria necessário um estudo mais aprofundado contemplando: arquitetura detalhada da solução, análise de custos com base no volume real de uso, avaliação de SLA e disponibilidade por região, requisitos de segurança e rede, e modelo operacional (quem gerencia, monitora e mantém a infraestrutura).

VM com GPU (Azure Virtual Machine)
Nessa opção, o modelo é hospedado em uma Azure Virtual Machine com GPU, em infraestrutura dedicada administrada pelo cliente. As famílias de GPU disponíveis, para esse caso, são NC, ND, NG e NV.

Antes de contratar, é necessário validar a combinação família de GPU + região + assinatura. Vamos usar o Azure CLI para isso:

az vm list-skus --location brazilsouth --resource-type virtualMachines --output table | grep -i "^Standard_N"

Esse comando lista todas as SKUs de VMs com GPU disponíveis nas regiões do Azure no Brasil para a sua assinatura. A disponibilidade varia por região e por assinatura, nem toda família estará disponível em todas as contas.

Pontos relevantes dessa opção:

Controle total do ambiente: configuração do SO, drivers, container runtime e stack de inferência (como Ollama com llama2:70b).
Gestão operacional alta: patching, monitoramento e escalabilidade ficam sob responsabilidade do time.
Faturamento por hora de VM: o custo é fixo pela instância provisionada, independentemente do uso.
Sem scale-to-zero: a VM continua sendo cobrada mesmo sem requisições.- Suporte a reservas anuais: Azure Reserved VM Instances com planos de 1 ou 3 anos podem oferecer descontos significativos para workloads de demanda previsível e contínua.

PaaS gerenciado no Azure, GPU serverless no Azure Container Apps

Esta seção cobre uma alternativa gerenciada de plataforma para hospedar modelos open source no Azure. Diferente da VM com GPU, aqui você não gerencia o sistema operacional nem a infraestrutura, você leva seu container e o runtime do modelo (como Ollama), e o Azure cuida do restante.

Nessa opção, o modelo roda em GPU serverless no Azure Container Apps, sem necessidade de manter uma VM dedicada. O Azure documenta suporte a NVIDIA A100 e NVIDIA T4, com scale-to-zero, faturamento por segundo e menor sobrecarga operacional.

A documentação oficial indica que as regiões do Azure no Brasil suportam GPU serverless com A100 e T4 (consulte sempre a disponibilidade atual antes de contratar). Essa é uma opção forte para manter o runtime e o processamento da inferência no Brasil, desde que os demais componentes da arquitetura, como storage, logs e integrações, também estejam configurados no escopo correto.
Pontos relevantes dessa opção:

Plataforma gerenciada: sem necessidade de gerenciar SO, drivers ou infraestrutura de container, você leva apenas o container com o runtime do modelo.
Faturamento por segundo de GPU usada: você paga apenas pelo tempo de processamento efetivo.
Scale-to-zero: sem requisições, sem custo de GPU.- Disponibilidade nas regiões do Azure no Brasil: A100 e T4 documentados para as regiões no Brasil na data de escrita, valide a disponibilidade atual antes de contratar.
Quota necessária: o recurso exige quota de GPU serverless, que pode já estar habilitada por padrão em assinaturas Pay-as-You-Go ou Enterprise Agreement.

Conclusão

Para clientes com exigência de compliance, não basta escolher “Brasil” no Azure é essencial confirmar como cada tipo de deployment processa a inferência.

O primeiro caminho deve ser sempre verificar se o modelo e a versão estão disponíveis em Regional Standard nas regiões do Azure no Brasil; se estiverem, essa costuma ser a opção mais simples para manter o processamento na região escolhida. Quando isso não for possível, entram alternativas como Global Standard ou PTU Global Provisioned, que podem atender tecnicamente, mas não garantem processamento exclusivamente no Brasil.

Se houver necessidade de fine-tuning, maior controle de rede ou uso de modelos fora das opções padrão, vale avaliar Managed Compute, entendendo que ainda é uma oferta gerenciada da plataforma. Já para cenários em que a inferência precisa obrigatoriamente ocorrer somente no Azure Brasil, e as opções gerenciadas não atendem, o caminho passa por infraestrutura hospedada no país, como VM com GPU ou Azure Container Apps com GPU serverless, conforme o nível de controle e esforço operacional desejado. Em todos os casos, a regra final é a mesma: validar no portal do Microsoft Foundry a combinação exata de modelo, versão, deployment e região antes de contratar.