Build, Buy, Hybrid - infraestrutura de IA
em conformidade regulatória
A infraestrutura de IA cresce mais rápido do que as estruturas de governança que a controlam.
Segundo a HashiCorp (2024), 82% das empresas operam ambientes multi-cloud - mas apenas 31% possuem uma estratégia centralizada de governança. O resultado: Shadow AI. Departamentos utilizam APIs de LLM externas sem aprovação. Equipes de Data Science implantam modelos em endpoints não controlados.
O Stanford HAI AI Index Report (2025) documenta: os investimentos em infraestrutura de IA crescem 29% ao ano, mas os orçamentos de governança crescem apenas 8%. Essa disparidade gera dívida técnica.
| Nível | Responsabilidade | Quem |
|---|---|---|
| Governança de Arquitetura | Padrões, modelos e APIs aprovados | CTO + Enterprise Architecture |
| Governança de Operações | SLAs, monitoramento, resposta a incidentes, gestão de custos | Infrastructure + DevOps |
| Governança de Compliance | EU AI Act, PL 2338/2023, LGPD, trilha de auditoria, residência de dados | CTO + CISO + Jurídico |
| Governança de Custos | Orçamentação, chargeback, detecção de desperdício | FinOps + CTO |
| Governança de Segurança | Zero Trust, criptografia, gestão de acesso | CISO + Plataforma |
Antes de colocar o primeiro agente de IA em produção:
Segundo a Flexera (2024), as empresas desperdiçam em média 28% dos seus gastos em nuvem. Em workloads de IA com instâncias GPU, a taxa de desperdício é ainda maior.
Cada componente da infraestrutura de IA exige uma decisão fundamental: construir internamente, comprar ou combinar.
| Critério | Build | Buy | Hybrid |
|---|---|---|---|
| Controle | Total | Limitado | Diferenciado |
| Residência de Dados | Garantida | Dependente do contrato | Controlável |
| Time-to-Value | 3 a 6 meses | 1 a 4 semanas | 4 a 8 semanas |
| Custos operacionais | Fixos + pessoal | Variável (Pay-per-Use) | Misto |
| Vendor Lock-in | Nenhum | Alto | Médio |
| Workload | Recomendação | Justificativa |
|---|---|---|
| LLM Inference (padrão) | Buy | Custo-benefício com volume variável |
| LLM Inference (sensível) | Build | Os dados não podem sair do território nacional ou da UE |
| Agent Orchestration | Hybrid | Framework self-hosted, chamadas de LLM roteadas |
| Document Intelligence | Build | Documentos contêm dados pessoais (PII) |
| Vector Database | Hybrid | Gerenciado para dados não sensíveis, self-hosted para PII |
| Monitoramento | Buy | Ferramentas especializadas com região local ou UE |
Hardware GPU: NVIDIA H100: 25.000 a 40.000 USD por placa. Cluster de produção: mínimo de 4 a 8 placas.
Pessoal: Engenheiros de MLOps, engenheiros de plataforma, especialistas em segurança. 40% das empresas não possuem as competências necessárias (Gartner 2024).
Manutenção: Atualizações de modelos, patches de segurança, upgrades de infraestrutura. Contínuo.
Residência de dados: Onde os prompts são processados? Eles são usados para treinamento?
Vendor Lock-in: APIs proprietárias, formatos de embedding. Migração custa de 3 a 6 meses.
Disponibilidade: 12 horas de downtime por trimestre em média (Stanford HAI 2025).
Para a maioria dos cenários enterprise, recomenda-se uma abordagem híbrida: Model Gateway como controle central (self-hosted), roteamento por sensibilidade, estratégia de fallback em caso de falha do provedor, otimização de custos por roteamento inteligente de modelos.
O que juristas interpretam como obrigações de compliance são, para o CTO, requisitos de infraestrutura.
A partir de agosto de 2026, seis requisitos obrigatórios entram em vigor no EU AI Act (sujeito ao Digital Omnibus Package - possível adiamento para dezembro de 2027). No Brasil, o PL 2338/2023 estabelece obrigações semelhantes de transparência, supervisão humana e gestão de riscos para sistemas de IA de alto risco:
| Requisito | Art. | Medida de infraestrutura |
|---|---|---|
| Gestão de riscos | 9 | Confidence Routing, Circuit Breaker, Canary Deployments |
| Governança de dados | 10 | Data Lineage, Immutable Storage, Data Catalog |
| Obrigações de registro | 12 | Structured Logging, Retenção 10+ anos, Tamper-Proof |
| Transparência | 13 | Observability Stack, Decision Explanation API, Model Cards |
| Supervisão humana | 14 | HITL Gateway (arquitetônico), Kill Switch < 1s, Portal de Auditoria |
| Precisão/Robustez | 15 | Benchmark Pipeline, Adversarial Testing, Redundância multi-região |
Confidence Routing: Cada saída de agente recebe um valor de confiança. Abaixo do limite: escalação. Circuit Breaker: Desativação automática em caso de anomalias. Canary Deployments: Novas versões de modelo implantadas gradualmente, rollback automático em caso de degradação.
Structured Logging: Cada chamada de API, cada decisão de agente, cada intervenção HITL. Retenção: Vida útil do sistema + 10 anos (Art. 19). Tamper-Proof: Logs append-only em armazenamento imutável.
HITL Gateway: Aprovação humana forçada arquitetonicamente. Sem bypass. Kill Switch: Desativação imediata, latência < 1 segundo. Portal de Auditoria: Dashboard somente leitura para auditores de compliance.
Sanções (EU AI Act): Até 15 milhões de EUR ou 3% do faturamento anual global. PL 2338/2023 (Brasil): Sanções administrativas proporcionais, incluindo multas e suspensão do sistema.
40% dos incidentes de segurança em ambientes de nuvem são causados por configuração incorreta - não por ataques (ENISA 2024).
| Pilar | Requisito | Implementação |
|---|---|---|
| Residência de Dados | Todo processamento em data centers nacionais ou da UE | Modelos self-hosted ou região local/UE no provedor |
| Criptografia | Em repouso, em trânsito, em uso | AES-256, TLS 1.3, mTLS, Confidential Computing |
| Zero Trust | Nenhuma confiança implícita | Identity-Based Access, Least Privilege, Micro-Segmentation |
| Supply Chain | Origem de modelo e software verificada | Model Provenance, SBOM, Container Scanning, Signed Artifacts |
| Componente | Requisito de residência | Implementação |
|---|---|---|
| LLM Inference | Prompts não podem sair do território | Self-hosted ou região local/UE no provedor |
| Vector Database | Embeddings contêm conhecimento codificado | Região local/UE ou self-hosted |
| Logging | Logs contêm dados pessoais (PII) | Armazenamento local/UE com política WORM |
| Backups | Mesmas regras dos dados de produção | Região local/UE, criptografado |
| Cenário | Risco | Medida |
|---|---|---|
| PII em prompts | Art. 7 LGPD - Base legal | Remoção de PII antes da chamada de API |
| Dados de clientes em RAG | Art. 6 LGPD - Finalidade | Controle de acesso no nível do documento |
| Logs com dados de usuários | Art. 18 LGPD - Direito de eliminação | Pseudonimização + política de retenção |
| Embeddings com PII | Art. 20 LGPD - Decisões automatizadas | Documentação de transparência |
Frameworks de agentes são construídos para experimentos, não para produção. Agentes enterprise precisam de: permissões definidas, trilhas de auditoria, rollback, controle de custos.
| Componente | Função | Tecnologia |
|---|---|---|
| Orchestrator | Workflow, roteamento de tarefas, paralelização | Temporal, Prefect, Custom |
| Permission Layer | Permissões de agentes para ferramentas/APIs | OPA, Cedar |
| State Management | Contexto, memória, progresso de tarefas | Redis, PostgreSQL |
| Observability | Traces, consumo de tokens, latência | OpenTelemetry, Langfuse |
Resultado: MTTR em falhas de agentes -70%. Custos de API descontrolados -40 a 60% (projetos Gosign).
80% dos dados empresariais são não estruturados (IDC 2024). Um pipeline de Document Intelligence classifica, extrai e vetoriza documentos automaticamente.
| Etapa | Função | Tecnologia |
|---|---|---|
| Ingestão | Leitura de PDF, Word, digitalização, e-mail | Tika, Unstructured.io |
| OCR | Conversão de digitalizações em texto | Tesseract, PaddleOCR |
| Classificação | Reconhecimento do tipo de documento | Fine-tuned Classifier |
| Extração | Extração de dados estruturados | LLM + Schema Validation |
| Embedding | Vetorização de documentos | Sentence Transformers |
| Armazenamento | Vetores + metadados | pgvector, Qdrant |
Resultado: Precisão de classificação de 92 a 97%. Processamento manual reduzido em 60 a 80%.
Camada central entre aplicações e provedores de LLM. Roteamento, detecção de PII, Rate Limiting, Caching, Fallback, Logging.
| Tipo de requisição | Roteamento | Justificativa |
|---|---|---|
| Contém PII | Modelo self-hosted | Os dados permanecem no território |
| Classificação padrão | Modelo mais econômico | Otimização de custos |
| Análise complexa | Modelo mais potente | Qualidade priorizada |
| Provedor A indisponível | Provedor B | Disponibilidade |
Resultado: Custos de LLM -30 a 50% por roteamento e caching. Compliance através de triagem centralizada de PII.
Sistemas de IA falham silenciosamente. Um LLM com respostas ruins não gera erro.
| Camada | O que é medido | Ferramentas |
|---|---|---|
| Infraestrutura | CPU, GPU, memória, rede | Prometheus, Grafana |
| Aplicação | Latência, taxa de erros, throughput | OpenTelemetry, Jaeger |
| Modelo | Confiança, tokens, alucinação | Langfuse, WhyLabs |
| Negócio | Taxa de zero-touch, escalação | Dashboards personalizados |
| Custos | Custos de API por equipe/projeto | Infracost, Custom |
| Compliance | Completude de auditoria, taxa de HITL | Custom + SIEM |
Resultado: Problemas de qualidade detectados 4x mais rápido. Duração de impacto de incidentes -65% (Gartner 2024).
10 perguntas para o CTO. Avalie cada uma com 0 (não), 1 (parcialmente) ou 2 (sim).
| # | Pergunta | 0 | 1 | 2 |
|---|---|---|---|---|
| 1 | Inventário completo de todos os sistemas e APIs de IA (incluindo Shadow AI). | ☐ | ☐ | ☐ |
| 2 | Arquitetura de referência aprovada para workloads de IA com padrões definidos. | ☐ | ☐ | ☐ |
| 3 | Todo processamento de dados de IA comprovadamente em data centers nacionais ou da UE. | ☐ | ☐ | ☐ |
| 4 | Model Gateway com triagem de PII e logging centralizado. | ☐ | ☐ | ☐ |
| 5 | Structured Logging para cada chamada de API e cada decisão de agente. | ☐ | ☐ | ☐ |
| 6 | Kill Switch para agentes individuais e sistema de IA completo (< 1s). | ☐ | ☐ | ☐ |
| 7 | Custos de GPU/API rastreados por equipe, projeto e caso de uso. | ☐ | ☐ | ☐ |
| 8 | Avaliação automática de benchmark e adversarial antes do deployment. | ☐ | ☐ | ☐ |
| 9 | Estratégia de backup e DR específica para infraestrutura de IA. | ☐ | ☐ | ☐ |
| 10 | Todos os 6 requisitos do EU AI Act (Art. 9-15) e PL 2338/2023 comprovadamente atendidos. | ☐ | ☐ | ☐ |
| Pontuação | Avaliação | Recomendação |
|---|---|---|
| 16-20 | Pronto para produção | Otimização e escalabilidade. Pronto para workloads regulados. |
| 10-15 | Base existente | Preencher lacunas: Logging, triagem de PII, Kill Switch. |
| 5-9 | Necessidade de recuperação | Arquitetura de referência, Model Gateway, inventariar Shadow AI. |
| 0-4 | Ação necessária | Começar imediatamente. Inventário + arquitetura de referência. |
| Item | Atual | Recomendação |
|---|---|---|
| Modelos & Compute | 70% | 35-40% |
| Plataforma de infraestrutura | 15% | 25-30% |
| Governança & Compliance | 5% | 15-20% |
| Observabilidade & Monitoramento | 5% | 10-15% |
| Segurança | 5% | 10-15% |
| Mês | Foco | Resultado |
|---|---|---|
| 1 | Inventário & Arquitetura | Inventário de IA, arquitetura de referência, residência de dados verificada, baseline de custos |
| 2 | Gateway & Governança | Model Gateway ativo, Structured Logging, Kill Switch, Observability Stack |
| 3 | Compliance & Piloto | Checklist EU AI Act e PL 2338/2023, Benchmark Pipeline, Adversarial Testing, auditoria de compliance |
| Camada | Recomendação | Alternativas |
|---|---|---|
| Model Gateway | LiteLLM, Portkey | Custom (Go/Python) |
| Agent Orchestration | Temporal + Custom | Prefect, Airflow |
| Vector Database | pgvector (PostgreSQL) | Qdrant, Weaviate |
| Observability | OpenTelemetry + Grafana | Datadog, Langfuse |
| Policy Engine | OPA | Cedar, Casbin |
| Secret Management | Vault | AWS KMS, SOPS |
| Container Runtime | Kubernetes | Nomad, ECS |
| CI/CD | GitHub Actions | GitLab CI, Tekton |
Analisamos sua infraestrutura de IA e identificamos as lacunas críticas.
Compliance, segurança e governança de custos - 30 minutos, gratuito, sem compromisso.
Theandra Moreira - Diretora de Consultoria, Gosign GmbH
Contato: www.gosign.de/br/contato
Web: www.gosign.de