arqmetrica
Metodologia

Como funciona, de facto, o arqmetrica AI Maturity Index.

A maioria das "pontuações de maturidade em IA" publicadas não resiste a uma análise séria. São inquéritos não-falsificáveis, sem rubrica de pontuação e sem benchmarking — e quase sempre escritos pelo próprio fornecedor que beneficia da pontuação. O Índice da Arqmetrica é construído de forma diferente. Esta página documenta como: o que medimos, porquê, como funciona a pontuação e como o comparamos face aos seus pares. Pensado para ser auditável.

Porque existe este Índice

Quase todas as consultoras já publicaram, a esta altura, um "modelo de maturidade em IA". Quase todos partilham três falhas. As perguntas são não-falsificáveis: auto-avaliações vagas contra descritores ainda mais vagos, sem rubrica que distinga um nível do seguinte. A pontuação é opaca: o respondente é informado de que está no "Nível 3 de 5" sem nunca ver a fórmula que produziu o número. E o benchmarking é tipicamente inexistente, ou citado a partir de um inquérito a respondentes auto-seleccionados, recrutados pela própria lista de marketing do fornecedor. A consequência é que essas pontuações não podem ser comparadas, não podem ser reproduzidas e não podem ser contestadas. Cumprem uma função de marketing, não de medição. O arqmetrica AI Maturity Index é construído com outro padrão. A metodologia está integralmente publicada nesta página. Cada pergunta cita a cláusula do framework que operacionaliza. A fórmula de pontuação é código aberto, auditável no repositório público. Os benchmarks são calibrados face à investigação mais citada sobre IA no mid-market europeu — MIT Sloan/BCG, Stanford AI Index, Capgemini — e continuamente refinados a partir de respostas reais anonimizadas ao Índice, à medida que cada coorte se acumula. O Índice foi pensado para ser defensável perante uma comissão de auditoria, um regulador ou um presidente de conselho céptico. Isto é invulgar — e intencional.

Os cinco frameworks de referência

O Índice está ancorado em cinco frameworks publicados e mantidos externamente. Não inventamos construtos. Onde uma entidade autoritativa já definiu o que é "bom", o Índice usa essa definição e cita-a. AI Act da UE — Regulamento (UE) 2024/1689. A primeira lei horizontal e abrangente sobre IA, em vigor desde Agosto de 2024, com as obrigações de alto risco aplicáveis a partir de Agosto de 2026. Emitido pelo Parlamento Europeu e pelo Conselho. Autoritativo para a classificação de risco, práticas proibidas, deveres de transparência e o regime de governance de dados nos termos do Artigo 10. O Índice usa o AI Act para ancorar a dimensão Governance e ética; perguntas individuais citam artigos específicos. Princípios de IA da OCDE — revisão de 2024. Emitidos pelo OECD AI Policy Observatory e adoptados por 47 governos. Autoritativos como o conjunto de princípios baseados em valores com maior subscrição global. O Índice baseia-se no Princípio 2.4 (capacitação humana) para a dimensão Pessoas e capacidade, e no Princípio 1.2 (robustez, segurança, fiabilidade) para parte da dimensão Tooling. NIST AI RMF 1.0. O AI Risk Management Framework do U.S. National Institute of Standards and Technology, publicado em Janeiro de 2023. Autoritativo para a mecânica operacional da gestão de risco em IA — as funções Map, Measure, Manage e Govern. O Índice usa-o para estruturar Fundações de dados e Tooling, e para validar que a Governance cobre as quatro funções do NIST. ISO/IEC 42001:2023. A primeira norma internacional de sistemas de gestão para IA, publicada pela ISO/IEC JTC 1. Autoritativa como base para a certificação de sistemas de gestão de IA, da mesma forma que a ISO 27001 o é para a segurança da informação. O Índice baseia-se na Cláusula 5 (Liderança), Cláusula 8 (Operação) e Cláusula 9 (Avaliação de desempenho) para Estratégia, Tooling e ROI, respectivamente. Stanford AI Index 2024 e o estudo longitudinal MIT Sloan / BCG. Duas das fontes empíricas mais rigorosas sobre o estado real da IA em contexto empresarial. O Stanford AI Index — produzido pelo Stanford Institute for Human-Centered AI — fornece a estatística populacional sobre adopção, talento e investimento. A investigação MIT Sloan / BCG "Expanding AI's Impact with Organizational Learning", conduzida anualmente desde 2017, fornece a única evidência multianual disponível sobre que comportamentos prevêem efectivamente a captura de valor com IA. Tratamo-las como dados de referência, não como inspiração.

As seis dimensões

O Índice mede seis dimensões. Cada uma é um construto distinto, suportado por pelo menos um dos cinco frameworks de referência. Cada uma tem um peso; os seis pesos somam 100. Os pesos não são arbitrários. Reflectem aquilo que a literatura empírica subjacente — em particular o estudo longitudinal MIT Sloan / BCG — identifica como a alavancagem relativa de cada dimensão sobre a captura de valor com IA em organizações mid-market. Estratégia e visão — 18% (o peso mais alto). Nos dados longitudinais MIT Sloan / BCG, o melhor preditor isolado de captura de valor com IA é a clareza e o alinhamento ao nível do conselho da estratégia de IA da organização. As empresas com pontuação alta em clareza estratégica têm desempenho superior em todas as métricas a jusante — rácio piloto-para-produção, ROI por caso de uso, aumento de receita. A Estratégia tem, por isso, o peso mais elevado. Fundações de dados, Pessoas e capacidade, Governance e ética, ROI e medição — 17% cada. São as quatro dimensões operacionais sobre as quais o valor da IA composta ou colapsa. A evidência publicada não nos dá uma base robusta para as ordenar entre si em contexto mid-market, pelo que são ponderadas em paridade. O Índice não pretende uma precisão que os dados não suportam. Tooling e infra-estrutura — 14% (o peso mais baixo). O tooling importa, mas na ordem causal está a jusante. Uma empresa com a estratégia, os dados, as pessoas e a governance certas adquire ou constrói tooling adequado em um ou dois ciclos orçamentais. Uma empresa com a estratégia errada compra tooling caro e desperdiça-o. O tooling é o mais fácil das seis dimensões a corrigir uma vez resolvidas as restantes, e o mais caro a sobre-investir quando estas não estão. O peso mais baixo reflecte essa assimetria, não uma visão de que o tooling não importa.
DimensãoPesoFramework primário
Strategy & vision18%ISO/IEC 42001:2023 §5 — Leadership
Data foundations17%NIST AI RMF 1.0 — Map function (Data)
People & capability17%OECD AI Principle 2.4 — Building human capacity
Governance & ethics17%EU AI Act (Regulation (EU) 2024/1689)
Tooling & infrastructure14%NIST AI RMF 1.0 — Map function (Infrastructure)
ROI & measurement17%ISO/IEC 42001:2023 §9 — Performance evaluation

Como funciona a pontuação

A metodologia de pontuação é deliberadamente simples. A simplicidade é uma propriedade, não uma limitação: torna o Índice reproduzível à mão numa única folha de papel e não deixa onde se possam esconder ajustes não-publicados. A avaliação contém 24 perguntas — quatro por dimensão. Cada pergunta apresenta quatro opções de resposta ordinais, (a) a (d). Cada opção tem uma pontuação numérica fixa, calibrada numa escala de maturidade de quatro estádios: nenhuma (0), nascente (33), estabelecida (67), optimizada (100). O mapeamento é idêntico para todas as perguntas e está publicado como a constante OPTION_SCORES no código. A pontuação de uma dimensão é a média aritmética não ponderada das quatro pontuações de pergunta dessa dimensão. As quatro perguntas de cada dimensão são calibradas em testes-piloto para terem peso diagnóstico aproximadamente igual; ponderá-las de forma diferente introduziria uma camada de juízo que não conseguimos defender. A pontuação geral do Índice é a média ponderada das seis pontuações de dimensão, usando os pesos da tabela acima. Tanto as pontuações de dimensão como a global são números inteiros entre 0 e 100. O arredondamento é feito uma vez no final de cada passo, ao inteiro mais próximo; não arredondamos dentro das somas nem arrastamos casas decimais ao longo da fórmula. Isto preserva a exactidão aritmética sem inflacionar a precisão aparente. A pontuação está implementada em src/index/scoring.ts e fixada por doze testes unitários.
option_score ∈ {100, 67, 33, 0} // a / b / c / d
dimension_score = round(mean(option_scores))
overall_score = round(Σ(dimension_score × weight) / 100)
Fórmula de pontuação

Como uma resposta se torna numa pontuação.

Cada pergunta apresenta quatro opções mutuamente exclusivas. A escolha do respondente é mapeada para um valor numérico através de uma tabela fixa: opção a = 100, b = 67, c = 33, d = 0. A pontuação por dimensão é a média arredondada dos valores das opções das questões dessa dimensão, pelo que cada dimensão é reportada numa escala 0–100. A pontuação global de maturidade é a média ponderada das seis pontuações dimensionais, com os pesos descritos na secção seguinte.
Pontuação por dimensão (média arredondada dos valores das opções).
Pontuação global de maturidade (composição normalizada por peso).
Derivação dos pesos

Como o peso de cada dimensão é justificado.

Os pesos não são arbitrários; cada um está ancorado numa fonte publicada acompanhada de uma justificação numa linha. Os 6 pesos somam 100 por construção.

DimensãoPesoJustificaçãoFonte
Strategy & vision18%Strongest single predictor of value capture in MIT Sloan/BCG longitudinal data.MIT Sloan/BCG 2024 §4
Data foundations17%Foundational dependency: no AI value without data discipline.NIST AI RMF GOVERN-1 + EU AI Act Art. 10
People & capability17%Strongest determinant of pilot-to-production rate.MIT Sloan/BCG 2024 §6
Governance & ethics17%Direct EU AI Act enforcement weight (Articles 9, 10, 14).EU Reg 2024/1689
Tooling & infrastructure14%Necessary but not sufficient — capped at 14 to prevent vendor-stack overweighting.Stanford AI Index 2024
ROI & measurement17%Outcome dimension — closes the value loop.ISO/IEC 42001:2023 §9
Total100%
Calibração dos itens

Cada uma das 24 questões liga-se a um enquadramento publicado.

Cada item da avaliação está mapeado a uma cláusula ou capítulo específico de uma das cinco fontes-âncora, pelo que a pontuação de cada respondente pode ser rastreada até à origem do construto.

Mapa de questão para fonte (excerto).

DimensãoResumo do itemFonte / cláusula âncora
Estratégia e visãoO conselho ou a equipa executiva endossou formalmente uma estratégia de IA?ISO/IEC 42001:2023 §5.1 (Leadership and commitment)
Estratégia e visãoExiste um único executivo responsável pelos resultados de IA em toda a organização?ISO/IEC 42001:2023 §5.3 (Roles and responsibilities)
Fundações de dadosQuão bem documentada está a linhagem dos dados que alimentam os sistemas de IA em produção?EU AI Act Art. 10 (Data and data governance)
Pessoas e capacidadesQuão estruturado é o seu programa de literacia em IA e de upskilling?OECD AI Principle 2.4 (Building human capacity)
Governação e éticaClassificou os seus casos de uso de IA face às categorias de risco do AI Act da UE?EU AI Act Art. 6 + Annex III (Risk classification)
Governação e éticaTem um processo documentado de resposta a incidentes para falhas de IA?NIST AI RMF MANAGE-4 (Incident response)
Ferramentas e infraestruturaQual é a maturidade do seu stack de implementação e monitorização de modelos?ISO/IEC 42001:2023 §8 (Operation)
ROI e mediçãoAcompanha a atribuição de valor a iniciativas específicas de IA?ISO/IEC 42001:2023 §9 (Performance evaluation)

Excerto de 8 itens representativos; o conjunto completo de 24 questões está publicado em /the-index/start.

Coorte do 1T 2026

Quem respondeu — e durante que janela.

A edição publicada do 2T 2026 assenta em respostas recolhidas entre 1 de janeiro e 31 de março de 2026. 437 conclusões válidas em 612 inícios (taxa de conclusão de 71,4%, mediana de 11m 23s).

Por indústria

Indústria transformadora8920.4%
Serviços financeiros6715.3%
Serviços profissionais5813.3%
Tecnologia e software5312.1%
Retalho e e-commerce4710.8%
Logística398.9%
Saúde317.1%
Educação225.0%
Energia e utilities184.1%
Sector público133.0%
Total437100%

Por escalão de colaboradores

50–9914232.5%
100–24918442.1%
250–49911125.4%
Total437100%

Respondentes fora de escalão (excluídos das medianas mid-market publicadas)

O formulário do Index aceita empresas de qualquer dimensão. A coorte publicada foca no núcleo mid-market 50–499 (N=437 — as decomposições acima). Os respondentes de fora desse intervalo completaram a avaliação e receberam o respectivo relatório pessoal, mas as suas pontuações não são agregadas nas figuras mid-market publicadas. Registamo-los aqui por total transparência.

  • 1–49 (PME pequena)24
  • 500+ (grande empresa)16

Por país

Portugal15635.7%
Espanha9822.4%
França6414.6%
Alemanha4911.2%
Itália286.4%
Países Baixos184.1%
Bélgica / Luxemburgo112.5%
Irlanda71.6%
Outros UE61.4%
Total437100%

Por função do respondente

Direcção executiva8719.9%
VP / Director15635.7%
Gestor sénior14232.5%
Outro5211.9%
Total437100%
Fiabilidade e validade

O que medimos e qual a confiança que temos.

Os intervalos de confiança sobre cada mediana são reportados pela aproximação distribuição-livre de Bonett-Price (a fórmula abaixo). Com o intervalo interquartil da coorte de 27 pontos (p25=33, p75=60), o IC a 95% sobre a mediana global N=437 é aproximadamente ±2,0 pontos; as medianas sectoriais com N>50 têm um IC de cerca de ±4–6 pontos consoante N; as medianas sectoriais com N<30 alargam-se a ±8–10 pontos e devem ser lidas como direccionais, não como precisas.

Intervalo de confiança a 95% distribuição-livre de Bonett-Price para uma mediana sectorial (aproximação assimptótica; para N<30 reportamos ICs binomiais exactos nas tabelas por sector).
Limitações

O que este índice ainda não faz.

  • Viés de auto-relato: os respondentes podem sobrestimar a maturidade em dimensões socialmente deseáveis, em particular Governação e ROI.
  • Viés de seleção: quem responde ao Índice auto-seleciona-se; a coorte não é uma amostra probabilística do universo do mid-market europeu.
  • Cortes sectoriais com N pequeno: N<30 em Energia & Utilities e Sector Público, com intervalos de confiança correspondentemente largos.
  • Sem coorte de validação externa ainda: prevista para a edição do 3T 2026, emparelhada com uma amostra estruturada de organizações-pares.
Trabalho planeado de fiabilidade

O que publicaremos a seguir, quando o N o permitir.

  • α de Cronbach com N>200 por dimensão (objetivo: 3T 2026).
  • Correlação teste-reteste a 90 dias, sobre coorte rotativa (objetivo: 4T 2026).
  • Validade convergente face a rácios de investimento em IA publicados externamente (objetivo: 4T 2026).
  • Fiabilidade entre observadores na classificação de risco do AI Act (previsto: 1T 2027).

Como funcionam os benchmarks face aos pares

Uma pontuação isolada diz-lhe muito pouco. O Índice está, por isso, desenhado em torno da comparação com pares desde a primeira pergunta. Cada respondente é comparado com pares na mesma coorte de indústria × banda de colaboradores — por exemplo, indústria transformadora, 250–999 colaboradores. Cada benchmark está calibrado face à investigação mais citada sobre IA no mid-market europeu — sobretudo o Stanford AI Index 2024, o estudo longitudinal MIT Sloan / BCG 2024 e o inquérito Capgemini sobre preparação para o AI Act da UE — com a fonte específica citada em cada linha de dimensão. À medida que as respostas reais ao Índice se acumulam, cada coorte ultrapassa um limiar estatístico de 50 respostas e a calibração passa a ser determinada principalmente pelos dados arqmetrica em tempo real. A investigação publicada mantém-se como âncora; as respostas reais afinam progressivamente o ajustamento. Os resultados são reportados em bandas percentílicas: quartil superior (≥ p75), acima da mediana (p50–p75), na mediana (p25–p50), abaixo da mediana (p10–p25) e decil inferior (< p10). Bandas, e não percentis brutos, evitam a sobre-interpretação do ruído de pequenas amostras.

O nosso compromisso de transparência

Três compromissos mantêm o Índice fiel ao padrão que esta página estabelece. Anonimização por defeito. As respostas ao nível da empresa são guardadas sem atribuição; nenhuma informação pessoalmente identificável é capturada, salvo se o respondente optar por receber uma cópia em PDF do seu resultado. Os endereços de email, quando fornecidos, são guardados numa tabela separada e podem ser apagados de forma independente da resposta subjacente, satisfazendo o direito ao apagamento previsto no Artigo 17 do RGPD. O endpoint de eliminação é /api/data/delete; as regras completas de tratamento de dados estão na página Ética dos Dados. Reporte público apenas em agregado. O relatório trimestral State of European Mid-Market AI é construído apenas a partir de estatísticas agregadas e anonimizadas por coorte. Nenhuma resposta individual, e nenhum campo identificador de empresa, alguma vez aparece nas publicações. Metodologia aberta. As definições de dimensão, os pesos e as fórmulas de pontuação vivem como código TypeScript em src/index/dimensions.ts e src/index/scoring.ts, no repositório público da arqmetrica. Qualquer pessoa — auditor, regulador, concorrente, cliente céptico — pode ler a aritmética exacta que produziu uma dada pontuação. Não há ajustes ocultos nem multiplicadores proprietários. E uma linha que não atravessamos: o Índice pontua empresas, nunca indivíduos. Não usamos IA para classificar ou avaliar as pessoas que respondem à avaliação. Não é uma política que esperemos rever.
Pacote de reprodução

Tudo o que precisa para verificar os números.

A metodologia, a fórmula de pontuação e a derivação dos pesos são abertas sob CC BY 4.0. Os dados ao nível da coorte estão anonimizados, mas as contagens subjacentes — as tabelas de coorte desta página — são o artefacto de verificação: qualquer pessoa pode reproduzir as medianas voltando a aplicar a fórmula à mesma distribuição. As 24 questões estão listadas na íntegra em /the-index/start.

Fazer a avaliação →