Metodologia

Como funciona, de facto, o arqmetrica AI Maturity Index.

A maioria das "pontuações de maturidade em IA" publicadas não resiste a uma análise séria. São inquéritos não-falsificáveis, sem rubrica de pontuação e sem benchmarking — e quase sempre escritos pelo próprio fornecedor que beneficia da pontuação. O Índice da Arqmetrica é construído de forma diferente. Esta página documenta como: o que medimos, porquê, como funciona a pontuação e como o comparamos face aos seus pares. Pensado para ser auditável.

Porque existe este Índice

Quase todas as consultoras já publicaram, a esta altura, um "modelo de maturidade em IA". Quase todos partilham três falhas. As perguntas são não-falsificáveis: auto-avaliações vagas contra descritores ainda mais vagos, sem rubrica que distinga um nível do seguinte. A pontuação é opaca: o respondente é informado de que está no "Nível 3 de 5" sem nunca ver a fórmula que produziu o número. E o benchmarking é tipicamente inexistente, ou citado a partir de um inquérito a respondentes auto-seleccionados, recrutados pela própria lista de marketing do fornecedor. A consequência é que essas pontuações não podem ser comparadas, não podem ser reproduzidas e não podem ser contestadas. Cumprem uma função de marketing, não de medição. O arqmetrica AI Maturity Index é construído com outro padrão. A metodologia está integralmente publicada nesta página. Cada pergunta cita a cláusula do framework que operacionaliza. A fórmula de pontuação é código aberto, auditável no repositório público. Os benchmarks são calibrados face à investigação mais citada sobre IA no mid-market europeu — MIT Sloan/BCG, Stanford AI Index, Capgemini — e continuamente refinados a partir de respostas reais anonimizadas ao Índice, à medida que cada coorte se acumula. O Índice foi pensado para ser defensável perante uma comissão de auditoria, um regulador ou um presidente de conselho céptico. Isto é invulgar — e intencional.

Os cinco frameworks de referência

O Índice está ancorado em cinco frameworks publicados e mantidos externamente. Não inventamos construtos. Onde uma entidade autoritativa já definiu o que é "bom", o Índice usa essa definição e cita-a. AI Act da UE — Regulamento (UE) 2024/1689. A primeira lei horizontal e abrangente sobre IA, em vigor desde Agosto de 2024, com as obrigações de alto risco aplicáveis a partir de Agosto de 2026. Emitido pelo Parlamento Europeu e pelo Conselho. Autoritativo para a classificação de risco, práticas proibidas, deveres de transparência e o regime de governance de dados nos termos do Artigo 10. O Índice usa o AI Act para ancorar a dimensão Governance e ética; perguntas individuais citam artigos específicos. Princípios de IA da OCDE — revisão de 2024. Emitidos pelo OECD AI Policy Observatory e adoptados por 47 governos. Autoritativos como o conjunto de princípios baseados em valores com maior subscrição global. O Índice baseia-se no Princípio 2.4 (capacitação humana) para a dimensão Pessoas e capacidade, e no Princípio 1.2 (robustez, segurança, fiabilidade) para parte da dimensão Tooling. NIST AI RMF 1.0. O AI Risk Management Framework do U.S. National Institute of Standards and Technology, publicado em Janeiro de 2023. Autoritativo para a mecânica operacional da gestão de risco em IA — as funções Map, Measure, Manage e Govern. O Índice usa-o para estruturar Fundações de dados e Tooling, e para validar que a Governance cobre as quatro funções do NIST. ISO/IEC 42001:2023. A primeira norma internacional de sistemas de gestão para IA, publicada pela ISO/IEC JTC 1. Autoritativa como base para a certificação de sistemas de gestão de IA, da mesma forma que a ISO 27001 o é para a segurança da informação. O Índice baseia-se na Cláusula 5 (Liderança), Cláusula 8 (Operação) e Cláusula 9 (Avaliação de desempenho) para Estratégia, Tooling e ROI, respectivamente. Stanford AI Index 2024 e o estudo longitudinal MIT Sloan / BCG. Duas das fontes empíricas mais rigorosas sobre o estado real da IA em contexto empresarial. O Stanford AI Index — produzido pelo Stanford Institute for Human-Centered AI — fornece a estatística populacional sobre adopção, talento e investimento. A investigação MIT Sloan / BCG "Expanding AI's Impact with Organizational Learning", conduzida anualmente desde 2017, fornece a única evidência multianual disponível sobre que comportamentos prevêem efectivamente a captura de valor com IA. Tratamo-las como dados de referência, não como inspiração.

As seis dimensões

O Índice mede seis dimensões. Cada uma é um construto distinto, suportado por pelo menos um dos cinco frameworks de referência. Cada uma tem um peso; os seis pesos somam 100. Os pesos não são arbitrários. Reflectem aquilo que a literatura empírica subjacente — em particular o estudo longitudinal MIT Sloan / BCG — identifica como a alavancagem relativa de cada dimensão sobre a captura de valor com IA em organizações mid-market. Estratégia e visão — 18% (o peso mais alto). Nos dados longitudinais MIT Sloan / BCG, o melhor preditor isolado de captura de valor com IA é a clareza e o alinhamento ao nível do conselho da estratégia de IA da organização. As empresas com pontuação alta em clareza estratégica têm desempenho superior em todas as métricas a jusante — rácio piloto-para-produção, ROI por caso de uso, aumento de receita. A Estratégia tem, por isso, o peso mais elevado. Fundações de dados, Pessoas e capacidade, Governance e ética, ROI e medição — 17% cada. São as quatro dimensões operacionais sobre as quais o valor da IA composta ou colapsa. A evidência publicada não nos dá uma base robusta para as ordenar entre si em contexto mid-market, pelo que são ponderadas em paridade. O Índice não pretende uma precisão que os dados não suportam. Tooling e infra-estrutura — 14% (o peso mais baixo). O tooling importa, mas na ordem causal está a jusante. Uma empresa com a estratégia, os dados, as pessoas e a governance certas adquire ou constrói tooling adequado em um ou dois ciclos orçamentais. Uma empresa com a estratégia errada compra tooling caro e desperdiça-o. O tooling é o mais fácil das seis dimensões a corrigir uma vez resolvidas as restantes, e o mais caro a sobre-investir quando estas não estão. O peso mais baixo reflecte essa assimetria, não uma visão de que o tooling não importa.

Dimensão	Peso	Framework primário
Strategy & vision	18%	ISO/IEC 42001:2023 §5 — Leadership
Data foundations	17%	NIST AI RMF 1.0 — Map function (Data)
People & capability	17%	OECD AI Principle 2.4 — Building human capacity
Governance & ethics	17%	EU AI Act (Regulation (EU) 2024/1689)
Tooling & infrastructure	14%	NIST AI RMF 1.0 — Map function (Infrastructure)
ROI & measurement	17%	ISO/IEC 42001:2023 §9 — Performance evaluation

Como funciona a pontuação

A metodologia de pontuação é deliberadamente simples. A simplicidade é uma propriedade, não uma limitação: torna o Índice reproduzível à mão numa única folha de papel e não deixa onde se possam esconder ajustes não-publicados. A avaliação contém 24 perguntas — quatro por dimensão. Cada pergunta apresenta quatro opções de resposta ordinais, (a) a (d). Cada opção tem uma pontuação numérica fixa, calibrada numa escala de maturidade de quatro estádios: nenhuma (0), nascente (33), estabelecida (67), optimizada (100). O mapeamento é idêntico para todas as perguntas e está publicado como a constante OPTION_SCORES no código. A pontuação de uma dimensão é a média aritmética não ponderada das quatro pontuações de pergunta dessa dimensão. As quatro perguntas de cada dimensão são calibradas em testes-piloto para terem peso diagnóstico aproximadamente igual; ponderá-las de forma diferente introduziria uma camada de juízo que não conseguimos defender. A pontuação geral do Índice é a média ponderada das seis pontuações de dimensão, usando os pesos da tabela acima. Tanto as pontuações de dimensão como a global são números inteiros entre 0 e 100. O arredondamento é feito uma vez no final de cada passo, ao inteiro mais próximo; não arredondamos dentro das somas nem arrastamos casas decimais ao longo da fórmula. Isto preserva a exactidão aritmética sem inflacionar a precisão aparente. A pontuação está implementada em src/index/scoring.ts e fixada por doze testes unitários.

option_score ∈ {100, 67, 33, 0} // a / b / c / d

dimension_score = round(mean(option_scores))

overall_score = round(Σ(dimension_score × weight) / 100)

Fórmula de pontuação

Como uma resposta se torna numa pontuação.

Cada pergunta apresenta quatro opções mutuamente exclusivas. A escolha do respondente é mapeada para um valor numérico através de uma tabela fixa: opção a = 100, b = 67, c = 33, d = 0. A pontuação por dimensão é a média arredondada dos valores das opções das questões dessa dimensão, pelo que cada dimensão é reportada numa escala 0–100. A pontuação global de maturidade é a média ponderada das seis pontuações dimensionais, com os pesos descritos na secção seguinte.

s_{d} = round \frac{1}{∣ Q _{d} ∣} q \in Q_{d} \sum v (r_{q}) where v : {a, b, c, d} \to {100, 67, 33, 0}

Pontuação por dimensão (média arredondada dos valores das opções).

S = round (\frac{\sum _{d \in D} w _{d} \cdot s _{d}}{\sum _{d \in D} w _{d}})

Pontuação global de maturidade (composição normalizada por peso).

Derivação dos pesos

Como o peso de cada dimensão é justificado.

Os pesos não são arbitrários; cada um está ancorado numa fonte publicada acompanhada de uma justificação numa linha. Os 6 pesos somam 100 por construção.

Dimensão	Peso	Justificação	Fonte
Strategy & vision	18%	Strongest single predictor of value capture in MIT Sloan/BCG longitudinal data.	MIT Sloan/BCG 2024 §4
Data foundations	17%	Foundational dependency: no AI value without data discipline.	NIST AI RMF GOVERN-1 + EU AI Act Art. 10
People & capability	17%	Strongest determinant of pilot-to-production rate.	MIT Sloan/BCG 2024 §6
Governance & ethics	17%	Direct EU AI Act enforcement weight (Articles 9, 10, 14).	EU Reg 2024/1689
Tooling & infrastructure	14%	Necessary but not sufficient — capped at 14 to prevent vendor-stack overweighting.	Stanford AI Index 2024
ROI & measurement	17%	Outcome dimension — closes the value loop.	ISO/IEC 42001:2023 §9
Total	100%

Calibração dos itens

Cada uma das 24 questões liga-se a um enquadramento publicado.

Cada item da avaliação está mapeado a uma cláusula ou capítulo específico de uma das cinco fontes-âncora, pelo que a pontuação de cada respondente pode ser rastreada até à origem do construto.

Mapa de questão para fonte (excerto).

Dimensão	Resumo do item	Fonte / cláusula âncora
Estratégia e visão	O conselho ou a equipa executiva endossou formalmente uma estratégia de IA?	ISO/IEC 42001:2023 §5.1 (Leadership and commitment)
Estratégia e visão	Existe um único executivo responsável pelos resultados de IA em toda a organização?	ISO/IEC 42001:2023 §5.3 (Roles and responsibilities)
Fundações de dados	Quão bem documentada está a linhagem dos dados que alimentam os sistemas de IA em produção?	EU AI Act Art. 10 (Data and data governance)
Pessoas e capacidades	Quão estruturado é o seu programa de literacia em IA e de upskilling?	OECD AI Principle 2.4 (Building human capacity)
Governação e ética	Classificou os seus casos de uso de IA face às categorias de risco do AI Act da UE?	EU AI Act Art. 6 + Annex III (Risk classification)
Governação e ética	Tem um processo documentado de resposta a incidentes para falhas de IA?	NIST AI RMF MANAGE-4 (Incident response)
Ferramentas e infraestrutura	Qual é a maturidade do seu stack de implementação e monitorização de modelos?	ISO/IEC 42001:2023 §8 (Operation)
ROI e medição	Acompanha a atribuição de valor a iniciativas específicas de IA?	ISO/IEC 42001:2023 §9 (Performance evaluation)

Excerto de 8 itens representativos; o conjunto completo de 24 questões está publicado em /the-index/start.

Coorte do 1T 2026

Quem respondeu — e durante que janela.

A edição publicada do 2T 2026 assenta em respostas recolhidas entre 1 de janeiro e 31 de março de 2026. 437 conclusões válidas em 612 inícios (taxa de conclusão de 71,4%, mediana de 11m 23s).

Por indústria

Indústria transformadora	89	20.4%
Serviços financeiros	67	15.3%
Serviços profissionais	58	13.3%
Tecnologia e software	53	12.1%
Retalho e e-commerce	47	10.8%
Logística	39	8.9%
Saúde	31	7.1%
Educação	22	5.0%
Energia e utilities	18	4.1%
Sector público	13	3.0%
Total	437	100%

Por escalão de colaboradores

50–99	142	32.5%
100–249	184	42.1%
250–499	111	25.4%
Total	437	100%

Respondentes fora de escalão (excluídos das medianas mid-market publicadas)

O formulário do Index aceita empresas de qualquer dimensão. A coorte publicada foca no núcleo mid-market 50–499 (N=437 — as decomposições acima). Os respondentes de fora desse intervalo completaram a avaliação e receberam o respectivo relatório pessoal, mas as suas pontuações não são agregadas nas figuras mid-market publicadas. Registamo-los aqui por total transparência.

1–49 (PME pequena)24
500+ (grande empresa)16

Por país

Portugal	156	35.7%
Espanha	98	22.4%
França	64	14.6%
Alemanha	49	11.2%
Itália	28	6.4%
Países Baixos	18	4.1%
Bélgica / Luxemburgo	11	2.5%
Irlanda	7	1.6%
Outros UE	6	1.4%
Total	437	100%

Por função do respondente

Direcção executiva	87	19.9%
VP / Director	156	35.7%
Gestor sénior	142	32.5%
Outro	52	11.9%
Total	437	100%

Fiabilidade e validade

O que medimos e qual a confiança que temos.

Os intervalos de confiança sobre cada mediana são reportados pela aproximação distribuição-livre de Bonett-Price (a fórmula abaixo). Com o intervalo interquartil da coorte de 27 pontos (p25=33, p75=60), o IC a 95% sobre a mediana global N=437 é aproximadamente ±2,0 pontos; as medianas sectoriais com N>50 têm um IC de cerca de ±4–6 pontos consoante N; as medianas sectoriais com N<30 alargam-se a ±8–10 pontos e devem ser lidas como direccionais, não como precisas.

CI_{95%} (\tilde{m}_{s}) \approx \tilde{m}_{s} \pm 1.57 \cdot \frac{IQR _{s}}{N _{s}}

Intervalo de confiança a 95% distribuição-livre de Bonett-Price para uma mediana sectorial (aproximação assimptótica; para N<30 reportamos ICs binomiais exactos nas tabelas por sector).

Limitações

O que este índice ainda não faz.

Viés de auto-relato: os respondentes podem sobrestimar a maturidade em dimensões socialmente deseáveis, em particular Governação e ROI.
Viés de seleção: quem responde ao Índice auto-seleciona-se; a coorte não é uma amostra probabilística do universo do mid-market europeu.
Cortes sectoriais com N pequeno: N<30 em Energia & Utilities e Sector Público, com intervalos de confiança correspondentemente largos.
Sem coorte de validação externa ainda: prevista para a edição do 3T 2026, emparelhada com uma amostra estruturada de organizações-pares.

Trabalho planeado de fiabilidade

O que publicaremos a seguir, quando o N o permitir.

α de Cronbach com N>200 por dimensão (objetivo: 3T 2026).
Correlação teste-reteste a 90 dias, sobre coorte rotativa (objetivo: 4T 2026).
Validade convergente face a rácios de investimento em IA publicados externamente (objetivo: 4T 2026).
Fiabilidade entre observadores na classificação de risco do AI Act (previsto: 1T 2027).

Como funcionam os benchmarks face aos pares

Uma pontuação isolada diz-lhe muito pouco. O Índice está, por isso, desenhado em torno da comparação com pares desde a primeira pergunta. Cada respondente é comparado com pares na mesma coorte de indústria × banda de colaboradores — por exemplo, indústria transformadora, 250–999 colaboradores. Cada benchmark está calibrado face à investigação mais citada sobre IA no mid-market europeu — sobretudo o Stanford AI Index 2024, o estudo longitudinal MIT Sloan / BCG 2024 e o inquérito Capgemini sobre preparação para o AI Act da UE — com a fonte específica citada em cada linha de dimensão. À medida que as respostas reais ao Índice se acumulam, cada coorte ultrapassa um limiar estatístico de 50 respostas e a calibração passa a ser determinada principalmente pelos dados arqmetrica em tempo real. A investigação publicada mantém-se como âncora; as respostas reais afinam progressivamente o ajustamento. Os resultados são reportados em bandas percentílicas: quartil superior (≥ p75), acima da mediana (p50–p75), na mediana (p25–p50), abaixo da mediana (p10–p25) e decil inferior (< p10). Bandas, e não percentis brutos, evitam a sobre-interpretação do ruído de pequenas amostras.

O nosso compromisso de transparência

Três compromissos mantêm o Índice fiel ao padrão que esta página estabelece. Anonimização por defeito. As respostas ao nível da empresa são guardadas sem atribuição; nenhuma informação pessoalmente identificável é capturada, salvo se o respondente optar por receber uma cópia em PDF do seu resultado. Os endereços de email, quando fornecidos, são guardados numa tabela separada e podem ser apagados de forma independente da resposta subjacente, satisfazendo o direito ao apagamento previsto no Artigo 17 do RGPD. O endpoint de eliminação é /api/data/delete; as regras completas de tratamento de dados estão na página Ética dos Dados. Reporte público apenas em agregado. O relatório trimestral State of European Mid-Market AI é construído apenas a partir de estatísticas agregadas e anonimizadas por coorte. Nenhuma resposta individual, e nenhum campo identificador de empresa, alguma vez aparece nas publicações. Metodologia aberta. As definições de dimensão, os pesos e as fórmulas de pontuação vivem como código TypeScript em src/index/dimensions.ts e src/index/scoring.ts, no repositório público da arqmetrica. Qualquer pessoa — auditor, regulador, concorrente, cliente céptico — pode ler a aritmética exacta que produziu uma dada pontuação. Não há ajustes ocultos nem multiplicadores proprietários. E uma linha que não atravessamos: o Índice pontua empresas, nunca indivíduos. Não usamos IA para classificar ou avaliar as pessoas que respondem à avaliação. Não é uma política que esperemos rever.

Pacote de reprodução

Tudo o que precisa para verificar os números.

A metodologia, a fórmula de pontuação e a derivação dos pesos são abertas sob CC BY 4.0. Os dados ao nível da coorte estão anonimizados, mas as contagens subjacentes — as tabelas de coorte desta página — são o artefacto de verificação: qualquer pessoa pode reproduzir as medianas voltando a aplicar a fórmula à mesma distribuição. As 24 questões estão listadas na íntegra em /the-index/start.

Fazer a avaliação →