DOKUMEN123.COM

O Decision Predicate Graph (DPG) é um método baseado em grafos no campo da explainable artificial intelligence (XAI) para a interpretação global de modelos de ensemble baseados em árvores, especialmente modelos de classificação como as random forest.^[1] No DPG, os predicados de decisão internos de um ensemble são transformados em um grafo dirigido e ponderado, no qual os nós representam predicados e as arestas representam a frequência com que esses predicados são satisfeitos consecutivamente durante o percurso do modelo treinado.^[1]

O DPG foi introduzido como uma forma de representar a estrutura das decisões de um ensemble preservando as relações entre características, limiares, operações lógicas e predições, além de permitir análises baseadas em grafos por meio de medidas como centralidade e estrutura de comunidades.^[1]

Visão geral

A formulação original do DPG foi proposta para classificadores ensemble baseados em árvores.^[1] Na definição original, um DPG é um grafo dirigido ponderado cujos nós correspondem a predicados extraídos dos nós internos e das folhas das árvores do ensemble, enquanto suas arestas codificam a frequência com que amostras de treinamento satisfazem predicados consecutivos dentro dos aprendizes de base.^[1]

O método foi apresentado como uma abordagem de explicação post hoc, específica para o modelo, voltada a ensembles, com o objetivo de fornecer uma explicação global em vez de apenas explicações no nível de instância.^[1] O artigo original destacou mecanismos interpretativos baseados em teoria dos grafos, incluindo extração de restrições orientadas por classe, análise de centralidade e detecção de comunidades.^[1]

Método

Na formulação original, a construção do DPG ocorre por meio do percurso de cada árvore do ensemble com as amostras de treinamento, registrando os caminhos de predicados seguidos por essas amostras e agregando esses caminhos em um único grafo.^[1] O grafo resultante é então analisado para produzir resumos interpretáveis do comportamento do ensemble.^[1]

O artigo original sobre DPG descreveu vários componentes interpretativos:^[1]

Restrições (constraints), destinadas a resumir intervalos específicos por classe ou condições semelhantes a fronteiras associadas às características.
Centralidade de intermediação (betweenness centrality), usada para identificar predicados de gargalo que aparecem em muitos caminhos mínimos do grafo.
Local reaching centrality, usada para estimar a importância dos predicados em termos da estrutura alcançável a jusante.
Detecção de comunidades (community detection), usada para identificar grupos densamente conectados de predicados que podem corresponder a subestruturas relacionadas a classes.

Predicados e relação com árvores de decisão

No DPG, um predicado é uma condição lógica extraída de uma divisão em uma árvore de decisão, normalmente expressa como uma característica, um operador e um valor.^[1] Exemplos incluem condições como petal width (cm) ≤ 1.7 ou petal length (cm) ≤ 4.85 no problema de classificação do conjunto de dados Iris.^[1] Na formulação original do DPG, os predicados são obtidos a partir dos nós internos de divisão das árvores do ensemble, enquanto os rótulos de classe nas folhas também são representados na estrutura do grafo.^[1]

Por exemplo, em um ensemble treinado com o conjunto de dados Iris, uma árvore pode conter a divisão petal width (cm) ≤ 1.7. No DPG, essa divisão se torna um nó do grafo. Se, ao longo de um caminho de decisão, ela for seguida por outra condição como petal length (cm) ≤ 4.85, então o grafo pode conter uma aresta dirigida entre esses dois nós-predicado, ponderada de acordo com a frequência com que as amostras de treinamento satisfazem essas condições de forma consecutiva em todo o ensemble.^[1] Dessa forma, o DPG representa não apenas condições isoladas, mas também suas relações recorrentes dentro do ensemble.^[1]

O DPG se diferencia de uma árvore de decisão tanto em propósito quanto em estrutura.^[1] Uma árvore de decisão é, antes de tudo, um modelo preditivo: ela recebe uma instância de entrada e percorre um único caminho da raiz até uma folha para produzir uma classe ou um valor de saída. Já o DPG é uma estrutura explicativa construída após o treinamento, projetada para resumir a lógica de decisão de um ensemble inteiro de árvores, e não para fazer predições diretamente.^[1] Enquanto a árvore de decisão é usada operacionalmente para prever, o DPG é utilizado de forma analítica para inspecionar como os predicados se repetem, interagem e contribuem para a separação entre classes ao longo de muitas árvores.^[1]

Assim, uma árvore de decisão responde à pergunta "Qual predição é feita para esta instância?", enquanto o DPG busca ajudar a responder perguntas como "Quais condições lógicas se repetem no ensemble?", "Quais predicados são decisões centrais ou de gargalo?", e "Quais grupos de predicados caracterizam uma classe?".^[1]

Aplicações e extensões relatadas

Após sua introdução em 2024, o DPG foi estendido e aplicado em diversos trabalhos posteriores.

Uma extensão de 2025 adaptou o DPG para explicar modelos Isolation forest voltados à detecção de outliers. Esse trabalho introduziu uma extensão descrita como um método de explicação global para Isolation Forest e acrescentou um Inlier-Outlier Propagation Score (IOP-Score) para caracterizar como as características contribuem para a identificação de inliers e outliers.^[2]

Também em 2025, o DPG foi utilizado em um estudo de caso sobre pipelines de aprendizado de máquina no contexto financeiro para explicar tanto uma etapa de pré-processamento baseada em Isolation Forest quanto uma etapa de credit scoring baseada em Random Forest, com o objetivo declarado de oferecer explicabilidade de ponta a ponta para toda a pipeline.^[3]

Outro estudo de 2025 aplicou o DPG à cibersegurança, usando-o para analisar a classificação de tráfego de rede com modelos Random Forest e para derivar limites específicos por classe e interpretações estruturais da lógica de decisão aprendida.^[4]

Em 2026, o DPG também foi incorporado a um framework de aumento de dados para aprendizado desbalanceado chamado DPG-da, no qual predicados extraídos de modelos substitutos Random Forest foram usados para impor restrições interpretáveis à geração de amostras sintéticas.^[5]

Relação com outros métodos de explicabilidade

O artigo original do DPG posicionou o método em relação a representações de ensembles baseadas em grafos, como os algebraic decision diagrams, e também em relação a métodos mais amplos de XAI, incluindo abordagens model-agnostic e métodos de extração de regras.^[1] O método foi apresentado como voltado a enfatizar a representação estrutural da lógica do ensemble, e não apenas explicações locais, atribuição de importância às características ou simples visualização do grafo.^[1]

Ver também

Referências

↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u Arrighi, Leonardo; Pennella, Luca; Tavares, Gabriel Marques; Barbon Junior, Sylvio (2024). «Decision Predicate Graphs: Enhancing Interpretability in Tree Ensembles». World Conference on eXplainable Artificial Intelligence. Communications in Computer and Information Science. 2154. Springer. pp. 311–332. doi:10.1007/978-3-031-63797-1_16
↑ Ceschin, Matteo; Arrighi, Leonardo; Longo, Luca; Barbon Junior, Sylvio (2025). «Extending Decision Predicate Graphs for Comprehensive Explanation of Isolation Forest». World Conference on eXplainable Artificial Intelligence. Springer. pp. 271–293
↑ Arrighi, Leonardo; da Silva, Matheus Camilo; Barbon Junior, Sylvio (2025). «End-to-End Explainability of Machine Learning Pipelines with Decision Predicate Graphs: A Financial Scenario Case Study». Ital-IA 2025: 5th National Conference on Artificial Intelligence. CEUR Workshop Proceedings
↑ Pereira, Eron Ponce; Moradbeikie, Azin; Zarpelão, Bruno Bogaz; Barbon Junior, Sylvio (2025). «Learning to Explain Cyberattacks: Insights from Random Forest and Decision Predicate Graphs». Ital-IA 2025: 5th National Conference on Artificial Intelligence. CEUR Workshop Proceedings
↑ da Silva, Matheus Camilo; Costanzo, Gabriel Gustavo; De Lorenzo, Andrea; Barbon Junior, Sylvio (2026). «Close to Reality: Interpretable and Feasible Data Augmentation for Imbalanced Learning». arXiv:2603.13927 [cs.LG] Parâmetros não válidos no arXiv (ajuda)

Leitura adicional

Nauta, Meike; Trienes, Jan; Pathak, Shreyasi; Nguyen, Elisa; Peters, Michelle; Schmitt, Yasmin; Schlötterer, Jörg; van Keulen, Maurice; Seifert, Christin (2023). «From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI». ACM Computing Surveys. 55 (13s): 295:1–295:42. doi:10.1145/3583558
Vilone, Giulia; Longo, Luca (2021). «Notions of Explainability and Evaluation Approaches for Explainable Artificial Intelligence». Information Fusion. 76: 89–106. doi:10.1016/j.inffus.2021.05.009

Ligações externas

Repositório de software do DPG

[Arrighi2024-1] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u Arrighi, Leonardo; Pennella, Luca; Tavares, Gabriel Marques; Barbon Junior, Sylvio (2024). «Decision Predicate Graphs: Enhancing Interpretability in Tree Ensembles». World Conference on eXplainable Artificial Intelligence. Communications in Computer and Information Science. 2154. Springer. pp. 311–332. doi:10.1007/978-3-031-63797-1_16

[2] Ceschin, Matteo; Arrighi, Leonardo; Longo, Luca; Barbon Junior, Sylvio (2025). «Extending Decision Predicate Graphs for Comprehensive Explanation of Isolation Forest». World Conference on eXplainable Artificial Intelligence. Springer. pp. 271–293

[3] Arrighi, Leonardo; da Silva, Matheus Camilo; Barbon Junior, Sylvio (2025). «End-to-End Explainability of Machine Learning Pipelines with Decision Predicate Graphs: A Financial Scenario Case Study». Ital-IA 2025: 5th National Conference on Artificial Intelligence. CEUR Workshop Proceedings

[4] Pereira, Eron Ponce; Moradbeikie, Azin; Zarpelão, Bruno Bogaz; Barbon Junior, Sylvio (2025). «Learning to Explain Cyberattacks: Insights from Random Forest and Decision Predicate Graphs». Ital-IA 2025: 5th National Conference on Artificial Intelligence. CEUR Workshop Proceedings

[5] Silva, Matheus Camilo; Costanzo, Gabriel Gustavo; De Lorenzo, Andrea; Barbon Junior, Sylvio (2026). «Close to Reality: Interpretable and Feasible Data Augmentation for Imbalanced Learning». arXiv:2603.13927 [cs.LG] Parâmetros não válidos no arXiv (ajuda)

[1]

[2]

[3]

[4]

[5]

Decision Predicate Graphs