Decision Predicate Graphs

O Decision Predicate Graph (DPG) é um método baseado em grafos no campo da explainable artificial intelligence (XAI) para a interpretação global de modelos de ensemble baseados em árvores, especialmente modelos de classificação como as random forest.[1] No DPG, os predicados de decisão internos de um ensemble são transformados em um grafo dirigido e ponderado, no qual os nós representam predicados e as arestas representam a frequência com que esses predicados são satisfeitos consecutivamente durante o percurso do modelo treinado.[1]

O DPG foi introduzido como uma forma de representar a estrutura das decisões de um ensemble preservando as relações entre características, limiares, operações lógicas e predições, além de permitir análises baseadas em grafos por meio de medidas como centralidade e estrutura de comunidades.[1]

Visão geral

A formulação original do DPG foi proposta para classificadores ensemble baseados em árvores.[1] Na definição original, um DPG é um grafo dirigido ponderado cujos nós correspondem a predicados extraídos dos nós internos e das folhas das árvores do ensemble, enquanto suas arestas codificam a frequência com que amostras de treinamento satisfazem predicados consecutivos dentro dos aprendizes de base.[1]

O método foi apresentado como uma abordagem de explicação post hoc, específica para o modelo, voltada a ensembles, com o objetivo de fornecer uma explicação global em vez de apenas explicações no nível de instância.[1] O artigo original destacou mecanismos interpretativos baseados em teoria dos grafos, incluindo extração de restrições orientadas por classe, análise de centralidade e detecção de comunidades.[1]

Método

Na formulação original, a construção do DPG ocorre por meio do percurso de cada árvore do ensemble com as amostras de treinamento, registrando os caminhos de predicados seguidos por essas amostras e agregando esses caminhos em um único grafo.[1] O grafo resultante é então analisado para produzir resumos interpretáveis do comportamento do ensemble.[1]

O artigo original sobre DPG descreveu vários componentes interpretativos:[1]

  • Restrições (constraints), destinadas a resumir intervalos específicos por classe ou condições semelhantes a fronteiras associadas às características.
  • Centralidade de intermediação (betweenness centrality), usada para identificar predicados de gargalo que aparecem em muitos caminhos mínimos do grafo.
  • Local reaching centrality, usada para estimar a importância dos predicados em termos da estrutura alcançável a jusante.
  • Detecção de comunidades (community detection), usada para identificar grupos densamente conectados de predicados que podem corresponder a subestruturas relacionadas a classes.

Predicados e relação com árvores de decisão

No DPG, um predicado é uma condição lógica extraída de uma divisão em uma árvore de decisão, normalmente expressa como uma característica, um operador e um valor.[1] Exemplos incluem condições como petal width (cm) ≤ 1.7 ou petal length (cm) ≤ 4.85 no problema de classificação do conjunto de dados Iris.[1] Na formulação original do DPG, os predicados são obtidos a partir dos nós internos de divisão das árvores do ensemble, enquanto os rótulos de classe nas folhas também são representados na estrutura do grafo.[1]

Por exemplo, em um ensemble treinado com o conjunto de dados Iris, uma árvore pode conter a divisão petal width (cm) ≤ 1.7. No DPG, essa divisão se torna um nó do grafo. Se, ao longo de um caminho de decisão, ela for seguida por outra condição como petal length (cm) ≤ 4.85, então o grafo pode conter uma aresta dirigida entre esses dois nós-predicado, ponderada de acordo com a frequência com que as amostras de treinamento satisfazem essas condições de forma consecutiva em todo o ensemble.[1] Dessa forma, o DPG representa não apenas condições isoladas, mas também suas relações recorrentes dentro do ensemble.[1]

O DPG se diferencia de uma árvore de decisão tanto em propósito quanto em estrutura.[1] Uma árvore de decisão é, antes de tudo, um modelo preditivo: ela recebe uma instância de entrada e percorre um único caminho da raiz até uma folha para produzir uma classe ou um valor de saída. Já o DPG é uma estrutura explicativa construída após o treinamento, projetada para resumir a lógica de decisão de um ensemble inteiro de árvores, e não para fazer predições diretamente.[1] Enquanto a árvore de decisão é usada operacionalmente para prever, o DPG é utilizado de forma analítica para inspecionar como os predicados se repetem, interagem e contribuem para a separação entre classes ao longo de muitas árvores.[1]

Assim, uma árvore de decisão responde à pergunta "Qual predição é feita para esta instância?", enquanto o DPG busca ajudar a responder perguntas como "Quais condições lógicas se repetem no ensemble?", "Quais predicados são decisões centrais ou de gargalo?", e "Quais grupos de predicados caracterizam uma classe?".[1]

Aplicações e extensões relatadas

Após sua introdução em 2024, o DPG foi estendido e aplicado em diversos trabalhos posteriores.

Uma extensão de 2025 adaptou o DPG para explicar modelos Isolation forest voltados à detecção de outliers. Esse trabalho introduziu uma extensão descrita como um método de explicação global para Isolation Forest e acrescentou um Inlier-Outlier Propagation Score (IOP-Score) para caracterizar como as características contribuem para a identificação de inliers e outliers.[2]

Também em 2025, o DPG foi utilizado em um estudo de caso sobre pipelines de aprendizado de máquina no contexto financeiro para explicar tanto uma etapa de pré-processamento baseada em Isolation Forest quanto uma etapa de credit scoring baseada em Random Forest, com o objetivo declarado de oferecer explicabilidade de ponta a ponta para toda a pipeline.[3]

Outro estudo de 2025 aplicou o DPG à cibersegurança, usando-o para analisar a classificação de tráfego de rede com modelos Random Forest e para derivar limites específicos por classe e interpretações estruturais da lógica de decisão aprendida.[4]

Em 2026, o DPG também foi incorporado a um framework de aumento de dados para aprendizado desbalanceado chamado DPG-da, no qual predicados extraídos de modelos substitutos Random Forest foram usados para impor restrições interpretáveis à geração de amostras sintéticas.[5]

Relação com outros métodos de explicabilidade

O artigo original do DPG posicionou o método em relação a representações de ensembles baseadas em grafos, como os algebraic decision diagrams, e também em relação a métodos mais amplos de XAI, incluindo abordagens model-agnostic e métodos de extração de regras.[1] O método foi apresentado como voltado a enfatizar a representação estrutural da lógica do ensemble, e não apenas explicações locais, atribuição de importância às características ou simples visualização do grafo.[1]

Ver também

Referências

  1. a b c d e f g h i j k l m n o p q r s t u Arrighi, Leonardo; Pennella, Luca; Tavares, Gabriel Marques; Barbon Junior, Sylvio (2024). «Decision Predicate Graphs: Enhancing Interpretability in Tree Ensembles». World Conference on eXplainable Artificial Intelligence. Communications in Computer and Information Science. 2154. Springer. pp. 311–332. doi:10.1007/978-3-031-63797-1_16 
  2. Ceschin, Matteo; Arrighi, Leonardo; Longo, Luca; Barbon Junior, Sylvio (2025). «Extending Decision Predicate Graphs for Comprehensive Explanation of Isolation Forest». World Conference on eXplainable Artificial Intelligence. Springer. pp. 271–293 
  3. Arrighi, Leonardo; da Silva, Matheus Camilo; Barbon Junior, Sylvio (2025). «End-to-End Explainability of Machine Learning Pipelines with Decision Predicate Graphs: A Financial Scenario Case Study». Ital-IA 2025: 5th National Conference on Artificial Intelligence. CEUR Workshop Proceedings 
  4. Pereira, Eron Ponce; Moradbeikie, Azin; Zarpelão, Bruno Bogaz; Barbon Junior, Sylvio (2025). «Learning to Explain Cyberattacks: Insights from Random Forest and Decision Predicate Graphs». Ital-IA 2025: 5th National Conference on Artificial Intelligence. CEUR Workshop Proceedings 
  5. da Silva, Matheus Camilo; Costanzo, Gabriel Gustavo; De Lorenzo, Andrea; Barbon Junior, Sylvio (2026). «Close to Reality: Interpretable and Feasible Data Augmentation for Imbalanced Learning». arXiv:2603.13927Acessível livremente [cs.LG]  Parâmetros não válidos no arXiv (ajuda)

Leitura adicional

  • Nauta, Meike; Trienes, Jan; Pathak, Shreyasi; Nguyen, Elisa; Peters, Michelle; Schmitt, Yasmin; Schlötterer, Jörg; van Keulen, Maurice; Seifert, Christin (2023). «From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI». ACM Computing Surveys. 55 (13s): 295:1–295:42. doi:10.1145/3583558 
  • Vilone, Giulia; Longo, Luca (2021). «Notions of Explainability and Evaluation Approaches for Explainable Artificial Intelligence». Information Fusion. 76: 89–106. doi:10.1016/j.inffus.2021.05.009 

Ligações externas

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.