EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEMAS DE CLASSIFICAÇÃO MULTIRRÓTULO

UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
EXPLORANDO CORRELAÇÕES PARA O
PARTICIONAMENTO DO ESPAÇO DE
RÓTULOS EM PROBLEMAS DE
CLASSIFICAÇÃO MULTIRRÓTULO
ELAINE CECÍLIA GATTO
ORIENTADOR: PROF. DR. RICARDO CERRI
CO-ORIENTADOR: PROF. DR. MAURI FERRANDIN
São Carlos – SP
2021

UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
EXPLORANDO CORRELAÇÕES PARA O
PARTICIONAMENTO DO ESPAÇO DE
RÓTULOS EM PROBLEMAS DE
ELAINE CECÍLIA GATTO
Qualificação apresentada ao Programa de Pós-
Graduação em Ciência da Computação da Universi-
dade Federal de São Carlos, como parte dos requisi-
tos para a obtenção do título de Doutora em Ciência
da Computação, área de concentração: Aprendizado
de Máquina.
Orientador: Prof. Dr. Ricardo Cerri
São Carlos – SP
2021

RESUMO
Recentes trabalhos na área de classificação multirrótulo apresentam estratégias diversas para
explorar as correlações existentes entre os rótulos, com o objetivo de melhorar o desempenho
dos classificadores. No entanto, poucos trabalhos investigam estratégias para usar as correlações
encontradas com o objetivo de particionar o espaço de rótulos na classificação multirrótulo.
As propostas atuais se concentram em transformar o problema multirrótulo original em um
conjunto de problemas locais simples-rótulo usando partições locais, ou então trabalham com
todos os rótulos simultaneamente, isto é, uma partição global. O principal objetivo deste projeto
de pesquisa consiste em desenvolver, implementar e avaliar uma estratégia capaz de particionar
o espaço de rótulos, explorando as correlações entre rótulos, de forma a gerar várias partições
que se encontram entre as tradicionais global e local, aqui denominadas partições híbridas. Essas
partições híbridas são compostas por grupos de rótulos correlacionados e devem ser capazes
de otimizar o desempenho dos classificadores. Para tal fim, a estratégia inicia modelando as
correlações entre os rótulos, usando como entrada o espaço de rótulos. A seguir, é realizado
o particionamento do espaço de rótulos para encontrar várias partições híbridas as quais são
validadas, e uma entre elas é escolhida para teste. Esta partição é então comparada com as
partições global e local do conjunto de dados. Espera-se que as partições híbridas possam
melhorar o desempenho preditivo dos classificadores de maneira significativa e que superem
o desempenho preditivo das tradicionais partições global e local, colaborando assim para a
evolução do estado-da-arte em aprendizado multirrótulo.
Palavras-chave: Agrupamento de Rótulos, Classificação Multirrótulo, Correlação entre Rótulos,
Partições de Dados Multirrótulo, Partições Híbridas.

ABSTRACT
Recent work in the multi-label classification area presents different strategies to explore the
label correlations to improve the performance of classifiers. However, few studies investigate
strategies to use the label correlations in order to partition the label space in the multi-label
classification. Current proposals focus on transforming the original multi-label problem into a set
of single-label local problems using local partitions, or else work with all labels simultaneously,
that is, a global partition. The main objective of this research project is to develop, implement
and evaluate a strategy capable of partitioning the label space, exploring the label correlations,
in order to generate several partitions that are between the traditional global and local, here
called hybrid partitions. These hybrid partitions are composed of groups of correlated labels and
must be able to optimize the performance of the classifiers. To this end, the strategy starts by
modeling the label correlations using the label space as input. Next, the label space is partitioned
to find several hybrid partitions which are validated, and one of them is chosen for testing. This
partition is then compared to the global and local partitions. It is hoped that hybrid partitions can
significantly improve the predictive performance of classifiers, and that they will outperform
the predictive performance of traditional global and local partitions, thus contributing to the
evolution of the state-of-the-art in multi-label learning. Keywords: Label Grouping, Multi-Label
Classification, Label Correlation, Multi-Label Partitions.
Key words: Label Grouping, Multi-label Classification, Label Correlation, Multi-label Partition,
Hybrid Partition.

SUMÁRIO
CAPÍTULO 1–INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4 Resumo dos Resultados Preliminares . . . . . . . . . . . . . . . . . . . . . . . 20
1.5 Organização do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
CAPÍTULO 2–CLASSIFICAÇÃO MULTIRRÓTULO . . . . . . . . . . . . . . 22
2.1 Abordagens para Problemas Multirrótulo . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Abordagem Independente de Algoritmo . . . . . . . . . . . . . . . . . 25
2.1.2 Abordagem Dependente de Algoritmo . . . . . . . . . . . . . . . . . . 31
2.2 Combinação de Classificadores Multirrótulo . . . . . . . . . . . . . . . . . . . 34
2.3 Correlações entre Rótulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Medidas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.1 Bipartições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.1.1 Medidas Baseadas em Instâncias . . . . . . . . . . . . . . . 41
2.4.1.2 Medidas Baseadas em Rótulos . . . . . . . . . . . . . . . . . 42
2.4.2 Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.2.1 Medidas Baseadas em Instâncias . . . . . . . . . . . . . . . 43
2.4.2.2 Medidas Baseadas em Rótulos . . . . . . . . . . . . . . . . . 45
2.5 Dimensionalidade, Escalabilidade e Desbalanceamento . . . . . . . . . . . . . 46
2.6 Características de Dados Multirrótulo . . . . . . . . . . . . . . . . . . . . . . 48
2.7 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
CAPÍTULO 3–PROPOSTA DE PESQUISA . . . . . . . . . . . . . . . . . . . . 52
3.1 Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1 Modelagem das Correlações . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.2 Particionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.1.3 Validação e Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Conjuntos de Dados Multirrótulo . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Recursos e Ferramentas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 Análise dos Resultados e Resultados Esperados . . . . . . . . . . . . . . . . . 63
3.5 Plano de Trabalho e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . 63
CAPÍTULO 4–TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . 66

4.1 Combining Multi-Label Classifiers Based on Projections of the Output Space
Using Evolutionary Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 Group sensitive Classifier Chains for Multi-Label
Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3 How is a data-driven approach better than random choice in label space division
for multi-label classification? . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Hierarchical Partitioning of the Output Space in Multi-Label Data . . . . . . . 72
4.5 Multi-Label Classification Using Higher Order Label Clusters . . . . . . . . . 73
4.6 Structuring the Output Space in Multi-label Classification by Using Feature
Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
A–EXPERIMENTOS PRELIMINARES . . . . . . . . . . . . . . . . . . . . . . . 91
A.1 Hybrid Partitions for Multi-Label Classification . . . . . . . . . . . . . . . . . 91
A.1.1 Pré-Processamento dos Dados . . . . . . . . . . . . . . . . . . . . . . 93
A.1.2 Fase 1: Modelagem das Correlações . . . . . . . . . . . . . . . . . . . 93
A.1.2.1 Índice Jaccard . . . . . . . . . . . . . . . . . . . . . . . . . 93
A.1.2.2 Mapa Auto Organizável de Kohonen . . . . . . . . . . . . . 95
A.1.3 Fase 2: Construção das Partições Híbridas . . . . . . . . . . . . . . . . 100
A.1.4 Fase 3: Validação das Partições Híbridas . . . . . . . . . . . . . . . . . 101
A.1.5 Fase 4: Teste da Melhor Partição Híbrida . . . . . . . . . . . . . . . . 103
A.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.2.1 Configuração do Experimento . . . . . . . . . . . . . . . . . . . . . . 103
A.2.2 Análise do Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . 104
A.2.3 Análise das Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.4 Diferença Estatística entre os Particionamentos . . . . . . . . . . . . . 113
A.2.5 Tempo de Execução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B–SUMÁRIO ABORDAGENS MULTIRRÓTULO . . . . . . . . . . . . . . . . 118

LISTA DE ABREVIATURAS
A Acurácia
AUC Area Under Curve
BR Binary Relevance
BP-MLL Back Propagation Multi-Label Learning
C Cobertura
Card Cardinalidade
CA Classification Accuracy
CCA Canonical Correlation InformAtion
CC Classifier Chains
CLP Constant Label Problem
CLR CaLibrated Ranking by Pairwise Comparison
Dens Densidade
EAGLET Evolutionary AlGorithm for Multi-Label Ensemble OpTimization
EBR Ensemble of Binary Relevance
ECC Ensemble of Classifier Chains
ELP Ensemble of Label Powerset
EME Evolutionary Algorithm Multi-LabEl
EMLC Ensemble of Multi Label Classifiers
EMR Exact Match Ratio
EPS Ensemble of Pruned Sets
F1Ma Macro-F1

F1Mi Micro-F1
GCC Group Sensitive Classifier Chains
GACC Genetic Algorithm for ordering Classifier Chains
HL Hamming Loss
HOMER Hiearchy Of Multi-Label ClassifiERs
HPML Hibrid Partitions for Multi-Label Classification
HPML-J Hibrid Partitions for Multi-Label Classification - Jaccard
HPML-KN Hibrid Partitions for Multi-Label Classification - Kohonen Normal
HPML-KT Hibrid Partitions for Multi-Label Classification - Kohonen Ttransposed
IE Is Error
k-NN k-Nearest Neighboors
kNN-MLC k-Nearest Neighboors Multi-Label Classitiction
LP Label Powerset
LP-kNN Label Powerset k-Nearest Neighboors
ML Margin Loss
MLC Multi-Label Classification
MLC-LC Multi-Label Classification Label Clusters
ML-C4.5 Multi-Label C4.5
ML-kNN k-Nearest Neighboors Multi-Label
MLoss Margin Loss
MLP Missing Label Prediction
MMAC Multi-Class Multi-Label Associative Classification
MMP Multi-Class Multi-label Perceptron
MuLAM Multi-Label Ant-Miner
OE One Error
P Precisão

PCA Principal Component Analysis
PCTs Predictive Clustering Trees
PM Precisão Média
PMa Precisão Macro
PMi Precisão Micro
PMM Parametric Mixture Models
PPT Pruned Problem Transformation
R Revocação
RAkEL Random k-labELsets
RE Ranking Error
RF-C4.5 Random Forest-C4.5
RF-PCT Random Forest of Predictive Clustering Trees
RL Ranking Loss
RMa Revocação Macro
RMi Revocação Micro
RNA Redes Neurais Artificiais
ROC Receiver Operating Curve
RPC Ranking by Pairwise Comparison
SLC Single-Label Classification
SOM Self-Oorganizing Map
SVM Support Vector Machines
WLP Wrong Label Prediction

LISTA DE FIGURAS
Figura 1 – Exemplo Correlações: instância de teste . . . . . . . . . . . . . . . . . . . 16
Figura 2 – Partições Global, Local e Híbrida . . . . . . . . . . . . . . . . . . . . . . . 17
Figura 3 – Classificação Simples-Rótulo e Multirrótulo . . . . . . . . . . . . . . . . . 22
Figura 4 – Abordagem Independente de Algoritmo . . . . . . . . . . . . . . . . . . . 26
Figura 5 – Partição Local Binary Relevance para De . . . . . . . . . . . . . . . . . . . 29
Figura 6 – Partição Label Powerset De . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 7 – Partição RPC De . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 8 – Abordagem Dependente de Algoritmo . . . . . . . . . . . . . . . . . . . . 32
Figura 9 – Exemplo Correlação Global . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 10 – Exemplo Correlação Local . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Figura 11 – Correlações semelhantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Figura 12 – Medidas de Avaliação Multirrótulo . . . . . . . . . . . . . . . . . . . . . . 40
Figura 13 – Fluxograma da Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 14 – Exemplo de um mapa auto organizável de Kohonen . . . . . . . . . . . . . 54
Figura 15 – Exemplo de comunidades de pessoas . . . . . . . . . . . . . . . . . . . . . 55
Figura 16 – Dendrograma para Flags . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Figura 17 – Partições híbridas para Flags obtidas usando os cortes no dendrograma . . . 58
Figura 18 – Formas de se obter as partições híbridas . . . . . . . . . . . . . . . . . . . 59
Figura 19 – Tratamento da partição híbrida . . . . . . . . . . . . . . . . . . . . . . . . 59
Figura 20 – Indivíduos encontrados pelo método EAGLET representados como partição 67
Figura 21 – Comparação entre GCC e as Partições Híbridas . . . . . . . . . . . . . . . 69
Figura 22 – Comparando a estratégia das partições híbridas com o trabalho de (SZY-
MAŃSKI et al., 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Figura 23 – HOMER representado como uma partição . . . . . . . . . . . . . . . . . . 73
Figura 24 – Comparando MLC-LC com as Partições híbridas . . . . . . . . . . . . . . . 75
Figura 25 – Hierarquias geradas pelos quatro algoritmos . . . . . . . . . . . . . . . . . 77
Figura 26 – Hierarquias de Rótulos representadas como partições . . . . . . . . . . . . 78
Figura 27 – Fluxograma do HPML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Figura 28 – Tabela de Contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Figura 29 – Dendrograma das dissimilaridades do espaço de rótulos de De . . . . . . . . 95
Figura 30 – Mapa Auto-Organizável de Kohonen . . . . . . . . . . . . . . . . . . . . . 96

Figura 31 – Mapa de Kohonen HPML-KN . . . . . . . . . . . . . . . . . . . . . . . . 98
Figura 32 – Partição Híbrida HPML-KT . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Figura 33 – Dendrogramas para o conjunto de dados Flags . . . . . . . . . . . . . . . . 100
Figura 34 – Representação das Partições De . . . . . . . . . . . . . . . . . . . . . . . . 102
Figura 35 – Gráficos das Médias Parte 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Figura 38 – Gráficos de Distância Crítica . . . . . . . . . . . . . . . . . . . . . . . . . 115

LISTA DE TABELAS
Tabela 1 – Exemplos Número de Bell para n = 2 e n = 3 . . . . . . . . . . . . . . . . 18
Tabela 2 – Conjunto de dados de exemplo De . . . . . . . . . . . . . . . . . . . . . . 25
Tabela 3 – Frequência dos Rótulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Tabela 4 – Conjuntos de Rótulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Tabela 5 – Método de Eliminação para De . . . . . . . . . . . . . . . . . . . . . . . . 27
Tabela 6 – Métodos de Cópia e Cópia Ponderada para De . . . . . . . . . . . . . . . . 28
Tabela 7 – Métodos de Seleção para De . . . . . . . . . . . . . . . . . . . . . . . . . 28
Tabela 8 – Conjunto de dados BR para De . . . . . . . . . . . . . . . . . . . . . . . . 29
Tabela 9 – Pares de Rótulos para De . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Tabela 10 – Métodos multirrótulo, partições e correlações . . . . . . . . . . . . . . . . 39
Tabela 11 – Exemplo de seleção de rótulos para cada grupo . . . . . . . . . . . . . . . . 60
Tabela 12 – Correlações encontradas em cada grupo . . . . . . . . . . . . . . . . . . . 60
Tabela 13 – Conjuntos de Dados Multirrótulo . . . . . . . . . . . . . . . . . . . . . . . 62
Tabela 14 – Cronograma de Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Tabela 15 – Espaço de rótulos de De . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Tabela 16 – Matriz de Similaridade Jaccard (De) . . . . . . . . . . . . . . . . . . . . . 94
Tabela 17 – Matriz de Distância Jaccard (De) . . . . . . . . . . . . . . . . . . . . . . . 95
Tabela 18 – Entradas para HPML-KN e HPML-KT . . . . . . . . . . . . . . . . . . . . 97
Tabela 19 – Partições De . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Tabela 20 – Conjuntos de dados selecionados para o experimento . . . . . . . . . . . . 103
Tabela 21 – Resultados desempenho preditivo parte 1 . . . . . . . . . . . . . . . . . . . 106
Tabela 24 – Média das 22 medidas de avaliação para os 12 conjuntos de dados . . . . . 110
Tabela 25 – Total conjuntos de dados por medidas de avaliação . . . . . . . . . . . . . . 111
Tabela 26 – Total medidas de avaliação por conjunto de dados . . . . . . . . . . . . . . 111
Tabela 27 – Partições Escolhidas para cada conjunto de dados . . . . . . . . . . . . . . 112
Tabela 28 – PValues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Tabela 29 – Tempo de Execução em HH:mm:ss . . . . . . . . . . . . . . . . . . . . . . 116
Tabela 30 – Resumo dos Métodos Independentes de Algoritmo . . . . . . . . . . . . . . 118
Tabela 31 – Resumo dos Métodos Dependentes de Algoritmo . . . . . . . . . . . . . . 118

Tabela 32 – Resumo dos EMLCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Tabela 33 – Outros Métodos Independentes de Algoritmo . . . . . . . . . . . . . . . . 119
Tabela 34 – Outros Métodos Dependentes de Algoritmo . . . . . . . . . . . . . . . . . 119
Tabela 35 – Outros EMLCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

14
Capítulo 1
INTRODUÇÃO
Este capítulo serve como introdução aos capítulos seguintes, onde o problema investigado
e todas as motivações do trabalho proposto são apresentadas. Além disso, é apresentada a hipótese,
o objetivo principal e objetivos específicos, assim como os resultados preliminares.
1.1 Contextualização e Motivação
Aprendizado de Máquina é uma área da Inteligência Artificial capaz de resolver proble-
mas a partir de experiências passadas. Algoritmos de Aprendizado de Máquina podem aprender
uma hipótese - ou função - quando induzidos a partir de um conjunto de dados que representa
as instâncias, e assim resolvem um determinado problema (FACELI et al., 2011). De acordo
com Kim (2017) o Aprendizado de Máquina é uma técnica que aprende um modelo a partir dos
dados, e o produto final do aprendizado é o modelo.
Alpaydin (2014) define que o Aprendizado de Máquina é uma técnica capaz de otimizar
um critério de desempenho usando dados de instâncias ou experiências anteriores e, portanto,
o aprendizado consiste na otimização de parâmetros do modelo usando experiências passadas.
Assim, de acordo com Alpaydin (2014), um modelo descritivo emprega o aprendizado não
supervisionado para explorar ou descrever um conjunto de dados, enquanto um modelo preditivo
emprega aprendizado supervisionado para realizar previsões a respeito do conjunto de dados.
Os conjuntos de dados podem pertencer a diferentes domínios como documentos (pron-
tuários médicos, artigos, etc.), áudio (sons captados da natureza, por exemplo), música, vídeos
(filmes, documentários, videoaulas), texto (blogs, sites de notícias, artigos), imagens (fotos
publicadas nas redes sociais e tomografias), transações financeiras, dados de sensores, e também
podem ser obtidos a partir de várias fontes (ALLAM; DHUNNY, 2019; ZHENG et al., 2020;
Mahmud et al., 2020).
Um conjunto de dados representa instâncias do problema a ser resolvido (FACELI et al.,
2011). Estas instâncias podem ou não ser rotuladas, sendo espaço de rótulos (ou espaço de saída)
o nome dado ao conjunto de rótulos do conjunto de dados em questão. Por exemplo, um vídeo

Capítulo 1. Introdução 15
pode ser descrito por um conjunto de atributos, como resolução do vídeo, tipo de compressão
do vídeo, tipo de áudio do vídeo, título, além do próprio gênero a que pertence. Neste exemplo,
gênero do vídeo é usado como atributo alvo, ou seja, um rótulo. Assim, um conjunto de dados
de vídeo é composto pelas instâncias (atributos de entrada) e seus respectivos rótulos (atributos
de saída). Neste caso o espaço de rótulos é composto pelos gêneros dos vídeos que compõem o
conjunto de dados em questão.
No aprendizado não supervisionado, os rótulos dos dados não são conhecidos, isto é,
os dados não são rotulados (HERRERA et al., 2016). Por exemplo, uma empresa pode querer
identificar perfis de clientes em sua base de dados. Aplicando um algoritmo de agrupamento
é possível agrupar clientes semelhantes de acordo com a análise das características dos dados
destes clientes. A partir daí, a empresa pode traçar estratégias específicas para atender estes
grupos de forma mais direcionada (ALPAYDIN, 2014). Exemplos de tarefas realizadas por este
tipo de aprendizado são o agrupamento, associação e sumarização (FACELI et al., 2011).
Já no aprendizado supervisionado, os rótulos dos dados são conhecidos - os dados são
rotulados - e assim é possível avaliar a predição feita pelo modelo (ALPAYDIN, 2014). É o
caso do conjunto de dados de vídeo apresentado: sabe-se de antemão a quais gêneros cada
vídeo (instância) do conjunto pertence. Esse conjunto pode ser usado como entrada em um
algoritmo de classificação que aprende os gêneros de vídeo a partir desse conjunto. Um modelo
preditivo é gerado (treinado) e então usado para classificar um novo vídeo - que não faz parte
do conjunto de dados usado para treinar o modelo - em uma das categorias aprendidas. Tarefas
como classificação e regressão são realizadas por este tipo de aprendizado (FACELI et al., 2011).
Enquanto na classificação simples-rótulo (ou tradicional) uma instância do conjunto de
dados pertence a um único rótulo, na classificação multirrótulo uma instância pode pertencer a
vários rótulos ao mesmo tempo (HERRERA et al., 2016). O principal objetivo na classificação
multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância. Várias
aplicações do mundo real podem ser modeladas como um problema multirrótulo (ZHANG;
ZHOU, 2014), como em Bioinformática (ZHOU et al., 2020), onde proteínas podem realizar
muitas funções, categorização de texto (WANG et al., 2020), onde documentos pertencem a
várias categorias ao mesmo tempo, e classificação musical (SANDEN; ZHANG, 2011), onde
músicas pertencem a vários gêneros simultaneamente.
Dentre os desafios envolvidos na classificação multirrótulo, destacam-se a alta dimensio-
nalidade do espaço de rótulos - quando existe um número muito grande de rótulos no espaço de
rótulos - sendo algumas vezes superior ao número de atributos de entrada (TSOUMAKAS et al.,
2008); o desbalanceamento, onde a maioria dos rótulos tem apenas alguns exemplos positivos
(TAHIR et al., 2019); e a complexidade em identificar e explorar dependências e correlações
entre rótulos (CHANG et al., 2019).
Estudos têm mostrado que o desempenho preditivo de classificadores multirrótulo pode
ser melhorado explorando correlações entre rótulos, e várias abordagens têm sido propostas para

este fim (J. Barezi et al., 2017; ZHU et al., 2018). A partir da modelagem das correlações, a
predição de rótulos é facilitada, isto é, um rótulo pode ser predito corretamente devido à sua
correlação com outros rótulos. Para ilustrar como o aprendizado de correlações colabora para
a melhoria das predições, considere a instância de teste apresentada na Figura 1. Considere
também que durante o treinamento do modelo foi encontrada uma forte correlação entre os
rótulos montanha e praia.
Observa-se que na Figura 1 existe uma praia entre as montanhas, no entanto, o rótulo
praia é difícil de ser predito pois não é predominante na imagem. O rótulo montanha,
no entanto, é mais facilmente predito, pois é predominante. Ao se considerar a correlação
entre montanha e praia, aumenta-se a chance do rótulo praia ser predito quando o rótulo
montanha estiver presente na imagem. Portanto, ao se aprender as correlações existentes
entre os rótulos, estas podem ser utilizadas para predizer rótulos que provavelmente não seriam
preditos utilizando métodos que não consideram tais correlações.
Figura 1 – Exemplo Correlações: instância de teste
Além das correlações, alguns trabalhos têm proposto explorar o espaço de rótulos
para resolver questões de escalabilidade (TSOUMAKAS et al., 2008), gerar hierarquias de
rótulos (NIKOLOSKI et al., 2018) ou agrupar rótulos (ABEYRATHNA, 2018) para melhorar
o desempenho preditivo. Portanto, diferentes métodos podem ser aplicados para tratar destas
questões em problemas multirrótulo.
Tradicionalmente, os métodos de classificação multirrótulo podem ser divididos em
duas categorias principais: adaptação de algoritmo e transformação de problema. Na abordagem
de adaptação de algoritmo, novos algoritmos são desenvolvidos, ou algoritmos existentes são
adaptados, para resolver o problema multirrótulo original. Esses algoritmos tratam todos os
rótulos do problema ao mesmo tempo, e treinam apenas um único classificador multirrótulo.
No entanto, informações locais (individuais de cada rótulo) que podem ser úteis para explorar
diferentes padrões nos dados são ignoradas nesta abordagem (SILLA; FREITAS, 2011). Árvores
de decisão, algoritmos evolutivos, métodos probabilísticos, redes neurais artificiais e outros tipos
de algoritmos podem ser adaptados para resolver o problema multirrótulo nesta abordagem.
Na abordagem de transformação de problema, os métodos transformam o problema
multirrótulo em um conjunto de subproblemas binários ou multi-classe, onde qualquer algoritmo

de classificação convencional pode ser usado. Neste caso é necessário treinar um classificador
binário para cada um dos rótulos individualmente ou um classificador multi-classe para cada
subproblema multi-classe (CARVALHO; FREITAS, 2009). Apesar da flexibilidade destes mé-
todos, treinar muitos classificadores pode resultar no uso de informações muito específicas,
perda de informações e a não exploração das dependências entre rótulos durante o processo de
treinamento.
Do ponto de vista do espaço de rótulos, pode-se dizer que a abordagem de adaptação de
algoritmos é uma abordagem global, pois todos os rótulos são considerados ao mesmo tempo,
enquanto que na abordagem de transformação de problemas, o espaço de rótulos pode ser
particionado separando os rótulos e tratando-os individualmente, em pares ou em grupos. Diante
disto, pode-se dizer que a abordagem global gera partições globais e a abordagem local, partições
locais. Dentro da abordagem local, a grande maioria dos métodos geram partições considerando
que os rótulos são tratados individualmente. Assim, neste trabalho, serão considerados métodos
que geram partições locais aqueles que tratam os rótulos individualmente. Diante disto, introduz-
se aqui o conceito de partições que podem ser geradas ao se realizar o particionamento do espaço
de rótulos.
A Figura 2 apresenta as partições aqui introduzidas, onde o quadrado representa a partição
em si, o círculo representa um grupo de rótulos e o losango representa o rótulo propriamente
dito. Considere L1, L2, L3, L4, L5, L6, L7, L8 rótulos que compõem o espaço de rótulos de
um conjunto de dados. Na partição global (Figura 2a) todos os rótulos estão juntos em um único
círculo, isto é, um único grupo e portanto um único classificador multirrótulo é treinado. Já na
partição local (Figura 2b) cada rótulo está em um círculo diferente, portanto, cada rótulo é um
grupo e, neste exemplo, oito classificadores binários são treinados.
L1
L2
L3 L4
L5
L6
L8
L7
Partição Global
a) Um único grupo com
todos os rótulos
Partição Local
b) Cada rótulo é um grupo
Partição Híbrida
L2
L5
L4
L8
L7 L6
L3
L8
L2
L3
L4
L5
L6
L1
L7
c) Cada grupo consiste de
um conjunto de rótulos
correlacionados
L1
Figura 2 – Partições Global, Local e Híbrida
Por fim, a Figura 2c ilustra uma partição diferente chamada aqui de híbrida. Trata-se de
uma partição que está entre as partições global e local. Diferentemente das partições global e
local, que não procuram explorar a correlação entre sub-conjuntos de rótulos, neste trabalho as
partições híbridas são obtidas ao se realizar o particionamento do espaço de rótulos explorando

as correlações entre rótulos. Cada partição híbrida gerada é composta por grupos de rótulos onde
os rótulos mais correlacionados são agrupados juntos. Portanto, diferentes grupos de rótulos com
diferentes números de rótulos correlacionados podem ser obtidos e assim diferentes partições
híbridas.
Para cada círculo dentro da partição híbrida exemplificada, um classificador é treinado.
Se um grupo de uma partição híbrida encontrada é composto por um único rótulo, então um
classificador binário é treinado para aquele grupo, e se um grupo é composto por vários rótulos,
então um classificador multirrótulo é treinado para aquele grupo. No exemplo da Figura 2c a
partição híbrida é composta por quatro grupos de rótulos: G1 = {L2, L5}, G2 = {L4, L8},
G3 = {L3, L6, L7} e G4 = {L1}. Neste caso será necessário treinar três classificadores
multirrótulo (G1, G2 e G3) e um classificador binário (G4). Importante ressaltar que a Figura 2c
ilustra um exemplo de partição híbrida. No entanto, em problemas com muitos rótulos, existe
um grande número de possíveis partições. Um grande desafio é encontrar a partição híbrida mais
adequada.
Para ilustrar o desafio de se encontrar uma partição híbrida adequada entre todas as
possíveis partições de rótulos, o conceito do número de Bell pode ser utilizado. O número de
Bell (Bn) pode ser definido como o número total de partições de um conjunto com n elementos
(onde n ≥ 0). Também pode ser definido como o número de partições possíveis de um conjunto
com n elementos consistindo de k conjuntos separados e não vazios (conforme Equação 1.1),
ou ainda como uma contagem das diferentes formas de se particionar um conjunto de dados.
Além disso, uma partição P de um conjunto A é definida como um conjunto de subconjuntos
não-vazios, disjuntos aos pares de A cuja união é A (COMTET, 1974; SPIVEY, 2008; MEZO,
2011).
Bn =
n
X
k=0

n
k

(1.1)
onde n
k

é o número de maneiras de se particionar um conjunto em k subconjuntos não vazios.
Exemplos: se n = 2 então B2 = 2, isto é, duas partições são geradas com apenas dois elementos
({1, 2}); e se n = 3, então B3 = 5, isto é, cinco partições são geradas com três elementos
({1, 2, 3}). Todas as possíveis partições geradas para B2 e B3 são ilustradas na Tabela 1.
Tabela 1 – Exemplos Número de Bell para n = 2 e n = 3
B2 B3
{1, 2} { { 1, 2, 3 } }
{ { 1 }, { 2 } } { { 1 }, { 2 }, { 3 } }
{ { 1, 2 } , { 3 } }
{ { 1, 3 }, { 2 } }
{ { 2, 3 }, { 1 } }

O número total de rótulos l do espaço de rótulos de um conjunto de dados multirrótulo
pode então ser considerado como o parâmetro n do número de Bell. Neste caso, tomando como
exemplo o conjunto apresentado na Figura 2, o número de possíveis partições do espaço de
rótulos é igual a 21147, pois n = l = 8 e B8 = 21147. Assim, para conjunto de dados com
espaços de rótulos de alta dimensão, torna-se muito mais desafiador encontrar uma partição
híbrida adequada que represente a correlação entre os rótulos.
Com as partições híbridas, espera-se superar as desvantagens apresentadas no uso das
partições locais e globais. Portanto, o objetivo desta pesquisa é o desenvolvimento de um método
que seja capaz de encontrar tais partições, dividindo o espaço de rótulos em subespaços usando
estratégias de particionamento considerando correlações entre rótulos.
1.2 Hipótese
Diante do contexto e motivação apresentados para a realização deste trabalho, a seguinte
hipótese relacionada ao aprendizado multirrótulo é apresentada:
No domínio de problemas de classificação multirrótulo, o desempenho predi-
tivo dos classificadores pode ser melhorado a partir do aprendizado de partições
híbridas, isto é, partições de dados que estejam entre as tradicionais local e global.
Utilizando diferentes métodos para modelar as correlações entre rótulos, no espaço
de rótulos, e diferentes métodos para particioná-los, é possível encontrar partições
híbridas e escolher uma entre elas que leve ao melhor resultado com relação às
tradicionais global e local.
Por diferentes métodos para modelagem das correlações entende-se aplicar, no espaço
de rótulos, métodos existentes na literatura e que permitam particionar os rótulos com base nas
correlações encontradas. Para este fim, métodos que gerem uma matriz de correlações podem ser
considerados mais adequados.
Por diferentes formas de particionar os rótulos com base nas correlações entende-se
aplicar métodos existentes na literatura, que permitam organizar os grupos de rótulos correla-
cionados, de cada partição híbrida encontrada, de maneiras diferentes. Portanto, métodos que
gerem partições com quantidades diferentes de grupos de rótulos correlacionados e diferentes
combinações de rótulos correlacionados podem ser mais adequados para esta tarefa.
1.3 Objetivos
Como objetivo geral, portanto, pretende-se:

Desenvolver, implementar e avaliar uma estratégia capaz de particionar o es-
paço de rótulos, explorando as correlações entre rótulos, de forma a gerar várias
partições híbridas as quais devem ser compostas por grupos de rótulos correlacio-
nados e que sejam capazes de otimizar o desempenho dos classificadores. Rótulos
pertencentes a um determinado grupo não podem pertencer a outros grupos. O
número de partições a serem geradas, assim como o número de subconjuntos em
cada partição, deve ser, preferivelmente, definido de forma automática pelo método
de particionamento.
Como objetivos específicos pretende-se:
• Estudar conceitos relacionados à Classificação Multirrótulo e métodos atualmente utiliza-
dos para resolver problemas de classificação multirrótulo;
• Entender com profundidade como as correlações entre os rótulos contribuem para a
melhora do desempenho preditivo dos classificadores;
• Analisar como a cardinalidade dos dados multirrótulo pode influenciar na geração das
partições híbridas;
• Analisar a influência do método de particionamento na geração das partições híbridas;
• Analisar a influência e contribuição das partições híbridas no desempenho preditivo geral
dos classificadores;
• Analisar o desempenho preditivo da estratégia proposta em diferentes medidas de avaliação
para entender como a estratégia se comporta e também identificar pontos fortes e fracos;
• Comparar e analisar os métodos utilizados para modelar as correlações entre os rótulos;
• Comparar e analisar os métodos utilizados para particionar os rótulos com base nas
correlações;
1.4 Resumo dos Resultados Preliminares
Um primeiro experimento conduzido usou o índice Jaccard para modelar as correlações
e um algoritmo de agrupamento aglomerativo hierárquico para realizar o particionamento
das correlações. Com este experimento preliminar foi possível avaliar vinte e duas medidas
de avaliação multirrótulo e também analisar o comportamento da estratégia proposta. Doze
conjuntos de dados multirrótulo, de quatro domínios diferentes, e com número de rótulos
diferentes foram utilizados no experimento.
Na média dos doze conjuntos de dados multirrótulo, nossa estratégia obteve melhor
desempenho em quinze das vinte e duas medidas de avaliação quando comparadas com as

partições tradicionais global e local. Nas outras sete medidas de avaliação, na média dos doze
conjuntos, nossa estratégia obteve desempenho pior com relação a partição local mas foi melhor
com relação às partições globais. Ainda assim, na média, não obteve o pior desempenho em
nenhuma das medidas pois as partições globais foram aquelas que obtiveram, na média, o
pior desempenho em todas as vinte e duas medidas. A análise completa dos resultados deste
experimento é apresentada no Apêndice A.
1.5 Organização do Documento
O restante deste documento está organizado conforme a seguir. A fundamentação teórica é
apresentada no Capítulo 2, o qual começa explicando e formalizando a classificação multirrótulo.
Em seguida, aspectos importantes da classificação multirrótulo são discutidos: abordagens
para tratar problemas multirrótulo, combinação de classificadores multirrótulo, modelagem das
correlações entre rótulos, medidas de avaliação de desempenho multirrótulo, desbalanceamento,
escalabilidade, dimensionalidade e características dos dados multirrótulo.
No Capítulo 3 é apresentada a metodologia e a proposta deste trabalho. Também são
apresentados possíveis métodos existentes que poderão ser utilizados, como a proposta será
analisada e avaliada, conjuntos de dados multirrótulo que poderão ser utilizados, resultados
esperados, recursos que serão utilizados, plano de pesquisa e planejamento dos próximos passos
que serão desenvolvidos até a conclusão do doutorado. Por fim, no Capítulo 4 são apresentados
os trabalhos mais correlacionados com a proposta aqui apresentada fazendo um comparativo
detalhado entre eles.

22
Capítulo 2
Um classificador tem como objetivo atribuir uma instância, ainda não classificada, a
um (ou mais) rótulos disponíveis conhecidos previamente (HAN et al., 2011). Quando uma
instância é atribuída a um único rótulo, a classificação é denominada Simples-Rótulo (Single-
Label Classification - SLC). Como exemplo, pode-se determinar se um documento (instância)
pertence a uma de duas categorias (rótulos), robótica ou medicina, mas nunca a ambas as
categorias ao mesmo tempo, conforme ilustra a Figura 3a.
Robótica Medicina
b) Multirrótulo
a) Simples-Rótulo
Figura 3 – Classificação Simples-Rótulo e Multirrótulo
Fonte: Elaborado pela autora com base em Cerri (2014).
Quando uma instância pode ser atribuída a vários rótulos ao mesmo tempo, então a
classificação é denominada Multirrótulo (Multi-Label Classification - MLC) (FACELI et al.,
2011). Como exemplo, um documento pode abordar os temas robótica e medicina ao
mesmo tempo (Figura 3b).
Esses tipos de classificação diferem também no retorno do resultado (HERRERA et
al., 2016). Um classificador simples-rótulo retorna apenas um rótulo ou um valor binário: [1]
pertence ao rótulo em questão e [0] não pertence. Por exemplo, na Figura 3a o classificador
pode retornar o rótulo medicina para um determinado documento, ou então o valor 1 para
medicina e 0 para robótica. Um classificador multirrótulo pode retornar um ou mais

Capítulo 2. Classificação Multirrótulo 23
rótulos, ou um vetor de binário de valores de saída, em que cada posição corresponde a um
rótulo. Na Figura 3b o classificador pode retornar os rótulos medicina e robótica ([1, 1]),
apenas o rótulo medicina ([1, 0]), apenas o rótulo robótica ([0, 1]) ou ainda nenhum dos
dois rótulos ([0, 1]).
Diversas aplicações do mundo real podem ser modeladas como um problema multirrótulo
(ZHANG; ZHOU, 2014), como bioinformática, onde uma proteína pode desempenhar várias
funções (ZHOU et al., 2020); categorização de textos, onde um documento pode pertencer a
várias categorias ao mesmo tempo (WANG et al., 2020); classificação de músicas, onde uma
música pode pertencer a vários gêneros simultaneamente (SANDEN; ZHANG, 2011); fármacos,
onde medicamentos podem ter duas ou mais ações biológicas diferentes (KAWAI; TAKAHASHI,
2009); diagnóstico médico, onde os sintomas podem estar associados a mais de uma doença
(SHAO et al., 2013). Devido à ampla gama de aplicações, o interesse em explorar técnicas da
classificação multirrótulo aumentou na comunidade científica e na indústria. Formalmente, um
conjunto de dados multirrótulo D pode ser definido como a seguir (MADJAROV et al., 2012;
READ, 2010; MOYANO et al., 2020).
• ∀xi ∈ X, xi = {xi1, xi2, ..., xid}: espaço de instâncias que consiste de valores de dados
primitivos, onde d é o número de atributos da instância;
• L = {L1, L2, ..., Ll}: espaço de rótulos composto por l variáveis discretas com valores 0
ou 1;
• D = {(xi, Yi) | 1 ≤ i ≤ m}: conjunto de dados multirrótulo onde:
– m: é o número total de instâncias do conjunto de dados;
– xi ∈ X: é uma instância do espaço de instâncias;
– Yi ⊆ L: é um subconjunto do espaço de rótulos associado à instância xi;
– (xi, Yi): é uma instância do conjunto de dados multirrótulo composto por uma instân-
cia xi e um subconjunto de rótulos Yi associado a ela.
– y = {y1, y2, ..., yl} = {0, 1}l
: representação na forma de um vetor binário de
q−dimensões para a associação entre os rótulos. Cada elemento do vetor tem o
valor 1 se o rótulo é relevante, ou 0 caso contrário.
Dado um conjunto de dados multirrótulo, um modelo preditivo deve ser induzido para a
obtenção de um conjunto de rótulos para novas instâncias. Esse modelo pode fornecer o conjunto
de rótulos diretamente (bipartição), ou fornecer um ranqueamento (lista ordenada de rótulos
relevantes) de todos os rótulos conhecidos. No caso do fornecimento direto do conjunto de
rótulos, deve ser encontrado um modelo preditivo h : X → 2L
que forneça um conjunto de
rótulos Ŷ = h(xi) para uma instância de teste xi, onde:

• 2L
: é o conjunto de todos os subconjuntos de L
• Ŷi = {ŷ1, ŷ2, ..., ŷp}: é o conjunto de rótulos preditos para xi onde p é o número total de
rótulos preditos;
• Yi = {y1, y2, ..., yn}: é o conjunto de rótulos verdadeiros para xi onde n é o número de
rótulos verdadeiros de Yi;
No caso do fornecimento de um ranqueamento de todos os rótulos conhecidos, deve
ser encontrado um modelo f : X × L → R. A função f induz um modelo que gera uma lista
ordenada de todos os possíveis rótulos que expressa a relevância dos rótulos dada uma instância
xi. Essa lista pode ser obtida usando métodos como votação ou ponderação. Por exemplo, se
o problema multirrótulo é dividido em problemas binários, então a saída de cada classificador
binário pode ser usada como um voto, os quais são contabilizados para cada rótulo e a lista
ordenada é gerada de acordo com o total de votos para cada rótulo (GIBAJA; VENTURA,
2014). Outro método de votação consiste em cada classificador gerar como saída a probabilidade
da relevância de cada rótulo. Se a probabilidade estiver abaixo de um limiar, então os outros
classificadores são consultados para decidir a relevância do rótulo no ranking (MADJAROV et
al., 2011). Outras abordagens podem ser encontradas em um estudo detalhado feito por Vembu e
Grtner (2011).
A partir de um ranking é possível obter uma bipartição por meio da aplicação de um
limiar1
, o que permite a utilização de ambos os modelos (de ranqueamento ou não) para a
resolução de um problema multirrótulo. Várias abordagens para a utilização de limiares foram
propostas na literatura, e uma revisão detalhada pode ser encontrada em (FAN; LIN, 2007;
Ioannou et al., 2010). Ao longo deste texto, serão também utilizadas a seguintes notações:
• Dtreino = {(xi, Yi) | 1 ≤ i ≤ mtr}: é o conjunto de dados de treinamento contido em D,
onde mtr é o número de instâncias em Dtreino;
• Dteste = {(xi, Yi) | 1 ≤ i ≤ mts}: conjunto de teste contido em D, onde mts é o número
de instâncias em Dteste;
• Dval = {(xi, Yi) | 1 ≤ i ≤ mval}: é o conjunto de dados de validação contido em D, onde
mval é o número de instâncias em Dval;
Problemas multirrótulo podem ser tratados de duas principais formas: Abordagem In-
dependente de Algoritmo (ou Transformação de Problemas) e Abordagem Dependente de
Algoritmo (ou Adaptação de Algoritmo). Cada uma delas é detalhada na seção 2.1. Neste ca-
pítulo também serão discutidos os seguintes aspectos e desafios da classificação multirrótulo:
combinação de classificadores multirrótulo (seção 2.2), correlações entre rótulos (seção 2.3),
1
um limite de corte aplicado aos valores reais resultantes para definir se o rótulo predito tem valor 1 ou 0

medidas de avaliação (seção 2.4), outros aspectos como desbalanceamento, dimensionalidade e
escalabilidade (seção 2.5) e características dos conjuntos de dados multirrótulo (seção 2.6).
2.1 Abordagens para Problemas Multirrótulo
Nesta seção serão apresentados os principais métodos para resolver problemas de clas-
sificação multirrótulo. A subseção 2.1.1 apresenta métodos independentes de algoritmos e a
subseção 2.1.2 algoritmos existentes que podem ser adaptados.
2.1.1 Abordagem Independente de Algoritmo
A Abordagem Independente de Algoritmo transforma o problema multirrótulo em um
conjunto de subproblemas simples-rótulo, geralmente binários, onde qualquer algoritmo de
classificação convencional pode ser usado. A Figura 4 apresenta os principais métodos de
transformação de problema e os mesmos serão explicados ao longo desta seção. A transformação
pode ocorrer com base nos rótulos ou nas instâncias. Nos métodos baseados em rótulos, N
classificadores são treinados, cada qual para uma classe do problema, sendo N igual ao número
de rótulos (l) do conjunto. Nos métodos baseados em instâncias, o conjunto de rótulos associados
a cada instância é redefinido para converter o problema multirrótulo original em um ou mais
problemas simples-rótulo do tipo binário ou multi-classe (ZHANG; ZHOU, 2014). Em termos de
partição, conforme definido nesta pesquisa, os métodos da abordagem independente de algoritmo
trabalham com partições locais.
Para fins ilustrativos, considere o conjunto de dados de exemplo (De) apresentado na
Tabela 2, o qual contém quatro atributos (Atr1, Atr2, Atr3 e Atr4), cinco rótulos (L1, L2, L3,
L4 e L5) e cinco instâncias (x1, x2, x3, x4 e x5). A Tabela 4 apresenta cada instância com seu
respectivo conjunto de rótulos, isto é, os rótulos para os quais a instância é positiva. A frequência
de cada rótulo é apresentada na Tabela 3. No caso do método baseado em rótulos, para De serão
necessários quatro classificadores binários, um para cada rótulo do conjunto.
Tabela 2 – Conjunto de dados de exemplo De
Instância Atr1 Atr2 Atr3 Atr4 L1 L2 L3 L4 L5
x1 25 58 24 57 1 0 1 1 0
x2 43 38 38 781 1 1 1 0 0
x3 8 73 24 70 0 1 0 1 0
x4 79 9 65 63 1 0 0 0 1
x5 100 61 5 48 1 0 1 1 0
Os métodos baseados em instâncias podem ser divididos em três formas diferentes,
conforme apresenta a Figura 4. A eliminação de instâncias consiste em remover do conjunto de
dados as instâncias multirrótulo. Para De não há instâncias simples-rótulos, apenas multirrótulo,
portanto, esta técnica não é viável neste caso (CARVALHO; FREITAS, 2009).

Transformação
de Problema
Métodos
Baseados em
Instâncias
Métodos de
Transformação
Simples
Eliminação de
Instâncias
Criação de
Rótulos
Conversão de
Rótulos
Eliminação de
Rótulos
Decomposição
de Rótulos
Adição
Multiplicação
Métodos
Baseados em
Rótulos
Cópia
Cópia
Ponderada
Máxima
Mínima
Aleatória
Seleção
Exclusão
BR
CC
Figura 4 – Abordagem Independente de Algoritmo
Fonte: Elaborado pela autora com base em Carvalho e Freitas (2009) e Sorower (2010)
Tabela 3 – Frequência dos Rótulos
Rótulo Frequência
L1 4
L2 2
L3 3
L4 3
L5 1
Tabela 4 – Conjuntos de Rótulos
Instância Rótulo
x1 L1, L3, L4
x2 L1, L2, L3
x3 L2, L4
x4 L1, L5
x5 L1, L3, L4
Os rótulos existentes no conjunto de dados podem ser eliminados ou decompostos com o
método de conversão de rótulos. Uma instância que possui mais de um rótulo passa a pertencer a
apenas um rótulo na eliminação de rótulos. O rótulo a que a instância passará a pertencer pode
ser escolhido de maneira aleatória - um dos rótulos é selecionado, ou determinística - o rótulo
que mais parece ser verdadeiro é selecionado. A Tabela 5 apresenta um possível resultado do
método de conversão de rótulos para De (FACELI et al., 2011).
O problema multirrótulo original com L rótulos e m instâncias é dividido em k conjuntos
de problemas simples-rótulo no método de decomposição de rótulos, o qual pode ser feito
de maneira aditiva ou multiplicativa. Quando da aplicação do método aditivo, um número de
classificadores igual ao número de rótulos que rotulam pelo menos uma instância é utilizado
(C = l). No método multiplicativo, classificadores são treinados combinando todos os possí-

Tabela 5 – Método de Eliminação para De
Instância Rótulo
x1 L4
x2 L3
x3 L2
x4 L5
x5 L1
veis sub-problemas simples-rótulo. Aplicando o método aditivo em De, cinco classificadores
serão necessários, um para cada rótulo. No caso de De, ao aplicar o método multiplicativo, 25
combinações diferentes serão obtidas 2
. Como são necessários vários classificadores, o método
de decomposição de Rótulos pode ter problemas de escalabilidade3
(CARVALHO; FREITAS,
2009).
A criação de rótulos consiste em combinar em um novo rótulo todos os rótulos atribuídos
a uma instância. Essa combinação pode aumentar de maneira significativa o número de rótulos no
conjunto de dados, o que pode gerar problemas de escalabilidade e desbalanceamento4
(FACELI
et al., 2011). No caso de De cada um dos conjuntos de rótulos identificados (Tabela 4) podem ser
transformados nos seguintes rótulos: L6, L7, L8, L9 e L10. Apesar de simples, esses métodos
produzem problemas de perda de informações em termos de rótulos ou relações de rótulos e,
portanto, podem não ser muito úteis.
Existem ainda outros métodos de transformação simples que podem ser utilizados para
dividir o problema multirrótulo. O método cópia simplesmente cria uma nova instância para cada
conjunto de rótulos identificado, enquanto que o método cópia ponderada (Tabela 6) faz o mesmo
mas utilizando um peso para cada instância. Ambos os métodos aumentam significativamente o
número de instâncias do conjunto de dados (TSOUMAKAS et al., 2009).
Outra maneira de dividir o problema multirrótulo consiste em selecionar (seleção) um dos
rótulos do conjunto de rótulos da instância e pode ser feita com base na frequência dos rótulos da
instância com relação ao conjunto de dados (Tabela 7), ou de maneira aleatória (seleção aleatória).
As frequências máxima ou mínima podem ser usadas como critério de seleção (seleção máxima
e seleção mínima). O método exclusão funciona da mesma forma que o método de eliminação
de instâncias multirrótulo (SOROWER, 2010). Apesar da simplicidade na transformação, esses
métodos levam à perda de informações, não modelam correlações entre os rótulos, entre outros
problemas que podem ser resolvidos com métodos mais sofisticados (GIBAJA; VENTURA,
2014).
Dentro da taxonomia apresentada na Figura 4, diversos métodos podem ser encontrados
na literatura. Nesta pesquisa, apenas os métodos clássicos mais populares serão abordados. Esses
2
(5 rótulos × 5 rótulos = 25 classificadores simples-rótulo)
3
problemas de processamento devido ao alto número de rótulos
4
poucas instâncias positivas para cada rótulo

Tabela 6 – Métodos de Cópia e Cópia Ponderada para De
Instância Cópia Ponderada
x1a L1 0.33
x1b L3 0.33
x1c L4 .33
x2a L1 0.33
x2b L2 0.33
x2c L3 0.33
x3a L2 0.5
x3b L4 0.5
x4a L1 0.5
x4b L5 0.5
x5a L1 0.33
x5b L3 0.33
x5c L4 0.33
Tabela 7 – Métodos de Seleção para De
Instância Máxima Mínima Aleatória
x1 L1 L3 L4
x2 L1 L2 L3
x3 L4 L4 L2
x4 L1 L5 L5
x5 L1 L4 L1
métodos derivados podem ainda ser divididos em três principais categorias: baseados em Binary
Relevance (BR), baseados em Label Powerset (LP) e baseados em pares - os quais também foram
estendidos por outros métodos.
Binary Relevance (BR) (BOUTELL et al., 2004) é um método baseado em rótulos que
divide o problema original em l problemas binários, sendo necessários então l classificadores,
um para cada rótulo do conjunto. Para cada classificador binário, as instâncias que não contêm o
rótulo específico daquele classificador, são rotuladas como instâncias negativas. Isto pode levar a
um desbalanceamento de rótulos, pois provavelmente o número de instâncias negativas para o
rótulo específico será maior que o de positivas (READ, 2010; ZHANG et al., 2018).
Como todos os rótulos são tratados individualmente pelo Binary Relevance não é possível
modelar as correlações entre os rótulos. A simplicidade e escalabilidade são as grandes vantagens
deste método (GIBAJA; VENTURA, 2015). A Tabela 8 apresenta o resultado da transformação
de De usando BR. Instâncias negativas são representadas pelo símbolo − e as positivas por +
antes de cada rótulo. Cada um dos conjuntos transformados correspondem a um subconjunto de
rótulos de uma partição local do conjunto original, conforme mostra a Figura 55
.
Um método de transformação de problema baseado no Binary Relevance é o Classifier
5
quadrado ou retângulo (azul) = partição; círculo (vermelho) = subconjunto de rótulos; losango (amarelo) = rótulo

Tabela 8 – Conjunto de dados BR para De
xi Y xi Y xi Y xi Y xi Y
x1 +L1 x1 −L2 x1 +L3 x1 +L4 x1 −L5
x2 +L1 x2 +L2 x2 +L3 x2 −L4 x2 −L5
x3 −L1 x3 +L2 x3 −L3 x3 +L4 x3 −L5
x4 +L1 x4 −L2 x4 −L3 x4 −L4 x4 +L5
x5 +L1 x5 −L2 x5 +L3 x5 +L4 x5 −L5
L1 L2
L3 L4
L5
Figura 5 – Partição Local Binary Relevance para De
Chains (CC) (READ et al., 2009), que constrói uma cadeia de classificadores Binary Relevance
baseada nas predições dos classificadores binários anteriores na cadeia. Classifier Chains resolve
o problema de modelagem das correlações do Binary Relevance, pois as predições de rótulos
individuais se tornam entrada para os outros classificadores na cadeia. Ainda que Classifier
Chains possa ser paralelizado, pode haver problemas de escalabilidade (GIBAJA; VENTURA,
2014).
O algoritmo Label Powerset (LP) (BOUTELL et al., 2004) é um método baseado na
criação de rótulos onde cada combinação de rótulos no conjunto de dados é considerado como um
novo e único rótulo no conjunto de dados transformado, permitindo assim explorar as correlações
entre os rótulos (Tabela 4). Apesar disso, alguns conjuntos de rótulos presentes no conjunto de
dados podem não ser identificados no processo de treinamento. Label Powerset também pode ter
problemas de desbalanceamento - uma vez que o conjunto de dados pode ter várias combinações
de rótulos - e também escalabilidade - muitos rótulos novos podem ser criados exigindo mais
classificadores (TSOUMAKAS et al., 2009). A Figura 6 apresenta a representação de partições
de Label Powerset para De. Cada novo rótulo criado pela transformação pode ser considerado
um subconjunto de rótulos de uma partição.
Um método de transformação de problema que diminui a complexidade e minimiza a
perda de informação do Label Powerset foi proposto por Read (2008), denominado Pruned
Problem Transformation (PPT). Nesse método, não somente as combinações de rótulos se tornam
novos e únicos rótulos, mas também as combinações de rótulos distintos. Por se tratar de um
método de transformação baseado em poda, elimina as combinações de rótulos infrequentes de
acordo com um limite6
. Além disso, uma combinação de rótulos frequente pode ser inserido para
6
O parâmetro de poda (p) é o limite da poda. Por exemplo, p = 1 poda todas as instâncias onde o conjunto de

L6 L7
L9 L10
L8
L2
L4
L1
L3
L2
L1
L5
L1
L3
L4
L1
L4
L3
Combinações de rótulos Novos rótulos criados
Figura 6 – Partição Label Powerset para De
evitar perda de informações durante o processo (TSOUMAKAS et al., 2009).
Método baseados em pares mapeiam instâncias para gerar um ranking de rótulos. Ranking
by Pairwise Comparison (RPC) (HüLLERMEIER et al., 2008) é um método baseado em
ranking que divide o problema original em l(l − 1)/2 sub-problemas binários, onde cada sub-
problema retem instâncias que pertencem a pelo menos um dos dois rótulos, mas não a ambos.
Classificadores binários são utilizados para aprender cada sub-problema e uma nova instância é
classificada submetendo-a a todos os modelos. Cada predição de um modelo é interpretada como
um voto, o que gera um ranking de rótulos. O rótulo com o maior número de votos é selecionado
(HüLLERMEIER et al., 2008). Como é necessário consultar todos os modelos binários gerados
em tempo de execução, isto pode levar a problemas de escalabilidade, e para casos em que l é
muito alto o método pode se tornar impraticável (READ, 2010; GIBAJA; VENTURA, 2014).
Para o conjunto de dados de exemplo, dez pares de rótulos são encontrados7
e podem ser
visualizados na Tabela 9. Cada um desses dez pares corresponde a um subconjunto de rótulos de
uma partição do conjunto original (Figura 7).
Tabela 9 – Pares de Rótulos para De
Par Rótulos Par Rótulos
1 L1, L2 6 L2, L4
2 L1, L3 7 L2, L5
3 L1, L4 8 L3, L4
4 L1, L5 9 L3, L5
5 L2, L3 10 L4, L5
O algoritmo Calibrated Ranking by Pairwise Comparison (CLR) (FüRNKRANZ et al.,
2008) estende o método Ranking by Pairwise Comparison adicionando um rótulo artificial que
separa os rótulos relevantes dos irrelevantes para cada instância, permitindo criar ao mesmo
tempo um ranking de rótulos e uma bipartição. Para cada rótulo, são consideradas instâncias
positivas aquelas que possuem o rótulo em questão, e as mesmas são consideradas negativas para
rótulos é único, p = 2 poda todas as instâncias que ocorrem no máximo duas vezes, e assim por diante
7
5(5 − 1)/2 = 10

L1
L4
L4
L2
L1
L3
L2
L3
L1
L2
L1
L5 L5
L2
L3
L4
L3
L5
L4
L5
Figura 7 – Partição RPC para De
o rótulo artificial. De maneira semelhante, as instâncias consideradas negativas para o rótulo em
questão se tornam positivas para o rótulo artificial. Classificadores binários são então induzidos
nos rótulos virtuais e o rótulo majoritário é selecionado (GANDA; BUCH, 2018; SOROWER,
2010).
A grande vantagem do uso da abordagem independente de algoritmo é a flexibilidade,
pois diversos tipos de métodos e algoritmos podem ser usados para resolver o problema. No
entanto, essas diferentes formas de dividir o problema podem levar a perda de informação,
problemas de escalabilidade, desbalanceamento, entre outros problemas, os quais podem levar a
resultados ineficientes e irrelevantes. Porém, como mencionado nesta seção, existem métodos que
transformam o problema multirrótulo de maneira a evitar tais deficiências e limitações. Quanto às
partições, os métodos desta abordagem lidam com as locais e também com partições compostas
por pares de rótulos. A Tabela 30 no Apêndice B sumariza os métodos de transformação clássicos
apresentados nesta seção.
2.1.2 Abordagem Dependente de Algoritmo
Na Abordagem Dependente de Algoritmo novos algoritmos são desenvolvidos, ou algorit-
mos existentes são adaptados, para o problema de classificação multirrótulo original, lidando com
todas as classes do problema ao mesmo tempo. Nesse caso, algoritmos convencionais podem ser
utilizados, como mostra a Figura 8, ou ainda outros pouco explorados (CARVALHO; FREITAS,
2009). Em termos de partição, conforme definido neste trabalho, os métodos da abordagem
dependente de algoritmo, em geral, trabalham com a partição global. No entanto há casos em
que, dependendo da modificação feita, as partições podem ser locais. Nas árvores de decisão, por
exemplo, cada nó folha, que geralmente corresponde a um único rótulo, pode ser um subconjunto
de uma partição local. Enquanto na Abordagem Independente de Algoritmo os dados se ajustam
ao algoritmo, na Abordagem Dependente de Algoritmo o algoritmo se ajusta aos dados.
Diversos algoritmos podem ser encontrados na literatura para cada tipo de modelo de
classificação ilustrado na Figura 8 (consultar o Apêndice B). Entre os Métodos Baseados em
Árvores de Decisão (VILLE, 2013) podem ser citados Multi-Label C4.5 (ML-C4.5) (CLARE;
KING, 2001) e Predictive Clustering Trees (PCTs) (BLOCKEEL et al., 1998). Clare e King
(2001) adaptaram o algoritmo C4.5 para lidar com múltiplos rótulos. A pesquisa tinha como

Adaptação de
Algoritmos
Árvores de
Decisão
Redes Neurais
Artificiais
Máquinas de
Vetor de
Suporte
Instâncias
Probabilistico
Associação
Evolucionário
Outros
Figura 8 – Abordagem Dependente de Algoritmo
Fonte: Elaborado pela autora com base em Madjarov et al. (2012) e Zhang e Zhou (2014).
objetivo classificar genes de acordo com as suas funções. No ML-C4.5 a medida de entropia foi
modificada para considerar a não associação de instâncias a um rótulo e as folhas das árvores
alteradas para conter múltiplos rótulos (GIBAJA; VENTURA, 2014).
Em Predictive Clustering Trees as árvores de decisão são consideradas uma hierarquia
de clusters (grupos). Usando uma estratégia top-down, os dados são particionados e a variação
intra-cluster é minimizada. Neste algoritmo, a métrica de distância e a função protótipo8
são
considerados parâmetros, o que permite que as Predictive Clustering Trees sejam instanciadas
para uma tarefa específica. Além disso, elas também conseguem trabalhar com séries temporais,
classificação hierárquica multirrótulo, entre outros tipos de estruturas (BLOCKEEL et al., 1998;
MADJAROV et al., 2012). Devido a fácil interpretabilidade, métodos baseados em árvores de
decisão tem sido muito utilizados.
Back Propagation Multi-Label Learning (BP-MLL) (ZHANG; ZHOU, 2006), Multi-
Class Multi-Label Perceptron (MMP) (CRAMMER; SINGER, 2003) e CascadeML (PAKRASHI;
NAMEE, 2019) são métodos baseados em Redes Neurais Artificiais (RNAs)(HAYKIN, 2011).
BP-MLL adapta a função de erro do algoritmo Multi-Layer Perceptron (MLP) (HAYKIN, 2011)
para dar suporte a múltiplos rótulos. Multi-class Multi-layer Perceptron (MPP) (CRAMMER;
SINGER, 2003) é uma família de algoritmos online9
capaz de ranquear rótulos baseado em
Perceptrons. De maneira semelhante ao Binary Relevance que usa um classificador para cada
rótulo do conjunto, MPP usa um Perceptron para cada rótulo, mas para a atualização de cada
Perceptron considera o desempenho do conjunto como um todo (GIBAJA; VENTURA, 2014;
SOROWER, 2010).
O método CascadeML evolui automaticamente a rede neural e o algoritmo de treinamento
para classificação multirrótulo. O algoritmo utiliza a função de erro de BP-MLL e considera as
8
A função protótipo calcula o protótipo de um conjunto de instâncias. Um protótipo é uma instância de dados
representativa dos dados. Por exemplo, o protótipo pode ser calculado pela média do conjunto de instâncias
(HASTIE et al., 2001).
9
Este tipo de algoritmo trabalha com entrada de dados parcial (apenas uma parte está disponível) pois alguns
dados de entrada chegam apenas no futuro, portanto, esses dados futuros não estão disponíveis no momento para
serem utilizados (ALBERS, ).

correlações entre os rótulos. Em um processo de duas fases, CascadeML aumenta a arquitetura
da rede neural incrementalmente, conforme aprende os pesos usando o algoritmo de gradiente
de primeira ordem adaptativo, não sendo necessário informar o número de camadas ocultas, nós
e taxa de aprendizado (PAKRASHI; NAMEE, 2019).
Entre os métodos baseados em Máquinas de Vetores de Suporte (Support Vector Machines
- SVMs)(CERVANTES et al., 2020) o mais popular é o Rank-SVM (ELISSEEFF; WESTON,
2001). O algoritmo minimiza a função de ranking loss10
usando um conjunto de classificadores
lineares, os quais também lidam com casos não lineares utilizando funções de kernel (ZHANG;
ZHOU, 2014).
Zhang e Zhou (2007a) propuseram o k-Nearest Neighboors Multi-Label (ML-KNN), um
método baseado em instâncias. Este algoritmo adapta técnicas k-NN (ALTMAN, 1992) para
lidar com múltiplos rótulos. Primeiro, para cada instância, o algoritmo encontra os k vizinhos
mais próximos e em seguida conta o número de ocorrências de cada rótulo na vizinhança. A
contagem é então combinada com as probabilidades anteriores de cada rótulo para realizar as
predições (READ, 2010). Assim como o MPP, ML-kNN também se assemelha ao processo
realizado pelo Binary Relevance pois realiza a contagem separada para cada rótulo.
Modelos probabilísticos generativos são focados na categorização de texto. Ueda e Saito
(2003) propôs um método deste tipo para classificação multirrótulo, denominado Parametric
Mixture Models (PMM). Para automatizar a classificação dos documentos de texto, PMM estima
as probabilidades de rótulos a partir dos termos que aparecem no documento (HERRERA et al.,
2016).
Goncalves et al. (2013) propuseram o Genetic Algorithm for ordering Classifier Chains
(GACC), um método evolucionário que otimiza a ordem dos classificadores em cadeia e tenta
tornar o modelo obtido mais interpretável. Outro método que pode ser citado é o Multi-Label
Ant-Miner (MuLAM) proposto por (CHAN; FREITAS, 2006) que é uma extensão do algoritmo
baseado em colônias de formigas e trata o problema multirrótulo como uma tarefa de otimização
(HERRERA et al., 2016). O trabalho de Gonçalves et al. (2018) apresenta uma categorização
das abordagens de algoritmos evolucionários para classificação multirrótulo encontradas na
literatura.
Métodos Associativos integram regras de associação e classificação. O Multi-Class Multi-
Label Associative Classification (MMAC) é um método associativo proposto por (THABTAH
et al., 2004). O algoritmo começa minerando um conjunto inicial de regras no conjunto de
treinamento e em seguida remove as instâncias associadas a este conjunto. A partir das instâncias
restantes, um novo conjunto de regras de associação é minerado. Este processo é repetido até que
não haja mais itens frequentes. Ao final, cada conjunto de regras encontrado é mesclado e uma
nova instância é classificada de acordo com o suporte da regra que se aplica a ela (SOROWER,
10
porcentagem de pares de rótulos que são ordenados incorretamente (READ, 2010)

2010).
Os métodos apresentados mostraram que ao se criar novos algoritmos, aspectos como
desbalanceamento, escalabilidade, dimensionalidade e modelagem de correlações podem ser
consideradas desde o princípio da construção de um novo algoritmo, o que não necessariamente
significa que não ocorrerão. Na modificação de um algoritmo existente, alguns desses aspectos
podem se sobressair, ou outros problemas podem surgir, e será necessário adicionar recursos
para solucioná-los.
Os métodos deste tipo de abordagem trabalham geralmente com partições globais. Há
ainda outros algoritmos que utilizam métodos que não se enquadram na Figura 8 os quais podem
ser encontrados no Apêndice B. Um sumário dos métodos apresentados nesta seção encontra-se
na Tabela 31 também no Apêndice B.
2.2 Combinação de Classificadores Multirrótulo
Tanto para os métodos da abordagem dependente de algoritmo, quanto para os métodos
da abordagem independente de algoritmo, é possível utilizar uma combinação de classificadores
multirrótulo (Ensemble of Multi-Label Classifiers - EMLCs) para tentar melhorar a classificação,
o ranqueamento multirrótulo, diminuir o overfitting11
ou o underfitting12
, modelar correlações,
minimizar o desbalanceamento e a escalabilidade (HERRERA et al., 2016).
Para a classificação multirrótulo, alguns métodos independentes e dependentes de algo-
ritmo fazem uso de alguma combinação de classificadores. Portanto, considera-se combinações
de classificadores apenas aqueles métodos que combinam vários métodos e são capazes de lidar
com dados multirrótulo (MOYANO et al., 2018). Em uma combinação de classificadores, cada
classificador base é executado separadamente, e então as predições de cada um são agregadas
para realizar uma predição final. O próprio método Binary Relevance, por exemplo, combina
vários classificadores binários para resolver o problema multirrótulo.
Um EMLC clássico baseado em classificadores binários é o Ensemble of Classifier
Chains (ECC) (READ et al., 2019), o qual possui o CC como classificador base. No método
CC, a cadeia de classificadores é construída em uma ordem específica, portanto a propagação
de erros de classificação ao longo da cadeia impacta diretamente o resultado. ECC foi proposto
para corrigir este problema, permitindo que a cadeia de classificadores seja construída de forma
aleatória. Cada CC que compõe o ECC é construído sobre uma seleção aleatória de instâncias
com substituição. Um conjunto de predições é obtido para cada rótulo, os quais são considerados
como votos e um ranking é gerado (MOYANO et al., 2020; MADJAROV et al., 2012). Ensemble
of Classifier Chains trabalha com partição local pois herda essa característica do Classifier
11
o modelo de aprendizado se adapta muito bem aos dados de treinamento, mas não generaliza bem para novos
dados
12
o modelo de aprendizado não se adapta aos dados de treinamento

Chains, o qual também é baseado no Binary Relevance, um método de partição local.
O método proposto por Tsoumakas e Vlahavas (2007) denominado Random k labelsets
(RAkEL) é baseado no método criação de rótulos. RAkEL constrói um conjunto de classificadores
Label Powerset em que cada classificador é treinado para um pequeno - e diferente - subconjunto
de rótulos aleatórios (k-labelsets), o que permite aprender todos os conjuntos de rótulos do
conjunto de dados e modelar correlações.
Dois parâmetros do RAkEL devem ser ajustados: o número de classificadores m, e o
número de conjuntos de rótulos k desejados. Se k = 1 e m = |L|, então o comportamento será
igual ao método Binary Relevance, e se k = |L| e m = 1, então o comportamento será como
o Label Powerset. As predições são combinadas e o sistema de votos majoritário é utilizado
para cada rótulo, gerando um ranking (MOYANO et al., 2018; ROKACH et al., 2014). RAkEL
gera partições locais pois é baseado no método Label Powerset. Além disso, RAkEL exige dois
parâmetros, o número de classificadores e número de conjuntos de rótulos, os quais limitam a
criação livre e diversa das partições que estão entre as locais e globais.
Outro EMLC clássico baseado em rótulos, denominado Ensemble of Pruned Set (EPS),
foi proposto por (READ, 2008), o qual estende o método PPT, corrige o problema de overffiting
durante a poda, e treina N modelos independentes, cada qual sobre um subconjunto do conjunto
de treinamento sem substituição. Assim como RAkEL, EPS também aprende todos os conjuntos
de rótulos e modela correlações.
Kocev et al. (2007) propôs o Random Forest of Predictive Clustering Trees (RF-PCT),
um EMLC baseado no algoritmo Predictive Clustering Trees. A técnica de bagging (BREIMAN,
1996) é usada para selecionar diferentes conjuntos de instâncias para cada classificador e, para
cada nó da árvore, RF-PCT seleciona a melhor característica de um subconjunto aleatório
de instâncias, fornecendo diversidade para os classificadores base. Uma instância de teste é
classificada por meio da média dos valores de confiança de todos os classificadores para cada
rótulo.
Moyano et al. (2019) propuseram um EMLC baseado em métodos evolucionários deno-
minado Evolutionary Algorithm Multi-Label (EME). EME gera automaticamente conjuntos de
classificadores multirrótulo que consideram o desbalanceamento, a modelagem de correlações
e a alta dimensionalidade do espaço de rótulos em sua construção. Cada classificador portanto
aprende as características de um subconjunto de rótulos aleatório, o qual evolui com o algoritmo
e busca combinações de melhor desempenho. Para modelar as correlações, um operador de
mutação busca por indivíduos onde os rótulos estão mais relacionados. O desbalanceamento é
tratado com uma função que considera tanto o desempenho preditivo quanto a quantidade de
vezes que cada rótulo é considerado no conjunto. Por fim, os conjuntos evoluem selecionando os
classificadores com base no desempenho geral.
Métodos baseados em conjuntos tentam melhorar o desempenho preditivo final, além de

permitir a modelagem de correlações entre rótulos, facilitando a escalabilidade e paralelização.
Apesar disto, de acordo com Moyano et al. (2020), selecionar um classificador base para um
EMLC não é trivial e, algumas vezes, esta escolha pode levar o EMLC a ter desempenho inferior
ao de um classificador base. Mesmo que EMLCs facilitem a escalabilidade, há casos em que
isso pode não ocorrer. Isso dependerá se o classificador base escolhido é capaz de lidar com um
grande número de rótulos. Como os EMLCs lidam com o tipo de partição do método base, os
mesmos não lidam com o conceito de partições híbridas introduzido nesta pesquisa.
Há ainda outros EMLCs que utilizam métodos que não se enquadram na Figura 8
os quais podem ser encontrados no Apêndice B. A Tabela 32 no Apêndice B sumariza os
métodos apresentados nesta subseção. Tanto os métodos dependentes de algoritmo, quanto
os independentes, e também os EMLCs, podem aplicar diferentes técnicas para explorar as
correlações entre rótulos. Portanto, a seção 2.3 apresentará algumas definições e métodos
propostos na literatura para modelar correlações entre rótulos.
2.3 Correlações entre Rótulos
De acordo com Read (2010), em todos os problemas multirrótulo existem correlações
entre os rótulos. Trabalhos na literatura demonstraram que a modelagem de correlações é
um aspecto importante da classificação multirrótulo e ajuda a construir melhores modelos de
classificação (HERRERA et al., 2016). Huang e Zhou (2012) classificam as correlações de acordo
com a sua localização: global ou local. A correlação global assume que as correlações entre
os rótulos são compartilhadas por todas as instâncias do conjunto, isto é, dois ou mais rótulos
estão correlacionados se eles classificam todas as instâncias do conjunto. Na Figura 9 as imagens
Figura 9a, Figura 9b, Figura 9c e Figura 9d constituem o conjunto de treinamento, enquanto a
Figura 9e e Figura 9f são instâncias de teste. Note que os rótulos árvores, montanhas e rio
estão presentes nas quatro imagens do conjunto de treinamento. Considere que a estratégia de
modelagem de correlações tenha sido aplicada neste conjunto e aprendido que esses quatro rótulos
estão correlacionados. Neste caso, a correlação entre esses rótulos configura uma correlação
global, pois as instâncias de treino compartilham dos mesmos rótulos correlacionados.
A imagem de teste Figura 9e, no entanto, não possui rio, a predominância de árvores
na imagem é baixa, mas as montanhas são predominantes, portanto o rótulo montanhas é
predito. Como o rótulo montanhas está correlacionado com o rótulo árvores então, para
a imagem de teste Figura 9e, o rótulo árvore tem uma maior probabilidade de ser predito
pois, a probabilidade do rótulo árvore condicionado ao rótulo montanha provavelmente é
maior do que probabilidade do rótulo árvore sem o rótulo montanha. Para a imagem de teste
Figura 9f, porém, a correlação entre esses quatro rótulos não ajudará na predição correta dos
rótulos que a compõe, pois nela não estão presentes os rótulos árvores, montanhas e rio.
Nem todas as instâncias apresentarão sempre a mesma co-ocorrência de rótulos como

(a) árvores, céu, montanhas, rio,
nuvens
(b) árvores, céu, montanhas, rio,
barco
(c) árvores, montanhas, nuvens,
rio
(d) árvores, barco, montanhas,
neve, rio
(e) árvores, campo, flores, mon-
tanhas, neve
(f) pássaro, flores
Figura 9 – Exemplo Correlação Global
Fonte: Elaborado pela autora com base em Huang et al. (2015a) e Huang e Zhou (2012).
convenientemente exemplificado na Figura 9. A correlação local considera que uma correlação
entre rótulos pode ser compartilhada apenas por um subconjunto de instâncias, e não por todas
elas, isto é, dois ou mais rótulos estão correlacionados se eles classificam um subconjunto de
instâncias (HUANG; ZHOU, 2012). Considere que uma estratégia de modelagem de correlações
entre rótulos foi aplicado ao conjunto de treinamento apresentado na Figura 10. Foi encontrada
uma correlação entre os rótulos Os rótulos árvores, montanhas e rio, pois eles estão
presentes em duas das quatro imagens do conjunto de treinamento: Figura 10a e Figura 10b.
Outra correlação também foi encontrada, entre os rótulos árvores e estrada, o que pode
ser notado observando-se as imagens Figura 10c e Figura 10d.
A imagem de teste Figura 10e tem presença de árvores, portanto este rótulo será predito,
porém, não há presença de montanhas, rios ou estradas. Neste caso, como existe uma correla-
ção local entre árvores, montanhas e rio, e também uma correlação entre árvores e
estrada, é possível que estes rótulos sejam preditos para Figura 10e ainda que não sejam ade-
quados, levando a erros de classificação. Para a imagem de teste Figura 10f os rótulos árvores,
montanhas e estrada estão presentes. Neste caso, as correlações locais modeladas contri-
buirão para a predição desses rótulos para a imagem de teste Figura 10f.
A correlação local se assemelha aos métodos independentes de algoritmo, que dividem o
problema multirrótulo em problemas menores, e trabalham com partição local, enquanto que
a correlação global se assemelha aos métodos dependentes de algoritmos que lidam com o
problema multirrótulo de forma direta e trabalham com partição global. Como observado nos
exemplos, ambos os tipos de correlações têm vantagens e desvantagens. ML-LOC (HUANG;
ZHOU, 2012) pode ser citado como um algoritmo que explora correlações localmente, enquanto
que Glocal (ZHU et al., 2018) é capaz de explorar tanto a correlação global quanto a local.
Além de correlações local e global, Zhang e Zhou (2014) propuseram dividir as estraté-

gias de obtenção de correlação entre rótulos em primeira-ordem, segunda-ordem e alta-ordem.
Na estratégia de primeira-ordem enquadram-se todos aqueles métodos (técnicas/algoritmos) que
ignoram a modelagem das correlações. É, portanto, o mesmo conceito dos métodos de trans-
formação de problema de exclusão e baseados em rótulo apresentados anteriormente, sofrendo
inclusive das mesmas desvantagens. Como exemplo de método desta categoria cita-se o Binary
Relevance, portanto, as partições trabalhadas com esta estratégia são as locais.
Na estratégia de segunda-ordem os métodos modelam as correlações usando pares de
rótulos. Ranking de rótulos e co-ocorrência dos pares de rótulos são as formas mais comuns
de modelagem nesta estratégia. Com este nível de exploração das correlações é possível obter
alguma melhora no desempenho geral, no entanto, pode haver problemas quando correlações
vão além dos pares (ZHANG; ZHOU, 2014). Métodos que empregam segunda-ordem podem
ser categorizados como correlação local e são semelhantes aos métodos de transformação de
problema baseados em pares, como por exemplo o Ranking by Pairwise Comparison.
Alta-ordem modela correlações entre todos os rótulos ou subconjuntos de rótulos, isto
é, correlação global para o conjunto todo e correlação local para subconjuntos. Por exemplo,
classificadores podem ser combinados onde cada classificador abordará correlações entre um
subconjunto de rótulos (ZHANG; ZHANG, 2010; ZHANG et al., 2018). Portanto, neste tipo de
correlação podem ser utilizados tanto métodos dependentes, quanto independentes de algoritmo.
O trabalho de Dembczyński et al. (2012) define ainda dois tipos de dependência de
rótulos: A dependência de rótulos condicional e a dependência de rótulos incondicional. O
primeiro modela a probabilidade dos rótulos ocorrerem juntos ao capturar as dependências
entre os rótulos dada uma instância específica, enquanto o segundo modela a probabilidade de
determinados rótulos ocorrerem juntos no conjunto de dados inteiro (GIBAJA; VENTURA,
2014). A dependência condicional é mais próxima do tipo de correlação local, e a incondicional
semelhante à global. Para modelar ambas as dependências, diferentes estratégias podem ser
(a) árvores, céu, montanhas, rio (b) árvores, céu, montanhas, rio (c) árvores, estrada, neblina
(d) árvores, céu, estrada, raios
solares
(e) árvores, deserto, nuvens (f) árvores, estrada, céu, monta-
nhas, neve, nuvens
Figura 10 – Exemplo Correlação Local
Fonte: Elaborado pela autora com base em Huang et al. (2015a) e Huang e Zhou (2012)

utilizadas como, por exemplo: boosting, stacking, Label Powerset, métodos baseados em pares,
otimização, hierarquias e matrizes de correlação (DEMBCZYŃSKI et al., 2012; HUANG;
ZHOU, 2012).
De acordo com o que foi apresentado, observa-se que os tipos de correlações não são
exclusivos e que se assemelham de alguma forma, o que é ilustrado na Figura 11. É possível
também abstrair quatro categorias diferentes para os métodos de classificação multirrótulo: i) não
exploram correlações; ii) exploram correlações em pares de rótulos; iii) exploram correlações
em subconjuntos de rótulos (mais que dois rótulos); iiii) exploram correlações no conjunto de
dados de treinamento inteiro. Por fim, a Tabela 10 apresenta alguns métodos de classificação
multirrótulo categorizados de acordo com a Figura Figura 11. Observa-se que nenhum dos
métodos na Tabela 10 trabalha com partições híbridas.
Correlação Global
Correlação Local
Dependência
Condicional
Segunda-Ordem
Dependência
Incondicional
Alta-Ordem
~
~
~
~
Figura 11 – Correlações semelhantes
Fonte: Elaborado pela autora com base em Huang e Zhou (2012), Dembczyński et al. (2012) e
Zhang e Zhou (2014)
Tabela 10 – Métodos multirrótulo, partições e correlações. Fonte: Elaborado pela autora.
Correlação Abordagem Partição Métodos
Não há
Dependente ou Glocal ou BR, CC
Independente Lobal ML-kNN
Pares de
Rótulos
Independente Local CLR, Rank-SVM, RPC
PMM, ECC
Subconjuntos
de Rótulos
Independente ou Local ou LP, RAkEL, ML-LOC
Dependente Global Glocal, ML-C4.5, EPS, EME
Todos os
Rótulos
Dependente Global Glocal, CascadeML,
BP-MLL
2.4 Medidas de Avaliação
Como mencionado na introdução deste capítulo, um classificador multirrótulo gera como
saída uma bipartição ou uma lista ordenada de rótulos (ranking). Diferente da classificação
simples-rótulo, em que a predição pode ser correta ou incorreta, a predição na classificação

multirrótulo pode ser parcialmente correta, totalmente correta ou totalmente incorreta. Portanto,
para a classificação multirrótulo, definir qual erro de classificação é o mais (ou menos) grave não
é simples como na classificação simples-rótulo. Por exemplo, uma instância de teste pode ser
classificada incorretamente em dois rótulos, enquanto que outras cinco instâncias de teste podem
ser classificadas corretamente em apenas um rótulo (WU; ZHOU, 2017; CHARTE et al., 2018).
Este aspecto da classificação multirrótulo levou ao desenvolvimento de várias medidas
de avaliação de desempenho as quais estão sintetizadas na Figura 12. Com essa diversidade
de medidas, o desempenho dos classificadores pode variar para cada uma delas. Avaliar um
classificador multirrótulo usando uma única medida é restritivo, pois cada medida avalia um ou
outro aspecto em particular, o que pode levar a análises e conclusões incompletas e até mesmo
errôneas. O recomendado é usar um conjunto dessas medidas, obtendo assim uma visão mais
coerente do desempenho sob diferentes aspectos (WU; ZHOU, 2017).
As Subseções 2.4.1 e 2.4.2 apresentam as principais medidas de avaliação para problemas
multirrótulo. O símbolo ↑ antecedendo o nome da equação indica que quanto maior o valor
resultante, melhor o desempenho, enquanto que o símbolo ↓ indica que quanto menor o resultado
da métrica mais corretamente estão ranqueados os rótulos.
Medidas de
Avaliação
Baseadas em
Instâncias
Baseadas em
Rótulos
Bipartição
Ranking
Média Macro
Média Micro
Baseadas em
Instâncias
Baseadas em
Rótulos
Média Macro
Média Micro
Figura 12 – Medidas de Avaliação Multirrótulo
Fonte: Elaborado pela autora com base em (ZHANG; ZHOU, 2014)
2.4.1 Bipartições
As medidas baseadas em bipartições podem ser divididas em baseadas em rótulos e
basedas em instâncias. Para a bipartição gerada pelo classificador multirrótulo, as medidas de
avaliação baseadas em instâncias calculam a diferença média entre os conjuntos de rótulos
preditos e os conjuntos de rótulos reais em cada instância do conjunto de teste. As baseadas em
rótulos avaliam o desempenho preditivo para cada rótulo separadamente e depois calculam a

média do desempenho de todos os rótulos. As medidas baseadas em rótulo podem ainda usar
duas estratégias diferentes: micro-averaging (Média Micro) e macro-averaging (Média Macro)
(MADJAROV et al., 2012; TSOUMAKAS et al., 2009).
2.4.1.1 Medidas Baseadas em Instâncias
A eficácia geral de um classificador multirrótulo é avaliada pela acurácia (A), Equa-
ção 2.1. Esta métrica calcula a proporção do número de rótulos corretamente preditos em
comparação ao número total de rótulos (verdadeiros e preditos) para uma instância, fazendo em
seguida a média sobre todas as instâncias (GIBAJA; VENTURA, 2015; HERRERA et al., 2016).
↑ A =
1
m
m
X
i=1
| Yi ∩ Ŷi |
| Ŷi ∪ Yi |
(2.1)
Exact Match Ratio (EMR), também conhecida como Classification Accuracy (CA) ou
Subset Accuracy (SA), ignora os rótulos parcialmente corretos, atuando como a acurácia da
classificação simples-rótulo. Como EMR avalia apenas as instâncias classificadas corretamente,
ela é bastante restritiva. De forma similar, a Equação Equação 2.3, chamada 0/1 Loss, mede
a diferença entre os rótulos verdadeiros e os rótulos preditos, ao invés da igualdade como na
Equação 2.2 (GIBAJA; VENTURA, 2014; PEREIRA et al., 2018).
↑ EMR =
1
m
m
X
i=1
I

Yi = Ŷi

(2.2) I =



1 Se Ŷi = Yi
0 caso contrário
↓ 0/1L =
1
m
m
X
i=1
I

Yi 6= Ŷi

(2.3)
Conhecida como Hamming Loss (HL), a Equação 2.4 avalia a fração de rótulos classifi-
cados erroneamente, isto é, quando um rótulo incorreto é predito e quando um rótulo relevante
não é predito. Esta métrica calcula a diferença simétrica entre o conjunto de rótulos predito e o
conjunto de rótulos verdadeiro, onde Yi∆Ŷi = (Yi − Ŷi) ∪ (Ŷi − Yi). O valor ótimo é HL=0, ou
seja, nenhum erro (WU; ZHOU, 2017; PEREIRA et al., 2018).
↓ HL =
1
m
1
l
m
X
i=1
| Yi∆Ŷi | (2.4)
Duas métricas que permitem medir a eficácia de um classificador para recuperar rótulos
positivos são a precisão (P) e a revocação (R). A primeira calcula a fração de rótulos preditos
que realmente são relevantes (Equação 2.5), enquanto que a segunda calcula a fração de rótulos
relevantes verdadeiros que também são preditos (Equação 2.6). A média harmônica da precisão

e revocação é calculada pela Equação 2.7, (READ, 2010; GIBAJA; VENTURA, 2014; READ,
2010; PEREIRA et al., 2018) sendo denominada Macro-F1.
↑ P =
1
m
m
X
i=1
| Yi ∩ Ŷi |
Ŷi
(2.5) ↑ R =
1
m
m
X
i=1
| Yi ∩ Ŷi |
Yi
(2.6)
↑ F1 =
1
m
m
X
i=1
2 | Yi ∩ Ŷi |
| Ŷi | + | Yi |
(2.7)
2.4.1.2 Medidas Baseadas em Rótulos
Para as medidas baseadas em rótulos considere l o número total de rótulos; yj o j-ésimo
rótulo; tpj (true positives) o número de verdadeiros positivos para yj; tnj (true negatives) o
número de verdadeiros negativos para yj; fpj (false positives) o número de falsos positivos para
yj e fnj (false negatives) o número de falsos negativos para yj (HERRERA et al., 2016).
Nas Equações 2.8 (macro precisão - PMa), 2.9 (macro revocação - PMa) e 2.10 (macro
f1 - F1Ma), as medidas média macro primeiro calculam cada rótulo individualmente e somente
depois a média entre todos os rótulos é calculada, atribuindo assim pesos iguais para os rótulos
- independente se o rótulo é frequente, infrequente ou raro. Nas Equações micro média Equa-
ção 2.11 (micro precisão - PMi), Equação 2.12 (micro revocação - RMi) e Equação 2.13 (f1
micro - F1Mi) os rótulos são calculados todos juntos. O desempenho de rótulos raros acaba por
influenciar medidas macro média, enquanto que as medidas micro média são mais influenciadas
pelos rótulos mais comuns (HERRERA et al., 2016).
↑ PMa =
1
| l |
|l|
X
j=1
tpj
tpj + fpj
(2.8) ↑ RMa =
1
| l |
|l|
X
j=1
tpj
tpj + fnj
(2.9)
↑ F1Ma =
2 × PMa × RMa
PMa + RMa
(2.10)
↑ PMi =
Pl
j=1 tpj
Pl
j=1 tpj +
Pl
j=1 fpj
(2.11)
↑ RMi =
Pl
j=1 tpj
Pl
j=1 tpj +
Pl
j=1 fnj
(2.12)
↑ F1Mi =
2 × PMi × RMi
PMi + RMi
(2.13)
Para mensurar predições errôneas de rótulos três medidas foram propostas por Rivolli
et al. (2018). A primeira medida apresentada na Equação Equação 2.14, denominada Wrong
Label Prediction (WLP), mede quando o rótulo pode ser predito para algumas instâncias, mas
essas predições estão sempre erradas. A Equação 2.15 permite calcular a proporção de rótulos

que nunca são preditos sendo denominada Missing Label Prediction (MLP). A terceira métrica,
Constant Label Problem (CLP), mede quando o mesmo rótulo é predito para todas as instâncias
(RIVOLLI et al., 2018). Para CLP (rótulos preditos incorretamente), WLP (rótulos nunca preditos)
e MLP (rótulos sempre preditos), o valor de retorno ideal é zero, indicando que não há ocorrências
destes problemas nas predições dos rótulos.
↓ WLP =
1
l
l
X
j=1
I

tpj == 0

(2.14)
↓ MLP =
1
l
l
X
j=1
I

tpj + fpj == 0

(2.15)
↓ CLP =
1
l
l
X
j=1
I

tnj + fnj == 0

(2.16)
2.4.2 Ranking
Para as equações desta subseção considere L um rótulo de L13
, f(xi, L) uma função
de valor real que retorna a confiança de L ser um rótulo de xi e rank(xi, L) uma função
que, para uma instância xi, mapeia o valor real de f(xi, L) para a posição do rótulo (L ∈ L)
no ranking. Um rótulo L1 é ranqueado em uma posição mais alta que um outro rótulo L2
se f(xi, L1) f(xi, L2), o que implica rank(xi, L1) rank(xi, L2). Considere ainda que
rank∗
(xi, L) é o ranking verdadeiro; Y i é o conjunto complementar de Yi com respeito à L; [[π]]
uma função que retorna 1 se a proposição p é verdadeira e 0 caso contrário; e, por fim, x0
, x00
, L0
e L00
duas instâncias e dois rótulos, respectivamente, não necessariamente diferentes.
2.4.2.1 Medidas Baseadas em Instâncias
Precisão média (PM - Equação 2.17) permite obter, em média, o número de posições que
precisam ser verificadas antes de um rótulo não relevante ser encontrado. Portanto, determina para
cada rótulo em uma instância, a proporção de rótulos relevantes que são ranqueados acima dela
no ranking predito (TSOUMAKAS et al., 2009; SOROWER, 2010; MADJAROV et al., 2012;
ZHANG; ZHOU, 2014; GIBAJA; VENTURA, 2014; GIBAJA; VENTURA, 2015; HERRERA
et al., 2016; WU; ZHOU, 2017; PEREIRA et al., 2018).
↑ PM =
1
m
m
X
i=1
1
| Yi |
X
L∈Yi
| {L0
∈ Yi|ranki(L0
) ≤ ranki(L)} |
ranki(L)
(2.17)
A Equação 2.18 - cobertura (C) - conta o número de passos necessários para percorrer o
ranking fornecido até que todos os rótulos relevantes sejam encontrados, retornando o número
médio de passos. Esta medida é influenciada pelo tamanho do espaço de rótulos de cada conjunto
de dados multirrótulo. Quanto maior o espaço de rótulos, maior o número de passos para se
13
conforme definido no início deste capítulo L = {L1, L2, ..., Ll} e Y ⊆ L

percorrer (TSOUMAKAS et al., 2009; SOROWER, 2010; MADJAROV et al., 2012; ZHANG;
ZHOU, 2014; GIBAJA; VENTURA, 2014; GIBAJA; VENTURA, 2015; HERRERA et al., 2016;
WU; ZHOU, 2017; PEREIRA et al., 2018).
↓ C =
1
m
m
X
i=1
max
L∈Yi
ranki(L) − 1 (2.18)
É possível verificar se o ranqueamento está correto pela Equação 2.19. Se is Error (IE)
retornar 0, o ranqueamento está correto, caso contrário retorna 1, independente do quão incorreto
ou correto esteja o ranking (GIBAJA; VENTURA, 2014; GIBAJA; VENTURA, 2015).
IE =
1
m
m
X
i=1
hh X
L∈L
| rank∗
i (L) − ranki(L) |6= 0
ii
(2.19)
O número de posições entre os rótulos positivos e negativos com pior ranking pode ser
calculado pela Equação Equação 2.20. Margin Loss (MLoss) está relacionada ao ranqueamento
incorreto de rótulos (GIBAJA; VENTURA, 2014; GIBAJA; VENTURA, 2015).
↓ MLoss =
1
m
m
X
i=1
max

0, max({rank(L) | L ∈ Yi}) − min({rank(L0
) | L0
/
∈ Yi})

(2.20)
Para medir o número de vezes que um rótulo no topo do ranking não está no conjunto
de rótulos relevantes para a instância, utiliza-se a Equação 2.21 - one error (OE) - que avalia
também a fração de instâncias cujo rótulo mais confiável é irrelevante. Enquanto a métrica
cobertura (Equação 2.18) considera o rótulo menos relevante entre todos os rótulos relevantes,
one error considera somente o rótulo mais relevante (TSOUMAKAS et al., 2009; SOROWER,
2010; MADJAROV et al., 2012; ZHANG; ZHOU, 2014; GIBAJA; VENTURA, 2014; GIBAJA;
VENTURA, 2015; HERRERA et al., 2016; WU; ZHOU, 2017; PEREIRA et al., 2018).
↓ OE =
1
m
m
X
i=1
δ(arg min
L∈L
ranki(L))
(2.21)
δ(L) =



1 L /
∈ Yi
0 caso contrário
Ranking Error (RE) retorna a soma do quadrado das diferenças de posição para cada
rótulos no ranking predito e no ranking verdadeiro. Se o ranking for idêntico ao verdadeiro,
RE=0, se for invertido RE=1 (GIBAJA; VENTURA, 2014; GIBAJA; VENTURA, 2015).
↓ RE =
1
m
m
X
i=1
X
L∈L
| rank∗
i (L) − ranki(L) |2
(2.22)

O número de vezes que rótulos irrelevantes são classificados acima de rótulos relevantes
é calculado pela Equação 2.23, a qual é denominada Ranking Loss (RL). A métrica considera
todas as possíveis combinações de rótulos relevantes (Lj) e não relevantes (Lk) para uma instância
e conta quantas vezes um rótulo não relevante é ranqueado acima de um rótulo relevante na
predição (TSOUMAKAS et al., 2009; SOROWER, 2010; MADJAROV et al., 2012; ZHANG;
ZHOU, 2014; GIBAJA; VENTURA, 2014; GIBAJA; VENTURA, 2015; HERRERA et al., 2016;
WU; ZHOU, 2017; PEREIRA et al., 2018).
↓ RL =
1
m
m
X
i=1
1
| Yi || Yi |
| E | (2.23)
E =
n
(Lj, Lk) | ranki(Lj) ranki(Lk), (Lj, Lk) ∈ Yi × Yi
o
2.4.2.2 Medidas Baseadas em Rótulos
As medidas de avaliação de ranqueamento que serão apresentadas nesta seção não
utilizam uma matriz de confusão como as medidas apresentadas na subseção 2.4.2.2. Estas
medidas de ranking são baseadas no gráfico Receiver Operating Characteristic (ROC) que é um
gráfico bidimensional onde o eixo X representa a taxa de falsos positivos e o eixo Y a taxa de
verdadeiros positivos, um ponto representa um modelo de classificação e o ponto é calculado
pela taxa de verdadeiros positivos e falsos positivos (matriz de confusão). O gráfico ROC pode
ser utilizado como uma ferramenta para visualizar, organizar e selecionar classificadores com
base em seu desempenho (FACELI et al., 2011; Güvenir; Kurtcephe, 2013).
Um classificador que produz um único rótulo como saída gera apenas um ponto no
espaço ROC, enquanto que para os classificadores que produzem valores ou probabilidades,
vários pontos são gerados, o que resulta em uma curva (SILVA, 2006). A área abaixo da curva,
do inglês Area Under ROC Curve (AUC), é derivada da curva ROC medindo a área bidimensional
abaixo de toda a curva ROC retornando um valor entre 0 e 1, que mostra como o modelo se
comporta para diferentes valores de threshold (limiares) (FAWCETT, 2006; FACELI et al., 2011;
ALER et al., 2013).
A medida Média AUC veio da necessidade de se calcular a média dos pontos ROC
usando uma variável independente (pois seu valor pode ser controlado diretamente) como, por
exemplo, a lista de valores reais retornada por um modelo de ranqueamento. Neste caso, a
amostragem do gráfico é feita com base no ranqueamento, ao invés da posição no espaço, e para
cada threshold é calculado primeiro o ponto correspondente na curva e em seguida a média entre
eles (BRADLEY, 1997; FAWCETT, 2006). Dentro deste contexto, e de acordo com Herrera et
al. (2016), a Média AUC Macro e a Média AUC Micro, para classificação multirrótulo, podem

ser calculadas conforme as Equações 2.24 e 2.25.
↑ AUCmacro =
1
l
l
X
j=1
| {(x0
, x00
) | f(x0
, Lj) ≥ f(x00
, Lj), (x0
, x00
) ∈ Zj × Zj} |
| Zj || Zj |
(2.24)
onde: Zj = {xi | Lj ∈ Yi, 1 ≤ i ≤ m} e Zj = {xi | Lj /
∈ Yi, 1 ≤ i ≤ m}
↑ AUCmicro =
| {(x0
, x00
, L0
, L00
) | f(x0
, L0
) ≥ f(x00
, L00
), (x0
, L0
) ∈ S+
, (x00
, L00
) ∈ S−
} |
| S+ || S− |
(2.25)
onde: S+
= {(xi, L) | L ∈ Yi, 1 ≤ i ≤ m} e S−
= {(xi, L) | L /
∈ Yi, 1 ≤ i ≤ m}
2.5 Dimensionalidade, Escalabilidade e Desbalanceamento
Outros três aspectos importantes da classificação multirrótulo são a Dimensionalidade,
Escalabilidade e Desbalanceamento. Dimensionalidade é relativo à dimensão do espaço de
atributos, enquanto que escalabilidade trata do processamento de um grande número de rótulos
no espaço de rótulos. O desbalanceamento refere-se basicamente à distribuição dos rótulos
(READ, 2010; HERRERA et al., 2016).
Alguns conjuntos de dados multirrótulo podem apresentar alta dimensão no espaço de
atributos como, por exemplo, o conjunto de dados Wiki10-31K que possui 132.876 atributos
sendo 101.938 atributos de entrada, 30.938 rótulos (atributos de saída) e 20.762 instâncias.
Reduzir o número de atributos em conjunto de dados com alta dimensionalidade, como o
Wiki10-31K, pode facilitar o processamento, simplificar o modelo, tornar o modelo mais
interpretável, diminuir o tempo de aprendizado e aumentar a capacidade de generalização
evitando o overfitting (KASHEF et al., 2018).
Para reduzir o espaço de atributos estratégias foram propostas na literatura e uma revisão
pode ser encontrada em Kashef et al. (2018). Algumas dessas estratégias podem ser diretamente
aplicáveis para a classificação multirrótulo, enquanto outras podem ser estendidas, de maneira
similar ao que que ocorre com as abordagens dependente e independente de algoritmo. Seleção
de atributos e extração de atributos são as principais estratégias utilizadas para realizar a redução.
A seleção de atributos remove atributos redundantes ou irrelevantes - selecionando assim aqueles
atributos que fornecem informação útil para a construção de um modelo - enquanto que a
extração de atributos obtém novos atributos por meio de combinações e transformações do
conjunto original (TSOUMAKAS et al., 2009; GIBAJA; VENTURA, 2014; HERRERA et al.,
2016).
A seleção de atributos pode ainda ser dividida em três estratégias diferentes: filtros,
wrappers e embutidas. A estratégia de filtros é independente de algoritmo, portanto, métodos

como o Binary Relevance e o Label Powerset podem ser usados para gerar um ranking de
atributos para cada rótulo. A partir do ranking, e de um critério de eliminação, atributos com
pontuações insuficientes são eliminados e aqueles com as melhores pontuações são selecionados,
filtrando assim os atributos mais significativos para o modelo (GIBAJA; VENTURA, 2014;
KASHEF et al., 2018).
Wrappers são diretamente aplicáveis a classificação multirrótulo e tiram vantagem do
algoritmo de aprendizado como parte do processo de seleção. Portanto, dado o algoritmo, a
estratégia consiste em procurar por subconjuntos de atributos que otimizem uma função de perda
em um conjunto de avaliação. Nas estratégias embutidas a seleção de atributos é realizada como
parte do processo de construção do modelo e exploram os pontos fortes das estratégias de filtros
(baixa complexidade computacional) e wrappers (apresenta melhores resultados comparado aos
filtros) (TSOUMAKAS et al., 2009; KASHEF et al., 2018).
A extração de atributos pode ser categorizada em dois principais tipos: Supervisionada
e Não Supervisionada. Métodos não supervisionados podem ser diretamente aplicados à clas-
sificação multirrótulo, não precisam de dados rotulados e tentam reduzir a dimensionalidade
preservando determinadas características dos atributos. Principal Component Analysis (PCA)
(ABDI; WILLIAMS, 2010) pode ser citado como um método de extração de atributos não
supervisionado tradicional. Os métodos supervisionados necessitam de adaptação, precisam
dos dados rotulados e analisam correlações entre os atributos e a classe, sendo o Canonical
Correlation Information (CCA) (YIN, 2004)) um método tradicional (HERRERA et al., 2016;
KASHEF et al., 2018).
Nem sempre é possível retirar um rótulo do conjunto, pois as correlações entre os rótulos
e outras informações relevantes podem ser perdidas. Neste caso, o espaço de rótulos pode ser
dividido em espaços menores, de maneira que as informações e as correlações não se percam
no processo. Uma maneira de fazer isto é selecionando grupos de rótulos, processando-os
separadamente e então reconstruindo o problema original ao final. Como exemplos podem ser
citados os métodos Pruned Sets, que ao eliminar conjuntos de rótulos menos frequentes reduz a
dimensão do espaço, e HOMER que facilita o processamento ao transformar o problema original
em uma hierarquia de problemas menores facilita o processamento (GIBAJA; VENTURA, 2014;
HERRERA et al., 2016).
Estes métodos de redução tentam simplificar a tarefa multirrótulo, o que leva a outro
problema já mencionado em seções anteriores, a escalabilidade. Quanto maior o número de
rótulos no espaço de rótulos maior o custo computacional do treinamento, assim como mais
memória será necessária para gerar o modelo. Dependendo da dimensionalidade do espaço
de rótulos, o algoritmo pode não terminar a execução, mesmo que ele seja dividido em vários
espaços menores pois o número total de instâncias do conjunto também pode influenciar no
processamento (SOROWER, 2010).
Outro problema que pode ser gerado com a alta dimensionalidade do espaço de rótulos

é o desbalanceamento. Quando o número total de rótulos do espaço de rótulos é muito alto, é
possível que o número de instâncias positivas para determinados rótulos seja bem pequeno e o
número de instâncias negativas alto, assim como alguns rótulos podem ser mais frequentes que
outros. Isto é conhecido como desbalanceamento de classes. Além disso, pode haver um número
alto de instâncias associadas a conjuntos de rótulos frequentes e também um alto número de
instâncias associadas a conjuntos de rótulos menos frequentes, o que é conhecido como label
skew (READ, 2010; HERRERA et al., 2016).
Tsoumakas et al. (2008) e Weng et al. (2018) podem ser citados como exemplos de
métodos que tratam do desbalanceamento de classes. O primeiro mantém uma distribuição
uniforme do conjunto de rótulos em subconjuntos disjuntos, de modo que rótulos semelhantes
são agrupados e rótulos dissimilares separados. No segundo, duas instâncias positivas (ou
negativas) são selecionadas do conjunto de treinamento, e uma nova instância positiva (negativa)
é gerada pelo cálculo da média aritmética entre as duas.
Como já mencionado na seção 2.1, os aspectos aqui abordados podem ser tratados
diretamente no desenvolvimento de um novo algoritmo, ou precisam ser adaptados em algoritmos
existentes. Conhecer o conjunto de dados, analisando o balanceamento, quantidade de conjuntos
de rótulos frequentes e infrequentes, entre outras características, pode auxiliar na resolução do
problema multirrótulo. A seção 2.6 apresentará métricas capazes de extrair estas informações
dos conjunto de dados.
2.6 Características de Dados Multirrótulo
Conjuntos de dados multirrótulo possuem diversas propriedades que podem ser mensura-
das e as quais caracterizam este tipo de dado. É possível obter desde informações simples como
número total de rótulos, número total de instâncias, número total de conjuntos de rótulos distintos,
até informações mais complexas como o nível desbalanceamento do conjunto, esparsidade do
espaço de rótulos e de instâncias, entre outros. Estas informações auxiliam na resolução do
problema multirrótulo, podendo ajudar na escolha das técnicas a serem utilizadas e também
na escolha do conjunto de dados mais adequado pra o problema em questão (READ, 2010;
HERRERA et al., 2016).
A média de rótulos por instância é dada pela Equação 2.26, denominada cardinalidade de
rótulos (Card) (TSOUMAKAS; KATAKIS, 2007). Quanto maior o valor de Card, maior é o
número de rótulos relevantes por instância. Um valor baixo indicará que a maioria das instâncias
possui apenas um rótulo relevante (HERRERA et al., 2016).
Card(D) =
1
m
m
X
i=1
| Yi | (2.26)
A Equação 2.27 denominada densidade de rótulos (Dens) normaliza a cardinalidade

pelo número de rótulos (GIBAJA; VENTURA, 2015). Quanto maior o valor de Dens, melhor a
representação dos rótulos em cada instância. Quanto menor, mais dispersão há, indicando que a
maioria das instâncias é representada por um pequeno sub-conjunto de rótulos (HERRERA et
al., 2016).
Dens(D) =
Card(D)
n
(2.27)
A proporção de combinações de rótulos que são únicas no número total de instâncias é
dada pela Equação 2.32 (READ, 2010).
PUnic(D) =
| {L | ∃!x : (x, L) ∈ D} |
m
(2.28)
A Equação 2.29 calcula a proporção de ocorrências do conjunto de rótulos com a frequên-
cia máxima, representando dessa forma a proporção de exemplos associados aos conjuntos
de rótulos que ocorrem com mais frequência. conta(L, D) é a frequência com que L aparece
combinado com outro rótulo em D (READ, 2010)
PMax(D) = max
L|(x,L)∈D
conta(L, D)
m
(2.29)
A porcentagem de instâncias rotuladas com um único rótulo é dada pela Equação 2.30.
Um valor entre 0 e 1 é retornado e um valor de Pmin próximo de 1 indica uma alta proporção
de instâncias com um único rótulo (HERRERA et al., 2016).
Pmin(D) =
X
L0∈Yi/|L0|=1
| L0
|
m
(2.30)
Ambas as Equações 2.26 e 2.27 fornecem informações sobre frequência de rótulos
enquanto que as Equações 2.28 e 2.29 fornecem informações de contagem de ocorrências, neste
caso contagem das combinação de rótulos únicos e frequência máxima. Um valor alto de PUnic
indica que em D o número de conjuntos de rótulos diferentes é alto. Se o valor de Pmax e
PUnic forem ambos altos, então a maioria dos rótulos no conjunto de dados possui apenas
alguns exemplos positivos (CHARTE et al., 2018; HERRERA et al., 2016).
A medida apresentada na Equação 2.31 calcula o número de conjuntos de rótulos
distintos presentes em D. Caso o valor retornado seja alto, então o espaço de rótulos tem alta
dimensionalidade. Distinto é limitada pelo número de instâncias do conjunto e quanto mais
alto o valor, mais irregular os rótulos aparecem em D. A proporção de conjuntos de rótulos
distintos pode ser calculada pela Equação 2.32) (SOROWER, 2010; HERRERA et al., 2016).
Distinto(D) =| L ⊆ L | ∃(x, L) ∈ D | (2.31)

PD(D) =
Distinto(D)
m
(2.32)
As medidas apresentadas nas Equações 2.33 e 2.34 avaliam o nível de desbalanceamento
de um conjunto de dados (CHARTE et al., 2018). O nível de desbalanceamento de um rótulo
específico (Lj) pode ser calculado usando a Equação 2.33. Um valor de IRLbl igual a 1
indica rótulos com maior frequência, enquanto que um valor maior que 1 indica rótulos menos
frequentes. Portanto, quanto maior o valor de IRLbl, mais rara é a presença do rótulo em
D. O objetivo da métrica MaxIR é obter a razão de desbalanceamento máximo, em outras
palavras, a proporção do rótulo mais comum em relação ao mais raro, e para obter a razão de
desbalanceamento médio de cada rótulo aplica-se a Equação 2.34 (HERRERA et al., 2016;
CHARTE et al., 2018).
IRLbl(L) =
maxLj∈L(
Pm
i=1[[Lj ∈ Yi]])
Pm
i=1[[L ∈ Yi]]
(2.33)
MeanIR =
1
n
X
L∈L
IRLbl(L) (2.34)
MaxIR = max
L∈L
(IRLbl(Lj)) (2.35)
Se o valor de IRLbl for alto para muitos rótulos, ou se o nível de desbalanceamento
for extremo para alguns rótulos, então o valor de MeanIR é alto. Um coeficiente de variação
para a taxa de desbalanceamento médio pode ser calculado pela Equação 2.36. CVIR ajuda a
identificar a causa do alto valor de MeanIR (HERRERA et al., 2016).
CV IR =
IRLbLσ
MeanIR0
(2.36)
IRLblσ(L) =
s
1
n − 1
X
L∈L
(IRLBl(L) − MeanIR)2 (2.37)
As métricas Scumble (Equação 2.38) e Scumblei (Equação 2.39) avaliam o nível de
concorrência entre os rótulos minoritários e majoritários, indicando também se todos os rótulos
na instância têm frequências similares ou não (GIBAJA; VENTURA, 2015).
Scumble(D) =
1
m
m
X
i=1
Scumblei (2.38)
Scumblei = 1 −
1
IRLbli
(
Y
L∈L
IRLbliL )
1
n (2.39)

Uma medida que calcula o produto do número de atributos, número de rótulos e número
de combinações diferentes de rótulos é dada pela Equação 2.40 (CHARTE et al., 2018). O valor
retornado por TCS indica a dificuldade em aprender um modelo preditivo do conjunto de dados:
quanto mais alto o valor, mais difícil é o aprendizado. Na equação Ls indica o número total de
combinações de rótulos.
TCS(D) = log(m × n × Ls) (2.40)
2.7 Considerações Finais
Este capítulo apresentou a fundamentação teórica deste trabalho que corresponde à
classificação multirrótulo. A introdução do capítulo apresentou a definição formal de classifica-
ção multirrótulo e também apresentou rapidamente sobre ranqueamento. Na seção 2.1 foram
apresentados os principais métodos para resolver problemas de classificação multirrótulo que
são divididos em duas principais abordagens: Independente e Dependente de algoritmo. Já a
seção 2.2 apresentou algumas das mais conhecidas combinações de classificadores multirrótulo
da literatura, enquanto que a seção 2.3 apresentou os principais conceitos sobre a modelagem das
correlações entre rótulos. As medidas para avaliar o desempenho preditivo dos classificadores
multirrótulo foram apresentadas na seção 2.4 e as características dos dados multirrótulo na
seção 2.6. Outros aspectos como a dimensionalidade, escalabilidade e desbalanceamento foram
discutidos na seção 2.5. No próximo capítulo (3) a proposta e a metodologia deste trabalho será
discutida.

52
Capítulo 3
PROPOSTA DE PESQUISA
Este capítulo apresenta a proposta desta pesquisa de doutorado e está organizado da
seguinte forma: seção 3.1 apresenta a proposta do trabalho; na seção 3.2 são apresentados os
conjuntos de dados multirrótulo que poderão ser utilizados; a seção 3.4 apresenta como a análise
dos resultados será feita e o que se espera dos resultados; a seção 3.3 apresenta as ferramentas
que serão utilizadas no desenvolvimento; e, por fim, na seção 3.5 é apresentado o plano de
trabalho e o cronograma da pesquisa.
3.1 Proposta
Partições híbridas são partições dos dados compostas por grupos de rótulos correlaci-
onados, onde cada grupo de cada uma das partições híbridas pode conter um ou mais rótulos
correlacionados (as mesmas não podem ter uma configuração de partição local, nem uma partição
global, conforme já explicado na Capítulo 1). Para encontrar este tipo de partição nos conjuntos
de dados multirrótulo é necessário usar uma estratégia que seja capaz de explorar as correlações
entre os rótulos e então particionar o espaço de rótulos. Além disso, a estratégia deve escolher a
partição híbrida que melhor otimize o desempenho preditivo do classificador multirrótulo. Para
alcançar tal objetivo é necessário investigar métodos para modelar as correlações e particionar o
espaço de rótulos. Depois de implementada e experimentada a estratégia, é preciso analisar as
influências e comportamento desses métodos, e da própria estratégia, no resultado obtido.
A estratégia para se encontrar as partições híbridas, e escolher uma entre elas, pode ser
elaborada como um processo constituído de quatro passos principais: 1) Modelar as correlações
entre rótulos no espaço de rótulos; 2) Particionar o espaço de rótulos usando as correlações
modeladas para gerar as várias partições híbridas; 3) Validar as partições híbridas e escolher
a melhor entre elas; e 4) Testar a melhor partição híbrida escolhida. Além desses passos, é
necessário também um passo inicial onde os conjuntos de dados multirrótulo são pré-processados
para a sua correta utilização e um último passo para a análise dos resultados. A Figura 13
apresenta o fluxograma da estratégia aqui apresentada.

Capítulo 3. Proposta de Pesquisa 53
Modelar
Correlações
Particionar
Correlações
Validar
Partições
Gerar Partições
Híbridas
Escolher a Melhor
Partição Híbrida
Testar a melhor
Partição Híbrida
Pré
Processamento
Analisar Resultados
Figura 13 – Fluxograma da Proposta
3.1.1 Modelagem das Correlações
No passo 1, as correlações entre rótulos podem ser modeladas usando diferentes métodos.
Neste trabalho, o que se pretende é modelar as correlações utilizando-se apenas o espaço de
rótulos do conjunto de dados multirrótulo (e não todo o espaço de atributos) que poderá ser
tratado como uma matriz de dimensão m × l1
onde as linhas são definidas como as instâncias e
as colunas os rótulos. Conforme já explicado na seção 2.3 do Capítulo 2, as correlações podem
ser categorizadas de várias formas diferentes, vários métodos podem ser aplicados e a literatura
neste tema é vasta. A estratégia apresentada nesta proposta pode ser incluída nas categorias
modelagem das correlações de alta ordem e modelagem de correlações global. Não há escopo
nesta proposta para apresentar todas as possíveis formas para modelar correlações, portanto, a
seguir alguns métodos pesquisados, e que se encaixam nesta proposta, serão citados.
Um método de regras de associação, como o algoritmo Apriori (AGRAWAL; SRIKANT,
1998) poderia ser utilizado na estratégia aqui proposta para modelar as correlações. Basicamente,
regras de associação encontram relacionamentos ou padrões frequentes. No caso da modelagem
das correlações na classificação multirrótulo, o algoritmo Apriori seria capaz de minerar esses
relacionamentos/padrões entre os rótulos, resultando então num modelo de correlações entre os
rótulos que poderia ser particionado. O trabalho de Shi et al. (2015) aplica o algoritmo Apriori
para modelar as dependências entre os rótulos de forma a ajudar na detecção de desvio de fluxo
em fluxos de dados.
Métodos de otimização também podem ser aplicados na modelagem de correlações. Por
exemplo, um método denominado GLOCAL adapta regularização múltipla para modelar as
correlações de rótulos globais e locais. Para modelar as correlações globalmente, a regularização
é adaptada resultando em uma matriz de correlações de rótulos global. Para a modelagem de
correlações local, o mesmo conceito é usado, mas é aplicado em k grupos que são encontrados
usando o algoritmo k-means, o que resulta em k matrizes de correlações de rótulos local. O
problema de otimização é formulado adicionando regularizações globais e locais múltiplas, de
forma que as correlações globais e locais de rótulos sejam consideradas simultaneamente (ZHU
1
conforme definição dada no Capítulo 2: m é o número total de instâncias e l é o número total de rótulos do
conjunto de dados multirrótulo.

et al., 2018).
Outra forma de modelar as correlações de alta ordem é usando medidas de similaridade
como o Cosseno ou o índice Jaccard (JACCARD, 1912). Neste caso, o espaço de rótulos deve
ser submetido ao cálculo da medida de similaridade em questão, o que resultará em uma matriz
de correlações de dimensão l × l. Os valores nessa matriz indicarão a força da correlação entre
os rótulos. Com essa matriz resultante, é possível realizar o particionamento dessas correlações
encontrando as partições híbridas ao final do processo.
Outro método que poderia ser usado para modelar as correlações é o mapa auto organizá-
vel de Kohonen (Self-Organizing Map - SOM). SOM é uma rede neural artificial baseada em
aprendizado competitivo onde os neurônios são posicionados em uma grade bidimensional e,
após o aprendizado, forma-se um mapa topográfico dos padrões de entrada (KOHONEN, 1998).
A modelagem das correlações no SOM ocorre justamente no mapeamento das instâncias. O
espaço de rótulos é dado como entrada para o algoritmo o qual mapeia, para cada neurônio do
mapa, instâncias com rótulos similares. Assim, cada neurônio, ou grupo de neurônios, poderá ser
considerado um grupo de instâncias com base na similaridade dos rótulos. O mapa bidimensional
resultante pode então ser particionado de forma a se obter as partições híbridas. A Figura 14
apresenta um exemplo de mapa de Kohonen onde os círculos representam os neurônios, os
pontos representam as instâncias e o mapa tem dimensão 4 × 4.
Figura 14 – Exemplo de um mapa auto organizável de Kohonen.
Fonte: Elaborado pela autora usando Linguagem R e o conjunto de dados multirrótulo Flags.
Métodos de detecção de comunidade poderiam ser adaptados para modelar as correlações
entre rótulos e particioná-las. Métodos de detecção de comunidades têm sua origem em teoria
de redes e podem ser aplicados em diversas áreas de conhecimento como biologia, transportes,
sociologia, etc. Uma comunidade pode ser definida como um grupo de entidades profundamente

vinculadas, isto é, grupos de nós que estão mais densamente conectados do que com o resto da
rede. Métodos para detecção de comunidade vem sendo usados como técnicas para descobrir
estruturas adjacentes e entender como a estrutura da rede se relaciona com o comportamento do
sistema (HUANG et al., 2020; MITTAL; BHATIA, 2020).
Exemplificando, uma rede social como o Facebook tem milhões de usuários e cada
usuário pode, a seu critério, seguir ou adicionar outras pessoas, formando assim uma rede entre
os usuários. Algoritmos de detecção de comunidades têm ajudado a entender como as relações
entre pessoas e grupos no Facebook funcionam, assim como os fatores e estruturas envolvidos
na relação. A Figura 15 foi retirada de Javed et al. (2018) e ilustra o exemplo de comunidades
de pessoas. Três comunidades foram detectadas e algumas pessoas de cada comunidade estão
conectadas a outras pessoas em outras comunidades.
Figura 15 – Exemplo de comunidades de pessoas. Fonte: (JAVED et al., 2018)
O objetivo ao se modelar as correlações entre rótulos é fazer com que o classificador
seja capaz de predizer rótulos que dificilmente seriam preditos se essas correlações não fossem
encontradas. Como o método de detecção de comunidade é capaz de encontrar relações nos
dados em diversas áreas de conhecimento, então ele pode ajudar a encontrar relações entre
os rótulos (HUANG et al., 2020; MITTAL; BHATIA, 2020). Além disso, vários algoritmos
foram desenvolvidos na literatura para detectar comunidades, baseados em premissas diferentes,
e entre eles alguns também podem ser usados para realizar o particionamento do espaço de
rótulos (JAVED et al., 2018).
Métodos e algoritmos de detecção de comunidades, portanto, podem ser usados tanto
para modelar correlações, quanto para particionar as correlações modeladas. No Capítulo 4,
seção 4.3 é apresentado e discutido um trabalho correlato que utiliza método de detecção de
comunidades para particionar os dados a partir de grafos de co-ocorrência construídos com base
no conjunto de dados de treinamento.
Há ainda a possibilidade de usar métodos probabilísticos, evolutivos e até mesmo téc-
nicas de sistemas de recomendação para a modelagem das correlações, desde que adaptados

corretamente. Concluindo, a gama de métodos para se modelar as correlações é alta, mas neste
trabalho optou-se por investigar inicialmente o índice Jaccard e o Kohonen. O índice Jaccard é
capaz de medir o quão similar um rótulo é em relação a outro e, o mapa de Kohonen é capaz de
identificar os rótulos similares colocando-os juntos em um neurônio. Os dois métodos foram
escolhidos inicialmente não somente por estas características, mas também por não exigirem um
número fixo de grupos de rótulos correlacionados e nem um número fixo de partições. Além
disso, são capazes de modelar correlações de alta ordem gerando uma matriz de correlações, e
um mapa de neurônios respectivamente, o que torna possível o particionamento das correlações
modeladas.
3.1.2 Particionamento
O passo 2 da estratégia consiste do particionamento do espaço de rótulos. Para este passo,
um método como o algoritmo de agrupamento hierárquico aglomerativo pode ser usado. Um
algoritmo de agrupamento hierárquico é capaz de construir grupos de rótulos correlacionados
particionando recursivamente as correlações modeladas. Esses algoritmos de agrupamento
hierárquicos são divididos em dois tipos: aglomerativos e divisivos. No método aglomerativo,
inicialmente cada rótulo (L) representa um grupo (G) e cada grupo é fundido (ou mesclado)
sucessivamente até se obter um grupo final, isto é, cada rótulo inicia em um grupo separado
e no último passo terminam todos juntos em único grupo. Já no método divisivo todos os
rótulos inicialmente pertencem a um único grupo e vão sendo divididos em grupos até que no
final se obtenha um grupo para cada rótulo (ROKACH; MAIMON, 2005; THEODORIDIS;
KOUTROUMBAS, 2006).
O resultado obtido por um algoritmo de agrupamento hierárquico é um dendrograma
que representa o agrupamento aninhado dos rótulos e os níveis de similaridade onde ocorrem
as junções dos grupos. Para obter diferentes partições, é necessário realizar cortes neste den-
drograma em diferentes níveis de similaridade (ROKACH; MAIMON, 2005; THEODORIDIS;
KOUTROUMBAS, 2006). Considerando que o algoritmo inicia com l grupos e termina com um
grupo contendo todos os rótulos, é possível obter l partições ao se cortar o dendrograma em l
níveis. Exemplificando, a Figura 16 ilustra um dendrograma2
para o conjunto de dados Flags,
que possui 7 rótulos. Cortando-o em 7 níveis obtém-se:
• A partição global no último nível: Pglobal = {G1}
onde G1 = {orange, black, blue, red, white, green, yellow}
• A partição local no primeiro nível: Plocal = {G1, G2, ..., Gl} onde G1 = {orange};
G2 = {black}; G3 = {blue}; G4 = {red}; G5 = {white}; G6 = {green} e G7 =
{yellow};
2
Elaborado pela autora usando RStudio com as funções HClust e Cutree. O dendrograma é resultado do método
de aglomeração average

0.0
0.2
0.4
0.6
0.8
orange
black
blue
red
white
green
yellow
0.39
0.52
0.59
0.66
0.76
0.87
Figura 16 – Dendrograma para Flags obtido usando o método aglomerativo de ligação média.
Fonte: Elaborado pela autora
• E as (l − 2) partições híbridas que estão entre o primeiro e último nível (7 - 2 = 5):
Phibrida1 = {G1, G2};
Phibrida2 = {G1, G2, G3};
Phibrida3 = {G1, G2, G3, G4};
Phibrida4 = {G1, G2, G3, G4, G5};
Phibrida5 = {G1, G2, G3, G4, G5, G6}
onde cada grupo G será composto por um conjunto de rótulos correlacionados. Um possível
resultado de partições híbridas para estes cortes (Phibrida1 a Phibrida5) é apresentado na Figura 17.
Os cortes realizados agrupam os rótulos de forma que os mesmos não se repetirão nos grupos. As
vantagens de se usar este método estão no fato de: i) mais de uma partição híbrida é encontrada
pelo agrupamento hierárquico mesmo que seja um número previsível (l − 2); ii) um número
diferente de grupos correlacionados é gerado para cada partição híbrida - ainda que seja um
número que cresce a cada particionamento, os grupos serão compostos por conjuntos de rótulos
diferentes. Devido a estas características, o algoritmo de agrupamento hierárquico foi escolhido
para ser aplicado no particionamento das correlações modeladas gerando assim diferentes
partições da forma que se almeja nesta proposta.
Há um detalhe a se considerar a respeito da geração das partições híbridas. A depender do
método a ser utilizado para modelar e particionar as correlações, as partições híbridas podem ser
obtidas de forma direta ou indireta. Para exemplificar, observe a Figura 18. O espaço de rótulos

blue
write
green
red
yellow
black
orange
blue
write
green
red
yellow
orange black
blue
write
red
orange
black
green
yellow
blue
write
red
green
black
yellow
orange
write
red
green
black yellow
orange
blue
Figura 17 – Partições híbridas para Flags obtidas usando os cortes no dendrograma.
Fonte: Elaborado pela autora
na Figura 18a mostra que o resultado da aplicação do método é capaz de gerar as partições
híbridas já com os respectivos grupos de rótulos correlacionados. Relembrando que o losango
amarelo identifica cada rótulo, e o círculo vermelho o grupo de rótulos correlacionados, enquanto
que o retângulo azul é a partição híbrida.
Na Figura 18b, o método aplicado gera partições compostas por grupos de instâncias
que tem rótulos correlacionados, as quais são representadas pelo triângulo verde. Neste caso, é
preciso mais um passo para se obter as partições híbridas. Na Figura 18b os rótulos se repetirão
nos grupos e um dos requisitos deste trabalho é que os grupos sejam formados por rótulos
correlacionados de forma que, um rótulo que pertença a um grupo, não pertença a outro grupo
daquela partição.
A Figura 19 apresenta com mais detalhes o contexto da Figura 18b. Da esquerda
para a direita, a primeira partição da Figura 19 ilustra uma partição resultante de um pro-
cesso de particionamento das correlações. Essa partição deverá ser submetida a um processo
onde os rótulos em cada grupo são identificados, o que resultará na segunda partição da Fi-
gura 19. Essa partição resultante é composta por quatro grupos Phibrida = {G1, G2, G3, G4}
onde G1 = {L1, L2, L3, L4, L5}; G2 = {L1, L2, L3, L4}; G2 = {L1, L2, L3, L4, L5}; G3 =
{L1, L3, L5, L6, L7, L8}; e G4 = {L2, L3, L4, L7, L8}.
Nesta segunda partição, é possível observar que os rótulos estão se repetindo em alguns
grupos. O rótulo L1 aparece nos grupos G1, G2 e G3; o rótulo L2 está presente nos grupos
G1, G2 e G4; o rótulo L3 se repete nos grupos G1, G2, G4 e G5; o rótulo L4 em G1, G2 e G4;

L1 L2 ... Ll
x1
x2
...
xm
L1 L2 ... Ll
x1
x2
...
xm
a) Direta b) Indireta
Figura 18 – Formas de se obter as partições híbridas. Elaborado pela autora.
L2
L4
L1
L3
L2
L1
L5
L7
L3
L8
L1
L4 L3
L8
L4
L2
L5
L6
L3
L7
L6
L5
L1
L4
L3
L7
Uma das partições híbridas resultantes Rótulos correlacionados em cada grupo da partição Partição Híbrida Final
L8
L2
Figura 19 – Tratamento da partição híbrida
o rótulo L5 em G1 e G3; o rótulo L6 em G3, o rótulo L7 em G3 e G4; e, por fim, o rótulo L8
em G3 e G4. Esta segunda partição deve ser submetida a um processo de seleção de rótulos, de
forma que ao final, os grupos sejam formados por rótulos exclusivos. Esse processo vai resultar
na terceira e última partição da Figura 19, a qual poderá ter um número de grupos diferentes
com relação à primeira, o qual pode ser maior ou menor que a partição híbrida original. Esse
número se altera justamente pela restrição dos rótulos não se repetirem nos grupos.
Um forma simples para selecionar quais rótulos permanecerão em cada grupo pode ser
feita a partir do cálculo do total de vezes que cada rótulo aparece em cada grupo. Para a Figura 19
considere os valores ilustrativos apresentados na Tabela 11a. Por exemplo, o rótulo L1 está
presente em 3 dos 4 grupos. De acordo com a Tabela 11a no grupo G1 o rótulo L1 aparece 20
vezes, enquanto que no grupo G2 ele aparece 10 vezes e no grupo G3 aparece 15 vezes. Então,
comparando os três grupos, será selecionado o grupo que tiver o maior valor. Como o rótulo
L1 aparece mais vezes no grupo G1 ele permanecerá neste grupo e será removido de todos os

outros grupos da partição. O resultado desta comparação é apresentado na Tabela 11b onde 0
indica que o rótulo não pertence àquele grupo, e X indica que o rótulo pertence ao grupo. Neste
exemplo não foi considerado empate nos valores, mas se houver algum, um critério de desempate
também deverá ser definido. Este é um método bem simplista, que pode inclusive desconsiderar
correlações que podem vir a ser importantes.
Tabela 11 – Exemplo de seleção de rótulos para cada grupo
a) Total de cada rótulo b) Após a Seleção
G1 G2 G3 G4 G1 G2 G3 G4
L1 20 10 15 0 L1 X 0 0 0
L2 30 50 0 35 L2 0 X 0 0
L3 10 9 25 60 L3 0 0 0 X
L4 5 6 0 7 L4 0 0 0 X
L5 8 0 30 0 L5 0 0 X 0
L6 0 0 5 0 L6 0 0 X 0
L7 0 0 10 40 L7 0 0 0 X
L8 0 0 9 10 L8 0 0 0 X
Uma outra forma de selecionar os rótulos para cada grupo seria comparar as correlações
encontradas em cada um dos grupos. A Tabela 12 ilustra os rótulos correlacionados em cada um
dos grupos da partição. É possível observar que os rótulos L1, L2, L3 e L4 estão correlacionados
e foram alocados em G1 e G2. Além disso, no grupo G3 os rótulos L1 e L3 aparecem juntos,
e no grupo G4 existe correlação entre os rótulos L2, L3 e L4. Pode-se concluir desta análise
que estes quatro rótulos tem correlação entre eles e assim eles poderiam formar um grupo da
partição.
O mesmo pode ser concluído com relação aos rótulos L5, L6, L7 e L8 que poderiam
formar um segundo grupo. Neste caso, a partição híbrida final seria composta por dois grupos
de rótulos correlacionados, e não quatro como na partição original: P = {G1, G2} onde:
G1 = {L1, L2, L3, L4} e G2 = {L5, L6, L7, L8}. Desta forma respeita-se a restrição dos
rótulos não se repetirem nos grupos e não se perde totalmente as correlações. Neste trabalho, se
algum método utilizado gerar partições deste tipo, pretende-se elaborar definições destes critérios
a partir de estudos e experimentos.
Tabela 12 – Correlações encontradas em cada grupo
G1 L1 L2 L3 L4 L5
G2 L1 L2 L3 L4
G3 L1 L3 L5 L6 L7 L8
G4 L2 L3 L4 L7 L8
3.1.3 Validação e Teste
No passo 3 da estratégia, as partições híbridas encontradas devem ser validadas e uma
entre todas deve ser escolhida. A validação pode ser feita treinando classificadores e analisando

seus desempenhos em conjuntos de treino e validação, ou um critério de seleção pode ser criado,
ou ainda um método existente pode ser aplicado como, por exemplo, o coeficiente da silhueta.
O coeficiente de silhueta pode ser usado pois é um método de validação de agrupamento
que define a qualidade das partições baseada na proximidade entre, neste caso, os rótulos de
um grupo particular e a distância entre esses rótulos e o grupo mais próximo (HORTA, 2013;
ROUSSEEUW, 1987). Usando o coeficiente de silhueta, basta submeter as partições híbridas
obtidas ao cálculo da função da silhueta, o que resultará em um coeficiente para cada uma.
Escolher a melhor partição híbrida nesse cenário é escolher o maior coeficiente entre todos, o
que indica também que aquela partição tem a melhor qualidade entre todas as geradas.
Os métodos inicialmente escolhidos para investigação neste passo são a análise do
desempenho dos classificadores induzidos nas partições híbridas, usando a medida de avaliação
Macro F1, que reflete a média harmônica entre a precisão e a revocação, e o coeficiente da
silhueta. A ideia é que as duas formas de validação possam ser comparadas permitindo assim
analisar qual delas contribuirá de forma mais significativa para a melhora do desempenho
preditivo final.
Por fim, o passo 4 consiste em testar a partição híbrida selecionada. Assim, a partição
híbrida é submetida a um classificador e o seu desempenho é avaliado, comparando-a com o
desempenho das partições local e global.
3.2 Conjuntos de Dados Multirrótulo
Conjuntos de dados multirrótulo podem ser encontrados em vários repositórios disponí-
veis na Internet. A seguir alguns dos mais utilizados pela comunidade são citados.
• Mulan: É uma biblioteca para problemas multirrótulo desenvolvida em Java que disponi-
biliza 26 conjuntos de dados multirrótulo e pode ser obtida em http://mulan.sourceforge.
net;
• Meka: Também é uma biblioteca desenvolvida em Java para problemas multirrótulo e é
baseada na biblioteca Weka. Disponibiliza quatro conjuntos de dados multirrótulo e pode
ser acessada em http://waikato.github.io/meka;.
• Cometa: É um repositório online que disponibiliza 74 conjuntos de dados multirrótulo
e podem ser baixados em quatro formatos diferentes: Mulan, Meka, LibSVM, KEEL e
MLDR. Portanto, os dados estão disponíveis conforme as configurações de cada uma
dessas bibliotecas e podem ser baixados em https://cometa.ujaen.es/. Além disso,
disponibiliza referências aos trabalhos que deram origem a cada conjunto de dados e outras
informações.

A Tabela 13 apresenta alguns conjuntos de dados multirrótulo que foram escolhidos
para serem utilizados nos testes e experimentos iniciais desta proposta. Para testar a estratégia é
interessante usar conjuntos dos mais variados domínios e características. Dessa forma, é possível
analisar não somente o comportamento da estratégia mas também questões como tempo de
execução, influência dos domínios e também influência das características dos dados no resultado
final. Na Tabela 13 a coluna Domínio indica o domínio dos dados (música, vídeo, etc.); m é o
número total de instâncias do conjunto; l é o número total de rótulos do espaço de rótulos do
conjunto, Entrada é o número total de atributos de entrada do conjunto; Comb. é o número total
de combinações de rótulos encontradas no conjunto; Card. é a cardinalidade (Equação 2.26); e,
por fim, Dens. é a densidade (Equação 2.27).
Tabela 13 – Conjuntos de Dados Multirrótulo
Nome Domínio m l Entrada Comb. Card. Dens.
birds áudio 645 19 260 133 1,01 0,053
cal500 música 502 174 68 502 260,44 0,150
corel16k010 imagens 13618 144 500 4692 28,15 0,020
corel5k imagens 5000 374 499 3175 3,52 0,009
emotions música 593 6 72 27 18,69 0,311
eukaryotePseAac biologia 7766 22 440 112 11,46 0,052
eurlexDc texto 19348 412 5000 1615 12,92 0,003
flags imagens 194 7 19 54 33,92 0,485
gPositiveGo biologia 519 4 912 7 10,08 0,252
imdb texto 120919 28 1001 4503 20,00 0,071
mediamill vídeo 43907 101 120 6555 43,76 0,043
medical text 978 45 1449 94 12,45 0,028
nuswideVlad imagens 269648 81 129 18430 18,69 0,023
plantGo biologia 978 12 3091 32 10,79 0,090
rcv1sub1 texto 6000 101 47236 1028 28,80 0,029
scene imagens 2407 6 294 15 1,07 0,179
virusGo biologia 207 6 749 17 12,17 0,203
yahoo-society texto 14512 27 31802 1054 16,70 0,062
yeast biologia 2417 14 103 198 42,37 0,303
yelp texto 10806 5 671 32 16,38 0,328
3.3 Recursos e Ferramentas
As principais ferramentas a serem usadas para a realização deste projeto são a Linguagem
R, o ambiente de desenvolvimento integrado RStudio e o Cluster da UFSCar.
A Linguagem R e o RStudio foram escolhidos para o desenvolvimento do código fonte
referente à implementação da estratégia aqui apresentada por serem comumente usadas pela
comunidade científica (e também na indústria) na resolução de problemas de aprendizado de
máquina em geral.
Outro motivo é que R possui uma quantidade considerável de bibliotecas disponíveis
para tratamento de dados, geração de gráficos, medidas de similaridade, redes neurais artificiais
e principalmente bibliotecas específicas para resolução de problemas multirrótulo.
O código poderá ser implementado usando um laptop ou desktop, mas os experimentos

deverão ser executados em um Cluster pois o mesmo possibilita a execução em paralelo do
10-fold cross-validation. Recentemente a UFSCar disponibilizou um Cluster que possui centenas
de processadores e algumas GPUs e que pode ser utilizado para as pesquisas na universidade.
3.4 Análise dos Resultados e Resultados Esperados
Para analisar o desempenho preditivo da estratégia aqui proposta serão realizados ex-
perimentos usando os conjuntos de dados apresentados na seção 3.2. Os experimentos serão
conduzidos usando o esquema de 10-fold cross-validation (validação cruzada de10 pastas).
A plataforma R oferece as bibliotecas MLDR e UTIML que permitem utilizar 22 medidas
de avaliação multirrótulo (ranqueamento e classificação). Portanto, os experimentos serão avalia-
dos usando essas medidas (foram apresentadas na seção 2.4 do Capítulo 2). Apesar do objetivo
da estratégia ser melhorar o desempenho preditivo dos classificadores, é interessante também
analisar como a estratégia se comportará nas medidas de ranqueamento.
Também serão utilizados testes estatísticos não paramétricos para verificar diferenças
estatísticas entre os resultados gerados com as partições híbridas, locais e globais. Para este
fim foram selecionados o teste de Friedman (HOLLANDER; WOLFE, 1973) e o pós teste de
Nemenyi (NEMENYI, 1963), dois testes tradicionais e muito utilizados em diversos trabalhos
da área de aprendizado multirrótulo.
Espera-se que os resultados mostrem que as partições híbridas podem melhorar o desem-
penho preditivo dos classificadores de maneira significativa. Espera-se também que as partições
híbridas superem o desempenho preditivo das tradicionais partições global e local, colaborando
assim para a evolução do estado-da-arte em aprendizado multirrótulo.
3.5 Plano de Trabalho e Cronograma
O plano de trabalho e o cronograma das atividades a serem realizadas no decorrer da
pesquisa é apresentado a seguir:
• Cursar disciplinas: todas as disciplinas obrigatórias já foram cursadas em 2019;
• Realização de pesquisa bibliográfica: aprofundamento dos estudos referentes à classifi-
cação multirrótulo, correlação entre rótulos e particionamento do espaço de rótulos;
• Realização de experimentos preliminares: realização de experimentos com o índice
Jaccard para análise e identificação de vantagens e desvantagens da estratégia proposta;
• Redação da Qualificação: elaboração do texto do Exame de Qualificação com base nos
estudos realizados e resultados preliminares;

• Defesa da Qualificação: realização da banca de defesa de qualificação;
• Implementação da Proposta: implementar a proposta em linguagem R de acordo com a
metodologia especificada;
• Realização de experimentos: conduzir experimentos com a implementação verificando
pontos fortes e fracos e necessidade de possíveis mudanças;
• Análise dos resultados obtidos: análise e validação dos resultados;
• Redação da tese: elaboração do texto da tese, relatando todo o desenvolvimento e descre-
vendo as metodologias envolvidas;
• Defesa da tese: realização da banca de defesa da tese;
• Publicação de artigos científicos.
A Tabela 14 apresenta o cronograma de execução desta pesquisa de doutorado, que
tem duração de quatro anos. Nota-se que a revisão bibliográfica será constantemente atualizada
durante toda a pesquisa. O planejamento é dividido em semestres, desde o início do programa.
Encontram-se previstos também os períodos de defesa da qualificação e de defesa da tese.
Tabela 14 – Cronograma de Atividades
Semestre
1º 2º 3º 4º 5º 6º 7º 8º
Atividades
Pesquisa Bibliográfica X X X X X X X X
Cursar Disciplinas X X
Condução de Experimentos Preliminares X X
Redação da Qualificação X X
Defesa da Qualificação X
Desenvolvimento e Implementação X X X
Condução de Experimentos X X
Análise dos Resultados X X
Redação da Tese X X X
Defesa da Tese X
Escrita de Artigos Científicos X X X X X X
Nesse capítulo foi apresentada a proposta do trabalho desta pesquisa, as etapas da
estratégia elaborada, os conjuntos de dados que serão utilizados nos experimentos, a forma de

análise dos resultados, o que esperar dos resultados e as principais ferramentas a serem usadas.
Espera-se que com este trabalho seja possível contribuir para o estado da arte em aprendizado
multirrótulo. O próximo capítulo apresentará os trabalhos correlatos.

66
Capítulo 4
TRABALHOS CORRELATOS
Este capítulo apresenta trabalhos relacionados à proposta desta pesquisa sendo discutidos
em ordem alfabética. A seção 4.1 apresenta um trabalho baseado em algoritmos evolutivos que
considera as correlações entre rótulos e um método que modela correlações locais de rótulos e
Classifiers Chains como classificadores é discutido na seção 4.2. Na seção 4.3 é apresentado um
trabalho que aplica métodos de detecção de comunidade para modelar e particionar correlações
usando o algoritmo RaKel. O método HOMER, já mencionado em seções anteriores, é discutido
na seção 4.4 e na seção 4.5 é discutido um trabalho que propôs uma forma de agrupamento
usando o algoritmo C3
M para classificação multirrótulo. Por fim, na seção 4.6 os autores
propõem um método que, a partir de um ranking de rótulos, constroem hierarquias de rótulos e
tratam o problema de classificação multirrótulo como um problema de classificação hierárquica
multirrótulo. Em todas as seções são discutidas semelhanças e diferenças de cada trabalho com a
proposta desta pesquisa.
4.1 Combining Multi-Label Classifiers Based on Projections
of the Output Space Using Evolutionary Algorithms
O método EAGLET (Evolutionary Algorithm for Multi-Label Ensemble Optimization)
(MOYANO et al., 2020) é um método baseado em algoritmo evolutivo que tem como objetivo
gerar uma combinação de classificadores multirrótulo onde cada um dos seus membros é um
classificador multirrótulo base focado em um subconjunto de rótulos. Na criação da população
inicial tanto rótulos frequentes quanto infrequentes são considerados, sendo que cada rótulo é
forçado a aparecer um número mínimo de vezes. Comparando com a proposta desta pesquisa,
cada indivíduo da população poderia ser considerado como um subconjunto de uma partição, pois
para cada um desses subconjuntos e indivíduos é necessário um classificador. Cada indivíduo
do método EAGLET é decomposto em um novo conjunto de dados que consiste apenas dos k
rótulos ativos naquele indivíduo.
De maneira similar, nesta proposta é criado um novo conjunto de dados consistindo

Capítulo 4. Trabalhos Correlatos 67
apenas daqueles rótulos que compõem cada subconjunto de rótulos correlatos encontrado. O
número de indivíduos, o número de gerações, o número de classificadores e o número de rótulos
de cada classificador devem ser informados pelo usuário para o método EAGLET. Na proposta
apresentada aqui, novamente, prefere-se que o número de rótulos para cada subconjunto da
partição não seja determinado, como consequência, o número de classificadores variará conforme
o número de subconjuntos de rótulos encontrados para cada partição híbrida. Os indivíduos
encontrados pelo método EAGLET são representados como uma partição na Figura 20.
x
L1 L2 L3 L4 L5 L6 L7 L8
0 1 1 0 0 1 0 0
individuo I01
1 0 0 0 1 1 0 0
individuo I02
0 0 1 1 0 0 0 1
individuo I03
D
L2 L3 L6
D1
L1 L5 L6
D2
L3 L4 L8
D3
x
x
x
L2 L3
L6
L1 L5
L6
L3 L4
L8
I01 I02 I03
Partição
Figura 20 – Indivíduos encontrados pelo método EAGLET representados como uma partição.
Fonte: Elaborado pela autora baseado em (MOYANO et al., 2020).
A operação de crossover troca rótulos ativos1
entre dois indivíduos com o objetivo de
obter novos indivíduos que possuam rótulos de ambos, ajudando a obter novas combinações de
rótulos que podem melhorar o desempenho. No processo de mutação dois membros do indivíduo
com diferentes valores são selecionados aleatoriamente e trocados, com o objetivo de obter
novas combinações de rótulos. Como novos indivíduos herdam rótulos dos pais nessas fases,
as correlações locais entre rótulos são consideradas. A medida de avaliação F1 foi usada como
função de fitness para avaliar e escolher o melhor indivíduo. Nos experimentos preliminares desta
proposta, a Macro F1 foi usada para selecionar a partição híbrida com o melhor desempenho
preditivo entre todas as partições híbridas geradas.
O classificador que obtiver o melhor desempenho preditivo (F1) e diversidade é seleci-
onado. Para uma instância de teste, as predições geradas por cada um dos classificadores são
usadas para a predição final. O método EAGLET usa um esquema de votação para selecionar a
predição final da instância de teste. Para cada classificador do conjunto são anotadas as predições
(positivas e negativas) para cada rótulo do conjunto de dados, gerando uma matriz onde as
1
um rótulo está ativo quando seu valor é igual a 1

linhas são os classificadores e as colunas os rótulos. As predições (colunas) são então somadas e
divididas pelo número total de predições do rótulo e um limite é aplicado, sendo considerada
como predição positiva aquela que estiver acima desse valor, e negativa o que estiver abaixo.
Na proposta inicial da estratégia aqui proposta as predições de cada classificador, para
cada grupo de rótulos correlacionados da partição, são combinadas e então a F1 é calculada, ou
então o coeficiente da silhueta pode ser utilizado como critério de escolha. Além disso, o objetivo
da proposta é gerar partições híbridas e escolher uma entre todas e não escolher uma combinação
de classificadores. Se o método de seleção de partição híbrida for a partir da avaliação F1 de
cada uma, então, a estratégia proposta também seleciona uma combinação de classificadores ao
final do processo.
4.2 Group sensitive Classifier Chains for Multi-Label
Classification
Um framework chamado Group Sensitive Classifier Chain (GCC) que explora correlações
locais foi proposto em (HUANG et al., 2015b). Na fase de treinamento, o framework GCC
primeiro realiza o agrupamento do conjunto de treinamento inteiro para somente depois aprender
as correlações entre os rótulos, capturando portanto as correlações entre rótulos a partir da
similaridade entre as instâncias, o que também ocorre nesta proposta. No entanto, o resultado
difere pois na proposta aqui apresentada o ideal é que nenhum rótulo se repita nos subconjuntos
de rótulos para cada partição híbrida gerada.
O algoritmo k-means é aplicado para realizar o agrupamento no framework GCC. Para
cada grupo encontrado pelo k-Means, um grafo de dependência de rótulos (Label Dependency
Graph - LDG) é gerado, o qual é capaz de modelar as estruturas de dependência entre rótulos dos
diferentes grupos calculando a ocorrência conjunta de cada par de rótulos. Por fim, k-classifier
chains são construídos com base em cada grafo de dependência de rótulos aprendido.
Como mencionado no Capítulo 2, as correlações podem ser modeladas localmente ou
globalmente, e ambas podem levar a melhoria do desempenho preditivo. O framework GCC
portanto modela as correlações locais enquanto que a proposta inicial desta pesquisa consiste em
modelar as correlações de maneira global, o que permite gerar partições de forma que os rótulos
não se repitam nos subconjuntos.
Na fase de teste, o framework GCC encontra o grupo gn mais próximo para a instância
de teste xt. Os autores assumiram que xt compartilha as mesmas correlações de rótulos que
as instâncias que pertencem a gn. Assim, o modelo de classifier chains construído para gn é
usado para testar xt. Na proposta deste trabalho, pretende-se que na fase de teste seja utilizada a
partição híbrida vencedora, entre todas as geradas, para gerar e testar o modelo de classificação.
Além disso, o framework GCC não faz nenhum tipo de comparação de partição.

Conjunto de
Treinamento
Espaço de
Rótulos
Modelagem
das
Correlações
Agrupamento
Conjunto de
Treinamento
Modelagem
das
Correlações
Modelos
Partições
Modelos
Agrupamento
d) Proposta
Partições Híbridas
c) GCC
G1 G2 G3
LDG1 LDG2 LDG3
Se k = 3
CC1 CC2 CC3
a) Grupos gerados com seus respectivos grafos
de dependência de rótulos e classifiers chains
b) Grupos encontrados por GCC representados como uma
partição. O triângulo representa as instâncias.
G1 G2 G3
Figura 21 – Comparação entre GCC e as Partições Híbridas.
Fonte: Elaborado pela autora com base em (HUANG et al., 2015b)
Outra diferença entre o framework GCC e a proposta desta pesquisa é com relação ao
número de grupos: o valor de k para o k-means precisa ser estimado, enquanto que na proposta
idealizada aqui um número fixo de grupos é indesejado. Como já mencionado, é desejável que
o número de partições híbridas geradas não seja fornecido, o que permitirá construir e avaliar
diversas configurações de partições híbridas, com subconjuntos de rótulos diversos, e assim levar
a escolha da partição híbrida mais adequada. A Figura 21 ilustra as diferenças entre o método
GCC e a proposta desta pesquisa.
4.3 How is a data-driven approach better than random choice
in label space division for multi-label classification?
O trabalho apresentado em (SZYMAŃSKI et al., 2016) propõe uma abordagem alterna-
tiva ao particionamento aleatório do espaço de rótulos, a qual é orientada a dados2
. Os autores
compararam a abordagem proposta com o método Rakeld, que é uma versão do Rakel capaz
de particionar o espaço de rótulos em k subconjuntos disjuntos. O objetivo do trabalho era
avaliar como o particionamento do espaço de rótulos usando abordagens orientadas a dados pode
melhorar o particionamento aleatório na classificação multirrótulo. Para alcançar tal objetivo,
os autores optaram por usar conceitos de redes complexas, portanto, métodos de detecção de
2
Considera os dados ao invés da aleatoriedade ao gerar grupos. Por exemplo, ao invés de selecionar subespaços
aleatórios dos dados, seleciona subespaços com base na co-ocorrência dos dados

comunidades. Os resultados apresentados no trabalho confirmaram que para alguns algoritmos de
detecção de comunidades, e medidas de avaliação, o desempenho é melhor ao se usar abordagens
orientadas a dados.
O método RAkELd também foi utilizado para gerar 250 partições aleatórias de espaço de
rótulos distintas, para no máximo dez valores diferentes do parâmetro k, as quais foram utilizadas
no experimento. Depois de obter essas 250 partições, a abordagem proposta pelos autores começa
construindo um grafo de co-ocorrência de rótulos baseado no conjunto de treinamento (usando
o espaço de rótulos). Em seguida, os algoritmos de detecção de comunidade são aplicados no
grafo construído.
Para cada comunidade encontrada pelos algoritmos de detecção, um novo conjunto de
treinamento foi criado considerando o espaço de entrada original apenas com as colunas dos
rótulos que estão presentes na comunidade em questão. Então, um classificador foi treinado
para cada comunidade sendo as predições combinadas ao final. Os autores optaram por usar
os métodos de classificação multirrótulo Binary Relevance e Label Powerset tendo árvores de
decisão como classificador base. Ao final, o desempenho da abordagem é comparado com o
desempenho do algoritmo Rakel.
A metodologia proposta por Szymański et al. (2016) é semelhante à metodologia da
proposta nesta pesquisa. Em ambos os passos podem ser generalizados como: i) as relações
dos dados são modeladas, ii) as relações são particionadas e iii) classificadores são treinados.
No entanto, há diferenças quanto à forma de se conduzir cada um destes passos. Importante
ressaltar que, modelar as correlações entre rótulos pode ser considerada como uma abordagem
direcionada a dados, já que o objetivo é considerar as relações existentes entre os rótulos e então
particioná-las.
No primeiro passo pode ser considerado que a diferença está na estratégia usada para
modelar correlações. Em (SZYMAŃSKI et al., 2016) usa-se um grafo de co-ocorrência de
rótulos enquanto que nesta pesquisa outros métodos poderão ser testados como o índice Jaccard
e Self-Organizing Maps (SOMs). Porém, não é descartado o uso de um grafo de co-ocorrência
de rótulos. No segundo passo, para o particionamento, nesta pequisa inicialmente está sendo
considerado o uso de um algoritmo de agrupamento hierárquico aglomerativo. No trabalho de
Szymański et al. (2016) foram usados os algoritmos de detecção de comunidades: Fast Greedy
Weighted, Walk Trap Weighted, Leading Eigen Vector Weighted, Leading Eigen Vector, Label
Propagation Weighted, Infomap Weighted e Label Propagation.
Todos esses algoritmos detectam comunidades de maneiras diferentes pois são baseados
em premissas diferentes. Particularmente, os métodos Fast Greedy e Leading Eigen Vector
serão destacados aqui. Estes dois métodos são baseados em modularidade, isto é, baseiam-se na
detecção de uma partição de conjuntos de rótulos que maximiza uma medida de modularidade.
Essa medida corresponde à diferença entre quantas arestas do grafo empiricamente observado
têm ambas as extremidades dentro de uma dada comunidade, versus quantas arestas começando

nesta comunidade terminariam em uma comunidade diferente no caso aleatório (SZYMAŃSKI
et al., 2016; MITTAL; BHATIA, 2020).
Esses dois métodos trabalham de forma muito similar ao algoritmo de agrupamento
hierárquico. O método Fast Greedy começa com as comunidades separadas e as vai fundindo
de maneira iterativa até não ser mais possível realizar uma fusão que aumentaria o valor da
modularidade da partição atual. Isto é um pouco diferente do agrupamento hierárquico aglo-
merativo que vai fundindo os grupos de rótulos até chegar em um grupo formado por todos
os rótulos do conjunto. Já o método Leading Eigen Vector começa com todos os rótulos em
uma única comunidade e recursivamente os divide até que os rótulos tenham o mesmo sinal
ou a comunidade seja um único grupo (SZYMAŃSKI et al., 2016; MITTAL; BHATIA, 2020),
o que é bem similar ao algoritmo de agrupamento hierárquico divisivo. Conclui-se disto que
os métodos Fast Greedy e Leading Eigen Vector poderiam ser capazes de encontrar partições
híbridas e, portanto, podem ser considerados neste trabalho.
Outra diferença entre os trabalhos está no passo 3. As comunidades detectadas pelos
algoritmos podem ser comparadas aos grupos de rótulos correlacionados das partições híbridas:
ambos são compostos por rótulos que têm algum tipo de relação. No trabalho de Szymański
et al. (2016), para cada comunidade foram usados os classificadores Binary Relevance e Label
Powerset, indicando que possivelmente as comunidades formadas por um único rótulo foram
treinadas e testadas com o Binary Relevance e as comunidades compostas por vários rótulos
foram treinadas e testadas com o Label Powerset. Como o Rakel é baseado no Label Powerset,
então o mais coerente seria usá-lo no processo da abordagem proposta pelo autor. Nesta pesquisa
no entanto, pretende-se usar um classificador simples-rótulo (não necessariamente o Binary
Relevance) em grupos de rótulos compostos por apenas um rótulo e um classificador multirrótulo
nos grupos compostos por vários rótulos.
A maior diferença entre o trabalho de (SZYMAŃSKI et al., 2016) e esta pesquisa está
no passo anterior à todos esses. A Figura 22 ilustra essa diferença. Como dito no início desta
seção, o objetivo dos autores com o trabalho era avaliar como o particionamento do espaço de
rótulos, usando abordagens orientadas a dados, pode melhorar o particionamento aleatório na
classificação multirrótulo. Isto é diferente de encontrar partições híbridas no espaço de rótulos
para melhorar o desempenho de qualquer classificador multirrótulo que venha a ser utilizado.
Como pode ser observado na Figura 22, os autores primeiro utilizam o Rakel para
gerar 250 partições aleatórias dos dados e, a partir destas partições, modelam os grafos de co-
ocorrência, aplicam os métodos de detecção de comunidades, e então executam a classificação.
No caso das partições híbridas, a ideia originalmente estruturada é que elas sejam obtidas a partir
do espaço de rótulos original.

P1 P2 P... P250
Rakel
Grafo1 Grafo2 Grafo... Grafo250
Comunidades Comunidades Comunidades Comunidades
Classificadores Classificadores Classificadores Classificadores
a) Abordagem apresentada em Szymanski (2016)
Conjunto de
Treinamento
Espaço de
Rótulos
Modelagem
das
Correlações
Particionamento
Escolha da
Melhor
Partição
Classificação
c) Partições Híbridas
Conjunto de
Treinamento
Rakel
Particionamento
Grafos de Co-
Ocorrência de
Rótulos
Métodos de
Detecção de
Comunidades
Classificação
b) Szymanski (2016)
Comparação
entre Métodos
Comunidades
Comparação
com partições
local e global
Figura 22 – Comparando a estratégia das partições híbridas com o trabalho de Szymański et al.
(2016)
4.4 Hierarchical Partitioning of the Output Space in Multi-
Label Data
O algoritmo proposto em (PAPANIKOLAOU et al., 2018) é uma versão aprimorada
do HOMER (TSOUMAKAS et al., 2008), o qual originalmente constrói uma hierarquia de
classificadores multirrótulo com o objetivo de diminuir a alta dimensionalidade do espaço
de rótulos e o desbalanceamento. Com a hierarquia construída a classificação é realizada em
uma abordagem hierárquica top-down com classificadores locais para cada nó. Esta versão do
HOMER considera a similaridade entre os rótulos para gerar uma hierarquia e, diferente da
versão original em que os nós folhas eram compostos por um único rótulo, os nós folhas nesta
versão são compostos por mais de um rótulo.
De acordo com Papanikolaou et al. (2018) a hierarquia do HOMER pode ser construída
usando qualquer algoritmo de agrupamento. No entanto, no estudo apresentado, o algoritmo
Balanced k Means foi usado, o qual exige que o usuário determine os parâmetros k (número de
clusters) e também nmax (número de rótulos em cada nó folha). A premissa para o agrupamento
dos rótulos do HOMER é que rótulos que ocorrem juntos serão mais similares e pertencerão ao
mesmo grupo. A partir da raiz, o espaço de rótulos é dividido em k grupos-filhos (nós) sendo
particionados recursivamente até que o conjunto de rótulos relevante do nó em questão seja
menor que o numero máximo de nós determinado pelo usuário (nmax).
Aqui encontra-se uma diferença importante entre o HOMER e a proposta desta pesquisa.

Pelo processo descrito, e pela definição de partição descrita nesta pesquisa, HOMER gera uma
partição similar à partição híbrida, pois cada nó folha contem sub-conjuntos de rótulos similares.
Essa partição, porém, não pode ser considerada partição híbrida pois a quantidade de nós e
rótulos dentro de cada nó é limitada pelo usuário. Além disso, uma partição híbrida é composta
por grupos de rótulos onde cada um pode conter um único rótulo, ou um par de rótulos correlatos,
ou um subconjunto de rótulos correlacionados, o que não é o caso do HOMER.
Se o usuário determinar k = 3 e nmax = 5 para o HOMER, a hierarquia gerará três nós
pais, cada um com três nós filhos os quais conterão cinco rótulos similares (Figura 23). Uma das
premissas da proposta desta pesquisa é que um número de grupos preferencialmente não deve
ser fornecido, pois isto limitaria a diversidade na criação das partições. Quanto ao processo de
treinamento, o HOMER usa um classificador para cada nó e na proposta desta pesquisa deve
ser treinado um classificador para cada grupo de rótulos correlacionados da partição híbrida,
combinando as predições ao final.
Root
Nó pai 1 Nó pai 2 Nó pai 3
Nó Folha
1.1
Nó Folha
1.2
Nó Folha
1.3
Nó Folha
2.1
Nó Folha
2.2
Nó Folha
2.3
Nó Folha
3.1
Nó Folha
3.2
Nó Folha
3.3
Todos os rótulos do
conjunto de treinamento
1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3
3 nós por nível
5 rótulos em cada nó folha
HOMER
Figura 23 – HOMER representado como uma partição
Fonte: Elaborado pela autora com base em (PAPANIKOLAOU et al., 2018)
4.5 Multi-Label Classification Using Higher Order Label Clus-
ters
Abeyrathna (2018) propôs um método chamado Multi-Label Classification with Label
Clusters (MLC–LC) que tem como principal objetivo particionar o espaço de rótulos em grupos
de rótulos correlacionados. O autor optou por adaptar um método de agrupamento chamado
Cover Coefficient Based Clustering Methodology (C3
M) o qual é um método originalmente

pertencente ao domínio de recuperação de documentos e foi proposto inicialmente para agrupar
documentos de texto com base em semelhanças de palavras. No método MLC-LC, o algoritmo
C3
M foi adaptado para calcular a co-ocorrência dos rótulos no conjunto, isto é, modelar as
correlações entre os rótulos, e também para particionar as correlações modeladas. De acordo com
o autor, a vantagem ao se usar o método C3
M é que o mesmo usa este padrão de co-ocorrência
dos rótulos para calcular o número de grupos adequado para o conjunto de dados.
O algoritmo C3
M recebe como entrada o espaço de rótulos transposto, isto é, ao invés
dos rótulos estarem dispostos como colunas como é o padrão, ao serem transpostos os rótulos
passam a ser as linhas e as instâncias passam a ser as colunas3
e então calcula os coeficientes de
cobertura nesse espaço. O autor usa dois termos importantes em seu trabalho: perfil de atribuição
de um rótulo i, que é dado pela i−ésima linha do espaço de rótulos, e perfil de rotulação de
uma instância u, que é dada pela u−ésima coluna do espaço de rótulos. Portanto, quando C3
M
calcula os coeficientes de cobertura do espaço de rótulos transposto, na verdade está calculando
o coeficiente de cobertura de um rótulo em relação a outro, o que denota a extensão em que o
perfil de atribuição do primeiro rótulo é coberto pelo segundo rótulo. Como saída uma matriz de
co-ocorrência é gerada. Essa matriz é então particionada pelo C3
M.
Em um segundo passo, o algoritmo C3
M gera como saída o número de grupos adequados
para o conjunto de dados multirrótulo e também as sementes de cada grupo. Os grupos gerados
são cobertos ao máximo pela semente desse grupo, sendo as sementes rótulos com perfis de
atribuição distintos (rótulos não cobertos por outros rótulos). O número de grupos é calculado
usando a linha diagonal da matriz, onde esses elementos são somados e então divididos pelo
número total de rótulos do conjunto de dados.
Abeyrathna (2018) apresentou um exemplo com seis rótulos no espaço de rótulos e ao
calcular a média da diagonal, resultou em três grupos de rótulos correlacionados. Em seguida,
o método MLC–LC treina um classificador para cada um dos grupos encontrados. Se o grupo
é formado por um único rótulo, então o classificador Binary Relevance é utilizado, mas se os
grupos são formados por mais de um rótulo, então o classificador Label PowerSet é usado.
Cada classificador prediz um conjunto de rótulos para cada instância de teste os quais são então
combinados para gerar o conjunto final de rótulos.
O trabalho desta pesquisa tem algumas semelhanças com o trabalho de Abeyrathna
(2018). Primeiro, ambos os trabalhos modelam correlações de alta ordem, isto é, modelam as
correlações entre os rótulos usando todo o espaço de rótulos de uma única vez. No entanto, a
estratégia para a modelagem das correlações nesta pesquisa poderá ser modificada conforme
os experimentos forem conduzidos, isto é, outros tipos de modelagem de correlações4
poderão
ser consideradas. Outra semelhança está no fato de um número de grupos de rótulos não ser
fornecido. O cálculo dos coeficientes de cobertura também se assemelha muito ao cálculo
3
Na subseção A.1.2.2 do Apêndice A há uma explicação detalhada desta configuração de entrada.
4
Conforme apresentado na seção 2.3 do Capítulo 2.

do índice Jaccard, portanto, a técnica de calcular o número de grupos de rótulos de maneira
automática pelo C3
M poderia ser considerada nesta pesquisa.
A principal diferença entre os dois trabalhos está na geração das partições híbridas. Basi-
camente, MLC-LC gera agrupamentos de rótulos correlacionados como uma única partição, isto
é, o método MLC-LC não gera diversas partições híbridas do conjunto de dados original. Outra
diferença está na forma de treinar os modelos. MLC-LC usa o classificador Label PowerSet5
para
treinar grupos com mais de um rótulo, significando que para cada grupo desses serão gerados
novos rótulos conforme as combinações de rótulos existentes.
G1 G2 G3
Classificadores Classificadores Classificadores
L2
L3
Partição
L1
L6
L5
L4
Exemplo: 6 rótulos geraram 3 grupos
a) MLC-LC
Pn
P...
P3
P2
P1
Partições Híbridas
Classificadores Classificadores Classificadores Classificadores Classificadores
G1 G2 G3
.................
b) Partições Híbridas
Figura 24 – Comparando MLC-LC com as Partições híbridas
Fonte: Elaborado pela autora baseado em (ABEYRATHNA, 2018).
Nesta proposta de pesquisa, se o método de desempenho for escolhido como critério
de validação das partições híbridas, então, para cada grupo de rótulos correlacionados formado
por mais de um rótulo, um classificador multirrótulo é aplicado de modo que se aprenda as
correlações que foram identificadas naquele grupo em questão de uma única vez. Mesmo que
Label PowerSet aprenda as correlações encontradas, o método o faz de uma maneira mais custosa,
o que não é interessante para esta pesquisa.
Finalizando, a Figura 24 ilustra a comparação entre os dois métodos. A Figura 24a
apresenta o processo do MLC-LC que, ao usar o M3
C é capaz de gerar agrupamentos de rótulos
correlacionados para uma partição, enquanto que a Figura 24b apresenta o que é desejável para
este projeto de pesquisa: a geração de várias partições que são compostas por grupos de rótulos
correlacionados.
5
Label PowerSet foi discutido na subseção 2.1.1 do Capítulo 2

4.6 Structuring the Output Space in Multi-label Classifica-
tion by Using Feature Ranking
Assim com o HOMER, o trabalho apresentado em (NIKOLOSKI et al., 2018) também
tem como objetivo gerar hierarquia de rótulos considerando as correlações existentes entre
eles. No trabalho de Nikoloski et al. (2018), no entanto, a tarefa da classificação multirrótulo é
abordada como uma tarefa de classificação hierárquica multi-rótulo com o objetivo de investigar
se isto melhora o desempenho preditivo e, conforme apresentado no artigo, os resultados obtidos
confirmam a melhora do desempenho para algumas das medidas de avaliação usadas. De acordo
com os autores, ao se decompor, ou particionar o espaço de rótulos, é importante encontrar uma
estrutura de dependência e também considerar os rótulos que são interdependentes, o que para
os autores pode ser bem representado por uma hierarquia. Diferente do HOMER, as hierarquias
em (NIKOLOSKI et al., 2018) são construídas usando um ranking dos atributos e não o espaço
de rótulos original.
O primeiro passo do algoritmo consiste em ranquear os atributos para cada um dos rótulos
separadamente e então cada rótulo do conjunto de dados é representado com o seu respectivo
ranking. Para isto, os autores aplicaram o algoritmo de Random Forest (Floresta Aleatória) no
conjunto de treinamento, construindo assim o conjunto de dados de ranking. O segundo passo
consiste em construir a hierarquia. Os autores utilizaram quatro algoritmos diferentes para gerar
as hierarquias e as comparar: algoritmo de agrupamento hierárquico aglomerativo com ligação
simples e com ligação completa, algoritmo de agrupamento k-means balanceado (usado também
em HOMER), e predictive clustering trees.
A hierarquia encontrada é então usada para transformar o conjunto de dados multirrótulo
plano em conjuntos de dados multirrótulo hierárquicos de treino e teste. Em seguida, o framework
CLUS (VENS et al., 2008) é usado para treinar e testar as hierarquias, mas apenas as predições
das folhas da hierarquia são extraídas. Isto ocorre pois, de acordo com os autores, as folhas
da hierarquia devem representar os rótulos do problema de classificação multirrótulo original.
A Figura 25 foi retirada do artigo original e apresenta exemplos de hierarquias geradas para o
conjunto de dados emotions. O símbolo µ indica o nó da hierarquia, assim como o grupo a que
pertence o rótulo. A Figura 26 apresenta as hierarquias representadas como partições.
O algoritmo de agrupamento hierárquico aglomerativo é capaz de gerar várias partições
dos dados, e não apenas uma. No entanto não está claro no artigo como os autores lidaram
com estas partições, ou se (e como) escolheram uma partição para comparar com os outros
métodos de particionamento. Observado isto, poderia se considerar que os autores utilizaram uma
função padrão para o algoritmo de agrupamento hierárquico aglomerativo, utilizando a partição
resultante dos valores padrão dessa função. Portanto, assim como este projeto de pesquisa,
o trabalho de Nikoloski et al. (2018) também usa o algoritmo de agrupamento hierárquico
aglomerativo. A diferença está na forma de usá-lo e também nos objetivos de cada trabalho.

(a) Ligação Simples
(b) Ligação Completa
(c) k-means balanceado
(d) Predictive Clustering Trees
Figura 25 – Hierarquias geradas pelos quatro algoritmos.
Fonte: (NIKOLOSKI et al., 2018)
Além disso, os autores investigaram se é possível construir hierarquias de rótulos usando
o ranqueamento do espaço de rótulos e qual dos métodos aplicados produz a melhor hierarquia de
acordo com o ranking. Nesta pesquisa, a ideia não é criar e avaliar ranqueamentos ou hierarquias
a partir de ranqueamentos. No entanto, a estratégia proposta por Nikoloski et al. (2018) pode ser
adaptada para este trabalho. Após realizar o ranqueamento dos atributos, poderia ser aplicado o
particionamento usando o algoritmo de agrupamento hierárquico aglomerativo, gerando várias
partições híbridas e não apenas uma. Então, as partições encontradas poderiam ser validadas e
uma entre elas escolhida para o teste. Ao final, esta estratégia poderia ser comparada com as
outras estratégias utilizadas nesta pesquisa.
Este capítulo apresentou alguns trabalhos correlatos a este projeto de pesquisa. Os traba-
lhos correlatos mostraram que pesquisadores tem investido nos temas particionamento do espaço
de rótulos e também particionamento (ou agrupamento) das correlações. Todos os trabalhos
apresentados tem algo em comum com este projeto de pesquisa, mas nenhum explorou as cor-
relações da forma que se propõe nesta pesquisa. Por fim, algumas das estratégias apresentadas
pelos trabalhos correlatos poderão ser consideradas no desenvolvimento e implementação deste
projeto de pesquisa. No Apêndice A é apresentada uma primeira versão da proposta apresentada
nesta pesquisa para a geração de partições híbridas. São apresentados experimentos preliminares
que mostram a viabilidade da proposta.

quiet
still
sad
lonely
relaxing
calm
happy
pleased
angry
aggressive
amazed
suprise quiet
still
sad
lonely
relaxing
calm
happy
pleased
angry
aggressive
amazed
suprise
quiet
still
sad
lonely
relaxing
calm
happy
pleased
angry
aggressive
amazed
suprise quiet
still
sad
lonely
relaxing
calm
happy
pleased
angry
aggressive
amazed
suprise
Figura 26 – Hierarquias de Rótulos representadas como partições.
Elaborado pela autora com base em (NIKOLOSKI et al., 2018).

79
REFERÊNCIAS
ABDI, H.; WILLIAMS, L. J. Principal component analysis. WIREs Comput. Stat., John Wiley
amp; Sons, Inc., USA, v. 2, n. 4, p. 433–459, jul. 2010. ISSN 1939-5108. Citado na página 47.
ABEYRATHNA, D. L. B. G. M. Multi-Label Classification Using Higher-Order Label Clusters.
Dissertação (Mestrado) — Department of Computer Science and the Faculty of the Graduate
College University of Nebraska, December 2018. Citado 4 vezes nas páginas 16, 73, 74 e 75.
AGRAWAL, J.; AGRAWAL, S.; KAUR, S.; SHARMA, S. An investigation of fuzzy pso and
fuzzy svd based rbf neural network for multi-label classification. In: Proceedings of the Third
International Conference on Soft Computing for Problem Solving. New Delhi: Springer India,
2014. p. 677–687. ISBN 978-81-322-1771-8. Citado na página 120.
AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules. Morgan Kauf-
mann Publishers Inc., p. 580–592, 1998. Disponível em: http://portal.acm.org/citation.cfm?id=
302153. Citado na página 53.
AL-OTAIBI, R.; KULL, M.; FLACH, P. Lacova: A tree-based multi-label classifier using label
covariance as splitting criterion. In: 2014 13th International Conference on Machine Learning
and Applications. [S.l.: s.n.], 2014. p. 74–79. Citado na página 119.
ALBERS, S. online algorithms: a survey. Citado na página 32.
ALER, R.; HANDL, J.; KNOWLES, J. D. Comparing multi-objective and threshold-moving roc
curve generation for a prototype-based classifier. In: Proceedings of the 15th Annual Conference
on Genetic and Evolutionary Computation. New York, NY, USA: Association for Computing
Machinery, 2013. (GECCO ’13), p. 1029–1036. ISBN 9781450319638. Disponível em: https:
//doi-org.ez31.periodicos.capes.gov.br/10.1145/2463372.2463504. Citado na página 45.
ALLAM, Z.; DHUNNY, Z. A. On big data, artificial intelligence and smart cities. Cities, v. 89, p.
80 – 91, 2019. ISSN 0264-2751. Disponível em: http://www.sciencedirect.com/science/article/
pii/S0264275118315968. Citado na página 14.
ALPAYDIN, E. Introduction to Machine Learning. [S.l.]: The MIT Press, 2014. ISBN
0262028182, 9780262028189. Citado 2 vezes nas páginas 14 e 15.
ALTMAN, N. S. An introduction to kernel and nearest-neighbor nonparametric regression. The
American Statistician, Taylor Francis, v. 46, n. 3, p. 175–185, 1992. Citado na página 33.
ÁVILA, J. L.; GIBAJA, E. L.; VENTURA, S. Multi-label classification with gene expression
programming. In: Hybrid Artificial Intelligence Systems. Berlin, Heidelberg: Springer Berlin
Heidelberg, 2009. p. 629–637. ISBN 978-3-642-02319-4. Citado na página 119.

Referências 80
BLOCKEEL, H.; RAEDT, L. D.; RAMON, J. Top-down induction of clustering trees. In:
Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco,
CA, USA: Morgan Kaufmann Publishers Inc., 1998. (ICML ’98), p. 55–63. ISBN 1558605568.
Citado 2 vezes nas páginas 31 e 32.
BOUTELL, M. R.; LUO, J.; SHEN, X.; BROWN, C. M. Learning multi-label scene classification.
Pattern Recognition, v. 37, n. 9, p. 1757 – 1771, 2004. ISSN 0031-3203. Citado 3 vezes nas
páginas 28, 29 e 119.
BRADLEY, A. P. The use of the area under the roc curve in the evaluation of machine learning
algorithms. Pattern Recognition, v. 30, n. 7, p. 1145 – 1159, 1997. ISSN 0031-3203. Disponível
em: http://www.sciencedirect.com/science/article/pii/S0031320396001422. Citado na página
45.
BREIMAN, L. Bagging predictors. Machine Learning, v. 24, n. 2, p. 123–140, ago. 1996. ISSN
1573-0565. Disponível em: https://doi.org/10.1007/BF00058655. Citado na página 35.
CARVALHO, A. C. P. L. F. de; FREITAS, A. A. A tutorial on multi-label classification techniques.
In: Studies in Computational Intelligence. [S.l.]: Springer Berlin Heidelberg, 2009. p. 177–195.
Citado 5 vezes nas páginas 17, 25, 26, 27 e 31.
CERRI, R. Redes Neurais e algoritmos genéticos para problemas de classificação hierárquica
multirrótulo. Tese (Tese de Doutorado) — Instituto de Ciências Matemáticas e Computacionais
da Universidade de São Paulo., São Carlos/SP, jan. 2014. Citado na página 22.
CERVANTES, J.; GARCIA-LAMONT, F.; RODRíGUEZ-MAZAHUA, L.; LOPEZ, A. A com-
prehensive survey on support vector machine classification: Applications, challenges and trends.
Neurocomputing, v. 408, p. 189 – 215, 2020. ISSN 0925-2312. Citado na página 33.
CHAN, A.; FREITAS, A. A. A new ant colony algorithm for multi-label classification with
applications in bioinfomatics. In: Proceedings of the 8th Annual Conference on Genetic and
Evolutionary Computation. New York, NY, USA: Association for Computing Machinery, 2006.
(GECCO ’06), p. 27–34. ISBN 1595931864. Citado na página 33.
CHANG, W.; YU, H.; ZHONG, K.; YANG, Y.; DHILLON, I. S. A modular deep learning
approach for extreme multi-label text classification. CoRR, abs/1905.02331, 2019. Citado na
página 15.
CHARTE, F.; RIVERA, A. J.; CHARTE, D.; JESUS, M. J. del; HERRERA, F. Tips, guidelines
and tools for managing multi-label datasets: The mldr.datasets r package and the cometa data
repository. Neurocomputing, 2018. ISSN 0925-2312. Citado 4 vezes nas páginas 40, 49, 50 e 51.
CHENG, W.; HüLLERMEIER, E. Combining instance-based learning and logistic regression
for multilabel classification. In: LWA. [S.l.]: FG Telekooperation/FG Knowledge Engineering,
Technische Universität Darmstadt, Germany, 2009. TUD-CS-2009-0157/TUD-KE-2009-04, p.
KDML:22–29. Citado na página 120.
CIARELLI, P.; OLIVEIRA, E. Multi-label text categorization using a probabilistic neural
network. International Journal of ..., v. 1, p. 133–144, 2009. Citado na página 120.
CLARE, A.; KING, R. D. Knowledge discovery in multi-label phenotype data. In: Principles of
Data Mining and Knowledge Discovery. Berlin, Heidelberg: Springer Berlin Heidelberg, 2001.
p. 42–53. ISBN 978-3-540-44794-8. Citado 2 vezes nas páginas 31 e 119.

Referências 81
COMITÉ, F. D.; GILLERON, R.; TOMMASI, M. Learning multi-label alternating decision
trees from texts and data. In: Machine Learning and Data Mining in Pattern Recognition. Berlin,
Heidelberg: Springer Berlin Heidelberg, 2003. p. 35–49. ISBN 978-3-540-45065-8. Citado na
página 119.
COMTET, L. Advanced Combinatorics. [S.l.]: Reidel, 1974. Citado na página 18.
CRAMMER, K.; SINGER, Y. A family of additive online algorithms for category ranking. J.
Mach. Learn. Res., JMLR.org, v. 3, n. null, p. 1025–1058, mar. 2003. ISSN 1532-4435. Citado
na página 32.
DEMBCZYNSKI, K.; CHENG, W.; HüLLERMEIER, E. Bayes optimal multilabel classification
via probabilistic classifier chains. In: ICML. [S.l.]: Omnipress, 2010. p. 279–286. ISBN 978-1-
60558-907-7. Citado na página 120.
DEMBCZYŃSKI, K.; WAEGEMAN, W.; CHENG, W.; HÜLLERMEIER, E. On label depen-
dence in multi-label classification. Mach. Learn., v. 88, n. 1-2, p. 5–45, 2012. ISSN 15730565.
DEMSAR, J. Statistical comparisons of classifiers over multiple data sets. J. Mach. Learn. Res.,
JMLR.org, v. 7, p. 1–30, dez. 2006. ISSN 1532-4435. Citado 2 vezes nas páginas 113 e 114.
DERRAC, J.; GARCíA, S.; MOLINA, D.; HERRERA, F. A practical tutorial on the use of non-
parametric statistical tests as a methodology for comparing evolutionary and swarm intelligence
algorithms. Swarm and Evolutionary Computation, v. 1, n. 1, p. 3 – 18, 2011. ISSN 2210-6502.
ELISSEEFF, A.; WESTON, J. A kernel method for multi-labelled classification. In: Proceedings
of the 14th International Conference on Neural Information Processing Systems: Natural and
Synthetic. Cambridge, MA, USA: MIT Press, 2001. (NIPS’01), p. 681–687. Citado na página
33.
FACELI, K.; LORENA, A. C.; GAMA, J.; CARVALHO, A. C. P. L. F. de. Inteligência Artificial.
Uma Abordagem de Aprendizado de Máquina. [S.l.]: LTC, 2011. ISBN 9788521618805. Citado
7 vezes nas páginas 14, 15, 22, 26, 27, 45 e 100.
FAN, R.-E.; LIN, C. A study on threshold selection for multi-label classification. In: . [S.l.: s.n.],
FAN, W.; WANG, H.; YU, P. S.; MA, S. Is random model better? on its accuracy and efficiency.
In: Proceedings of the Third IEEE International Conference on Data Mining. USA: IEEE
Computer Society, 2003. (ICDM ’03), p. 51. ISBN 0769519784. Citado na página 120.
FAWCETT, T. An introduction to roc analysis. Pattern Recognition Letters, v. 27, n. 8, p. 861 –
874, 2006. ISSN 0167-8655. ROC Analysis in Pattern Recognition. Citado na página 45.
FREUND, Y.; MASON, L. The alternating decision tree learning algorithm. In: Proceedings of
the Sixteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan
Kaufmann Publishers Inc., 1999. (ICML ’99), p. 124–133. ISBN 1558606122. Citado na página
119.
FüRNKRANZ, J.; HüLLERMEIER, E.; MENCÍA, E. L.; BRINKER, K. Multilabel classification
via calibrated label ranking. Mach. Learn., Kluwer Academic Publishers, USA, v. 73, n. 2, p.
133–153, nov. 2008. ISSN 0885-6125. Citado na página 30.

Referências 82
GANDA, D.; BUCH, R. A survey on multi label classification. Recent Trends in Programming
Languages, v. 5, 2018. ISSN 2455-1821. Citado na página 31.
GAO, S.; WU, W.; LEE, C.-H.; CHUA, T.-S. A mfom learning approach to robust multiclass
multi-label text categorization. In: Proceedings of the Twenty-First International Conference on
Machine Learning. New York, NY, USA: Association for Computing Machinery, 2004. (ICML
’04), p. 42. ISBN 1581138385. Citado na página 120.
GARCíA, S.; HERRERA, F. An extension on statistical comparisons of classifiers over multiple
data setsfor all pairwise comparisons. Journal of Machine Learning Research, v. 9, p. 2677–
2694, 2009. Citado 2 vezes nas páginas 113 e 114.
GHAMRAWI, N.; MCCALLUM, A. Collective multi-label classification. In: Proceedings of
the 14th ACM International Conference on Information and Knowledge Management. New
York, NY, USA: Association for Computing Machinery, 2005. (CIKM ’05), p. 195–200. ISBN
GIBAJA, E.; VENTURA, S. Multi-label learning: A review of the state of the art and ongoing
research. Wiley Interdiscip. Rev. Data Min. Knowl. Discov., v. 4, n. 6, p. 411–444, 2014. ISSN
19424795. Citado 13 vezes nas páginas 24, 27, 29, 30, 32, 38, 41, 42, 43, 44, 45, 46 e 47.
GIBAJA, E.; VENTURA, S. A tutorial on multilabel learning. ACM Comput. Surv., Association
for Computing Machinery, New York, NY, USA, v. 47, n. 3, abr. 2015. ISSN 0360-0300. Citado
7 vezes nas páginas 28, 41, 43, 44, 45, 49 e 50.
GODBOLE, S.; SARAWAGI, S. Discriminative methods for multi-labeled classification. In:
In Proceedings of the 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining.
[S.l.]: Springer, 2004. p. 22–30. Citado 2 vezes nas páginas 119 e 120.
GONCALVES, E. C.; PLASTINO, A.; FREITAS, A. A. A genetic algorithm for optimizing the
label ordering in multi-label classifier chains. In: Proceedings of the 2013 IEEE 25th International
Conference on Tools with Artificial Intelligence. USA: IEEE Computer Society, 2013. (ICTAI
’13), p. 469–476. ISBN 9781479929719. Citado na página 33.
GONçALVES, E. C.; FREITAS, A. A.; PLASTINO, A. A survey of genetic algorithms for
multi-label classification. In: 2018 IEEE Congress on Evolutionary Computation (CEC). [S.l.:
s.n.], 2018. p. 1–8. Citado na página 33.
GRODZICKI, R.; MAŃDZIUK, J.; WANG, L. Improved multilabel classification with neural
networks. In: Parallel Problem Solving from Nature – PPSN X. Berlin, Heidelberg: Springer
Berlin Heidelberg, 2008. p. 409–416. ISBN 978-3-540-87700-4. Citado na página 120.
Güvenir, H. A.; Kurtcephe, M. Ranking instances by maximizing the area under roc curve. IEEE
Transactions on Knowledge and Data Engineering, v. 25, n. 10, p. 2356–2366, 2013. Citado na
página 45.
HAN, J.; KAMBER, M.; PEI, J. Data Mining: Concepts and Techniques. [S.l.]: Elsevier LTD,
Oxford, 2011. ISBN 0123814790. Citado na página 22.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning. New York,
NY, USA: Springer New York Inc., 2001. (Springer Series in Statistics). Citado na página 32.
HAYKIN, S. Redes Neurais: Princípios e Prática. [S.l.]: Bookman, 2011. ISBN 978-85-7307-
718-6. Citado 2 vezes nas páginas 32 e 96.

Referências 83
HERRERA, F.; CHARTE, F.; RIVERA, A. J.; JESUS, M. J. del. Multilabel Classification:
Problem Analysis, Metrics and Techniques. 1st. ed. [S.l.]: Springer Publishing Company, Incor-
porated, 2016. ISBN 3319411101. Citado 15 vezes nas páginas 15, 22, 33, 34, 36, 41, 42, 43, 44,
45, 46, 47, 48, 49 e 50.
HOLLANDER, M.; WOLFE, D. Nonparametric statistical methods. [S.l.]: Wiley, 1973. (A
Wiley publication in applied statistics). ISBN 047140635X. Citado na página 63.
HORTA, D. Algoritmos e técnicas de validação em agrupamento de dados multi-representados,
agrupamento probabilístico e bi-agrupamento. Tese (Doutorado) — Instituto de Ciências Mate-
máticas e Computacionais da Universidade de São Paulo, São Carlos/SP, 2013. Citado na página
61.
HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive Classifier Chains
for multi-label classification. Proceedings - IEEE International Conference on Multimedia and
Expo, IEEE, v. 2015-Augus, p. 1–6, 2015. ISSN 1945788X. Citado 2 vezes nas páginas 37 e 38.
HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive Classifier Chains for
multi-label classification. Proc. - IEEE Int. Conf. Multimed. Expo, IEEE, v. 2015-Augus, p. 1–6,
2015. ISSN 1945788X. Citado 2 vezes nas páginas 68 e 69.
HUANG, J.; ZHANG, P.; ZHANG, H.; LI, G.; RUI, H. Multi-label learning via feature and label
space dimension reduction. IEEE Access, v. 8, p. 20289–20303, 2020. ISSN 21693536. Citado
na página 55.
HUANG, S. J.; ZHOU, Z. H. Multi-label learning by exploiting label correlations locally. In:
Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press,
2012. (AAAI’12), p. 949–955. Citado 4 vezes nas páginas 36, 37, 38 e 39.
HüLLERMEIER, E.; FüRNKRANZ, J.; CHENG, W.; BRINKER, K. Label ranking by learning
pairwise preferences. Artificial Intelligence, v. 172, n. 16, p. 1897 – 1916, 2008. ISSN 0004-3702.
INCORPORATING label dependency into the binary relevance framework for multi-label author
= Everton Alvares-Cherman and Jean Metz and Maria Carolina Monardclassification. Expert
Systems with Applications, v. 39, n. 2, p. 1647 – 1655, 2012. ISSN 0957-4174. Citado na página
119.
Ioannou, M.; Sakkas, G.; Tsoumakas, G.; Vlahavas, I. Obtaining bipartitions from score vectors
for multi-label classification. In: 2010 22nd IEEE International Conference on Tools with
Artificial Intelligence. [S.l.: s.n.], 2010. v. 1, p. 409–416. Citado na página 24.
J. Barezi, E.; KWOK, J. T.; RABIEE, H. R. Multi-Label learning in the independent label
sub-spaces. Pattern Recognit. Lett., Elsevier B.V., v. 97, p. 8–12, 2017. ISSN 01678655. Citado
na página 16.
JACCARD, P. The distribution of the flora in the alpine zone. New Phytologist, v. 11, n. 2, p.
37–50, fev. 1912. Disponível em: http://www.jstor.org/stable/2427226?seq=3. Citado na
página 54.
JAVED, M. A.; YOUNIS, M. S.; LATIF, S.; QADIR, J.; BAIG, A. Community detection in
networks: A multidisciplinary review. Journal of Network and Computer Applications, v. 108,
p. 87 – 111, 2018. ISSN 1084-8045. Disponível em: http://www.sciencedirect.com/science/
article/pii/S1084804518300560. Citado na página 55.

Referências 84
JIANG, A.; WANG, C.; ZHU, Y. Calibrated Rank-SVM for multi-label image categorization.
In: IEEE. Proceedings of the 2008 IEEE International Joint Conference on Neural Networks
(IJCNN-08). Hong Kong, 2008. p. 1450–1455. ISBN 978-1-4244-1821-3. Citado na página 119.
JUNIOR, J. D. C. Detecção de novidade em fluxos contínuos de dados multirrótulo. Dissertação
(Mestrado) — Universidade Federal de São Carlos, 2019. Citado na página 93.
KASHEF, S.; NEZAMABADI-POUR, H.; NIKPOUR, B. Multilabel Feature Selection: A
Comprehensive Review and Guiding Experiments. John Wiley Sons, 2018. Disponível em:
https://books.google.com.br/books?id=a1ddtgEACAAJ. Citado 2 vezes nas páginas 46 e 47.
KAUFMAN, L.; ROUSSEEUW, P. J. Finding Groups in Data: An Introduction to Cluster
Analysis. [S.l.]: Wiley-Blackwell, 1990. Citado 2 vezes nas páginas 100 e 101.
KAWAI, K.; TAKAHASHI, Y. Identification of the dual action antihypertensive drugs using
tfs-based support vector machines. Chem-Bio Informatics Journal, v. 9, p. 41–51, 2009. Citado
na página 23.
KIM, P. MATLAB Deep Learning - With Machine Learning, Neural Networks and Artificial
Intelligence. [S.l.]: Apress, 2017. 1-151 p. ISBN 978-1-4842-2844-9. Citado na página 14.
KOCEV, D.; VENS, C.; STRUYF, J.; DŽEROSKI, S. Ensembles of multi-objective decision
trees,. In: Machine Learning: ECML 2007. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007.
p. 624–631. ISBN 978-3-540-74958-5. Citado na página 35.
KOHONEN, T. The self-organizing map. Neurocomputing, v. 21, n. 1-3, p. 1–6, 1998. Disponível
em: http://dblp.uni-trier.de/db/journals/ijon/ijon21.html#Kohonen98. Citado na página 54.
LESOT, M. J.; RIFQI, M.; BENHADDA, H. Similarity measures for binary and numerical data:
a survey. [S.l.], 2009. v. 1, 63-84 p. Citado na página 93.
LI, X.; ZHAO, F.; GUO, Y. Conditional restricted boltzmann machines for multi-label learning
with incomplete labels. In: AISTATS. [S.l.]: JMLR.org, 2015. (JMLR Workshop and Conference
Proceedings, v. 38). Citado na página 120.
MA, A.; SETHI, I. K.; PATEL, N. V. Multimedia content tagging using multilabel decision tree.
In: ISM. [S.l.]: IEEE Computer Society, 2009. p. 606–611. ISBN 978-0-7695-3890-7. Citado na
página 120.
MADJAROV, G.; GJORGJEVIKJ, D.; DŽEROSKI, S. Dual layer voting method for efficient
multi-label classification. In: Pattern Recognition and Image Analysis. Berlin, Heidelberg:
Springer Berlin Heidelberg, 2011. p. 232–239. ISBN 978-3-642-21257-4. Citado na página 24.
MADJAROV, G.; KOCEV, D.; GJORGJEVIKJ, D.; DžEROSKI, S. An extensive experimental
comparison of methods for multi-label learning. In: . [S.l.: s.n.], 2012. v. 45, p. 3084–3104. ISSN
00313203. Citado 7 vezes nas páginas 23, 32, 34, 41, 43, 44 e 45.
Mahmud, M. S.; Huang, J. Z.; Salloum, S.; Emara, T. Z.; Sadatdiynov, K. A survey of data
partitioning and sampling methods to support big data analysis. Big Data Mining and Analytics,
v. 3, n. 2, p. 85–101, 2020. Citado na página 14.
MENCíA, E. L.; PARK, S.-H.; FüRNKRANZ, J. Efficient voting prediction for pairwise multila-
bel classification. In: LWA. [S.l.]: FG Telekooperation/FG Knowledge Engineering, Technische
Universität Darmstadt, Germany, 2009. TUD-CS-2009-0157/TUD-KE-2009-04, p. KDML:72–

Referências 85
MENCíA, E. L.; PARK, S.-H.; FüRNKRANZ, J. Efficient voting prediction for pairwise multila-
bel classification. Neurocomputing, v. 73, n. 7, p. 1164 – 1176, 2010. ISSN 0925-2312. Advances
in Computational Intelligence and Learning. Citado na página 119.
MEZO, I. The r-bell numbers. Journal of Integer Sequences, v. 14, 2011. Citado na página 18.
MITTAL, R.; BHATIA, M. P. S. Classification and comparative evaluation of community
detection algorithms. Archives of Computational Methods in Engineering, 2020. ISSN 1886-
1784. Citado 2 vezes nas páginas 55 e 71.
MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Review of ensembles of multi-
label classifiers: Models, experimental study and prospects. Information Fusion, v. 44, p. 33 –
45, 2018. ISSN 1566-2535. Citado 2 vezes nas páginas 34 e 35.
MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. An evolutionary approach to
build ensembles of multi-label classifiers. Information Fusion, v. 50, p. 168 – 180, 2019. ISSN
1566-2535. Citado na página 35.
MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Combining multi-label classifiers
based on projections of the output space using evolutionary algorithms. Knowledge-Based Syst.,
Elsevier BV, p. 105770, mar 2020. ISSN 09507051. Citado 6 vezes nas páginas 23, 34, 36, 66,
67 e 121.
NASIERDING, G.; KOUZANI, A. Z.; TSOUMAKAS, G. A triple-random ensemble classifi-
cation method for mining multi-label data. In: 2010 IEEE International Conference on Data
Mining Workshops. [S.l.: s.n.], 2010. p. 49–56. Citado na página 120.
NEMENYI, P. B. Distribution-free Multiple Comparisons. Tese (Doutorado) — Princeton
University, 1963. Citado na página 63.
NIKOLOSKI, S.; KOCEV, D.; DžEROSKI, S. Structuring the output space in multi-label
classification by using feature ranking. v. 10785, p. 122–137, 2018. Disponível em: http:
//link.springer.com/10.1007/978-3-319-78680-3. Citado 4 vezes nas páginas 16, 76, 77 e 78.
PAKRASHI, A.; NAMEE, B. M. Cascademl: An automatic neural network architecture evolution
and training algorithm for multi-label classification (best technical paper). In: Artificial Intelli-
gence XXXVI. Cham: Springer International Publishing, 2019. p. 3–17. ISBN 978-3-030-34885-4.
PAPANIKOLAOU, Y.; TSOUMAKAS, G.; KATAKIS, I. Hierarchical partitioning of the output
space in multi-label data. Data Knowledge Engineering, v. 116, p. 42 – 60, 2018. ISSN
0169-023X. Citado 2 vezes nas páginas 72 e 73.
PEREIRA, R. B.; PLASTINO, A.; ZADROZNY, B.; MERSCHMANN, L. H. Correlation
analysis of performance measures for multi-label classification. Information Processing
Management, v. 54, n. 3, p. 359 – 369, 2018. ISSN 0306-4573. Citado 5 vezes nas páginas 41,
42, 43, 44 e 45.
PETROVSKIY, M. Paired comparisons method for solving multi-label learning problem. In:
HIS. [S.l.]: IEEE Computer Society, 2006. p. 42. ISBN 0-7695-2662-4. Citado na página 120.
READ, J. A pruned problem transformation method for multi-label classification. In: In: Proc.
2008 New Zealand Computer Science Research Student Conference (NZCSRS. [S.l.: s.n.], 2008.
p. 143–150. Citado 2 vezes nas páginas 29 e 35.

Referências 86
READ, J. Scalable Multi-label Classification. Tese (Doutorado) — University of Waikato, 2010.
Citado 9 vezes nas páginas 23, 28, 30, 33, 36, 42, 46, 48 e 49.
READ, J.; PFAHRINGER, B.; HOLMES, G.; FRANK, E. Classifier chains for multi-label
classification. In: Machine Learning and Knowledge Discovery in Databases. Berlin, Heidelberg:
Springer Berlin Heidelberg, 2009. p. 254–269. ISBN 978-3-642-04174-7. Citado 2 vezes nas
páginas 29 e 120.
READ, J.; PFAHRINGER, B.; HOLMES, G.; FRANK, E. Classifier chains: A review and
perspectives. ArXiv, abs/1912.13405, 2019. Citado na página 34.
RIVOLLI, A.; SOARES, C.; CARVALHO, A. C. P. d. L. F. d. Enhancing multilabel classification
for food truck recommendation. Expert Systems, Wiley-Blackwell, 2018. Citado 2 vezes nas
páginas 42 e 43.
ROKACH, L.; MAIMON, O. Clustering Methods. Springer, 2005. Disponível em: https:
//doi.org/10.1007/0-387-25465-X_15. Citado na página 56.
ROKACH, L.; SCHCLAR, A.; ITACH, E. Ensemble methods for multi-label classification.
Expert Systems with Applications, v. 41, n. 16, p. 7507 – 7523, 2014. ISSN 0957-4174. Citado 2
vezes nas páginas 35 e 121.
ROUSSEEUW, P. Silhouettes: a graphical aid to the interpretation and validation of cluster
analysis. J. Comput. Appl. Math., Elsevier Science Publishers B. V., v. 20, n. 1, p. 53–65, 1987.
ISSN 0377-0427. Disponível em: http://portal.acm.org/citation.cfm?id=38772. Citado 2 vezes
nas páginas 61 e 102.
SANDEN, C.; ZHANG, J. Z. Enhancing multi-label music genre classification through ensemble
techniques. In: SIGIR’11 - Proc. 34th Int. ACM SIGIR Conf. Res. Dev. Inf. Retr. [S.l.: s.n.], 2011.
p. 705–714. ISBN 9781450309349. Citado 2 vezes nas páginas 15 e 23.
SCHAPIRE, R. E.; SINGER, Y. Improved boosting algorithms using confidence-rated predicti-
ons. Mach. Learn., Kluwer Academic Publishers, USA, v. 37, n. 3, p. 297–336, dez. 1999. ISSN
SCHAPIRE, R. E.; SINGER, Y. BoosTexter: A Boosting-based System for Text Categorization.
Machine Learning, v. 39, n. 2/3, p. 135–168, 2000. Citado na página 119.
SECHIDIS, K.; TSOUMAKAS, G.; VLAHAVAS, I. On the stratification of multi-label data.
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence
and Lecture Notes in Bioinformatics), v. 6913 LNAI, p. 145–158, 2011. ISSN 03029743. Citado
na página 103.
SHAO, H.; LI, G.; LIU, G.; WANG, Y. Symptom selection for multi-label data of inquiry
diagnosis in traditional chinese medicine. Science China Information Sciences, v. 56, n. 5, p.
052118–052118, 2013. Citado na página 23.
SHI, Z.; WEN, Y.; FENG, C.; ZHAO, H. Drift detection for multi-label data streams based
on label grouping and entropy. IEEE International Conference on Data Mining Workshops,
ICDMW, v. 2015-Janua, n. January, p. 724–731, 2015. ISSN 23759259. Citado na página 53.
SILLA, C. N.; FREITAS, A. A. A survey of hierarchical classification across different application
domains. Data Mining and Knowledge Discovery, v. 22, n. 1, p. 31–72, Jan 2011. ISSN 1573-
756X. Citado na página 16.

Referências 87
SILVA, F. C. da. Analise ROC. 2006. Citado na página 45.
SOROWER, M. A literature survey on algorithms for multi-label learning. Oregon State Uni-
versity, Corvallis, p. 1–25, 2010. Citado 10 vezes nas páginas 26, 27, 31, 32, 34, 43, 44, 45, 47
e 49.
SPIVEY, M. Z. A generalized recurrence for bell numbers. Journal of Integer Sequences, v. 11,
SPYROMITROS, E.; TSOUMAKAS, G.; VLAHAVAS, I. An empirical study of lazy multilabel
classification algorithms. In: Artificial Intelligence: Theories, Models and Applications. Berlin,
Heidelberg: Springer Berlin Heidelberg, 2008. p. 401–406. ISBN 978-3-540-87881-0. Citado na
página 119.
STREICH, A. P.; BUHMANN, J. M. Classification of multi-labeled data: A generative approach.
In: ECML/PKDD (2). [S.l.]: Springer, 2008. (Lecture Notes in Computer Science, v. 5212), p.
390–405. ISBN 978-3-540-87480-5. Citado na página 120.
STUDENT. Errors of routine analysis. Biometrika, [Oxford University Press, Biometrika Trust],
v. 19, n. 1/2, p. 151–164, 1927. ISSN 00063444. Disponível em: http://www.jstor.org/stable/
SUCAR, L. E.; BIELZA, C.; MORALES, E. F.; HERNANDEZ-LEAL, P.; ZARAGOZA,
J. H.; LARRAñAGA, P. Multi-label classification with bayesian network-based chain classifiers.
Pattern Recognition Letters, v. 41, p. 14 – 22, 2014. ISSN 0167-8655. Citado na página 120.
SZYMAŃSKI, P.; KAJDANOWICZ, T.; KERSTING, K. How is a data-driven approach better
than random choice in label space division for multi-label classification? Entropy, v. 18, n. 8, p.
1–23, 2016. ISSN 10994300. Citado 5 vezes nas páginas 10, 69, 70, 71 e 72.
TAHIR, M. A. U. H.; ASGHAR, S.; MANZOOR, A.; NOOR, M. A. A Classification Model for
Class Imbalance Dataset Using Genetic Programming. IEEE Access, Institute of Electrical and
Electronics Engineers Inc., v. 7, p. 71013–71037, 2019. ISSN 21693536. Citado na página 15.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. Addison Wesley,
2005. ISBN 0321321367. Disponível em: http://www.amazon.com/exec/obidos/redirect?tag=
citeulike07-20path=ASIN/0321321367. Citado na página 100.
TENENBOIM-CHEKINA, L.; ROKACH, L.; SHAPIRA, B. Identification of label dependencies
for multi-label classification. In: . [S.l.: s.n.], 2010. Citado na página 120.
THABTAH, F.; COWLING, P. A greedy classification algorithm based on association rule.
Applied Soft Computing, v. 7, n. 3, p. 1102 – 1111, 2007. ISSN 1568-4946. Citado na página
119.
THABTAH, F. A.; COWLING, P.; PENG, Y. Mmac: a new multi-class, multi-label associative
classification approach. In: Fourth IEEE International Conference on Data Mining (ICDM’04).
[S.l.: s.n.], 2004. p. 217–224. Citado na página 33.
THEODORIDIS, S.; KOUTROUMBAS, K. Chapter 13 - clustering algorithms ii: Hierarchical
algorithms. In: Pattern Recognition (Third Edition). Third edition. San Diego: Academic Press,
2006. p. 541 – 587. ISBN 978-0-12-369531-4. Disponível em: http://www.sciencedirect.com/
science/article/pii/B9780123695314500135. Citado na página 56.

Referências 88
TRAWIńSKI, B.; SMUNDEFINEDTEK, M.; TELEC, Z.; LASOTA, T. Nonparametric statistical
analysis for multiple comparison of machine learning regression algorithms. Walter de Gruyter
amp; Co., USA, v. 22, n. 4, p. 867–881, dez. 2012. ISSN 1641-876X. Citado na página 113.
TSOUMAKAS, G.; DIMOU, A.; SPYROMITROS, E.; MEZARIS, V.; KOMPATSIARIS, I.;
VLAHAVAS, I. Correlation-based pruning of stacked binary relevance models for multi-label
learning. Proceedings of the Workshop on Learning from Multi-Label Data (MLD’09), p. 101–
116, 2009. ISSN 1475-925X. Citado na página 119.
TSOUMAKAS, G.; KATAKIS, I. Multi-label classification: An overview. Int J Data Warehou-
sing and Mining, v. 2007, p. 1–13, 2007. Citado na página 48.
TSOUMAKAS, G.; KATAKIS, I.; VLAHAVAS, I. Effective and efficient multilabel classification
in domains with large number of labels. Proc. ECML/PKDD 2008 Work. Min. Multidimens.
Data, p. 30–44, 2008. Citado 5 vezes nas páginas 15, 16, 48, 72 e 119.
TSOUMAKAS, G.; KATAKIS, I.; VLAHAVAS, I. Mining multi-label data. Data Min. Knowl.
Discov. Handb., p. 667–685, 2009. ISSN 14337851. Citado 9 vezes nas páginas 27, 29, 30, 41,
43, 44, 45, 46 e 47.
TSOUMAKAS, G.; VLAHAVAS, I. Random k-labelsets: An ensemble method for multila-
bel classification. In: Machine Learning: ECML 2007. Berlin, Heidelberg: Springer Berlin
Heidelberg, 2007. p. 406–417. ISBN 978-3-540-74958-5. Citado 2 vezes nas páginas 35 e 121.
UEDA, N.; SAITO, K. Parametric mixture models for multi-labeled text. In: Advances in Neural
Information Processing Systems 15. [S.l.]: MIT Press, 2003. p. 737–744. Citado na página 33.
VATEEKUL, P.; KUBAT, M. Fast induction of multiple decision trees in text categorization
from large scale, imbalanced, and multi-label data. In: ICDM Workshops. [S.l.]: IEEE Computer
Society, 2009. p. 320–325. ISBN 978-0-7695-3902-7. Citado na página 120.
VELOSO, A.; MEIRA, W.; GONÇALVES, M.; ZAKI, M. Multi-label lazy associative classifica-
tion. In: Knowledge Discovery in Databases: PKDD 2007. Berlin, Heidelberg: Springer Berlin
Heidelberg, 2007. p. 605–612. ISBN 978-3-540-74976-9. Citado na página 119.
VEMBU, S.; GRTNER, T. Label ranking algorithms: A survey. In: . Preference Learning.
Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. p. 45–64. ISBN 978-3-642-14125-6.
Disponível em: https://doi.org/10.1007/978-3-642-14125-6_3. Citado na página 24.
VENKATESAN, R.; ER, M. J. Multi-label classification method based on extreme learning
machines. In: 2014 13th International Conference on Control Automation Robotics Vision
(ICARCV). [S.l.: s.n.], 2014. p. 619–624. Citado na página 120.
VENS, C.; STRUYF, J.; SCHIETGAT, L.; DŽEROSKI, S.; BLOCKEEL, H. Decision trees for
hierarchical multi-label classification. Mach. Learn., v. 73, n. 2, p. 185–214, nov 2008. ISSN
08856125. Citado 2 vezes nas páginas 76 e 91.
VILLE, B. de. Decision trees. WIREs Computational Statistics, v. 5, n. 6, p. 448–455, 2013.
Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/wics.1278. Citado na página
31.
WANG, L.; CHANG, M.; FENG, J. Parallel and sequential support vector machines for multi-
label classification. In: . [S.l.: s.n.], 2005. Citado na página 120.

Referências 89
WANG, M.; ZHOU, X.; CHUA, T.-S. Automatic image annotation via local multi-label clas-
sification. In: Proceedings of the 2008 International Conference on Content-Based Image and
Video Retrieval. New York, NY, USA: Association for Computing Machinery, 2008. (CIVR ’08),
p. 17–26. ISBN 9781605580708. Citado na página 119.
WANG, T.; LIU, L.; LIU, N.; ZHANG, H.; ZHANG, L.; FENG, S. A multi-label text classifica-
tion method via dynamic semantic representation model and deep neural network. Appl. Intell.,
Applied Intelligence, 2020. ISSN 15737497. Citado 2 vezes nas páginas 15 e 23.
WENG, W.; LIN, Y.; WU, S.; LI, Y.; KANG, Y. Multi-label learning based on label-specific
features and local pairwise label correlation. Neurocomputing, v. 273, p. 385 – 394, 2018. ISSN
WU, Q.; YE, Y.; ZHANG, H.; CHOW, T. W. S.; HO, S.-S. Ml-tree: a tree-structure-based
approach to multilabel learning. IEEE transactions on neural networks and learning systems,
v. 26, n. 3, p. 430—443, March 2015. ISSN 2162-237X. Citado na página 119.
WU, X.-Z.; ZHOU, Z.-H. A unified view of multi-label performance measures. In: Proceedings
of the 34th International Conference on Machine Learning. [S.l.]: JMLR.org, 2017. (ICML17,
v. 70), p. 3780–3788. Citado 5 vezes nas páginas 40, 41, 43, 44 e 45.
XU, D.; TIAN, Y. A comprehensive survey of clustering algorithms. Annals of Data Science,
v. 2, p. 165–193, 2015. Citado na página 100.
XU, J. An efficient multi-label support vector machine with a zero label. Expert Syst. Appl., v. 39,
n. 5, p. 4796–4804, 2012. Citado na página 120.
YIN, X. Canonical correlation analysis based on information theory. Journal of Multivariate
Analysis, v. 91, n. 2, p. 161 – 176, 2004. ISSN 0047-259X. Citado na página 47.
YOUNES, Z.; ABDALLAH, F.; DENOEUX, T. Multi-label classification algorithm derived
from k-nearest neighbor rule with label dependencies. In: EUSIPCO. [S.l.]: IEEE, 2008. p. 1–5.
Citado na página 119.
YOUNES, Z.; ABDALLAH, F.; DENŒUX, T. Evidential multi-label classification approach
to learning from data with imprecise labels. In: Computational Intelligence for Knowledge-
Based Systems Design. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010. p. 119–128. ISBN
978-3-642-14049-5. Citado na página 119.
ZHANG, J.; LI, C.; CAO, D.; LIN, Y.; SU, S.; DAI, L.; LI, S. Multi-label learning with label-
specific features by resolving label correlations. Knowledge-Based Systems, v. 159, p. 148 – 157,
2018. ISSN 0950-7051. Citado na página 38.
ZHANG, M.-L. Ml-rbf: Rbf neural networks for multi-label learning. Neural Processing Letters,
v. 29, n. 2, p. 61–74, 2009. Citado na página 120.
ZHANG, M. L.; LI, Y. K.; LIU, X. Y.; GENG, X. Binary relevance for multi-label learning: an
overview. [S.l.]: Higher Education Press, 2018. 191–202 p. Citado na página 28.
ZHANG, M.-L.; PEñA, J. M.; ROBLES, V. Feature selection for multi-label naive bayes classifi-
cation. Inf. Sci., v. 179, n. 19, p. 3218–3229, 2009. Citado na página 120.

Referências 90
ZHANG, M. L.; ZHANG, K. Multi-label learning by exploiting label dependency. In: Pro-
ceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining. New York, NY, USA: Association for Computing Machinery, 2010. (KDD ’10), p.
999–1008. ISBN 9781450300551. Citado na página 38.
ZHANG, M.-L.; ZHOU, Z.-H. Multilabel neural networks with applications to functional
genomics and text categorization. IEEE Transactions on Knowledge and Data Engineering, v. 18,
n. 10, p. 1338–1351, 2006. Citado na página 32.
ZHANG, M.-L.; ZHOU, Z.-H. Ml-knn: A lazy learning approach to multi-label learning. Pattern
Recognition, v. 40, n. 7, p. 2038 – 2048, 2007. ISSN 0031-3203. Citado na página 33.
ZHANG, M.-L.; ZHOU, Z.-H. Multi-label learning by instance differentiation. In: AAAI. [S.l.]:
AAAI Press, 2007. p. 669–674. ISBN 978-1-57735-323-2. Citado na página 119.
ZHANG, M. L.; ZHOU, Z. H. A review on multi-label learning algorithms. IEEE Computer
Society, v. 26, n. 8, p. 1819–1837, 2014. Citado 12 vezes nas páginas 15, 23, 25, 32, 33, 37, 38,
39, 40, 43, 44 e 45.
ZHANG, X.; YUAN, Q.; ZHAO, S.; FAN, W.; ZHENG, W.; WANG, Z. Multi-label classification
without the multi-label cost. In: . Proceedings of the 2010 SIAM International Conference
on Data Mining. [S.l.: s.n.], 2010. p. 778–789. Citado na página 120.
ZHENG, X.; LI, P.; CHU, Z.; HU, X. A Survey on Multi-Label Data Stream Classification. IEEE
Access, v. 8, p. 1249–1275, 2020. Citado na página 14.
ZHOU, J. P.; CHEN, L.; GUO, Z. H.; HANCOCK, J. Iatc-nrakel: An efficient multi-label
classifier for recognizing anatomical therapeutic chemical classes of drugs. Bioinformatics, v. 36,
n. 5, p. 1391–1396, 2020. ISSN 14602059. Citado 2 vezes nas páginas 15 e 23.
ZHU, Y.; KWOK, J. T.; ZHOU, Z. Multi-label learning with global and local label correlation.
IEEE Transactions on Knowledge and Data Engineering, v. 30, n. 6, p. 1081–1094, 2018. Citado
3 vezes nas páginas 16, 37 e 54.

91
Apêndice A
EXPERIMENTOS PRELIMINARES
Este apêndice apresenta três formas de instanciação da proposta apresentada neste
projeto de pesquisa e que é denominada Hybrid Partitions for Multi-label Classification (HPML).
Além disso, é apresentada a análise dos resultados obtidos com o experimento preliminar
conduzido para testar uma das instanciações. Doze conjuntos de dados multirrótulo de quatro
domínios diferentes foram selecionados para os testes e avaliados com as vinte e duas medidas de
desempenho multirrótulo apresentadas na Seção 2.4. Neste primeiro experimento, o framework
CLUS (VENS et al., 2008) foi utilizado como classificador base, o índice Jaccard foi usado para
modelar as correlações e o algoritmo de agrupamento aglomerativo hierárquico foi utilizado para
o particionamento.
O Apêndice está organizado da seguinte forma: a seção A.1 apresenta a estratégia
elaborada para encontrar, testar e avaliar as partições híbridas sendo dividida nas seguintes
subseções: a subseção A.1.1 explica como os conjuntos de dados serão pré-processados; na
subseção A.1.2 as estratégias que serão usadas para modelar as correlações entre os rótulos
são explicadas; a subseção A.1.3 explica como as partições híbridas serão construídas; na
subseção A.1.4 são explicadas as estratégias que serão utilizadas para validar as partições
híbridas e escolher a melhor entre elas; a subseção A.1.5 explica como será o teste da partição
híbrida escolhida.
A seção A.2 apresenta os resultados obtidos com a condução do primeiro experimento
sendo dividida nas seguintes subseções: a subseção A.2.1 apresenta a configuração dos expe-
rimentos, a subseção A.2.2 apresenta o desempenho preditivo para cada conjunto de dados
junto com uma discussão, a subseção A.2.3 apresenta uma análise das partições geradas, a
subseção A.2.4 apresenta os resultados dos testes estatísticos de Friedman e Nenemyi e, por fim,
a subseção A.2.5 a análise do tempo de execução da proposta.
A.1 Hybrid Partitions for Multi-Label Classification
O principal objetivo da estratégia proposta nesta pesquisa é encontrar uma partição de
rótulos correlacionados, aqui denominada híbrida, que se localiza entre as convencionais local

Apêndice A. Experimentos Preliminares 92
e global. Para isso, é necessário dividir o espaço de rótulos, explorando as correlações, em
subespaços usando uma estratégia de particionamento. A estratégia aqui proposta (HPML) é
dividida em quatro fases: i) modelar as correlações entre os rótulos, ii) construir as partições
híbridas, iii) validar as partições e, iv) testar a melhor partição híbrida em um conjunto de teste
separado. Este processo completo é apresentado nas próximas subseções.
Além disso, três versões diferentes são propostas para testar a estratégia: 1) HPML-J, 2)
HPML-KN e 3) HPML-KT. Na primeira versão, as correlações são modeladas usando o índice
Jaccard e um algoritmo de agrupamento aglomerativo hierárquico junto com um método de
corte para gerar as partições híbridas. Nas outras duas versões o mapa de kohonen é usado para
agrupar rótulos similares e apenas o corte é aplicado no mapa gerado para encontrar as partições
híbridas. A Figura 27 ilustra o processo geral do HPML e cada versão será explicada ao longo
deste Apêndice.
Espaço de Rótulos
Modelagem das Correlações
Particionamento
Melhor Partição Híbrida
Conjunto
de
Dados
Teste Treino Validação
P2
Validação
P3 P4
Validação
P = L
- 2
Validação
Constroi Melhor Partição
Híbrida
Classificador
Desempenho
Pn
P...
P3
P2
Validação Validação
P1
Construção das Partições Híbridas
Figura 27 – Fluxograma do HPML

A.1.1 Pré-Processamento dos Dados
A fase de pré-processamento consiste em dividir o conjunto de dados multirrótulo original
em treino, validação e teste. Em seguida, deve-se isolar o espaço de rótulos do conjunto de
treinamento para calcular as correlações e gerar as partições. O método de estratificação usado é
explicado na seção A.2.
A.1.2 Fase 1: Modelagem das Correlações
A primeira fase da estratégia corresponde à modelagem das correlações. Como menci-
onado anteriormente, técnicas continuam a ser propostas para este fim, no entanto, para este
projeto, duas técnicas foram escolhidas para serem testadas inicialmente: índice Jaccard e Koho-
nen. O índice Jaccard é uma medida de similaridade clássica da literatura que modela o nível de
similaridade entre pares de instâncias ou rótulos. O Kohonen é uma rede neural artificial capaz
de mapear instâncias ou rótulos similares. Tanto o mapa de kohonen, quanto o índice Jaccard,
permitirão que os rótulos similares sejam agrupados de diferentes formas, possibilitando assim a
geração das partições híbridas.
A.1.2.1 Índice Jaccard
Medidas de similaridade visam quantificar até que ponto as instâncias ou rótulos de
um conjunto de dados se assemelham. As medidas de similaridade podem ser aplicadas a
dados binários (representados pela presença ou ausência de instâncias/atributos/rótulos), dados
numéricos (representados por vetores de números reais) e dados estruturados (representados
por árvores e grafos). Portanto, é possível utilizar alguma medida de similaridade existente, no
espaço de rótulos, para quantificar a semelhança entre esses rótulos (LESOT et al., 2009).
O índice Jaccard é capaz de medir o grau de similaridade entre pares de rótulos (JUNIOR,
2019) dentro de um conjunto de treinamento. Para demonstrar como o índice Jaccard pode ser
aplicado no método proposto (HPML-J onde J significa Jaccard) considere o espaço de rótulos
do conjunto de dados apresentado no Capítulo 2 e representado nesta subseção pela Tabela 15.
Cada linha da Tabela 15 representa um conjunto de rótulos Yi associado à i-ésima instância xi do
conjunto de dados multirrótulo. Assim, o espaço de rótulos de De é representado por uma matriz
binária M, onde cada uma de suas célula (mi,j) recebe o valor 1 se a instância xi é classificada
na classe yj, e 0 caso contrário.
Dado um espaço de rótulos estruturado como o da Tabela 15, uma matriz de contingência
(Tabela ) pode ser construída com o número de ocorrências e coocorrências associadas a cada
par de rótulos (pj, qj) no conjunto de dados. A tabela de contingência apresentada na Figura 28
para um par de rótulos (pj, qj) é construída da seguinte forma:
• a: corresponde ao número total de ocorrências simultâneas de pj e qj;

Tabela 15 – Espaço de rótulos de De
Label1 Label2 Label3 Label4 Label5
1 0 1 1 0
1 1 1 0 0
0 1 0 1 0
1 0 0 0 1
1 0 1 1 0
• b: corresponde ao número total de ocorrências de pj sem qj;
• c: corresponde ao número total de ocorrências de pj sem qj;
• d: corresponde ao número total de ocorrências sem pj e sem qj;
Figura 28 – Tabela de Contingência
Uma vez que a matriz de contingência é preenchida, o índice de Jaccard (Equação A.1) é
usado para calcular a similaridade dos pares de rótulos (pj, qj), sendo o processo executado para
todos os rótulos do espaço de rótulos de De.
Jaccard =
a
a + b + c
(A.1)
Depois de calcular todas as semelhanças de pares de rótulos usando o índice de Jaccard,
uma matriz de similaridade é obtida, como a apresentada na Tabela 16. O índice Jaccard para um
par de rótulos onde pj = qj é 1 indica máxima similaridade.
Tabela 16 – Matriz de Similaridade Jaccard (De)
Label1 1.00 0.20 0.75 0.40 0.25
Label2 0.20 1.00 0.25 0.25 0.00
Label3 0.75 0.25 1.00 0.50 0.00
Label4 0.40 0.25 0.50 1.00 0.00
Label5 0.25 0.00 0.00 0.00 1.00

Dada uma matriz com todas as semelhanças dos pares, todos os valores de semelhança
são convertidos em valores de dissimilaridade (Equação A.2), de modo que um algoritmo de
agrupamento aglomerativo pode ser aplicado na matriz de dissimilaridade. O dendrograma
resultante é então usado para obter diferentes partições no espaço do rótulos. A Tabela 17
apresenta a matriz de dissimilaridade obtida após a aplicação da Equação A.2 à Tabela 16, e a
Figura 29 o dendrograma construído usando a matriz de dissimilaridade.
d(Jaccard) = (1 − Jaccard) (A.2)
Tabela 17 – Matriz de Distância Jaccard (De)
Label1 0.00 0.80 0.25 0.60 0.75
Label2 0.80 0.00 0.75 0.75 1.00
Label3 0.25 0.75 0.00 0.50 1.00
Label4 0.60 0.75 0.50 0.00 1.00
Label5 0.75 1.00 1.00 1.00 0.00
Label5
Label2
Label4
Label1
Label3
0.00 0.25 0.50 0.75
Figura 29 – Dendrograma das dissimilaridades do espaço de rótulos de De
A.1.2.2 Mapa Auto Organizável de Kohonen
Em 1982, Kohonen propôs um método competitivo denominado Self-Organizing Map
(Mapa Auto-Organizável - SOM). Os neurônios são posicionados em uma grade bidimensional e,

após o aprendizado, forma-se algo como um mapa topográfico dos padrões de entrada, semelhante
à maneira como os estímulos sensoriais humanos são mapeados em diferentes partes do cérebro.
Para garantir que o processo de auto-organização ocorra adequadamente, é necessário que todos
os neurônios da rede sejam expostos a um número suficiente de diferentes padrões de entrada.
Por esse motivo cada neurônio da camada de entrada está conectado com todos os neurônios
da camada de saída. A Figura 30 ilustra uma arquitetura de rede neural artificial para o SOM
(HAYKIN, 2011).
Figura 30 – Mapa Auto-Organizável de Kohonen
Fonte: Haykin (2011).
O principal objetivo do SOM, portanto, é mapear um padrão de entrada de dimensão
arbitrária em um mapa bidimensional, de maneira adaptativa e ordenada topologicamente
(HAYKIN, 2011). Devido a essas características dos mapas auto-organizáveis, juntamente
com o fato de que esses algoritmos realizam o agrupamento de dados sem a necessidade do
fornecimento inicial de número fixo de grupos para cada partição híbrida - ainda que o número
de neurônios seja fornecido - é que o SOM foi escolhido como uma das técnicas iniciais para
investigar o particionamento do espaço de rótulos.
No SOM os pesos da rede recebem, inicialmente, valores aleatórios e, após inicializados,
três processos são executados: competição, cooperação e adaptação sináptica. Na competição,
para cada padrão de entrada, os neurônios calculam seus respectivos valores da função discrimi-
nante, a qual fornece a base para a competição entre os neurônios, sendo o neurônio vencedor
aquele com o melhor valor dessa função.
Na cooperação, o neurônio vencedor determina a localização espacial de uma vizinhança
topológica de neurônios excitados, o que fornece base para cooperação dessa vizinhança. Para
definir a vizinhança, diferentes funções podem ser utilizadas, como por exemplo a função
Gaussiana. Na Adaptação Sináptica, os neurônios excitados melhoram seus valores individuais
da função discriminante, sendo o ajuste dos pesos feito para melhorar a resposta do neurônio
vencedor à aplicação de um padrão de entrada similar. Esse processo é dividido ainda entre
outras duas fases: auto-organização, em que ocorre a ordenação topológica dos vetores de pesos,
e convergência, em que ocorre o ajuste fino dos pesos do mapa (HAYKIN, 2011).

Portanto, uma função de vizinhança deve ser definida para a rede SOM, assim como
a sua arquitetura e taxa de aprendizado. O algoritmo deve ser inicializado, em seguida ocorre
a amostragem, em que as instâncias do espaço de instâncias (ou o espaço de rótulos), são
apresentados à rede de forma aleatória. Depois é preciso encontrar o neurônio que melhor
combina com o padrão selecionado na amostragem (melhor função discriminante) e, por fim, é
feita a atualização dos pesos. Todo esse processo é repetido até se obter o mapa final.
O mapa de Kohonen será aplicado de duas formas diferentes: i) recebendo o espaço
de rótulos normal como entrada (HPML-KN); ii) recebendo o espaço de rótulos transposto
como entrada (HPML-KT). A Tabela 18 ilustra um espaço de rótulos normal e o mesmo espaço
transposto. Na primeira parte da tabela tem-se o espaço normal e os rótulos propriamente ditos
estão nas colunas (Label1, Label2, Label3, Label4 e Label5). Na segunda parte da Tabela está
o espaço de rótulos transposto, isto é, os rótulos passam a ser a linhas. Dessa forma HPML-KN
atua como o mapa de Kohonen tradicional que atribui instâncias do espaço de rótulos a cada
neurônio vencedor da rede, enquanto que o HPML-KT trata os rótulos do espaço de rótulos
como instâncias e os atribui ao neurônio vencedor.
Tabela 18 – Entradas para HPML-KN e HPML-KT
Label1 Label2 Label3 Label4 Label5 x1 x2 x3 x4 x5
x1 1 0 1 1 0 Label1 1 1 0 1 1
x2 1 1 1 0 0 Label2 0 1 1 0 0
x3 0 1 0 1 0 Label3 1 1 0 0 1
x4 1 0 0 0 1 Label4 1 0 1 0 1
x5 1 0 1 1 0 Label5 0 0 0 1 0
A entrada para o mapa de Kohonen pode ser considerada uma matriz (do espaço de
rótulos) onde cada linha dessa matriz é tratada como um vetor do conjunto de dados que será
mapeado. Assim, para o espaço de rótulos do conjunto de dados multirrótulo, o vetor é binário e a
entrada do espaço de rótulos normal pode ser representada como xi = [Label1, Label2, ..., Labell]
e para o espaço de rótulos transposto Labeli = [x1, x2, ..., xm], onde l é o total de rótulos
do espaço de rótulos e m o total de instâncias do espaço de rótulos. Exemplificando para
a Tabela 18 tem-se as seguintes entradas para normal x1 = [1, 0, 1, 1, 0], e para transposto
Label1 = [1, 1, 0, 1, 1].
Assim, para o mapa de Kohonen o espaço de rótulos pode ser tratado como uma matriz
composta por valores 0s e 1s. No caso do HPML-KN, as linhas são as instâncias do espaço de
rótulos e as colunas são os rótulos. Nesta configuração, o mapa de Kohonen atribui instâncias
(após a competição) similares a cada neurônio vencedor do mapa. Essas instâncias mapeadas são
compostas por vários rótulos diferentes, sendo necessário averiguar quais rótulos estão presentes
em cada neurônio, podendo haver repetição desses rótulos em cada um dos neurônios.
No caso do HPML-KT, a matriz (do espaço de rótulos) é transposta e os rótulos passam
a ser tratados como instâncias, já que se tornam as linhas, e então o mapa de Kohonen atribui os
rótulos similares a cada neurônio vencedor. Nesta configuração, os rótulos não se repetem nos

neurônios, portanto, cada neurônio é composto por rótulos similares únicos. O objetivo ao usar
o mapa de Kohonen dessas duas formas é analisar as diferenças nas construções das partições
híbridas e também a influencia dessa construção no desempenho preditivo final.
Para demonstrar com mais clareza como Kohonen pode ser aplicado na estratégia aqui
proposta, considere o conjunto de dados Flags que tem 7 rótulos e 194 instâncias. A Figura 31
apresenta os gráficos de contagem e mapeamento para HPML-KN e HPML-KT respectivamente.
Um gráfico de contagem de kohonen (Figura 31a e Figura 31c) mostra o número de instâncias
(ou rótulos) mapeados para cada neurônio sendo que as unidades vazias são representadas na cor
cinza, enquanto que um gráfico de mapeamento de kohonen (Figura 31b e Figura 31d) mostra
em quais neurônios as instâncias (ou rótulos) são mapeados.
(a) HPML-KN: Gráfico de Contagem (b) HPML-KN: Gráfico de Mapea-
mento
(c) HPML-KT: Gráfico de Contagem (d) HPML-KT: Gráfico de Mapea-
mento
Figura 31 – Mapa de Kohonen HPML-KN
O mapa de Kohonen utilizado para gerar os gráficos exige que se defina o número de
neurônios do mapa em duas dimensões (x e y). A dimensão é então definida tendo como base o
gráfico de contagem: se a dimensão escolhida gerar neurônios cinzas no mapa de contagem, a
dimensão deve ser redefinida até que se encontre uma dimensão onde não haja neurônios vazios.
Considerando isto, nos gráficos de contagem aqui apresentados (Figura 31a e Figura 31c)
não há nenhum neurônio na cor cinza. Como pode ser observado, para HPML-KN o mapa foi
setado com 16 neurônios (dimensão 4×4), enquanto que para o mapa do HPML-KT 4 neurônios
foram setados. Para a Figura 31a se o mapa tivesse a dimensão 5 × 5, haveriam neurônios na

cor cinza, indicando assim que não foram mapeadas instâncias para esses neurônios. Para a
Figura 31c ocorre o mesmo (dimensão 3 × 3), mas neste caso indicaria que não foram mapeados
rótulos para os neurônios.
A Figura 31b apresenta o mapa de kohonen encontrado para o conjunto de dados Flags na
forma normal e a Figura 31d na forma transposta. As Figuras 31b e 31d ilustram cortes no mapa,
como se fossem cortes em um dendrograma, no entanto, as cores definem os grupos de neurônios
e as linhas tentam apenas separar os neurônios conforme as cores. A Figura 31b divide o mapa
em 8 grupos de neurônios (8 cores), enquanto que a Figura 31b divide em 3 grupos de neurônios
(3 cores). Cada cor pode então ser considerada como um grupo de rótulos (correlacionados) de
uma partição híbrida. Assim, a Figura 31b é uma partição híbrida composta por 8 grupos de
rótulos correlacionados, sendo que nesses 8 grupos os rótulos se repetem (entrada normal). A
Figura 31d, no entanto, é outra partição híbrida encontrada, sendo composta por 3 grupos de
rótulos correlacionados e, neste caso, os rótulos não se repetem nos grupos (entrada transposta).
Para chegar nesses grupos de neurônios, o mesmo método de corte que é aplicado no
dendrograma do índice Jaccard é usado no mapa de kohonen. No HPML-J é necessário primeiro
usar o algoritmo de agrupamento aglomerativo hierárquico e depois aplicar o corte, mas no caso
do HPML-KT e HPML-KN aplica-se apenas o corte diretamente no mapa, portanto, o mapa não
é submetido ao algoritmo de agrupamento aglomerativo hierárquico. As partições híbridas são
obtidas simplesmente ao se cortar o mapa de kohonen, onde cada corte gera grupos de neurônios
os quais correspondem a um grupo de rótulos correlacionados da partição híbrida.
Observa-se na Figura 31d que é nítida a quantidade de pontos em cada um dos 4 neurônios.
O neurônio roxo tem um único ponto, e cada um dos neurônios restantes possuem dois pontos
concluindo-se então que esses 7 pontos correspondem a cada um dos 7 rótulos do conjunto.
Pode-se dizer que no HPML-KT o mapeamento dos rótulos similares é feito de maneira direta,
isto é, cada neurônio do mapa pode ser tratado como um grupo de rótulos similares para a
partição híbrida. A Figura 32 exemplifica a partição híbrida gerada e apresentada na Figura 31d.
L1
L3
L4
L5
L2 L6
L8
Figura 32 – Partição Híbrida HPML-KT
Já a Figura 31b possui vários pontos em cada um dos neurônios do mapa. Esses pontos
são as instâncias do conjunto de dados, portanto, em cada neurônio foram atribuídas instâncias

similares. Para o HPML-KN serão necessárias mais etapas para se chegar em uma configuração
final de grupos de rótulos similares para cada partição híbrida gerada. Neste sentido, o número de
grupos é incerto, o que é altamente desejável para esta proposta. Portanto, para a partição híbrida
da Figura 31b os 8 grupos iniciais poderão se tornar apenas 2 ou 3, a depender do processo
que será aplicado para averiguação dos rótulos presentes em cada grupo (já que idealmente os
rótulos não podem se repetir nos grupos). Essa característica permitirá gerar partições híbridas
diferenciadas com relação ao HPML-J e também ao HPML-KN. Comparar essas 3 versões do
HPML será importante para compreender o comportamento de cada uma e qual delas colaborará
mais efetivamente para a melhora do desempenho preditivo.
A.1.3 Fase 2: Construção das Partições Híbridas
Para o HPML-J as partições híbridas são construídas cortando um dendrograma resultante
da aplicação de um algoritmo de agrupamento aglomerativo. O método aglomerativo utilizado
no algoritmo de agrupamento aglomerativo hierárquico começa com n grupos (partição local
onde cada rótulo é um grupo separado) e prossegue por fusões consecutivas até que apenas um
grupo seja obtido contendo todos os rótulos (partição global) (KAUFMAN; ROUSSEEUW,
1990). Durante o processo de aglomeração, os grupos são mesclados de acordo com métricas de
ligação que calculam a distância entre dois grupos (XU; TIAN, 2015). Três métricas tradicionais
para construir dendrogramas são utilizadas: ligação simples, ligação média e ligação completa
(FACELI et al., 2011; TAN et al., 2005).
0.0
0.2
0.4
0.6
0.8
orange
black
green
yellow
blue
red
white
0.39
0.44
0.57
0.57
0.69
0.81
(a) Ligação Simples
0.0
0.2
0.4
0.6
0.8
orange
black
blue
red
white
green
yellow
0.39
0.52
0.59
0.66
0.76
0.87
(b) Ligação Média
0.0
0.2
0.4
0.6
0.8
orange
blue
red
white
black
green
yellow
0.39
0.59
0.6
0.75
0.88
0.93
(c) Ligação Completa
Figura 33 – Dendrogramas para o conjunto de dados Flags
A Figura 33 apresentam três dendrogramas, cada um construído usando uma das três
métricas de aglomeração. O método de ligação simples calcula a distância mínima (ou o vizinho
mais próximo) entre dois grupos que serão aglomerados, produzindo grupos nos quais os rótulos
(ou instâncias) são adicionados sequencialmente a um único grupo. Já o método de ligação
média calcula a distância média entre dois grupos de forma que esses dois grupos tenham uma
influência igual no resultado final. Por fim, o método de ligação completa calcula a distância
máxima (ou vizinho mais distante) produzindo grupos bem separados e compactos (FACELI et
al., 2011; TAN et al., 2005).
O Coeficiente Aglomerativo (CA) é calculado para escolher qual dessas três métricas
será escolhida e assim o respectivo dendrograma que será cortado a fim de obter as partições

híbridas. O coeficiente aglomerativo usa a matriz de dissimilaridade para medir a qualidade
dos dendrogramas gerados. Considere dois grupos Cr e Cq, e d(Mi) a dissimilaridade entre os
grupos Cr e Cq quando eles são mesclados no i-ésima etapa do agrupamento aglomerativo.
Para cada processo de fusão Mi envolvendo dois grupos na i-ésima etapa da aglomeração,
a dissimilaridade d(Mi) na etapa i é dividida pela dissimilaridade calculada na etapa i − 1. O
valor do coeficiente aglomerativo é, portanto, a média de todas as dissimilaridades 1 − d(Mi).
Quanto maior o valor do coeficiente aglomerativo, melhor é o dendrograma, assim o maior
CA entre as três métricas é usado para escolher o dendrograma que será cortado (KAUFMAN;
ROUSSEEUW, 1990).
Uma vez que o melhor dendrograma é escolhido, ele é cortado para gerar as partições
híbridas - cada corte representa uma partição diferente. A Tabela 19 ilustra as partições geradas
cortando o dendrograma da Figura 29. As colunas da Tabela representam partições e as linhas
representam os rótulos. Os números em cada célula da Tabela representam as partições às quais
os rótulos nas linhas foram atribuídos. Nota-se que cortar o dendrograma no nível 1 gera a
partição local (P1), enquanto que um corte no nível 5 gera a partição global (P5). Todos os
outros cortes geram partições híbridas.
Tabela 19 – Partições De
P5 P4 P3 P2 P1
Label1 1 1 1 1 1
Label2 1 1 2 2 2
Label3 1 1 1 1 3
Label4 1 1 1 3 4
Label5 1 2 3 4 5
Cortar o dendrograma no nível 3 resulta em uma partição com três grupos de rótulos1
:
G1 = {Label1, Label3, Label4}, G2 = {Label2} e G3 = {Label5}. Esta partição representa
diferentes correlações de rótulos se comparada à partição global onde todos os rótulos estão em
um único grupo (G1 = {Label1, Label2, Label3, Label4, Label5}), e à partição local onde cinco
grupos estão presentes, cada um com um rótulo diferente (G1 = {Label1}, G2 = {Label2},
G3 = {Label3}, G4 = {Label4}, e G5 = {Label5}).
A.1.4 Fase 3: Validação das Partições Híbridas
Neste trabalho, optou -se por validar as partições de duas formas: 1. melhor desempenho
preditivo; e 2. melhor coeficiente de silhueta. Como exemplo de como as partições são validadas
usando o critério de melhor desempenho preditivo, considere que a partição P4 da Tabela 19 está
sendo validada. Esta partição é formada por 2 grupos: G1 = {Label1, Label2, Label3, Label4}
e G2 = {Label5}. Nesse caso, um classificador multirrótulo é treinado com todas as instâncias
1
Gi corresponde a um subconjunto de rótulos

L1 L2
L3 L4
L5
L5
L2
L1 L3
L4
L5
L1
L3
L4
L2
L5
L1
L3
L2
L4
L5
L1
L3
L2
L4
P1: Partição Local
P4: Partição Híbrida P3: Partição Hibrida
P2: Partição Híbrida
P5: Partição Global
Figura 34 – Representação das Partições De
que pertencem aos rótulos de G1, e um classificador binário é treinado com todas as instâncias
que pertencem ao rótulo de G2. Todo o processo, desde a construção de uma partição até o
treinamento dos classificadores é realizado usando o conjunto de treinamento.
Uma vez que os classificadores foram treinados, suas predições são obtidas usando um
conjunto de validação separado e então combinadas. No caso da partição P4, suponha que
uma instância de validação xi obtém as seguintes predições individuais: ŶG1 = {1, 0, 1, 0} e
ŶG2 = {1}. Uma predição final multirrótulo para xi é obtida combinando ŶG1 e ŶG2 , resultando
em ŶP2 = {1, 0, 1, 0, 1}. Isso é executado para todas as instâncias em um conjunto de dados de
validação. A melhor partição gerada é aquela que resulta no melhor desempenho no conjunto de
dados de validação, de acordo com alguma medida de avaliação multirrótulo. Optou-se por usar
inicialmente a medida Macro-F1 (Equação 2.10).
O coeficiente da silhueta foi escolhido como critério de seleção de melhor partição
híbrida por ser um método de validação de agrupamento. Silhueta define a qualidade do grupo a
partir da proximidade entre os rótulos de um determinado grupo e da distância entre esses rótulos
e o grupo mais próximo (ROUSSEEUW, 1987). Além disso, de acordo com Rousseeuw (1987),
o coeficiente da silhueta pode ser usado para escolher um número ideal de grupos. Usando este
método, basta submeter as partições híbridas obtidas ao cálculo da silhueta. A partição híbrida
com o coeficiente de silhueta mais alto pode ser escolhida para o teste.

A.1.5 Fase 4: Teste da Melhor Partição Híbrida
Depois de selecionar a melhor partição usando os conjuntos de dados de treinamento
e validação, os classificadores induzidos com a melhor partição são então aplicados em uma
partição de teste separada. A partição de teste é usada para comparar os resultados obtidos
pelos classificadores usando a partição híbrida encontrada, com os resultados obtidos pelos
classificadores usando as partições locais e globais convencionais.
A.2 Resultados
Nesta seção são apresentados os resultados do primeiro experimento conduzido. A
instanciação da estratégia recebeu o nome de HPML-J.
A.2.1 Configuração do Experimento
Para a escolha dos conjuntos de dados utilizados nos experimentos foram considerados
diferentes domínios, número total de rótulos e instâncias diferentes, de forma que variassem
de poucos(as) a muitos(a) rótulos/instâncias no conjunto. Os conjuntos de dados multirrótulo é
apresentado na Tabela 20. Para a realização dos experimentos, optou-se pela estratégia 10-Fold
cross-validation. Portanto, os resultados apresentados correspondem à média das 10 partições
para cada conjunto de dados multirrótulo.
Tabela 20 – Conjuntos de dados selecionados para o experimento
Nome Domínio Instâncias Rótulos Entrada
birds áudio 645 19 260
cal500 música 502 174 68
emotions música 593 6 72
eukaPseAac biologia 7766 22 440
flags imagens 194 7 19
gPosGo biologia 519 4 912
medical texto 978 45 1449
plantGo biologia 978 12 3091
scene imagens 2407 6 294
virusGo biologia 207 6 749
yeast biologia 2417 14 103
yelp texto 10806 5 671
As 10 partições foram obtidas usando o método de estratificação iterativa proposto em
(SECHIDIS et al., 2011), que tem como objetivo a manutenção da distribuição de instâncias
positivos e negativos de cada rótulo nos conjuntos de treino, validação e teste. Este método busca
evitar, principalmente, a formação de conjuntos com zero exemplos positivos para um ou mais
rótulos, sendo esta característica desejável para avaliar as partições híbridas. Se nos conjuntos de

teste e validação não houver exemplos positivos, as medidas de avaliação baseadas em rótulos
serão indefinidas, o que levará a resultados também indefinidos.
Neste primeiro experimento, o algoritmo Clus que implementa Predictive Clustering
Trees para problemas multirrótulo foi escolhido como algoritmo base. O algoritmo Clus é
considerado um dos métodos de classificação estado-da-arte da literatura multirrótulo. O motivo
desta escolha é que o Clus possui duas versões, denominadas Clus-Global e CLus-Local, que
podem ser usadas para testar e validar tanto as partições híbridas, quanto as locais e globais.
Assim, a versão local foi utilizada nos experimentos com a partição local e também nos grupos
de rótulos formados por um único rótulo nas partições híbridas, enquanto a versão global foi
utilizada para validar as partições híbridas com grupos de rótulos compostos por vários rótulos e
também a partição global ().
Os experimentos foram realizados utilizando-se a Linguagem R2
sendo o pacote HClust3
utilizado para implementar o algoritmo de agrupamento hierárquico aglomerativo. O algoritmo
CLUS é implementado em Java e está disponível em https://dtai.cs.kuleuven.be/clus/. Todos
as implementações estão disponíveis em https://github.com/cissagatto/HPML-J.
A.2.2 Análise do Desempenho
As Tabelas 21, 22 e 23 apresentam os resultados do desempenho preditivo para as 22
medidas de avaliação multirrótulo. Os melhores valores estão marcados nas tabelas na cor verde,
enquanto que os piores na cor vermelha. A última linha de cada tabela apresenta a média dos 12
conjuntos de dados para cada partição. As Figuras 35, 36 e 37 apresentam os gráficos da média
dos 12 conjuntos de dados para as 22 medidas de avaliação.
De acordo com a Tabela 24, que apresenta a média dos 12 conjuntos de dados para cada
medida de avaliação, as partições híbridas foram melhores em 15 das 22 medidas de avaliação e
as partições locais em 7, enquanto que as partições globais não obtiveram o melhor desempenho
em nenhuma das 22 medidas (na média). Nas Tabelas 25 e 26 a notação (Partição A ≺ Partição
B) indica que as partições do tipo A obtiveram melhor desempenho quando comparadas às
partições do tipo B; assim H são as partições híbridas, L as partições locais e G as partições
globais. A Tabela 25 apresenta o total de conjunto de dados em que cada partição obteve melhor
desempenho com relação às outras, enquanto que a Tabela 26 apresenta o total de medidas de
desempenho em que cada partição obteve melhor desempenho com relação às outras. Essas duas
Tabelas não são referentes à média, mas sim aos valores propriamente ditos de desempenho.
Na Tabela 25, para a medida Macro F1, por exemplo, as partições híbridas obtiveram
melhor desempenho que as partições locais em 9 dos 12 conjuntos de dados. Com relação às
partições globais, as partições híbridas obtiveram melhores desempenho em apenas 2 dos 12
conjuntos de dados. Nas medidas de Revocação e Micro Revocação, as partições híbridas foram
2
https://www.r-project.org/
3
https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/hclust

melhores em todos os conjuntos de dados com relação às partições globais nesta medida. Já
na Tabela 26, por exemplo, para o conjunto de dados cal500, a partição híbrida obteve melhor
desempenho em 15 medidas com relação às partições locais, enquanto que com relação às
partições globais, obteve melhor desempenho em 12 das 22 medidas. Para o dataset birds, as
partições locais foram melhores em 19 das 22 medidas com relação às híbridas. Já com relação
às partições globais, as locais foram melhores em 21 medidas.
Um ponto interessante observado é que o uso de partições globais não gerou os melhores
resultados como muitas vezes apontado na literatura. O que foi observado neste experimento
é que uma combinação de Predictive Clustering Trees binárias é melhor do que o uso de
apenas uma Predictive Clustering Trees multirrótulo para os conjuntos de dados aqui utilizados.
Conclui-se das tabelas e gráficos apresentados que as partições híbridas obtiveram desempenho
competitivo com relação às partições locais e superior com relação às partições globais. O motivo
desta proximidade com as partições locais é devido a configuração dos grupos de rótulos gerados
para cada partição híbrida encontrada pelo algoritmo de agrupamento aglomerativo hierárquico,
o que será melhor explicado na subseção A.2.3.
A.2.3 Análise das Partições
Na Tabela 27 a coluna Fold indica a partição do 10-fold cross validation, HC indica
o método de aglomeração do algoritmo hierárquico selecionado para construir a partição, CA
indica o valor obtido do coeficiente aglomerativo para o método HC selecionado, a coluna
Partição indica a partição híbrida escolhida e F1 o maior valor de desempenho da medida F1
Macro que levou à seleção da partição híbrida.
O experimento confirmou que as partições locais são melhores do que as partições
globais nos conjuntos de dados investigados em várias medidas de avaliação. Isto pode ser
confirmado observando os resultados semelhantes obtidos pelas Predictive Clustering Trees em
muitos conjuntos de dados quando comparados com partições locais e híbridas.
Ao olhar para o conjunto de dados birds, por exemplo, a melhor partição (maior valor
de F1 Macro) selecionada pela estratégia, para todos os 10 folds, foi uma partição híbrida
onde um grupo de rótulos é composto por dois rótulos correlacionados, enquanto que todos os
outros grupos de rótulos são compostos por rótulos individuais4
. Portanto, como o conjunto de
dados cal500 têm 174 rótulos, o modelo resultante treinou 1 classificador multirrótulo e 172
classificadores binários, o que é muito semelhante a induzir apenas classificadores binários na
partição local. O mesmo acontece para os conjuntos de dados birds, eukaryotePseAac, medical,
yeast e yelp.
4
as partições geradas começam com a nomenclatura Pi e vão até Pn com n = {1, 2, ..., n−1} e i = {1, 2, ..., n−
1} o contador de partições. P2 é a primeira partição híbrida gerada para todos os conjuntos de dados e, para o
caso do cal500, P173 é a última partição híbrida gerada.

Tabela
21
–
Resultados
desempenho
preditivo
parte
1
Macro
Precisão
Micro
Precisão
Macro
F1
Micro
F1
Subset
Accuracy
Híbrida
Local
Global
Hibrida
Local
Global
Híbrida
Local
Global
Hibrida
Local
Global
Híbrida
Local
Global
birds
0,351
0,362
0,001
0,301
0,311
0,022
0,308
0,317
0,002
0,345
0,357
0,022
0,076
0,080
0,005
cal500
0,157
0,156
0,030
0,376
0,376
0,632
0,147
0,147
0,037
0,353
0,353
0,305
0,000
0,000
0,000
emotions
0,623
0,586
0,603
0,621
0,584
0,608
0,611
0,570
0,587
0,622
0,580
0,612
0,229
0,190
0,240
eukaPseAac
0,112
0,111
0,006
0,248
0,251
0,006
0,104
0,104
0,002
0,265
0,270
0,006
0,141
0,132
0,006
flags
0,638
0,628
0,644
0,705
0,711
0,726
0,627
0,614
0,595
0,736
0,718
0,721
0,109
0,116
0,109
gPositiveGo
0,855
0,855
0,886
0,933
0,933
0,940
0,863
0,875
0,882
0,942
0,946
0,937
0,929
0,929
0,933
medical
0,328
0,328
0,022
0,783
0,784
0,376
0,328
0,328
0,026
0,793
0,792
0,334
0,679
0,682
0,239
plantGo
0,684
0,683
0,434
0,731
0,737
0,715
0,675
0,691
0,420
0,762
0,771
0,720
0,685
0,694
0,668
scene
0,622
0,617
0,650
0,591
0,576
0,638
0,619
0,633
0,622
0,606
0,617
0,616
0,509
0,468
0,579
virusGo
0,811
0,840
0,835
0,870
0,859
0,887
0,816
0,866
0,787
0,901
0,900
0,884
0,792
0,797
0,796
yeast
0,405
0,405
0,455
0,561
0,561
0,688
0,398
0,399
0,317
0,553
0,555
0,593
0,058
0,051
0,122
yelp
0,715
0,718
0,693
0,742
0,749
0,704
0,691
0,697
0,616
0,741
0,749
0,672
0,433
0,451
0,362
Média
0,525
0,524
0,438
0,622
0,619
0,578
0,516
0,520
0,408
0,635
0,634
0,535
0,387
0,383
0,338
Macro
Revocação
Micro
Revocação
CLP
MLP
WLP
Híbrida
Local
Global
Hibrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
birds
0,327
0,338
0,053
0,407
0,420
0,021
0,000
0,000
0,053
0,216
0,216
0,947
0,400
0,384
0,947
cal500
0,148
0,148
0,048
0,333
0,333
0,201
0,000
0,000
0,048
0,361
0,361
0,952
0,570
0,571
0,952
emotions
0,614
0,567
0,597
0,624
0,578
0,618
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
eukaPseAac
0,111
0,108
0,047
0,284
0,292
0,005
0,000
0,000
0,041
0,264
0,264
0,945
0,545
0,550
0,945
flags
0,656
0,622
0,607
0,771
0,726
0,722
0,257
0,057
0,229
0,029
0,043
0,100
0,100
0,114
0,100
gPositiveGo
0,891
0,909
0,906
0,952
0,960
0,933
0,000
0,000
0,000
0,025
0,025
0,000
0,050
0,050
0,025
medical
0,344
0,344
0,044
0,803
0,801
0,301
0,000
0,000
0,000
0,600
0,600
0,956
0,618
0,618
0,956
plantGo
0,723
0,746
0,445
0,797
0,809
0,725
0,000
0,000
0,000
0,033
0,033
0,383
0,058
0,058
0,392
scene
0,637
0,676
0,608
0,624
0,664
0,596
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
virusGo
0,853
0,923
0,782
0,938
0,949
0,883
0,000
0,000
0,000
0,050
0,017
0,083
0,000
0,000
0,000
yeast
0,394
0,395
0,295
0,546
0,550
0,522
0,000
0,000
0,071
0,071
0,071
0,236
0,071
0,071
0,279
yelp
0,675
0,682
0,571
0,740
0,748
0,642
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
Média
0,531
0,538
0,417
0,652
0,652
0,514
0,021
0,005
0,037
0,137
0,136
0,384
0,201
0,201
0,383

Tabela
22
–
Resultados
desempenho
preditivo
parte
2
Precisão
Revocação
F1
Acurácia
Hamming
Loss
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
birds
0,227
0,234
0,022
0,209
0,218
0,012
0,205
0,214
0,015
0,171
0,178
0,012
0,082
0,080
0,104
cal500
0,378
0,378
0,632
0,337
0,336
0,209
0,349
0,349
0,311
0,215
0,215
0,188
0,183
0,183
0,137
emotions
0,610
0,579
0,604
0,609
0,569
0,606
0,575
0,539
0,574
0,490
0,450
0,489
0,236
0,260
0,244
eukaPseAac
0,240
0,241
0,006
0,284
0,293
0,006
0,247
0,250
0,006
0,218
0,218
0,006
0,082
0,082
0,097
flags
0,695
0,695
0,705
0,752
0,703
0,686
0,711
0,684
0,683
0,586
0,563
0,563
0,268
0,276
0,270
gPositiveGo
0,942
0,946
0,940
0,953
0,960
0,936
0,945
0,951
0,938
0,941
0,945
0,936
0,029
0,027
0,032
medical
0,799
0,799
0,376
0,818
0,814
0,305
0,795
0,794
0,328
0,766
0,766
0,305
0,012
0,012
0,033
plantGo
0,768
0,779
0,725
0,809
0,820
0,738
0,776
0,787
0,725
0,752
0,763
0,710
0,045
0,043
0,051
scene
0,611
0,598
0,639
0,639
0,672
0,610
0,611
0,616
0,619
0,585
0,578
0,609
0,145
0,148
0,133
virusGo
0,904
0,894
0,900
0,948
0,952
0,898
0,912
0,909
0,888
0,883
0,881
0,865
0,043
0,044
0,048
yeast
0,563
0,571
0,695
0,548
0,552
0,522
0,525
0,531
0,566
0,406
0,405
0,454
0,267
0,267
0,217
yelp
0,751
0,761
0,695
0,723
0,732
0,629
0,709
0,719
0,632
0,644
0,655
0,566
0,170
0,165
0,206
Média
0,624
0,623
0,578
0,636
0,635
0,513
0,613
0,612
0,524
0,555
0,552
0,475
0,130
0,132
0,131
Precisão
Média
One
Error
Coverage
Margin
Loss
Ranking
Loss
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
Híbrida
Local
Global
birds
0,472
0,482
0,238
0,777
0,775
0,978
7,691
7,565
9,919
3,966
3,896
5,369
0,163
0,158
0,241
cal500
0,332
0,332
0,387
0,468
0,468
0,364
151,273
151,345
151,587
150,413
150,484
149,786
0,300
0,300
0,294
emotions
0,716
0,678
0,697
0,394
0,444
0,432
2,292
2,537
2,325
1,675
1,963
1,717
0,260
0,302
0,270
eukaPseAac
0,354
0,344
0,143
0,754
0,759
0,994
6,870
8,288
11,073
6,808
8,230
11,072
0,307
0,362
0,495
flags
0,804
0,791
0,794
0,207
0,248
0,207
3,937
3,921
3,901
2,223
2,291
2,253
0,224
0,233
0,233
gPositiveGo
0,967
0,969
0,960
0,054
0,050
0,060
0,104
0,106
0,148
0,096
0,098
0,141
0,032
0,033
0,046
medical
0,805
0,803
0,346
0,204
0,204
0,624
5,795
5,972
22,028
5,586
5,765
21,892
0,099
0,102
0,434
plantGo
0,820
0,830
0,784
0,232
0,222
0,272
1,311
1,246
1,664
1,245
1,180
1,605
0,105
0,098
0,136
scene
0,720
0,722
0,722
0,387
0,384
0,362
1,310
1,355
1,436
1,253
1,295
1,377
0,239
0,248
0,261
virusGo
0,942
0,936
0,924
0,082
0,097
0,088
0,451
0,460
0,604
0,242
0,261
0,396
0,040
0,044
0,065
yeast
0,619
0,619
0,707
0,474
0,472
0,356
7,664
8,202
6,420
6,607
7,139
4,788
0,286
0,284
0,207
yelp
0,894
0,902
0,840
0,203
0,184
0,283
1,274
1,259
1,471
0,548
0,521
0,766
0,105
0,100
0,153
Média
0,704
0,701
0,628
0,353
0,359
0,418
15,831
16,021
17,715
15,055
15,260
16,763
0,180
0,189
0,236

Hibrida Local Global
0.0
0.2
0.4
0.6
0.8
1.0
0.3866 0.3826
0.3381
(a) Subset Accuracy
0.0
0.2
0.4
0.6
0.8
1.0
0.5548 0.5515
0.4753
(b) Acurácia
0.0
0.2
0.4
0.6
0.8
1.0
0.1301 0.1323 0.1309
(c) Hamming Loss
0.0
0.2
0.4
0.6
0.8
1.0
0.6241 0.6229
0.5783
(d) Precisão
0.0
0.2
0.4
0.6
0.8
1.0
0.6356 0.6351
0.5132
(e) Revocação
0.0
0.2
0.4
0.6
0.8
1.0
0.6134 0.6118
0.5238
(f) F1
0.0
0.2
0.4
0.6
0.8
1.0
0.5762 0.5773
0.473
(g) Macro Precisão
0.0
0.2
0.4
0.6
0.8
1.0
0.6218 0.6193
0.5785
(h) Micro Precisão
0.0
0.2
0.4
0.6
0.8
1.0
0.5311 0.538
0.4168
(i) Macro Revocação
0.0
0.2
0.4
0.6
0.8
1.0
0.6516 0.6524
0.5142
(j) Micro Revocação
Figura 35 – Gráficos das Médias Parte 1

0.0
0.2
0.4
0.6
0.8
1.0
0.635 0.634
0.5351
(a) Micro F1
0.0
0.2
0.4
0.6
0.8
1.0
0.5155 0.5201
0.4078
(b) Macro F1
0.0
0.2
0.4
0.6
0.8
1.0
0.0214 0.0048
0.0368
(c) CLP
0.0
0.2
0.4
0.6
0.8
1.0
0.1374 0.1359
0.3836
(d) MLP
0.0
0.2
0.4
0.6
0.8
1.0
0.2011 0.2014
0.383
(e) WLP
0.0
0.2
0.4
0.6
0.8
1.0
0.7037 0.7006
0.6284
(f) Precisão Média
0.0
0.2
0.4
0.6
0.8
1.0
0.353 0.3589
0.4183
(g) One Error
partições
desempenho
0.0
0.2
0.4
0.6
0.8
1.0
0.18 0.1887
0.2362
(h) Ranking Loss
0.0
0.2
0.4
0.6
0.8
1.0
0.7772 0.7771
0.7177
(i) Micro AUC
0.0
0.2
0.4
0.6
0.8
1.0
0.4788 0.4793 0.4571
(j) AUC Macro

Tabela 23 – Resultados desempenho preditivo parte 3
Macro AUC Micro AUC
Híbrida Local Global Híbrida Local Global
birds 0,000 0,000 0,000 0,688 0,695 0,500
cal500 0,000 0,000 0,000 0,618 0,618 0,590
emotions 0,722 0,685 0,704 0,729 0,694 0,718
eukaPseAac 0,530 0,530 0,501 0,625 0,628 0,502
flags 0,603 0,611 0,597 0,732 0,723 0,728
gPositiveGo 0,935 0,945 0,943 0,965 0,971 0,957
medical 0,000 0,000 0,000 0,897 0,896 0,608
plantGo 0,843 0,854 0,707 0,883 0,889 0,850
scene 0,769 0,778 0,765 0,763 0,773 0,759
virusGo 0,000 0,000 0,000 0,939 0,944 0,926
yeast 0,572 0,571 0,547 0,680 0,681 0,709
yelp 0,772 0,778 0,721 0,807 0,813 0,765
Média 0,479 0,479 0,457 0,777 0,777 0,718
Tabela 24 – Média das 22 medidas de avaliação para os 12 conjuntos de dados
Média Medidas Híbrida Local Global
↑ Subset Accuracy 0,3866 0,3826 0,3381
↑ Acurácia 0,5548 0,5515 0,4753
↓ Hamming Loss 0,1301 0,1323 0,1309
↑ Precisão 0,6241 0,6229 0,5783
↑ Revocação 0,6356 0,6351 0,5132
↑ F1 0,6134 0,6118 0,5238
↑ Macro Precisão 0,5762 0,5773 0,4730
↑ Macro Revocação 0,5311 0,5380 0,4168
↑ Macro F1 0,5155 0,5201 0,4078
↑ Micro Precisão 0,6218 0,6193 0,5785
↑ Micro Revocação 0,6516 0,6524 0,5142
↑ Micro F1 0,6350 0,6340 0,5351
↓ CLP 0,0214 0,0048 0,0368
↓ MLP 0,1374 0,1359 0,3836
↓ WLP 0,2011 0,2014 0,3830
↑ Precisão Média 0,7037 0,7006 0,6284
↓ One Error 0,3530 0,3589 0,4183
↓ Ranking Loss 0,1800 0,1887 0,2362
↓ Coverage 15,8309 16,0214 17,7148
↓ Margin Loss 15,0552 15,2602 16,7634
↑ Macro AUC 0,4788 0,4793 0,4571
↑ Micro AUC 0,7772 0,7771 0,7177
0
5
10
15
20
15.0552 15.2602
16.7634
(a) Margin Loss
0
5
10
15
20
15.8309 16.0214
17.7148
(b) Coverage

Tabela 25 – Total conjuntos de dados por medidas de avaliação
Dataset H ≺ L H ≺ G L ≺ H L ≺ G G ≺ H G ≺ L
↑ Subset Accuracy 4 6 6 7 5 4
↑ Acurácia 7 10 5 8 2 4
↓ Hamming Loss 7 9 5 7 3 5
↑ Precisão 4 8 8 6 4 6
↑ Revocação 4 12 8 11 0 1
↑ F1 5 10 7 9 2 3
↑ Macro Precisão 7 7 5 7 5 5
↑ Macro Revocação 5 11 6 11 1 1
↑ Macro F1 9 2 9 3 2 2
↑ Micro Precisão 4 6 5 6 6 7
↑ Micro Revocação 4 12 5 12 0 1
↑ Micro F1 5 10 6 10 2 3
↓ CLP 0 4 1 5 1 0
↓ MLP 3 8 2 8 1 1
↓ WLP 5 6 1 6 1 2
↑ Precisão Média 5 9 7 7 3 5
↓ Coverage 8 10 4 9 2 3
↓ Margin Loss 9 10 3 8 2 4
↓ One Error 5 8 6 6 4 6
↑ Ranking Loss 7 10 5 9 2 3
↑ Macro AUC 3 7 5 7 1 1
↑ Micro AUC 4 11 8 9 1 3
Tabela 26 – Total medidas de avaliação por conjunto de dados
Dataset H ≺ L H ≺ G L ≺ H L ≺ G G ≺ H G ≺ L
birds 2 20 19 21 0 0
cal500 15 12 6 12 7 7
emotions 18 17 4 4 1 19
eukaPseAac 12 21 7 21 0 0
flags 15 14 8 10 6 12
gPositiveGo 4 14 11 15 8 6
medical 15 19 8 19 0 0
plantGo 3 20 14 20 0 0
scene 10 9 8 9 11 9
virusGo 12 15 8 15 3 3
yeast 7 7 9 7 14 14
yelp 1 18 15 18 0 0
Apesar desta particularidade (um classificador multirrótulo e vários classificadores
binários), as Predictive Clustering Trees induzidas nas partições híbridas obtiveram resultados
melhores do que quando induzidas nas partições locais convencionais em muitos casos, como já
demonstrado na subseção A.2.3. Assim, representar corretamente as correlações, mesmo que
para apenas um par de rótulos, foi o suficiente para melhorar o desempenho dos classificadores.
Observa-se também que a estratégia proposta tende a escolher partições híbridas se-
melhantes às locais e globais. Por exemplo, nos conjuntos de dados flags e gPositiveGo, as
partições híbridas escolhidas em cada fold foram ou a primeira gerada (que é mais parecida com
a global), ou a última (que é mais próxima da local). É possível notar este mesmo comportamento
em scene e virusGo, mas nestes dois conjuntos outras partições híbridas foram selecionadas
para alguns folds, neste caso, partições que não são próximas nem das locais nem das globais.
Isso sugere que, para um determinado conjunto de dados, se a partição local tiver melhor

Tabela
27
–
Partições
Escolhidas
para
cada
conjunto
de
dados
Birds
(19
rótulos)
Cal500
(174
rótulos)
Emotions
(6
rótulos)
EukaPseAac
(22
rótulos)
Fold
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
1
complete
0,098
18
0,173
complete
0,332
173
0,123
complete
0,342
2
0,616
single
0,034
21
0,047
2
complete
0,101
18
0,249
complete
0,330
173
0,108
complete
0,356
2
0,572
single
0,035
21
0,063
3
complete
0,097
18
0,263
average
0,336
173
0,091
complete
0,388
4
0,614
single
0,035
21
0,068
4
average
0,099
18
0,163
average
0,339
173
0,096
complete
0,369
2
0,634
single
0,033
21
0,059
5
single
0,093
18
0,117
average
0,337
173
0,103
complete
0,324
4
0,619
single
0,033
21
0,049
6
complete
0,094
18
0,194
complete
0,332
173
0,125
complete
0,325
3
0,653
single
0,032
21
0,050
7
complete
0,101
18
0,209
average
0,331
173
0,091
complete
0,329
4
0,640
single
0,033
21
0,071
8
complete
0,099
18
0,226
average
0,333
173
0,090
complete
0,329
4
0,649
single
0,033
21
0,058
9
average
0,087
18
0,217
average
0,339
173
0,098
complete
0,330
4
0,628
single
0,032
21
0,049
10
complete
0,097
18
0,191
average
0,336
173
0,095
complete
0,330
2
0,664
single
0,033
21
0,047
Flags
(7
rótulos)
gPostiveGo
(4
rótulos)
Medical
(45
rótulos)
PlantGo
(12
rótulos)
Fold
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
1
complete
0,347
6
0,609
complete
0,007
2
0,915
single
0,057
44
0,223
single
0,053
10
0,647
2
complete
0,352
2
0,661
average
0,007
2
0,883
single
0,055
44
0,210
single
0,047
4
0,571
3
complete
0,375
6
0,653
average
0,007
2
0,970
single
0,056
44
0,226
single
0,042
11
0,537
4
complete
0,359
2
0,784
complete
0,007
3
0,840
single
0,059
44
0,222
single
0,045
11
0,582
5
complete
0,321
6
0,661
complete
0,007
2
0,886
single
0,057
44
0,248
single
0,047
11
0,482
6
complete
0,332
2
0,628
single
0,005
2
0,833
single
0,056
44
0,228
single
0,044
11
0,596
7
complete
0,336
2
0,649
single
0,003
3
0,875
single
0,055
44
0,220
single
0,046
11
0,532
8
complete
0,343
6
0,633
single
0,004
3
0,827
single
0,053
44
0,203
single
0,047
11
0,635
9
complete
0,324
6
0,548
complete
0,005
3
0,821
single
0,055
44
0,191
single
0,043
11
0,582
10
complete
0,327
6
0,701
complete
0,007
2
0,727
single
0,055
44
0,219
single
0,047
11
0,583
Scene
(6
rótulos)
VirusGo
(6
rótulos)
Yeast
(14
rótulos)
Yelp
(5
rótulos)
Fold
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
HClust
CA
Partição
F1M
1
single
0,043
5
0,618
single
0,104
3
0,959
single
0,546
13
0,361
single
0,191
4
0,688
2
single
0,044
3
0,630
single
0,114
5
0,784
single
0,552
13
0,408
single
0,190
4
0,667
3
single
0,045
2
0,590
single
0,115
2
0,888
single
0,552
13
0,382
single
0,192
4
0,649
4
single
0,045
3
0,636
single
0,101
5
0,685
single
0,552
13
0,399
single
0,193
4
0,680
5
single
0,044
5
0,635
single
0,101
3
0,715
single
0,553
13
0,398
single
0,193
4
0,661
6
single
0,043
3
0,627
single
0,110
5
0,802
single
0,550
13
0,390
single
0,192
4
0,646
7
single
0,045
3
0,600
single
0,103
2
0,765
single
0,549
13
0,382
single
0,193
4
0,671
8
single
0,047
5
0,644
single
0,098
2
0,911
single
0,549
13
0,402
single
0,196
4
0,673
9
single
0,044
2
0,608
single
0,100
3
0,785
single
0,552
13
0,417
single
0,196
4
0,642
10
single
0,040
2
0,699
single
0,103
5
0,771
single
0,550
13
0,378
single
0,195
4
0,677

desempenho do que a global, a estratégia tende a escolher as partições híbridas semelhantes às
locais. Ao contrário, se a partição global obtiver melhor desempenho que a local, então a partição
híbrida encontrada tende a ser semelhante à global. Isso pode ser uma influência da medida de
similaridade que está sendo usada pela estratégia e também uma influência da Macro F1 usada
para avaliar as partições. Descoberto este comportamento, é possível modificar a forma com
que as partições estão sendo avaliadas, para não somente averiguar as influências mas também
verificar se outras estratégias se comportarão da mesma forma.
A.2.4 Diferença Estatística entre os Particionamentos
Para comparar o desempenho entre dois ou mais algoritmos diferentes, testes estatísticos
não paramétricos podem ser utilizados, como o teste de Friedman e o test post-hoc de Nemeny.
O teste de Friedman compara as classificações médias dos algoritmos, criando um ranking em
ordem decrescente, isto é, do melhor para o pior desempenho. Uma hipótese nula (H0) afirma
que todos os algoritmos são iguais, então o ranking desses algoritmos devem ser iguais, enquanto
que uma hipótese alternativa Ha afirma que os algoritmos são diferentes (DEMSAR, 2006).
O cálculo do ranking pode ser feito conforme Equação A.3 onde k é o número de
algoritmos testados em N conjunto de dados e, rN
k é a pontuação de desempenho do k-ésimo
algoritmo no N-ésimo conjunto de dados. A estatística de Friedman é calculada conforme a
Equação A.4 onde F é distribuído de acordo com χ2
(distribuição qui-quadrado) com k − 1
graus de liberdade (DERRAC et al., 2011).
RFN =
1
N
X
N
rN
k (A.3)
F =
12N
k(k − +)

X
k
R2
k −
k(k + 1)2
4
#
(A.4)
O teste de Nemenyi pode ser conduzido em pares de algoritmos para identificar se há
diferenças estatisticamente significantes entre dois algoritmos sendo comparados. O desempenho
de dois classificadores é significativamente diferente se as classificações médias correspondentes
diferirem pelo menos por uma diferença crítica, conforme Equação A.5 onde qα são os valores
críticos - para um nível de significância p - baseados na estatística studentized range (STUDENT,
1927) dividido por 2. Se essa diferença for maior ou igual que uma distância crítica, então
pode-se afirmar que o primeiro algoritmo é estatisticamente melhor do que o segundo. Mas se
for menor, então não se pode-se afirmar que o primeiro algoritmo é estatisticamente melhor que
o segundo (GARCíA; HERRERA, 2009; TRAWIńSKI et al., 2012).
CD = qα
r
k(k + 1)
6N
(A.5)

O p-value é o menor nível de significância que resulta na rejeição de H0, determinando
o nível de rejeição da hipótese e fornecendo informações sobre o quão significativo o resultado
é: quanto menor o p-value, mais forte é a rejeição de H0 (GARCíA; HERRERA, 2009;
DERRAC et al., 2011). O p-value pode ser obtido por meio da conversão - Equação A.6 -
do ranking calculado para cada teste. A probabilidade correspondente na tabela de distribuição
normal é encontrada a partir de z e depois comparada com um valor de α apropriado (DERRAC
et al., 2011; DEMSAR, 2006).
z =
(RN − Rk)
q
k(k−1)
6N
(A.6)
Para verificar a significância estatística dos resultados aqui apresentados, foi executado o
teste estatístico de Friedman seguido do teste posthoc de Nemenyi em todas as 22 medidas de
avaliação. A Tabela 28 apresenta os p-values para cada uma das 22 medidas de avaliação.
A Figura 38 apresenta os gráficos de distância crítica onde as linhas conectadas mostram
onde nenhuma diferença estatisticamente significante foi detectada. Como pode ser observado,
nenhuma diferença estatística foi detectada para as medidas de Acurácia, Hamming Loss,
Precisão e F1. Para a Revocação, não há diferença estatística apenas entre as partições híbridas e
as locais e, para a Subset Accuracy, não há diferenças entre partições híbridas e locais, e também
entre partições locais e globais.
Os gráficos também mostram que não há diferença estatística entre as partições nas
medidas Macro Precisão, Micro Precisão, Micro Revocação, Macro F1, CLP, MLP e WLP. Na
Macro Revocação, não há diferença entre as partições híbridas e as locais e para a Macro F1 há
diferença entre as partições global e híbrida, e entre as partições híbrida e local. As medidas
Precisão Média, One Error, Ranking Loss e Macro AUC também mostram que não há diferenças
estatísticas entre as três partições. Na medida Coverage há diferença entre as partições híbrida e
local, e entre as partições local e global.
A.2.5 Tempo de Execução
Uma desvantagem detectada na implementação deste experimento foi o tempo de execu-
ção do método. A Tabela 29 apresenta os tempos de execução para cada conjunto de dados e cada
partição que está no formato HH:mm:ss. Enquanto as partições globais foram executadas com o
menor tempo de execução em todos os 12 conjuntos de dados, as partições locais ficaram no
meio termo entre as partições globais e híbridas. Ainda assim, as partições locais executaram em
tempos de execução bem menores do que os das partições híbridas. Como pode ser observado
na Tabela 29, as partições híbridas foram as que mais consumiram tempo para realizar todo o
processo em todos os 12 conjuntos de dados.
O motivo do tempo de execução do HPML-J ter sido muito maior com relação ao

1 2 3
CD
Global
Hibrida
Local
(a) Macro AUC
1 2 3
CD
Global
Hibrida
Local
(b) Micro AUC
1 2 3
CD
Hibrida
Local
Global
(c) Hamming Loss
1 2 3
CD
Global
Hibrida
Local
(d) Precisão
1 2 3
CD
Global
Hibrida
Local
(e) Revocação
1 2 3
CD
Global
Hibrida
Local
(f) F1
1 2 3
CD
Global
Local
Hibrida
(g) Macro Precisão
1 2 3
CD
Hibrida
Local
Global
(h) Micro Precisão
1 2 3
CD
Global
Hibrida
Local
(i) Precisão Média
1 2 3
CD
Global
Hibrida
Local
(j) Macro Revocação
1 2 3
CD
Global
Hibrida
Local
(k) Micro Revocação
1 2 3
CD
Hibrida
Local
Global
(l) Margin Loss
1 2 3
CD
Global
Hibrida
Local
(m) Macro F1
1 2 3
CD
Global
Hibrida
Local
(n) Micro F1
1 2 3
CD
Hibrida
Local
Global
(o) Ranking Loss
1 2 3
CD
Local
Hibrida
Global
(p) CLP
1 2 3
CD
Hibrida
Local
Global
(q) MLP
1 2 3
CD
Hibrida
Local
Global
(r) WLP
1 2 3
CD
Hibrida
Local
Global
(s) Coverage
1 2 3
CD
Hibrida
Local
Global
(t) One Error
1 2 3
CD
Hibrida
Local
Global
(u) Subset Accuracy
1 2 3
CD
Global
Local
Hibrida
(v) Acurácia
Figura 38 – Gráficos de Distância Crítica

Tabela 28 – PValues
Measure FPValues
Acurácia 0,07552
Revocação 0,00043
Precisão 0,71653
CLP 0,03877
WLP 0,06123
MLP 0,00980
Coverage 0,02778
F1 0,04581
Hamming Loss 0,26360
Macro F1 0,00865
Micro F1 0,04581
Macro Precisão 0,71653
Micro Precisão 0,77880
Macro Revocação 0,00178
Micro Revocação 0,51342
Macro AUC 0,03020
Micro AUC 0,01685
Margin Loss 0,02778
One Error 0,75836
Precisão Média 0,36788
Ranking Loss 0,03877
Subset Accuracy 0,00230
Tabela 29 – Tempo de Execução em HH:mm:ss
Dataset Híbrida Local Global
birds 01:27:23 00:05:05 00:02:03
cal500 21:22:58 00:27:56 00:05:44
emotions 00:05:37 00:00:48 00:00:27
eukaPseAac 12:52:31 02:35:17 00:55:24
flags 00:06:02 00:00:43 00:00:18
gPositiveGo 00:03:04 00:00:48 00:00:16
medical 05:03:31 00:08:14 00:02:15
plantGo 02:05:16 00:13:48 00:03:37
scene 00:49:36 00:08:40 00:06:36
virusGo 00:04:08 00:00:38 00:00:15
yeast 02:36:27 00:14:00 00:07:19
yelp 01:48:44 00:28:19 00:08:37
Média 04:02:06 00:22:01 00:07:44
CLUS-Global e o CLUS-Local é devido ao uso de E/S do disco. O algoritmo CLUS só aceita
arquivos do tipo .arff como entrada, portanto, foi necessário criar primeiro as partições híbridas
em memória ram e depois salvá-las fisicamente na memória permanente. CLUS-Global usa o
arquivo do conjunto de treinamento .arff original inteiro como entrada, não havendo necessidade
do particionamento. Já o CLUS-Local separa cada um dos rótulos em um arquivo .arff individual.
Por exemplo, se um conjunto de dados possui 20 rótulos então 20 arquivos serão criados.
No caso das partições híbridas, a quantidade de arquivos geradas é muito maior que o
CLUS-Global e o CLUS-Local pois cada uma das partições híbridas encontrada é composta por
grupos de rótulos diferentes. No caso do conjunto de dados com 20 rótulos exemplificado, serão
construídas 18 partições híbridas, mas cada uma com uma quantidade de grupos diferentes. Criar
todos estes arquivos físicos para cada um dos grupos de rótulos naturalmente demanda muito
mais tempo.

A Tabela mostra claramente que, quanto maior o número de rótulos do espaço de rótulos,
mais tempo a estratégia precisa para realizar todo o processamento. Por exemplo, o conjunto
de dados cal500 possui 174 rótulos e levou 21 horas para executar. Já para o conjunto de dados
gPositiveGo, que possui apenas 4 rótulos, o tempo foi de apenas 3 minutos.
Para um próximo experimento, será priorizado o uso de algoritmos que não exijam tanto
de E/S. A biblioteca UTIML do R possui alguns algoritmos implementados que podem ser
usados sem a necessidade da criação de arquivos físicos. Outra possibilidade seria mudar o
CLUS para que não seja necessária a leitura/escrita de disco. Dessa forma, também será possível
comparar este experimento com os novos experimentos e obter novas informações, não somente a
respeito do tempo de execução, mas também sobre as influências e comportamentos das partições
híbridas.
A.3 Considerações Finais
Este apêndice apresentou três instanciações da estratégia aqui proposta assim como
os resultados obtidos para o primeiro experimento conduzido. Foram apresentadas análises
do desempenho preditivo, das partições híbridas encontradas e do tempo de execução. Os
resultados mostram-se promissores, sendo competitivos com as partições locais e superiores com
relação às partições globais para vários conjuntos de dados. A forma de avaliar as partições, e
o algoritmo base utilizado, podem ser reestruturados para obter melhor tempo de execução e
permitir uma nova análise do comportamento das partições híbridas. Concluindo, o experimento
conduzido mostrou que a estratégia inicialmente estruturada para esta pesquisa funciona e pode
ser melhorada.

118
Apêndice B
SUMÁRIO ABORDAGENS MULTIRRÓTULO
Tabela 30 – Resumo dos Métodos Independentes de Algoritmo
Método Vantagens Desvantagens Transformação
BR
Flexibilidade , simplici-
dade, escalabilidade e
completude
Modelagem de corre-
lações e desbalancea-
mento
Baseado em Rótulo
CC
Modelagem de Correla-
ções, paralelizável
Escalabilidade Baseado em BR
CLR
ções
Escalabilidade Baseado em Pares
LP
ções
Desbalanceamento, in-
completude, escalabili-
dade
Criação de Rótulos
PPT
ções e escalabilidade
Incompletude Baseado em LP
RPC
ções
Escalabilidade Baseado em Pares
Tabela 31 – Resumo dos Métodos Dependentes de Algoritmo
Método Partição
Modelagem Cor-
relações
Algoritmo
BP-MLL Global Sim RNAs
GACC Global Evolutivo
ML-C4.5 Global Árvores de Decisão
ML-kNN Local Não kNN
MMAC Global Associativo
MMP Local Não RNAs
MuLAM Global Evolutivo
PCT Global Árvores de Decisão
PMM Global Sim Probabilístico
Rank-
SVM
Global Sim SVM

Apêndice B. Sumário Abordagens Multirrótulo 119
Tabela 32 – Resumo dos EMLCs
Método Partição Modelagem Correlações Algoritmo
ECC Local Sim CC
EME Local Sim Evolutivo
EPS Local Sim PPT
RAkEL Local Sim LP
RF-PCT Local Sim PCT
Tabela 33 – Outros Métodos Independentes de Algoritmo
BR+ (INCORPORATING..., 2012)
MBR (2BR) (TSOUMAKAS et al., 2009)
SMBR (SCHAPIRE; SINGER, 1999)
InsDif (ZHANG; ZHOU, 2007b)
HOMER (TSOUMAKAS et al., 2008)
QWML (MENCíA et al., 2010)
Tabela 34 – Outros Métodos Dependentes de Algoritmo
Tipo do Método Acrônimo Referência
Árvores
de
Decisão
AdaBoost.MH (SCHAPIRE; SINGER, 2000)
AdaBoost.MR (COMITÉ et al., 2003)
LaCova (AL-OTAIBI et al., 2014)
ML-C4.5 (CLARE; KING, 2001)
ML-Tree (WU et al., 2015)
MA-DT (FREUND; MASON, 1999)
Associativo
MLAC (VELOSO et al., 2007)
RM (THABTAH; COWLING, 2007)
Evolutivo GEP-ML (ÁVILA et al., 2009)
Instâncias
BR-kNN (SPYROMITROS et al., 2008)
DML-kNN (YOUNES et al., 2008)
EML-kNN (YOUNES et al., 2010)
KNN-MLC (WANG et al., 2008)
LP-kNN (SPYROMITROS et al., 2008)
Máquinas
Vetor
Suporte
BandSVM (GODBOLE; SARAWAGI, 2004)
CR-SVM (JIANG et al., 2008)
ConfMat (GODBOLE; SARAWAGI, 2004)
Model-X (BOUTELL et al., 2004)

Continuação da tabela 34
Tipo do Método Acrônimo Referência
SSVMs (WANG et al., 2005)
SVM-HF (GODBOLE; SARAWAGI, 2004)
SVM-ML (XU, 2012)
Probabilístico
BCC (SUCAR et al., 2014)
TN-BCC (SUCAR et al., 2014)
PCC (DEMBCZYNSKI et al., 2010)
CML (GHAMRAWI; MCCALLUM, 2005)
CRBM (LI et al., 2015)
IRBL (CHENG; HüLLERMEIER, 2009)
MLNB (ZHANG et al., 2009)
PNN (CIARELLI; OLIVEIRA, 2009)
Redes
Neurais
Artificiais
CCA-ELM (VENKATESAN; ER, 2014)
FPSO-MLRBF (AGRAWAL et al., 2014)
FSVD-MLRBF (AGRAWAL et al., 2014)
I-BP-MLL (GRODZICKI et al., 2008)
MLPP (MENCíA et al., 2009)
ML-RBF (ZHANG, 2009)
Outros
ML-PC (PETROVSKIY, 2006)
MfoM (GAO et al., 2004)
IS-MLT (MA et al., 2009)
Deconvolution approach (STREICH; BUHMANN, 2008)
Tabela 35 – Outros EMLCs
Algoritmo Base Acrônimo Referência
Árvores
de
Decisão
RDT (FAN et al., 2003)
FDT (VATEEKUL; KUBAT, 2009)
ML-RDT (ZHANG et al., 2010)
TRE-MLC (NASIERDING et al., 2010)
BR EBR (READ et al., 2009)
BR/LP CDE (TENENBOIM-CHEKINA et al., 2010)

Continuação da tabela 35
Algoritmo Base Acrônimo Referência
Evolutivo EAGLET (MOYANO et al., 2020)
LP
ELP (TSOUMAKAS; VLAHAVAS, 2007)
RAkEL++ (ROKACH et al., 2014)
Pares CBMLC (HüLLERMEIER et al., 2008)

EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEMAS DE CLASSIFICAÇÃO MULTIRRÓTULO

Mais conteúdo relacionado

Mais de Elaine Cecília Gatto (20)

Último (20)

EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEMAS DE CLASSIFICAÇÃO MULTIRRÓTULO