Data Mining
2011/2012
Modelo de segmentação na
Indústria Elétrica
Índice
Lisboa, 9 de Dezembro de 2011
Hugo Rodrigues hugo.rodrigues@gmail.com
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 2
Introdução ..............................................................................................................41.
Criação de Projeto e Diagrama......................................................................................42.
Importação da ABT ...................................................................................................53.
Exploração das variáveis .............................................................................................64.
Filtros ....................................................................................................................75.
Valores omissos........................................................................................................76.
Criar/Transformar variáveis..........................................................................................97.
Desenvolvimento dos Clusters .................................................................................... 108.
Análise de Perfil dos Segmentos.................................................................................. 139.
Comparação de Perfis .............................................................................................. 1510.
Estratégias de Marketing........................................................................................... 1611.
Scorização............................................................................................................. 1712.
Anexos................................................................................................................. 2013.
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 3
Tabela de Imagens
Fig 1 – Criação de um diagrama ............................................................................. 4
Fig 2 – Criação do projeto inicial, criando uma libname ............................................. 5
Fig 3 – Propriedades da ABT disponibilizada ............................................................. 5
Fig 4 – Resultado da importação: variáveis existentes e respectivo papel .................... 5
Fig 5 – Variáveis rejeitadas.................................................................................... 6
Fig 6 – Resultado da ABT após o tratamento de variáveis .......................................... 6
Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc ...................... 6
Fig 8 – Resultado da nova variável Idade com anos ................................................. 7
Fig 9 – Filter Node ............................................................................................... 7
Fig 10 – Correção de Outliers ................................................................................ 7
Fig 11 – Stat Explore Node ................................................................................... 7
Fig 12 – Missing Values identificados nas variáveis .................................................. 8
Fig 13 –Missing Values Node ................................................................................. 8
Fig 14 – Metadata Node........................................................................................ 9
Fig 15 – Variáveis Tratadas................................................................................... 9
Fig 16 – Transform Variables Node ........................................................................ 9
Fig 17 – Métodos de transformação de variáveis...................................................... 9
Fig 18 – Variáveis alvo de transformação...............................................................10
Fig 19 – Variáveis transformadas..........................................................................10
Fig 20 – Cluster Node..........................................................................................10
Fig 21 – Variáveis não utilizadas para os clusters....................................................10
Fig 22 – Cluster Plot (não hierárquico) ..................................................................11
Fig 23 – Dimensão dos Clusters............................................................................11
Fig 24 – Valor das Variáveis.................................................................................11
Fig 25 – Análise dos Segmentos ...........................................................................12
Fig 26 – Análise do Consumo por Segmento...........................................................12
Fig 27 – Análise da Potência Contratada por Segmento ...........................................12
Fig 28 – Análise da Faturação por Segmento..........................................................13
Fig 29 – Análise da Classe de Conta por Segmento .................................................13
Fig 30 –Segment Profile Node ..............................................................................13
Fig 31 – Segment Size ........................................................................................14
Fig 32 – Variable Worth.......................................................................................14
Fig 33 – Segment Profile .....................................................................................15
Fig 34 –Score Node.............................................................................................17
Fig 35 –SAS Code...............................................................................................17
Fig 36 –Scorização de 2011 .................................................................................18
Fig 37 –Aplicação do modelo Scoring ....................................................................18
Fig 38 –Resultado do Scoring ...............................................................................19
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 4
Introdução1.
No âmbito da cadeira de Data Mining foi proposto a elaboração de um trabalho que é o
desenvolvimento de um modelo de segmentação na indústria eléctrica.
Para uma leitura simples decidimos modelar o trabalho segmentado, ou seja segmentar
os vários perfis a serem utilizados. Este tipo de operação são de um enorme relevo
porque isto permite aos gestores analisar a sua organização,
bem como analisar a nível segmentar dos vários produtos e
serviços, face a isso também compreender melhor os vários
serviços que os seus concorrentes diretos fornecem e até
mesmo possíveis concorrentes num futuro próximo.
Pelo conhecimento aplicado nas aulas, podemos alinhar o modelo de segmentação de
clientes em 5 fases:
 Análise dos vários perfis utilizados
 Planeamento do modelo analítico
 Implementação do modelo proposto
 Tabela ABT
o Caso de exclusão
 Oportunidades identificadas nos vários grupos
Criação de Projeto e Diagrama2.
Recorrendo a aplicação SAS Enterprise Miner Workstation 7.1 efetuámos a criação de
um novo projeto:
Fig 1 – Criação de um diagrama
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 5
Importação da ABT3.
Foi necessário adicionar uma opção para ignorar a validação das variáveis para
podermos carregar a ABT disponibilizada:
Fig 2 – Criação do projeto inicial, criando uma libname
Efetuámos o seguinte procedimento para importação da ABT RAW para o projeto:
Fig 3 – Propriedades da ABT disponibilizada
Conseguimos observar que os dados que vão ser utilizados têm como base uma tabela
com 17 variáveis e 288890 observações.
Esta ABT vai ser utilizada para efetuarmos a exploração de dados para o projeto.
Fig 4 – Resultado da importação: variáveis existentes e respectivo papel
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 6
Exploração das variáveis4.
Explorando os dados da ABT disponibilizada, concluímos que existem variáveis que não
são relevantes para a nossa análise.
As variáveis Ntelefone, Tel_alternativo e n_contrib não acrescentam valor que
diferencie a segmentação por ou todos terem, ou por não fazer sentido (ter ou não ter
telefone alternativo quando já têm Telefone).
Fig 5 – Variáveis rejeitadas
Também observamos que existem variáveis mal classificadas quanto ao seu papel e
level. Dessa forma efetuámos a seguinte correção:
Fig 6 – Resultado da ABT após o tratamento de variáveis
A variável data_nasci não é trabalhável da forma como consta na tabela, sendo
necessário efetuar uma transformação para o formato numérico, em anos.
Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc
Código:
data &EM_EXPORT_TRAIN;
set &EM_IMPORT_DATA;
Idade = Floor((date()-data_nasci)/365); /* Determina o número de dias até à data, converte para anos e
arredonda */
run;
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 7
Como resultado, passámos a ter o número de anos para cada observação:
Fig 8 – Resultado da nova variável Idade com anos
Filtros5.
Após a exploração das variáveis percebemos que nas variáveis intervalares existem
outliers. Para o tratamento desta situação utilizou-se um node do tipo Filter.
Fig 9 – Filter Node
Para tal efetuamos a aplicação de filtros sobre as observações efetuadas.
Fig 10 – Correção de Outliers
Valores omissos6.
Analisando os resultados, com um nó do tipo Stat Explore observamos que existem
missing values em ambos os tipos de variáveis.
Fig 11 – Stat Explore Node
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 8
Os resultados obtidos foram os seguintes:
Fig 12 – Missing Values identificados nas variáveis
Para efetuar o tratamento dos valores omissos, utilizamos um nó do tipo Impute.
Fig 13 –Missing Values Node
Para o tratamento, adotámos uma estratégia baseada nos seguintes parâmetros:
Propriedade Valor
Missing Cutoff 50 %
Default Input Method (para as variáveis de classe e intervalares) Tree
Default Character Value Desc
Default Number Value 0
Ao utilizarmos este método as variáveis género e distribuidora serão afetadas pois a
percentagem de missing values é superior ao valor de cuttoff que definimos. Para
ultrapassar esta questão definimos que devem ser consideradas e como método
utilizado a constant.
A variável género é por isso eliminada uma vez que não faz sentido a imputação de
omissos a Masc ou Fem.
De seguida efetuamos um filtro de variáveis para ficarmos com um novo conjunto de
trabalho.
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 9
Fig 14 – Metadata Node
O nosso modelo passa a considerar as seguintes variáveis:
Fig 15 – Variáveis Tratadas
Criar/Transformar variáveis7.
Verificamos que no conjunto obtido existem assimetrias que podem prejudicar os
resultados. Para tratamento destes casos foi necessário efetuarmos transformação.
Fig 16 – Transform Variables Node
Para selecionarmos o melhor método de transformação foi necessário efetuar várias
tentativas. Como parâmetros base definimos o seguinte:
Propriedade Valor
Method First N
Cutoff Value 1.04E-4
Após várias tentativas selecionámos para as variáveis os seguintes métodos de
transformação:
Fig 17 – Métodos de transformação de variáveis
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 10
As variáveis tinham a seguinte distribuição:
Fig 18 – Variáveis alvo de transformação
Com a transformação passámos a ter os seguintes resultados:
Fig 19 – Variáveis transformadas
Desenvolvimento dos Clusters8.
Para o desenvolvimento de clusters tivemos uma primeira abordagem baseada em
cluster node:
Fig 20 – Cluster Node
Iniciámos a análise com um cluster hierárquico. Neste caso a definição dos métodos e
quantidade é automática. Após uma afinação concluímos que deveríamos reduzir o
valor máximo do critério de seleção. O resultado automático resultou em 9 clusters. Os
resultados não foram interessantes pois observamos demasiados clusters, e todos eles
muito próximos (distância curta).
Realizámos por isso um cluster do tipo Não Hierárquico. Neste caso demos um valor
inicial de 5 clusters. Verificámos que existem frequências muito díspares entre os
clusters considerados. Efetuamos uma revisão nas variáveis a considerar para a análise.
Por serem muito semelhantes, descartamos as seguintes:
Fig 21 – Variáveis não utilizadas para os clusters
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 11
Reduzimos para 4 uma vez que 2 deles estavam muito próximos. O resultado final foi o
seguinte:
Fig 22 – Cluster Plot (não hierárquico)
Dimensão dos Clusters
Fig 23 – Dimensão dos Clusters
Valor de importância das Variáveis
Fig 24 – Valor das Variáveis
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 12
Análise dos Segmentos
Fig 25 – Análise dos Segmentos
O segmento 3 é o que possui maior valor médio de consumo mensal, seguindo-se dos
segmentos 2, 4 e 1:
Fig 26 – Análise do Consumo por Segmento
O segmento 2 é o que possui maior nível de potência contratada associada ao contrato,
seguindo-se dos segmentos 1, 4 e 3:
Fig 27 – Análise da Potência Contratada por Segmento
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 13
O segmento 2 é o que possui maior volume de faturação, seguindo-se dos segmentos
3, 4 e 1:
Fig 28 – Análise da Faturação por Segmento
O segmento 4 é o que possui maior volume de clientes residenciais, seguindo-se dos
segmentos 3, 2 e 1:
Fig 29 – Análise da Classe de Conta por Segmento
Análise de Perfil dos Segmentos9.
Através do nó Segment Profile podemos verificar os dados segmentados e analisados
pelo cluster, e identificar os factores de diferenciação em relação à população.
Através dos relatórios fornecidos por este nó (comparação dos segmentos com a
população) podemos analisar e delinear posteriormente estratégias de marketing de
acordo com objectivos da empresa.
Fig 30 –Segment Profile Node
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 14
Os 4 segmentos resultantes do modelo têm o seguinte peso e distribuição:
Fig 31 – Segment Size
Verifica-se que o segmento 3 é o mais observado com 40% do valor total da população
analisada.
Segue-se o segmento 4 com 31,96%, o segmento 2 com 18,65% e por ultimo o
segmento 1 com 9,31%.
As variáveis possuem o seguinte peso por segmento:
Fig 32 – Variable Worth
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 15
Observamos os seguintes perfis de segmento:
Fig 33 – Segment Profile
Comparação de Perfis10.
Para avaliarmos se os segmentos obtidos fazem sentido, poderemos verificar pela
análise da figura Fig 33 – Segment Profile, que os gráficos representantes da população
(a vermelho para as variáveis intervalares) não coincidem com os gráficos do segmento
(a azul para as variáveis intervalares).
Comparando o resultado dos clusters com os perfis dos segmentos, podemos concluir
que é possível adotarmos a segmentação para a segmentação dos clientes com base no
segmento.
Segmento/Variáveis Faturação Consumo
Potência
Contratada
Residencial
Segmento 1 * * *** *
Segmento 2 **** *** **** **
Segmento 3 *** **** * ***
Segmento 4 ** ** ** ****
Analisando os resultados anteriores poderemos concluir o seguinte:
 O segmento 1 poderá ser composto por Empresas, uma vez que se identifica ter
um baixo volume residencial e uma potência contratada elevada (Industria,
comércio,etc.);
 O segmento 2 retrata clientes que poderão ser empresas ou residenciais, cuja
faturação é elevada, resultante de uma atividade intensa dado o consumo
elevado;
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 16
 O segmento 3 identifica clientes residenciais, com um nível de potencia
contratada baixo, mas que consomem muito, resultando no segundo segmento
mais importante ao nível da faturação;
 O segmento 4 inclui os clientes residenciais que têm um consumo e potência
contratada baixos e como tal um nível de faturação baixo.
Estratégias de Marketing11.
Para uma abordagem comercial, tendo como objetivo criar um conjunto de
oportunidades sobre os segmentos encontrados.
Ao nível estratégico, as ações recomendadas visam reter os clientes mais valiosos para
a empresa, ou seja, os que representam maior faturação. Promover a comunicação da
empresa para com os clientes empresariais e aumentar o nível de envolvimento dos
pequenos clientes.
Num nível mais tático, propomos a seguinte estrutura comercial para cada camada:
 Platina (Segmento 2): Segmento de topo que representa clientes sobre os quais
deverão ser promovidas ações comerciais de comunicação (contato permanente
e pró-ativo), de forma a garantir a exclusividade na utilização da rede elétrica
atual e consequentemente garantir a manutenção dos clientes.
 Ouro (Segmento 3): Este segmento representa os clientes que consomem muita
energia. Recomendamos que sejam efetuadas ações de marketing que
demonstrem o valor obtido pela utilização da rede de energia atual, e como a
eficácia do serviço é elemento diferenciador para a qualidade de vida.
Recomendamos também a criação de cartões de cliente que proporcionem
vantagens pessoais em serviços diversos.
 Prata (Segmento 4): Este segmento representa os pequenos consumidores
residenciais. Recomendamos que sejam efetuadas campanhas de marketing
através de uma abordagem ao nível das redes sociais, por ser mais direta, tendo
uma implicação na cultura do público-alvo mais abrangente dentro deste
segmento.
 Bronze (Segmento 1): Este segmento representa clientes empresariais que
consomem muita energia. Recomendamos que sejam efetuadas campanhas de
marketing personalizadas, dado representar um subconjunto reduzido da
população, que demonstrem a qualidade do serviço atual e os benefícios obtidos
pela utilização da rede atual. Propomos também que seja demonstrada
flexibilidade na prestação de serviços complementares por forma a alargar o
portefólio de serviços contratados.
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 17
Acreditamos que com estas recomendações será possível inverter ou minimizar a perda
de fidelização dos clientes atuais face à possível liberalização do mercado elétrico.
Scorização12.
Para automatizar o processo de análise de clientes, com base no modelo validado, que
normalmente ocorre com regularidade, realiza-se a ação de scorização. No modelo
analítico utiliza-se o nó de score:
Fig 34 –Score Node
O Score permite ter acesso a todo o código subjacente à criação do modelo, que poderá
ser aplicado sobre uma nova ABT com dados atualizados à data.
Foram produzidos dois modelos de código. Um representa o código total – SAS Code. O
outro modelo representa uma versão reduzida e otimizada.
Fig 35 –SAS Code
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 18
Neste trabalho, para simular a scorização do mês de janeiro de 2011, associamos ao
node de scoring uma nova instância da ABT ABT_FACTUR_ENERGIA com o Role de
“Score”.
Fig 36 –Scorização de 2011
Na aplicação do modelo foram consideradas as seguinte variáveis:
Fig 37 –Aplicação do modelo Scoring
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 19
O resultado desta scorização foi:
Fig 38 –Resultado do Scoring
Anexos13.

Mais conteúdo relacionado

PDF
Como montar um Mapa de Empatia
PPT
TRABALHO DE SEGMENTAÇÃO
PPS
Segmentação de mercado final
PDF
Exemplos de Personas conforme o Estilo de Vida
PPSX
Analysis Services
PDF
Geração de Energia (Thiago Cesar-EPE) OPENDAY PUC-RIO
PDF
Algoritmo para segmentar clientes bancários - Churn.pdf
PDF
Tsg web mining
Como montar um Mapa de Empatia
TRABALHO DE SEGMENTAÇÃO
Segmentação de mercado final
Exemplos de Personas conforme o Estilo de Vida
Analysis Services
Geração de Energia (Thiago Cesar-EPE) OPENDAY PUC-RIO
Algoritmo para segmentar clientes bancários - Churn.pdf
Tsg web mining

Mais de Hugo Rodrigues (15)

PPTX
Evolution security controls towards Cloud Services
PDF
Paper: Crypto Currency Mining
PPTX
Blockchain and Bitcoin
PDF
Alibaba goes India
PDF
RISE AND FALL ON CORPORATE UNCERTAINTY
PPTX
Apresentação Produtividade e Desempenho
PDF
Relatório candidatura QREN
PDF
TAEG: nominal - real- efectiva
PDF
Investigação Operacional // How to raise up to 80% gross margin based in effi...
PDF
Projeto de Controlo de Silo para Parqueamento
PPTX
Rede Social // Social Network for Kids #Concept
DOCX
SOA - Service Oriented Architecture
DOCX
Análise Organizacional Zack
PDF
Soluções Sector Financeiro
PPTX
Service Oriented Architecture
Evolution security controls towards Cloud Services
Paper: Crypto Currency Mining
Blockchain and Bitcoin
Alibaba goes India
RISE AND FALL ON CORPORATE UNCERTAINTY
Apresentação Produtividade e Desempenho
Relatório candidatura QREN
TAEG: nominal - real- efectiva
Investigação Operacional // How to raise up to 80% gross margin based in effi...
Projeto de Controlo de Silo para Parqueamento
Rede Social // Social Network for Kids #Concept
SOA - Service Oriented Architecture
Análise Organizacional Zack
Soluções Sector Financeiro
Service Oriented Architecture
Anúncio

Último (20)

PPTX
Código da cultura empresarial - para estudo
PPT
EMPREENDEDORIMO_Aula_Introdutoria_Gestão_e_Negócios
PPT
Fundamentos_da_Logistica_Apresentacao_Interativa.ppt
PPTX
Apresentação Institucional Granflor Gestão.pptx
PPTX
704075038-Aula-06-POT-Comunicacao-Organizacional.pptx
PPTX
Apresentacao_Negocios_Produtividade.pptx
PDF
Senso de Urgência: O Diferencial que Impulsiona Resultados
PPTX
Modais de Transporte Caractersticas, Vantagens e Desvantagens.pptx (1).pptx
PPTX
687487775-Aula-01-Trabalho-Em-Equipe-e-Comunicacao.pptx
PDF
GESTAO DE COMPETENCIAS CONCEITO ABORDAGENS
PPT
Aula_comercio_exteriorjjjjjjjjjjjjjjjjjj
PDF
DIREITO INTRODUTORIO CONCEITO E CIVIL DE FORMA CLARA
PPTX
Armazenagem Princpios, Organizao e Mtodos.pptx.pptx
PDF
Apresentação Administração pública_aula 1.pdf
PDF
SARA.pdfFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
PPTX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXMAQUIAVEL.pptx
PPTX
O-Perfil-do-Recepcionista-de-Eventos.pptx
PDF
Agostinho--de--Hipona.................................
PPTX
FELICIDADERELACIONAMENTOINTERPESSOAL.pptx
PPTX
PIESC - programa de integração escola comunidade
Código da cultura empresarial - para estudo
EMPREENDEDORIMO_Aula_Introdutoria_Gestão_e_Negócios
Fundamentos_da_Logistica_Apresentacao_Interativa.ppt
Apresentação Institucional Granflor Gestão.pptx
704075038-Aula-06-POT-Comunicacao-Organizacional.pptx
Apresentacao_Negocios_Produtividade.pptx
Senso de Urgência: O Diferencial que Impulsiona Resultados
Modais de Transporte Caractersticas, Vantagens e Desvantagens.pptx (1).pptx
687487775-Aula-01-Trabalho-Em-Equipe-e-Comunicacao.pptx
GESTAO DE COMPETENCIAS CONCEITO ABORDAGENS
Aula_comercio_exteriorjjjjjjjjjjjjjjjjjj
DIREITO INTRODUTORIO CONCEITO E CIVIL DE FORMA CLARA
Armazenagem Princpios, Organizao e Mtodos.pptx.pptx
Apresentação Administração pública_aula 1.pdf
SARA.pdfFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXMAQUIAVEL.pptx
O-Perfil-do-Recepcionista-de-Eventos.pptx
Agostinho--de--Hipona.................................
FELICIDADERELACIONAMENTOINTERPESSOAL.pptx
PIESC - programa de integração escola comunidade
Anúncio

Modelo de segmentação de Clientes

  • 1. Data Mining 2011/2012 Modelo de segmentação na Indústria Elétrica Índice Lisboa, 9 de Dezembro de 2011 Hugo Rodrigues hugo.rodrigues@gmail.com
  • 2. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 2 Introdução ..............................................................................................................41. Criação de Projeto e Diagrama......................................................................................42. Importação da ABT ...................................................................................................53. Exploração das variáveis .............................................................................................64. Filtros ....................................................................................................................75. Valores omissos........................................................................................................76. Criar/Transformar variáveis..........................................................................................97. Desenvolvimento dos Clusters .................................................................................... 108. Análise de Perfil dos Segmentos.................................................................................. 139. Comparação de Perfis .............................................................................................. 1510. Estratégias de Marketing........................................................................................... 1611. Scorização............................................................................................................. 1712. Anexos................................................................................................................. 2013.
  • 3. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 3 Tabela de Imagens Fig 1 – Criação de um diagrama ............................................................................. 4 Fig 2 – Criação do projeto inicial, criando uma libname ............................................. 5 Fig 3 – Propriedades da ABT disponibilizada ............................................................. 5 Fig 4 – Resultado da importação: variáveis existentes e respectivo papel .................... 5 Fig 5 – Variáveis rejeitadas.................................................................................... 6 Fig 6 – Resultado da ABT após o tratamento de variáveis .......................................... 6 Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc ...................... 6 Fig 8 – Resultado da nova variável Idade com anos ................................................. 7 Fig 9 – Filter Node ............................................................................................... 7 Fig 10 – Correção de Outliers ................................................................................ 7 Fig 11 – Stat Explore Node ................................................................................... 7 Fig 12 – Missing Values identificados nas variáveis .................................................. 8 Fig 13 –Missing Values Node ................................................................................. 8 Fig 14 – Metadata Node........................................................................................ 9 Fig 15 – Variáveis Tratadas................................................................................... 9 Fig 16 – Transform Variables Node ........................................................................ 9 Fig 17 – Métodos de transformação de variáveis...................................................... 9 Fig 18 – Variáveis alvo de transformação...............................................................10 Fig 19 – Variáveis transformadas..........................................................................10 Fig 20 – Cluster Node..........................................................................................10 Fig 21 – Variáveis não utilizadas para os clusters....................................................10 Fig 22 – Cluster Plot (não hierárquico) ..................................................................11 Fig 23 – Dimensão dos Clusters............................................................................11 Fig 24 – Valor das Variáveis.................................................................................11 Fig 25 – Análise dos Segmentos ...........................................................................12 Fig 26 – Análise do Consumo por Segmento...........................................................12 Fig 27 – Análise da Potência Contratada por Segmento ...........................................12 Fig 28 – Análise da Faturação por Segmento..........................................................13 Fig 29 – Análise da Classe de Conta por Segmento .................................................13 Fig 30 –Segment Profile Node ..............................................................................13 Fig 31 – Segment Size ........................................................................................14 Fig 32 – Variable Worth.......................................................................................14 Fig 33 – Segment Profile .....................................................................................15 Fig 34 –Score Node.............................................................................................17 Fig 35 –SAS Code...............................................................................................17 Fig 36 –Scorização de 2011 .................................................................................18 Fig 37 –Aplicação do modelo Scoring ....................................................................18 Fig 38 –Resultado do Scoring ...............................................................................19
  • 4. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 4 Introdução1. No âmbito da cadeira de Data Mining foi proposto a elaboração de um trabalho que é o desenvolvimento de um modelo de segmentação na indústria eléctrica. Para uma leitura simples decidimos modelar o trabalho segmentado, ou seja segmentar os vários perfis a serem utilizados. Este tipo de operação são de um enorme relevo porque isto permite aos gestores analisar a sua organização, bem como analisar a nível segmentar dos vários produtos e serviços, face a isso também compreender melhor os vários serviços que os seus concorrentes diretos fornecem e até mesmo possíveis concorrentes num futuro próximo. Pelo conhecimento aplicado nas aulas, podemos alinhar o modelo de segmentação de clientes em 5 fases:  Análise dos vários perfis utilizados  Planeamento do modelo analítico  Implementação do modelo proposto  Tabela ABT o Caso de exclusão  Oportunidades identificadas nos vários grupos Criação de Projeto e Diagrama2. Recorrendo a aplicação SAS Enterprise Miner Workstation 7.1 efetuámos a criação de um novo projeto: Fig 1 – Criação de um diagrama
  • 5. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 5 Importação da ABT3. Foi necessário adicionar uma opção para ignorar a validação das variáveis para podermos carregar a ABT disponibilizada: Fig 2 – Criação do projeto inicial, criando uma libname Efetuámos o seguinte procedimento para importação da ABT RAW para o projeto: Fig 3 – Propriedades da ABT disponibilizada Conseguimos observar que os dados que vão ser utilizados têm como base uma tabela com 17 variáveis e 288890 observações. Esta ABT vai ser utilizada para efetuarmos a exploração de dados para o projeto. Fig 4 – Resultado da importação: variáveis existentes e respectivo papel
  • 6. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 6 Exploração das variáveis4. Explorando os dados da ABT disponibilizada, concluímos que existem variáveis que não são relevantes para a nossa análise. As variáveis Ntelefone, Tel_alternativo e n_contrib não acrescentam valor que diferencie a segmentação por ou todos terem, ou por não fazer sentido (ter ou não ter telefone alternativo quando já têm Telefone). Fig 5 – Variáveis rejeitadas Também observamos que existem variáveis mal classificadas quanto ao seu papel e level. Dessa forma efetuámos a seguinte correção: Fig 6 – Resultado da ABT após o tratamento de variáveis A variável data_nasci não é trabalhável da forma como consta na tabela, sendo necessário efetuar uma transformação para o formato numérico, em anos. Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc Código: data &EM_EXPORT_TRAIN; set &EM_IMPORT_DATA; Idade = Floor((date()-data_nasci)/365); /* Determina o número de dias até à data, converte para anos e arredonda */ run;
  • 7. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 7 Como resultado, passámos a ter o número de anos para cada observação: Fig 8 – Resultado da nova variável Idade com anos Filtros5. Após a exploração das variáveis percebemos que nas variáveis intervalares existem outliers. Para o tratamento desta situação utilizou-se um node do tipo Filter. Fig 9 – Filter Node Para tal efetuamos a aplicação de filtros sobre as observações efetuadas. Fig 10 – Correção de Outliers Valores omissos6. Analisando os resultados, com um nó do tipo Stat Explore observamos que existem missing values em ambos os tipos de variáveis. Fig 11 – Stat Explore Node
  • 8. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 8 Os resultados obtidos foram os seguintes: Fig 12 – Missing Values identificados nas variáveis Para efetuar o tratamento dos valores omissos, utilizamos um nó do tipo Impute. Fig 13 –Missing Values Node Para o tratamento, adotámos uma estratégia baseada nos seguintes parâmetros: Propriedade Valor Missing Cutoff 50 % Default Input Method (para as variáveis de classe e intervalares) Tree Default Character Value Desc Default Number Value 0 Ao utilizarmos este método as variáveis género e distribuidora serão afetadas pois a percentagem de missing values é superior ao valor de cuttoff que definimos. Para ultrapassar esta questão definimos que devem ser consideradas e como método utilizado a constant. A variável género é por isso eliminada uma vez que não faz sentido a imputação de omissos a Masc ou Fem. De seguida efetuamos um filtro de variáveis para ficarmos com um novo conjunto de trabalho.
  • 9. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 9 Fig 14 – Metadata Node O nosso modelo passa a considerar as seguintes variáveis: Fig 15 – Variáveis Tratadas Criar/Transformar variáveis7. Verificamos que no conjunto obtido existem assimetrias que podem prejudicar os resultados. Para tratamento destes casos foi necessário efetuarmos transformação. Fig 16 – Transform Variables Node Para selecionarmos o melhor método de transformação foi necessário efetuar várias tentativas. Como parâmetros base definimos o seguinte: Propriedade Valor Method First N Cutoff Value 1.04E-4 Após várias tentativas selecionámos para as variáveis os seguintes métodos de transformação: Fig 17 – Métodos de transformação de variáveis
  • 10. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 10 As variáveis tinham a seguinte distribuição: Fig 18 – Variáveis alvo de transformação Com a transformação passámos a ter os seguintes resultados: Fig 19 – Variáveis transformadas Desenvolvimento dos Clusters8. Para o desenvolvimento de clusters tivemos uma primeira abordagem baseada em cluster node: Fig 20 – Cluster Node Iniciámos a análise com um cluster hierárquico. Neste caso a definição dos métodos e quantidade é automática. Após uma afinação concluímos que deveríamos reduzir o valor máximo do critério de seleção. O resultado automático resultou em 9 clusters. Os resultados não foram interessantes pois observamos demasiados clusters, e todos eles muito próximos (distância curta). Realizámos por isso um cluster do tipo Não Hierárquico. Neste caso demos um valor inicial de 5 clusters. Verificámos que existem frequências muito díspares entre os clusters considerados. Efetuamos uma revisão nas variáveis a considerar para a análise. Por serem muito semelhantes, descartamos as seguintes: Fig 21 – Variáveis não utilizadas para os clusters
  • 11. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 11 Reduzimos para 4 uma vez que 2 deles estavam muito próximos. O resultado final foi o seguinte: Fig 22 – Cluster Plot (não hierárquico) Dimensão dos Clusters Fig 23 – Dimensão dos Clusters Valor de importância das Variáveis Fig 24 – Valor das Variáveis
  • 12. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 12 Análise dos Segmentos Fig 25 – Análise dos Segmentos O segmento 3 é o que possui maior valor médio de consumo mensal, seguindo-se dos segmentos 2, 4 e 1: Fig 26 – Análise do Consumo por Segmento O segmento 2 é o que possui maior nível de potência contratada associada ao contrato, seguindo-se dos segmentos 1, 4 e 3: Fig 27 – Análise da Potência Contratada por Segmento
  • 13. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 13 O segmento 2 é o que possui maior volume de faturação, seguindo-se dos segmentos 3, 4 e 1: Fig 28 – Análise da Faturação por Segmento O segmento 4 é o que possui maior volume de clientes residenciais, seguindo-se dos segmentos 3, 2 e 1: Fig 29 – Análise da Classe de Conta por Segmento Análise de Perfil dos Segmentos9. Através do nó Segment Profile podemos verificar os dados segmentados e analisados pelo cluster, e identificar os factores de diferenciação em relação à população. Através dos relatórios fornecidos por este nó (comparação dos segmentos com a população) podemos analisar e delinear posteriormente estratégias de marketing de acordo com objectivos da empresa. Fig 30 –Segment Profile Node
  • 14. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 14 Os 4 segmentos resultantes do modelo têm o seguinte peso e distribuição: Fig 31 – Segment Size Verifica-se que o segmento 3 é o mais observado com 40% do valor total da população analisada. Segue-se o segmento 4 com 31,96%, o segmento 2 com 18,65% e por ultimo o segmento 1 com 9,31%. As variáveis possuem o seguinte peso por segmento: Fig 32 – Variable Worth
  • 15. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 15 Observamos os seguintes perfis de segmento: Fig 33 – Segment Profile Comparação de Perfis10. Para avaliarmos se os segmentos obtidos fazem sentido, poderemos verificar pela análise da figura Fig 33 – Segment Profile, que os gráficos representantes da população (a vermelho para as variáveis intervalares) não coincidem com os gráficos do segmento (a azul para as variáveis intervalares). Comparando o resultado dos clusters com os perfis dos segmentos, podemos concluir que é possível adotarmos a segmentação para a segmentação dos clientes com base no segmento. Segmento/Variáveis Faturação Consumo Potência Contratada Residencial Segmento 1 * * *** * Segmento 2 **** *** **** ** Segmento 3 *** **** * *** Segmento 4 ** ** ** **** Analisando os resultados anteriores poderemos concluir o seguinte:  O segmento 1 poderá ser composto por Empresas, uma vez que se identifica ter um baixo volume residencial e uma potência contratada elevada (Industria, comércio,etc.);  O segmento 2 retrata clientes que poderão ser empresas ou residenciais, cuja faturação é elevada, resultante de uma atividade intensa dado o consumo elevado;
  • 16. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 16  O segmento 3 identifica clientes residenciais, com um nível de potencia contratada baixo, mas que consomem muito, resultando no segundo segmento mais importante ao nível da faturação;  O segmento 4 inclui os clientes residenciais que têm um consumo e potência contratada baixos e como tal um nível de faturação baixo. Estratégias de Marketing11. Para uma abordagem comercial, tendo como objetivo criar um conjunto de oportunidades sobre os segmentos encontrados. Ao nível estratégico, as ações recomendadas visam reter os clientes mais valiosos para a empresa, ou seja, os que representam maior faturação. Promover a comunicação da empresa para com os clientes empresariais e aumentar o nível de envolvimento dos pequenos clientes. Num nível mais tático, propomos a seguinte estrutura comercial para cada camada:  Platina (Segmento 2): Segmento de topo que representa clientes sobre os quais deverão ser promovidas ações comerciais de comunicação (contato permanente e pró-ativo), de forma a garantir a exclusividade na utilização da rede elétrica atual e consequentemente garantir a manutenção dos clientes.  Ouro (Segmento 3): Este segmento representa os clientes que consomem muita energia. Recomendamos que sejam efetuadas ações de marketing que demonstrem o valor obtido pela utilização da rede de energia atual, e como a eficácia do serviço é elemento diferenciador para a qualidade de vida. Recomendamos também a criação de cartões de cliente que proporcionem vantagens pessoais em serviços diversos.  Prata (Segmento 4): Este segmento representa os pequenos consumidores residenciais. Recomendamos que sejam efetuadas campanhas de marketing através de uma abordagem ao nível das redes sociais, por ser mais direta, tendo uma implicação na cultura do público-alvo mais abrangente dentro deste segmento.  Bronze (Segmento 1): Este segmento representa clientes empresariais que consomem muita energia. Recomendamos que sejam efetuadas campanhas de marketing personalizadas, dado representar um subconjunto reduzido da população, que demonstrem a qualidade do serviço atual e os benefícios obtidos pela utilização da rede atual. Propomos também que seja demonstrada flexibilidade na prestação de serviços complementares por forma a alargar o portefólio de serviços contratados.
  • 17. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 17 Acreditamos que com estas recomendações será possível inverter ou minimizar a perda de fidelização dos clientes atuais face à possível liberalização do mercado elétrico. Scorização12. Para automatizar o processo de análise de clientes, com base no modelo validado, que normalmente ocorre com regularidade, realiza-se a ação de scorização. No modelo analítico utiliza-se o nó de score: Fig 34 –Score Node O Score permite ter acesso a todo o código subjacente à criação do modelo, que poderá ser aplicado sobre uma nova ABT com dados atualizados à data. Foram produzidos dois modelos de código. Um representa o código total – SAS Code. O outro modelo representa uma versão reduzida e otimizada. Fig 35 –SAS Code
  • 18. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 18 Neste trabalho, para simular a scorização do mês de janeiro de 2011, associamos ao node de scoring uma nova instância da ABT ABT_FACTUR_ENERGIA com o Role de “Score”. Fig 36 –Scorização de 2011 Na aplicação do modelo foram consideradas as seguinte variáveis: Fig 37 –Aplicação do modelo Scoring
  • 19. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 19 O resultado desta scorização foi: Fig 38 –Resultado do Scoring