BIG DATA /ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
Vivaldo José Breternitz (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) –
vjbreternitz@mackenzie.br
Fábio Silva Lopes (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) –
fabio.lopes@mackenzie.br
Leandro Augusto da Silva ((Universidade Presbiteriana Mackenzie, São Paulo, Brasil) –
leandroaugusto.silva@mackenzie.br
ABSTRACT
Proper analysis of the large volume of data that has been generated by conventional
computer systems, social networks, sensors etc., tends to become critical for organizations,
for this analysis can generate key information for their success. There is, however , a great
lack of qualified professionals to do this analysis . This paper presents an overview of Big
Data and Analytics , which make up the environment in which these professionals will
work. It also discusses issues pertaining the necessary skills to these professionals and
their training and management. The main objective of this work is to provide information
to those who deal with the subject.
KEYWORDS
Analytics, Big Data , Data Scientists , Education , Management
BIG DATA/ANALYTICS: FORMAÇÃO E GESTÃO DE CIENTISTAS DE DADOS
RESUMO
A análise adequada do grande volume de dados que vem sendo gerado por sistemas
convencionais de computador, redes sociais, sensores etc., tende a se tornar fator crítico
para as organizações, pois essa análise pode gerar informações fundamentais para o
sucesso das mesmas. Há, no entanto, uma grande carência de profissionais habilitados a
fazer essa análise. Este trabalho discute aspectos ligados às habilidades necessárias a esses
profissionais e à sua formação e gestão, após apresentar uma visão geral de Big Data e
Analytics, que compõem o ambiente onde esses profissionais atuarão. O principal objetivo
do trabalho é fornecer subsídios àqueles envolvidos com o assunto.
PALAVRAS-CHAVE
Analytics, Big Data, Cientistas de Dados, Formação, Gestão.
1. INTRODUÇÃO
A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A
velocidade e o volume com que estes vêm sendo criados são alucinantes: Smolan e Erwitt
(2012) afirmam que até 2003 a humanidade havia gerado 5 Exabytes, e que em 2012,
bastavam dois dias para que esse volume fosse criado. Este cenário tem levado as empresas
a coletar, processar e analisar os dados, tornando estes um recurso valioso, fundamental
para a tomada de decisão e para melhorar ou viabilizar novos produtos, serviços e
processos – tudo isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje
utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso
intensivo dos dados.
O periódico The Economist entrevistou executivos de grandes organizações em sua
primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles
acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram
que a disponibilidade de dados havia alterado completamente a forma como suas
organizações planejavam e operavam. Mas a pesquisa apurou também que as organizações
ainda tinham dificuldades com alguns aspectos básicos relacionados ao uso dos dados,
dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o
mercado vem chamando Cientistas de Dados (CD).
2. OBJETIVO, ASPECTOS METODOLÓGICOS E ESTRUTURA
Dado o cenário apresentado, elaborou-se este ensaio que tem como objetivo discutir
aspectos relativos à formação e gestão dos Cientistas de Dados (Data Scientists),
profissionais que talvez sejam os mais importantes no processo de transformação de dados
em informação, pretendendo fornecer subsídios àqueles envolvidos com o assunto.
O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e
acadêmica dos autores, que no meio universitário vem se dedicando à pesquisa do assunto
e à formação de pessoal que atuará na área; do ponto de vista estrutural inicia-se com a
apresentação de visões gerais de Big Data e Analytics, seguida pela discussão de temas
ligados aos Cientistas de Dados (CD), em especial as características pessoais desejadas,
sua formação e gestão (contratação, ambiente de trabalho e retenção).
3. BIG DATA – UMA VISÃO GERAL
Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro
aspectos: volume, velocidade, variedade e veracidade.
O aspecto “volume” refere-se ao fato de que a quantidade de dados cresce de maneira
exponencial, provenientes não só de sistemas convencionais, mas também de fontes como
Facebook, Tweeter, You Tube, eletrônica embarcada, telefones celulares e assemelhados,
sensores de diversos tipos, etc.
McAfee e Brynjolfsson (2012) apresentam outro aspecto relevante de Big Data: a
velocidade em que dados podem ser capturados e processados, praticamente em tempo
real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação
relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT
Media Lab: o grupo capturou dados relativos à localização de celulares de forma a
descobrir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo
americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de
compras de Natal nos Estados Unidos); isso permitiu estimar com precisão as vendas
dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas
comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso
e outros similares são relatados também por Clifford (2012).
No que se refere a “variedade”, cabe registrar que além de fontes diferentes, os dados
coletados têm frequentemente, características diferentes das dos processados pelos
sistemas convencionais, não sendo estruturados e referindo-se a coisas como som, imagem,
movimento, temperatura, umidade etc. (Lohr, 2012). Davenport (2014) chama a atenção
para este aspecto, ao dizer que apesar de o volume de dados ser o que mais chama a
atenção, a falta de estrutura é o aspecto mais difícil para o trabalho na área. O aspecto
“veracidade” está relacionado ao fato de que os dados não são “perfeitos”, no sentido de
que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e
também os custos para torná-los bons.
As ferramentas computacionais vêm acompanhando o crescimento dessa velocidade e do
volume de dados, em termos de capacidade de armazenamento e processamento.
Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing)
e em técnicas de inteligência artificial.
No modelo convencional de armazenamento de dados e tomada de decisão, a organização
filtra dados dos seus vários sistemas e após criar um data warehouse, constrói consultas
(queries) a fim de subsidiar a tomada de decisões. Na prática faz-se garimpagem (mining)
em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas,
dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI).
Com stream computing, esse mining ocorre em tempo praticamente real, com uma corrente
contínua de dados (streaming data) submetida a um conjunto de queries ou algoritmos
analíticos. Essa dinâmica pode ser considerada um novo paradigma.
Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de
linguagem natural (natural language processing), reconhecimento de padrões (pattern
recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos
grandes volumes de dados conhecimento para auxiliar a gestão (Lohr, 2012).
De forma a complementar as ferramentas computacionais, novos paradigmas de
gerenciadores de bancos de dados NoSQL (Not Only SQL), representados por ferramentas
como o Cassandra e Mongo-DB vem sendo apresentados como soluções que tratam
imensos volumes de dados com muita velocidade. Essas ferramentas, geralmente são
inseridas em frameworks como o Hadoop, que orquestram o gerenciamento distribuído de
arquivos, bem como o processamento paralelo, de modo a garantir a performance das
aplicações implementadas. Soluções conjugando hardware e software na modalidade in
memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA
respectivamente, já estão disponíveis, permitindo ainda maior aceleração do
processamento dessas operações.
4. ANALYTICS – UMA VISÃO GERAL
Na atualidade, as organizações estão explorando os grandes volumes de dados na tentativa
de obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca
do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes
ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência
artificial e outras - a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA
(Big Data Analytics).
As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde,
segurança, manufatura etc. McAfee e Brynjolfsson (2012) conduziram estudos que
levaram à conclusão de que as empresas que efetivamente utilizam BDA são 5% mais
produtivas e 6% mais lucrativas que seus competidores – esses números são um poderoso
argumento em prol da utilização dessa abordagem.
Davis (2014) reitera a importância do tema ao dizer que BDA não é apenas marketing hype
ou apenas uma nova versão ou novo nome para os métodos de análise estatística e
manipulação de dados já existentes; BDA é algo realmente novo, que dá vida à antiga ideia
de que a computação vai mudar definitivamente o mundo dos negócios.
Russom (2011) relaciona alguns dos motivos pelos quais as organizações vêm utilizando
BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter
mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar
oportunidades de negócios, automatizar decisões em processos em tempo real, identificar
previamente clientes que possam deixar de sê-lo (churn), detectar fraudes etc.
Apesar de o ferramental necessário estar sendo desenvolvido, é preciso lembrar que a
utilização de BDA impõe às organizações a aplicação de novas habilidades e formas de
atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no
estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de
BDA.
Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de
profissional; já se pode identificar distintas funções ligadas ao tema, como os Arquitetos de
Dados, que definirão como os dados provenientes de diversas fontes serão organizados;
Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas;
Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando
adequadamente e outros; note-se que para diversas funções não há ainda sequer um nome
em português.
Reitera-se que este ensaio trata apenas de aspectos relacionados ao Cientista de Dados,
profissional de extrema importância, talvez o mais importante, quando se utiliza BDA.
5. O CIENTISTA DE DADOS
Ainda não há uma definição precisa do que seja um Cientista de Dados, de seu papel nas
organizações e dos conhecimentos e habilidades necessárias à função (Chatfield,
Shlemoon, Redublado & Rahman, 2014); estes autores identificaram 24 definições do que
seja um CD. No âmbito deste trabalho, poderíamos citar as definições de Davenport e Patil
(2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade
para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto
trabalhava para o LinkedIn).
Já Granville (2014), diz que um CD é um generalista que conhece negócios, estatística,
ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o
mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e
outras.
Harris, Shetterley, Alter & Schnell (2013:3), são contundentes ao afirmarem que CD é
“the most common term for the often PhD-level experts who operate at the
frontier of analytics, where data sets are so large and the data so messy that
lessskilled analysts using traditional tools cannot make sense of them. But
they are more precisely described as data engineer-scientist-manager-
teachers.”
Passa-se agora a discutir os temas apontados no objetivo deste trabalho, em especial as
características pessoais desejadas em um CD, sua formação e gestão (contratação,
ambiente de trabalho e retenção).
5.1. Características pessoais desejadas
Diversos autores vêm discutindo as características pessoais que são desejáveis em CDs,
destacando-se entre elas curiosidade e criatividade (Van Der Aalst, 2014; Davenport &
Patil, 2012). Iniciativa e capacidade de enfrentar dificuldades são outras qualidades
importantes, conforme Davenport e Patil (2012), que relatam como Jonathan Goldman, a
despeito do desinteresse e até oposição de superiores e colegas, conseguiu implementar no
LinkedIn a funcionalidade “People You May Know“, que trouxe à empresa milhões de
novas page views. Os mesmos autores realçam a importância da capacidade de
comunicação com os demais envolvidos no processo, quer os técnicos, quer os usuários.
Loukides (2010) menciona também a paciência, a capacidade de desenvolver soluções de
forma incremental, gerando produtos inicialmente pequenos, mas que podem evoluir para
soluções mais amplas. Cita também a capacidade de “pensar fora da caixa”, partindo de
situações do tipo “temos uma grande quantidade de dados, o que podemos fazer com
eles?”.
5.2. A formação dos CD
As pessoas que atualmente estão atuando como CD tem formação acadêmica muito
diversificada, embora possuam, quase sempre, cursos de pós-graduação stricto sensu nas
chamadas hard sciences (física, matemática e similares). Mamonov, Misra & Jain (2014),
no entanto, sugerem que graduados em Sistemas de Informação podem receber com
relativa facilidade a formação complementar para atuarem como CD, por ser esse curso
composto por disciplinas desse tipo complementadas por disciplinas voltadas à área de
negócios.
Miller (2014) recomenda que as empresas e a academia devam trabalhar conjuntamente de
forma a que se possa formar pessoal adequadamente. Estão surgindo no exterior alguns
cursos de pós-graduação voltados especificamente para a formação de profissionais para
BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu,
envolvendo a Universidade Presbiteriana Mackenzie, a Escola Superior de Propaganda e
Marketing e a Fundação Getúlio Vargas, entre poucas outras.
Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA
em cursos de graduação, inclusive criando laboratórios onde estudantes possam analisar
dados de interesse de suas áreas específicas – laboratórios como esses são importantes para
que os alunos desenvolvam um conhecimento prático acerca domo aplicar BDA no
ambiente empresarial. Miller (2014) lembra que manter o foco apenas em funções
específicas não atenderá as necessidades do futuro próximo, propondo que o conhecimento
desses temas deve ser dado em todos os currículos, independentemente da formação
pretendida, pois sem conhecimentos, mesmo que elementares, acerca de BDA, os alunos
não estarão preparados para os desafios do atual ambiente empresarial – esses
conhecimentos elementares devem ser, no mínimo, os necessários à comunicação eficaz
com os CD.
Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos,
movimento que também começa a se observar em suas subsidiárias no Brasil; como
exemplo, podem-se citar iniciativas da IBM em parceria com a Universidade Presbiteriana
Mackenzie, envolvendo treinamento de professores e alunos, criação de cursos etc.
Brooks (2012) diz que um grande desafio para as universidades está no fato de que o tema
exige T-shaped professionals, ou profissionais com o perfil “T”, ou ainda, o “especialista
generalista”. No caso, a barra horizontal do “T” é a formação básica, que deve ser
suficientemente ampla para que o profissional desenvolva as habilidades para influenciar
pessoas, atuar em equipes multidisciplinares, vislumbrar oportunidades e encontrar
soluções para problemas complexos. Já a barra vertical, caracteriza o aprofundamento nos
temas ligados a BDA propriamente dito.
Tudo isso, implica na necessidade de criar novos currículos e adaptar os já existentes; o
pessoal envolvido deverá conhecer de maneira profunda matemática, estatística,
aprendizado de máquina (machine learning), análise preditiva, ciência da computação,
programação, ética, legislação, privacidade, comunicação (visualização), segurança de
dados, banco de dados, mineração de dados etc. (Miller, 2014).
Além de criação e adaptação de currículos, outras medidas podem ser tomadas, como a
criação de descrições formalizadas dos diversos cargos envolvidos, certificações,
comunidades de profissionais, parcerias empresas/universidades/governos, grupos de
trabalho para tratar de pontos críticos como segurança da informação e privacidade, por
exemplo, e grupos de pesquisa vinculados a universidades.
Miller (2014) reitera que o desafio não envolve apenas Tecnologia da Informação. Funções
tão díspares como marketing, finanças, desenvolvimento de produtos, manufatura e
operações serão afetadas pelo fenômeno BDA – e que as empresas devem estar preparadas
para isso também em termos de recursos humanos.
5.3. A gestão dos CD
Davenport e Patil (2012), afirmam que a falta de pessoal, especialmente CD, está se
tornando uma séria restrição em alguns setores, a ponto de algumas empresas estarem
criando times especializados no recrutamento desses profissionais. Dizem também que,
dada a escassez desses profissionais, o desafio é aprender a identificar talentos, atrai-los e
torna-los produtivos. Nenhuma dessas tarefas pode ser executada de forma similar à que é
executada para as funções convencionais, pois além de praticamente não existirem cursos
que formem CD, ainda há pouco consenso sobre onde seu trabalho “se encaixa” na
organização e como seu desempenho pode ser medido.
Há a percepção de que a disputa por talentos deve ser intensa e que como os profissionais
da área tendem a se interessar muito por desafios, os responsáveis pelo recrutamento e
seleção devem estar preparados para “vender” suas oportunidades aos candidatos
enfatizando este aspecto. Evidentemente, salários e outros benefícios tem seu peso, e na
medida em que os profissionais são raros, estes tendem a serem maiores.
Em situações como essas, as organizações podem ser levadas a considerar a hipótese de
contratar os serviços desses profissionais através de grandes empresas de consultoria, como
ocorre com frequência quando se trata do uso de novas tecnologias. Davenport e Patil
(2012) são céticos quanto aos resultados dessa abordagem, mencionando que profissionais
com esse perfil não desejam simplesmente dizer a executivos o que suas análises
recomendam que estes devam fazer, mas sim pretendem “construir coisas”, deixando suas
marcas no ambiente em que atuam; quanto mais se espera deles, mais eles tendem a se
motivar, e é importante desafia-los, cobra-los.
Pelas suas características pessoais, CD não se dão bem trabalhando em estruturas onde o
controle é muito rígido – cronogramas, fronteiras departamentais, job descriptions,
horários, dress code e outras regras tendem a incomodar esses profissionais; eles precisam
de liberdade para experimentar e explorar, para adicionar valor, inovar, para o que é
necessário um relacionamento mais próximo com executivos responsáveis por produtos e
serviços que podem ser impactados pelos resultados de BDA do que com aqueles
responsáveis pelas “caixas” do organograma.
Dadas essas dificuldades para as empresas, pode-se perguntar se não seria interessante para
estas simplesmente aguardar até que o número de CD no mercado se torne maior, o que
deve ocorrer pelo interesse das universidades em formar pessoal, e ai contratar pessoal
mais facilmente e a menor custo – cabe lembrar que esse fenômeno já ocorreu com
diversas especialidades, como por exemplo, desenvolvedores na área de sistemas.
Esse raciocínio não parece válido, na medida em que a demanda por CD não parece estar
diminuindo, e provavelmente um equilíbrio oferta/demanda acontecerá apenas em prazo
longo; esperar pode dar aos concorrentes vantagens que não poderão ser tiradas. Nesse
sentido, Mamonov et al (2014) reportam que em junho de 2014, apenas na cidade de Nova
Iorque, existiam cerca 5.800 ofertas de emprego na área, pagando salários anuais entre
US$ 60 mil e US$ 140 mil, além de cerca de 1.100 ofertas com salários acima de US$ 140
mil anuais
6. CONSIDERAÇÕES FINAIS
Na medida em que o volume de dados disponíveis e a capacidade para armazena-los e
analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de
forma similar. Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações
são administradas: novas formas de planejar e tomar decisões estão surgindo, a competição
deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em
maior número; dentre esses, os Cientistas de Dados são os mais importantes e de formação
mais difícil.
Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de
tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e
instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para
atender às novas demandas e cursos destinados a preparar os recursos humanos
necessários, quer no sentido negativo, quando empresas e instituições de ensino menos
comprometidos com a qualidade lançam produtos e serviços de qualidade questionável,
proliferando serviços de consultoria, educação e treinamento, literatura e também software
quase sempre inadequados para uma abordagem adequada do assunto.
Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o
joio do trigo, o que em alguns lugares, como no Brasil, infelizmente não acontece com a
desejável frequência.
REFERÊNCIAS
Brooks, K. (2012). Career success starts with a “T”. Psychology Today, Recuperado de
http://www.psychologytoday.com/blog/career-transitions/201204/career-success-starts-t
em 19.12.2014.
Chatfield, A. T., Shlemoon, V. N., Redublado, W. & Rahman, F. (2014). Data Scientists as
a Game Changers in Big Data Environments. Proceedings of the 25th Australasian
Conference on Information Systems (ACIS), Auckland, New Zealand.
Clifford, S. (2012) Retail Frenzy: Prices on the Web Change Hourly. The New York Times,
edição de 30.11.2012. Recuperado de
http://www.nytimes.com/2012/12/01/business/online-retailers-rush-to-adjust-prices-in-
real-time.html?pagewanted=all&_r=0 em 19.12.2014.
Davenport, T. H. (2014). Big Data at Work: Dispelling the Myths, Uncovering the
Opportunities. Boston: Harvard Business School Publishing.
Davenport, T. H. & Patil, D. J. (2012). Data Scientist: the Sexiest Job of the 21st Century.
Harvard Business Review, edição de outubro de 2012, pp. 70-76.
Davis, C. K. (2014) Beyond Data and Analysis. Communications of the ACM, 57 (6), pp.
39-41.
EIU – Economist Intelligence Unit (2011). Big data - Harnessing a Game-Changing Asset.
Londres: The Economist, author. Recuperado de
http://www.sas.com/resources/asset/SAS_BigData_final.pdf em 19.12.2014.
Granville, V. (2014). Developing Analytic Talent. Becoming a Data Scientist. Indianapolis:
John Wiley.
Harris, J.G., Shetterley, N., Alter, A.E. & Schnell, K. (2013) The Team Solution to the
Data Scientist Shortage. Accenture Institute for High Performance. Recuperado de
http://www.accenture.com/SiteCollectionDocuments/PDF/Accenture-Team-Solution-Data-
Scientist-Shortage.pdf, acessado em 12.12.2014.
Lohr, S. (2012). The Age of Big Data. The New York Times, edição de 11.02.2012.
Recuperado de www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-
world.html?_r=1&scp=1&sq=Big%20Data&st=cse em 09.05.2014.
Loukides, M. (2010) What Is Data Science? O’Reilly, edição digital (Kindle) disponível
em http://www.amazon.com/What-Data-Science-Mike-Loukides-
ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1-
1&keywords=data+scientist, baixado em 12.05.2014.
Mamonov, S., Misra, R. & Jain, R. (2014). Business Analytics in Practice and in
Education: A Competency-based Perspective. Proceedings of the Information Systems
Educators Conference, 31, Baltimore, USA.
McAfee, A., Brynjolfsson, E. (2012). Big Data: The Management Revolution”. Harvard
Business Review , edição de outubro de 2012, pp. 60–68.
Miller, S. (2014). Collaborative Approaches Needed to Close the Big Data Skills Gap.
Journal of Organization Design, 3 (1), 26-30.
Russom, P. (2011). Big Data Analytics. Renton: TDWI.
Smolan, R. & Erwitt, J. (2012). The human face of Big Data. Sausalito: Against All Odds
Productions.
Van Der Aalst, W. M. P. 2014. Data Scientist: The Engineer of the Future. Proceedings of
the I-ESA Conferences, 7, 13-26.
Zikopoulos, P., De Roos, D., Parasuraman, K., Deutsch, T., Giles, J. & Corrigan, D.
(2012). Harness the power of Big Data- The IBM Big Data Platform. Emeryville:
McGraw-Hill Osborne Media.

Mais conteúdo relacionado

DOCX
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
DOCX
BIG DATA: BRINGING NEW OPPORTUNITIES AND CHALLENGES
PPTX
Palestra do BI ao Big Data
PPTX
Big Data e NoSQL
PDF
Apostila sobre Big Data
DOCX
Tendências de inovações para a tecnologia de big data
DOC
Exploracao datawarehouse mineracao_de_dados_ou_olap
PDF
Formação em ciência de dados
BIG DATA E COMPUTATIONAL SOCIAL SCIENCE: GRANDES RISCOS
BIG DATA: BRINGING NEW OPPORTUNITIES AND CHALLENGES
Palestra do BI ao Big Data
Big Data e NoSQL
Apostila sobre Big Data
Tendências de inovações para a tecnologia de big data
Exploracao datawarehouse mineracao_de_dados_ou_olap
Formação em ciência de dados

Mais procurados (20)

PDF
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
PDF
Futurecom - Big data
PPTX
Big Data e Seus Impactos
PPT
Tomada decisão
PDF
Data mining: Auxiliando as empresas na tomada de decisão
PPT
Big Data
PPT
Data warehouse & Data mining
PPT
Data mining
PDF
Palestra garimpando com pentaho data mining latinoware
PPT
Data mining
PPTX
OS CINCO Vs DO BIG DATA
PDF
Mineração de dados
PDF
Apresentação data mining
PDF
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
PPTX
PDF
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
PPT
Big data Instituto Big Data Brasil Crie
PDF
Mineração Livre de Dados
PDF
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
PPT
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
Futurecom - Big data
Big Data e Seus Impactos
Tomada decisão
Data mining: Auxiliando as empresas na tomada de decisão
Big Data
Data warehouse & Data mining
Data mining
Palestra garimpando com pentaho data mining latinoware
Data mining
OS CINCO Vs DO BIG DATA
Mineração de dados
Apresentação data mining
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Big data Instituto Big Data Brasil Crie
Mineração Livre de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Anúncio

Semelhante a BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS (20)

PDF
BigData-Hekima-Ebook.pdf
PPTX
Será Mesmo o Cientista de Dados a Profissão do Futuro?
PPTX
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
PPTX
Impactos de Big Data na Gestão de TI
PDF
Big Data: Desafios e Oportunidades
PPTX
Big data
DOC
Artigo big data_final
PPTX
Mundo big data
PDF
Data Science - Big Data - Data Driven
PDF
Como utilizar Bid Data na minha empres
PDF
Palestra Big Data SCTI
PDF
Big Data e Data Science - Tecnologia e Mercado
ODP
Big Data - Conceitos Básicos
PPTX
BIG DATA NA SOCIEDADE, DATA CENTER E DATA MINING
PDF
Será Mesmo o Cientista de Dados a Profissão do Futuro?
PPT
Big Data - uma visão executiva
PPTX
Webinar Carreiras de Dados
PDF
Texto - 3º cictec - Big Data.docx
PDF
15.03.26 big data os novos desafios para o profissional da informação
PPTX
BIG data
BigData-Hekima-Ebook.pdf
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Impactos de Big Data na Gestão de TI
Big Data: Desafios e Oportunidades
Big data
Artigo big data_final
Mundo big data
Data Science - Big Data - Data Driven
Como utilizar Bid Data na minha empres
Palestra Big Data SCTI
Big Data e Data Science - Tecnologia e Mercado
Big Data - Conceitos Básicos
BIG DATA NA SOCIEDADE, DATA CENTER E DATA MINING
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Big Data - uma visão executiva
Webinar Carreiras de Dados
Texto - 3º cictec - Big Data.docx
15.03.26 big data os novos desafios para o profissional da informação
BIG data
Anúncio

Mais de Vivaldo Jose Breternitz (18)

PPTX
Tecnologia da Informação moldando nossas vidas
PPT
A brief history of computers
PDF
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
PDF
Arquitetura Web Desacoplada - FCI/Mackenzie
PPTX
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
PPT
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
PDF
Palestra 'Algumas tendências em TI' para estudantes de Matemática
PDF
Vasp uma pequena história
PPT
Ibm social business 20140310
PPT
Como criar uma sandbox no jazznet (3)
PDF
Companhia Paulista de Estradas de Ferro - alguns fatos
PDF
Palestra IBM-Mack Zvm linux
PDF
Palestra mack ibm system z overview
PPT
O Sistema Financeiro Nacional - uma visão geral
PPTX
Desenvolvimento de games apresentação calouros
PPT
Redes sociais recepção calouros
PPT
A brief history of computers
Tecnologia da Informação moldando nossas vidas
A brief history of computers
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
Arquitetura Web Desacoplada - FCI/Mackenzie
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
Palestra 'Algumas tendências em TI' para estudantes de Matemática
Vasp uma pequena história
Ibm social business 20140310
Como criar uma sandbox no jazznet (3)
Companhia Paulista de Estradas de Ferro - alguns fatos
Palestra IBM-Mack Zvm linux
Palestra mack ibm system z overview
O Sistema Financeiro Nacional - uma visão geral
Desenvolvimento de games apresentação calouros
Redes sociais recepção calouros
A brief history of computers

Último (17)

PDF
SEMINÁRIO DE IHC - A interface Homem-Máquina
PDF
Banco de Dados 2atualização de Banco de d
PPT
Aula de Engenharia de Software principais caracteristicas
PDF
Jira Software projetos completos com scrum
PDF
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
PDF
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
PPTX
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
PPTX
ccursoammaiacursoammaiacursoammaia123456
PDF
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
PDF
Processos no SAP Extended Warehouse Management, EWM100 Col26
PPT
Conceitos básicos de Redes Neurais Artificiais
PDF
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
PPTX
Tipos de servidor em redes de computador.pptx
PPTX
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
PDF
Processamento da remessa no SAP ERP, SCM610 Col15
PPTX
Analise Estatica de Compiladores para criar uma nova LP
PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
SEMINÁRIO DE IHC - A interface Homem-Máquina
Banco de Dados 2atualização de Banco de d
Aula de Engenharia de Software principais caracteristicas
Jira Software projetos completos com scrum
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
ccursoammaiacursoammaiacursoammaia123456
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
Processos no SAP Extended Warehouse Management, EWM100 Col26
Conceitos básicos de Redes Neurais Artificiais
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
Tipos de servidor em redes de computador.pptx
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
Processamento da remessa no SAP ERP, SCM610 Col15
Analise Estatica de Compiladores para criar uma nova LP
Proposta de Implementação de uma Rede de Computador Cabeada.pptx

BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS

  • 1. BIG DATA /ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS Vivaldo José Breternitz (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – vjbreternitz@mackenzie.br Fábio Silva Lopes (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – fabio.lopes@mackenzie.br Leandro Augusto da Silva ((Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – leandroaugusto.silva@mackenzie.br ABSTRACT Proper analysis of the large volume of data that has been generated by conventional computer systems, social networks, sensors etc., tends to become critical for organizations, for this analysis can generate key information for their success. There is, however , a great lack of qualified professionals to do this analysis . This paper presents an overview of Big Data and Analytics , which make up the environment in which these professionals will work. It also discusses issues pertaining the necessary skills to these professionals and their training and management. The main objective of this work is to provide information to those who deal with the subject. KEYWORDS Analytics, Big Data , Data Scientists , Education , Management BIG DATA/ANALYTICS: FORMAÇÃO E GESTÃO DE CIENTISTAS DE DADOS RESUMO A análise adequada do grande volume de dados que vem sendo gerado por sistemas convencionais de computador, redes sociais, sensores etc., tende a se tornar fator crítico para as organizações, pois essa análise pode gerar informações fundamentais para o sucesso das mesmas. Há, no entanto, uma grande carência de profissionais habilitados a fazer essa análise. Este trabalho discute aspectos ligados às habilidades necessárias a esses profissionais e à sua formação e gestão, após apresentar uma visão geral de Big Data e Analytics, que compõem o ambiente onde esses profissionais atuarão. O principal objetivo do trabalho é fornecer subsídios àqueles envolvidos com o assunto. PALAVRAS-CHAVE Analytics, Big Data, Cientistas de Dados, Formação, Gestão.
  • 2. 1. INTRODUÇÃO A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A velocidade e o volume com que estes vêm sendo criados são alucinantes: Smolan e Erwitt (2012) afirmam que até 2003 a humanidade havia gerado 5 Exabytes, e que em 2012, bastavam dois dias para que esse volume fosse criado. Este cenário tem levado as empresas a coletar, processar e analisar os dados, tornando estes um recurso valioso, fundamental para a tomada de decisão e para melhorar ou viabilizar novos produtos, serviços e processos – tudo isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso intensivo dos dados. O periódico The Economist entrevistou executivos de grandes organizações em sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram que a disponibilidade de dados havia alterado completamente a forma como suas organizações planejavam e operavam. Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com alguns aspectos básicos relacionados ao uso dos dados, dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o mercado vem chamando Cientistas de Dados (CD). 2. OBJETIVO, ASPECTOS METODOLÓGICOS E ESTRUTURA Dado o cenário apresentado, elaborou-se este ensaio que tem como objetivo discutir aspectos relativos à formação e gestão dos Cientistas de Dados (Data Scientists), profissionais que talvez sejam os mais importantes no processo de transformação de dados em informação, pretendendo fornecer subsídios àqueles envolvidos com o assunto. O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e acadêmica dos autores, que no meio universitário vem se dedicando à pesquisa do assunto e à formação de pessoal que atuará na área; do ponto de vista estrutural inicia-se com a apresentação de visões gerais de Big Data e Analytics, seguida pela discussão de temas ligados aos Cientistas de Dados (CD), em especial as características pessoais desejadas, sua formação e gestão (contratação, ambiente de trabalho e retenção). 3. BIG DATA – UMA VISÃO GERAL Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro aspectos: volume, velocidade, variedade e veracidade. O aspecto “volume” refere-se ao fato de que a quantidade de dados cresce de maneira exponencial, provenientes não só de sistemas convencionais, mas também de fontes como Facebook, Tweeter, You Tube, eletrônica embarcada, telefones celulares e assemelhados, sensores de diversos tipos, etc. McAfee e Brynjolfsson (2012) apresentam outro aspecto relevante de Big Data: a velocidade em que dados podem ser capturados e processados, praticamente em tempo real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab: o grupo capturou dados relativos à localização de celulares de forma a descobrir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas
  • 3. comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros similares são relatados também por Clifford (2012). No que se refere a “variedade”, cabe registrar que além de fontes diferentes, os dados coletados têm frequentemente, características diferentes das dos processados pelos sistemas convencionais, não sendo estruturados e referindo-se a coisas como som, imagem, movimento, temperatura, umidade etc. (Lohr, 2012). Davenport (2014) chama a atenção para este aspecto, ao dizer que apesar de o volume de dados ser o que mais chama a atenção, a falta de estrutura é o aspecto mais difícil para o trabalho na área. O aspecto “veracidade” está relacionado ao fato de que os dados não são “perfeitos”, no sentido de que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e também os custos para torná-los bons. As ferramentas computacionais vêm acompanhando o crescimento dessa velocidade e do volume de dados, em termos de capacidade de armazenamento e processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing) e em técnicas de inteligência artificial. No modelo convencional de armazenamento de dados e tomada de decisão, a organização filtra dados dos seus vários sistemas e após criar um data warehouse, constrói consultas (queries) a fim de subsidiar a tomada de decisões. Na prática faz-se garimpagem (mining) em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI). Com stream computing, esse mining ocorre em tempo praticamente real, com uma corrente contínua de dados (streaming data) submetida a um conjunto de queries ou algoritmos analíticos. Essa dinâmica pode ser considerada um novo paradigma. Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de linguagem natural (natural language processing), reconhecimento de padrões (pattern recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos grandes volumes de dados conhecimento para auxiliar a gestão (Lohr, 2012). De forma a complementar as ferramentas computacionais, novos paradigmas de gerenciadores de bancos de dados NoSQL (Not Only SQL), representados por ferramentas como o Cassandra e Mongo-DB vem sendo apresentados como soluções que tratam imensos volumes de dados com muita velocidade. Essas ferramentas, geralmente são inseridas em frameworks como o Hadoop, que orquestram o gerenciamento distribuído de arquivos, bem como o processamento paralelo, de modo a garantir a performance das aplicações implementadas. Soluções conjugando hardware e software na modalidade in memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA respectivamente, já estão disponíveis, permitindo ainda maior aceleração do processamento dessas operações. 4. ANALYTICS – UMA VISÃO GERAL Na atualidade, as organizações estão explorando os grandes volumes de dados na tentativa de obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência artificial e outras - a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics). As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde, segurança, manufatura etc. McAfee e Brynjolfsson (2012) conduziram estudos que
  • 4. levaram à conclusão de que as empresas que efetivamente utilizam BDA são 5% mais produtivas e 6% mais lucrativas que seus competidores – esses números são um poderoso argumento em prol da utilização dessa abordagem. Davis (2014) reitera a importância do tema ao dizer que BDA não é apenas marketing hype ou apenas uma nova versão ou novo nome para os métodos de análise estatística e manipulação de dados já existentes; BDA é algo realmente novo, que dá vida à antiga ideia de que a computação vai mudar definitivamente o mundo dos negócios. Russom (2011) relaciona alguns dos motivos pelos quais as organizações vêm utilizando BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar oportunidades de negócios, automatizar decisões em processos em tempo real, identificar previamente clientes que possam deixar de sê-lo (churn), detectar fraudes etc. Apesar de o ferramental necessário estar sendo desenvolvido, é preciso lembrar que a utilização de BDA impõe às organizações a aplicação de novas habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de BDA. Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de profissional; já se pode identificar distintas funções ligadas ao tema, como os Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas; Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando adequadamente e outros; note-se que para diversas funções não há ainda sequer um nome em português. Reitera-se que este ensaio trata apenas de aspectos relacionados ao Cientista de Dados, profissional de extrema importância, talvez o mais importante, quando se utiliza BDA. 5. O CIENTISTA DE DADOS Ainda não há uma definição precisa do que seja um Cientista de Dados, de seu papel nas organizações e dos conhecimentos e habilidades necessárias à função (Chatfield, Shlemoon, Redublado & Rahman, 2014); estes autores identificaram 24 definições do que seja um CD. No âmbito deste trabalho, poderíamos citar as definições de Davenport e Patil (2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto trabalhava para o LinkedIn). Já Granville (2014), diz que um CD é um generalista que conhece negócios, estatística, ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e outras. Harris, Shetterley, Alter & Schnell (2013:3), são contundentes ao afirmarem que CD é “the most common term for the often PhD-level experts who operate at the frontier of analytics, where data sets are so large and the data so messy that lessskilled analysts using traditional tools cannot make sense of them. But they are more precisely described as data engineer-scientist-manager- teachers.”
  • 5. Passa-se agora a discutir os temas apontados no objetivo deste trabalho, em especial as características pessoais desejadas em um CD, sua formação e gestão (contratação, ambiente de trabalho e retenção). 5.1. Características pessoais desejadas Diversos autores vêm discutindo as características pessoais que são desejáveis em CDs, destacando-se entre elas curiosidade e criatividade (Van Der Aalst, 2014; Davenport & Patil, 2012). Iniciativa e capacidade de enfrentar dificuldades são outras qualidades importantes, conforme Davenport e Patil (2012), que relatam como Jonathan Goldman, a despeito do desinteresse e até oposição de superiores e colegas, conseguiu implementar no LinkedIn a funcionalidade “People You May Know“, que trouxe à empresa milhões de novas page views. Os mesmos autores realçam a importância da capacidade de comunicação com os demais envolvidos no processo, quer os técnicos, quer os usuários. Loukides (2010) menciona também a paciência, a capacidade de desenvolver soluções de forma incremental, gerando produtos inicialmente pequenos, mas que podem evoluir para soluções mais amplas. Cita também a capacidade de “pensar fora da caixa”, partindo de situações do tipo “temos uma grande quantidade de dados, o que podemos fazer com eles?”. 5.2. A formação dos CD As pessoas que atualmente estão atuando como CD tem formação acadêmica muito diversificada, embora possuam, quase sempre, cursos de pós-graduação stricto sensu nas chamadas hard sciences (física, matemática e similares). Mamonov, Misra & Jain (2014), no entanto, sugerem que graduados em Sistemas de Informação podem receber com relativa facilidade a formação complementar para atuarem como CD, por ser esse curso composto por disciplinas desse tipo complementadas por disciplinas voltadas à área de negócios. Miller (2014) recomenda que as empresas e a academia devam trabalhar conjuntamente de forma a que se possa formar pessoal adequadamente. Estão surgindo no exterior alguns cursos de pós-graduação voltados especificamente para a formação de profissionais para BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu, envolvendo a Universidade Presbiteriana Mackenzie, a Escola Superior de Propaganda e Marketing e a Fundação Getúlio Vargas, entre poucas outras. Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA em cursos de graduação, inclusive criando laboratórios onde estudantes possam analisar dados de interesse de suas áreas específicas – laboratórios como esses são importantes para que os alunos desenvolvam um conhecimento prático acerca domo aplicar BDA no ambiente empresarial. Miller (2014) lembra que manter o foco apenas em funções específicas não atenderá as necessidades do futuro próximo, propondo que o conhecimento desses temas deve ser dado em todos os currículos, independentemente da formação pretendida, pois sem conhecimentos, mesmo que elementares, acerca de BDA, os alunos não estarão preparados para os desafios do atual ambiente empresarial – esses conhecimentos elementares devem ser, no mínimo, os necessários à comunicação eficaz com os CD. Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos, movimento que também começa a se observar em suas subsidiárias no Brasil; como exemplo, podem-se citar iniciativas da IBM em parceria com a Universidade Presbiteriana Mackenzie, envolvendo treinamento de professores e alunos, criação de cursos etc.
  • 6. Brooks (2012) diz que um grande desafio para as universidades está no fato de que o tema exige T-shaped professionals, ou profissionais com o perfil “T”, ou ainda, o “especialista generalista”. No caso, a barra horizontal do “T” é a formação básica, que deve ser suficientemente ampla para que o profissional desenvolva as habilidades para influenciar pessoas, atuar em equipes multidisciplinares, vislumbrar oportunidades e encontrar soluções para problemas complexos. Já a barra vertical, caracteriza o aprofundamento nos temas ligados a BDA propriamente dito. Tudo isso, implica na necessidade de criar novos currículos e adaptar os já existentes; o pessoal envolvido deverá conhecer de maneira profunda matemática, estatística, aprendizado de máquina (machine learning), análise preditiva, ciência da computação, programação, ética, legislação, privacidade, comunicação (visualização), segurança de dados, banco de dados, mineração de dados etc. (Miller, 2014). Além de criação e adaptação de currículos, outras medidas podem ser tomadas, como a criação de descrições formalizadas dos diversos cargos envolvidos, certificações, comunidades de profissionais, parcerias empresas/universidades/governos, grupos de trabalho para tratar de pontos críticos como segurança da informação e privacidade, por exemplo, e grupos de pesquisa vinculados a universidades. Miller (2014) reitera que o desafio não envolve apenas Tecnologia da Informação. Funções tão díspares como marketing, finanças, desenvolvimento de produtos, manufatura e operações serão afetadas pelo fenômeno BDA – e que as empresas devem estar preparadas para isso também em termos de recursos humanos. 5.3. A gestão dos CD Davenport e Patil (2012), afirmam que a falta de pessoal, especialmente CD, está se tornando uma séria restrição em alguns setores, a ponto de algumas empresas estarem criando times especializados no recrutamento desses profissionais. Dizem também que, dada a escassez desses profissionais, o desafio é aprender a identificar talentos, atrai-los e torna-los produtivos. Nenhuma dessas tarefas pode ser executada de forma similar à que é executada para as funções convencionais, pois além de praticamente não existirem cursos que formem CD, ainda há pouco consenso sobre onde seu trabalho “se encaixa” na organização e como seu desempenho pode ser medido. Há a percepção de que a disputa por talentos deve ser intensa e que como os profissionais da área tendem a se interessar muito por desafios, os responsáveis pelo recrutamento e seleção devem estar preparados para “vender” suas oportunidades aos candidatos enfatizando este aspecto. Evidentemente, salários e outros benefícios tem seu peso, e na medida em que os profissionais são raros, estes tendem a serem maiores. Em situações como essas, as organizações podem ser levadas a considerar a hipótese de contratar os serviços desses profissionais através de grandes empresas de consultoria, como ocorre com frequência quando se trata do uso de novas tecnologias. Davenport e Patil (2012) são céticos quanto aos resultados dessa abordagem, mencionando que profissionais com esse perfil não desejam simplesmente dizer a executivos o que suas análises recomendam que estes devam fazer, mas sim pretendem “construir coisas”, deixando suas marcas no ambiente em que atuam; quanto mais se espera deles, mais eles tendem a se motivar, e é importante desafia-los, cobra-los. Pelas suas características pessoais, CD não se dão bem trabalhando em estruturas onde o controle é muito rígido – cronogramas, fronteiras departamentais, job descriptions, horários, dress code e outras regras tendem a incomodar esses profissionais; eles precisam
  • 7. de liberdade para experimentar e explorar, para adicionar valor, inovar, para o que é necessário um relacionamento mais próximo com executivos responsáveis por produtos e serviços que podem ser impactados pelos resultados de BDA do que com aqueles responsáveis pelas “caixas” do organograma. Dadas essas dificuldades para as empresas, pode-se perguntar se não seria interessante para estas simplesmente aguardar até que o número de CD no mercado se torne maior, o que deve ocorrer pelo interesse das universidades em formar pessoal, e ai contratar pessoal mais facilmente e a menor custo – cabe lembrar que esse fenômeno já ocorreu com diversas especialidades, como por exemplo, desenvolvedores na área de sistemas. Esse raciocínio não parece válido, na medida em que a demanda por CD não parece estar diminuindo, e provavelmente um equilíbrio oferta/demanda acontecerá apenas em prazo longo; esperar pode dar aos concorrentes vantagens que não poderão ser tiradas. Nesse sentido, Mamonov et al (2014) reportam que em junho de 2014, apenas na cidade de Nova Iorque, existiam cerca 5.800 ofertas de emprego na área, pagando salários anuais entre US$ 60 mil e US$ 140 mil, além de cerca de 1.100 ofertas com salários acima de US$ 140 mil anuais 6. CONSIDERAÇÕES FINAIS Na medida em que o volume de dados disponíveis e a capacidade para armazena-los e analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de forma similar. Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são administradas: novas formas de planejar e tomar decisões estão surgindo, a competição deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em maior número; dentre esses, os Cientistas de Dados são os mais importantes e de formação mais difícil. Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para atender às novas demandas e cursos destinados a preparar os recursos humanos necessários, quer no sentido negativo, quando empresas e instituições de ensino menos comprometidos com a qualidade lançam produtos e serviços de qualidade questionável, proliferando serviços de consultoria, educação e treinamento, literatura e também software quase sempre inadequados para uma abordagem adequada do assunto. Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o joio do trigo, o que em alguns lugares, como no Brasil, infelizmente não acontece com a desejável frequência. REFERÊNCIAS Brooks, K. (2012). Career success starts with a “T”. Psychology Today, Recuperado de http://www.psychologytoday.com/blog/career-transitions/201204/career-success-starts-t em 19.12.2014. Chatfield, A. T., Shlemoon, V. N., Redublado, W. & Rahman, F. (2014). Data Scientists as a Game Changers in Big Data Environments. Proceedings of the 25th Australasian Conference on Information Systems (ACIS), Auckland, New Zealand. Clifford, S. (2012) Retail Frenzy: Prices on the Web Change Hourly. The New York Times, edição de 30.11.2012. Recuperado de
  • 8. http://www.nytimes.com/2012/12/01/business/online-retailers-rush-to-adjust-prices-in- real-time.html?pagewanted=all&_r=0 em 19.12.2014. Davenport, T. H. (2014). Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Boston: Harvard Business School Publishing. Davenport, T. H. & Patil, D. J. (2012). Data Scientist: the Sexiest Job of the 21st Century. Harvard Business Review, edição de outubro de 2012, pp. 70-76. Davis, C. K. (2014) Beyond Data and Analysis. Communications of the ACM, 57 (6), pp. 39-41. EIU – Economist Intelligence Unit (2011). Big data - Harnessing a Game-Changing Asset. Londres: The Economist, author. Recuperado de http://www.sas.com/resources/asset/SAS_BigData_final.pdf em 19.12.2014. Granville, V. (2014). Developing Analytic Talent. Becoming a Data Scientist. Indianapolis: John Wiley. Harris, J.G., Shetterley, N., Alter, A.E. & Schnell, K. (2013) The Team Solution to the Data Scientist Shortage. Accenture Institute for High Performance. Recuperado de http://www.accenture.com/SiteCollectionDocuments/PDF/Accenture-Team-Solution-Data- Scientist-Shortage.pdf, acessado em 12.12.2014. Lohr, S. (2012). The Age of Big Data. The New York Times, edição de 11.02.2012. Recuperado de www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the- world.html?_r=1&scp=1&sq=Big%20Data&st=cse em 09.05.2014. Loukides, M. (2010) What Is Data Science? O’Reilly, edição digital (Kindle) disponível em http://www.amazon.com/What-Data-Science-Mike-Loukides- ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1- 1&keywords=data+scientist, baixado em 12.05.2014. Mamonov, S., Misra, R. & Jain, R. (2014). Business Analytics in Practice and in Education: A Competency-based Perspective. Proceedings of the Information Systems Educators Conference, 31, Baltimore, USA. McAfee, A., Brynjolfsson, E. (2012). Big Data: The Management Revolution”. Harvard Business Review , edição de outubro de 2012, pp. 60–68. Miller, S. (2014). Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design, 3 (1), 26-30. Russom, P. (2011). Big Data Analytics. Renton: TDWI. Smolan, R. & Erwitt, J. (2012). The human face of Big Data. Sausalito: Against All Odds Productions. Van Der Aalst, W. M. P. 2014. Data Scientist: The Engineer of the Future. Proceedings of the I-ESA Conferences, 7, 13-26. Zikopoulos, P., De Roos, D., Parasuraman, K., Deutsch, T., Giles, J. & Corrigan, D. (2012). Harness the power of Big Data- The IBM Big Data Platform. Emeryville: McGraw-Hill Osborne Media.