BIG DATA ANALYTICS USANDO O SOFTWARE R

Autor(es): 

Thais Freire Wu - Orientador: Prof. João Luiz Chela

Ano: 

2017

Instituição: 

FGV-EAESP

[INTRODUÇÃO] A complexidade e competitividade do mercado no qual as empresas estão inseridas requer acompanhamento constante das mudanças e tendências para alcançar vantagem competitiva, para tanto, parte-se do princípio que para traçar uma estratégia eficaz o gestor primeiramente deve definir qual é o problema, para assim tomar boas decisões e alcançar a solução. Nesse cenário, o objetivo da pesquisa proposta é desenvolver um aplicativo protótipo através do software R, utilizando como estrutura principal as funções pertencentes ao pacote funcional “shiny” e ferramentas estatísticas diversas do programa, proporcionando informações sucintas de uma base de dados para auxiliar um gestor a tomar decisões com fundamentos teóricos de forma prática, simples e rigorosa. [METODOLOGIA] Para desenvolver o protótipo foi utilizado o software RStudio, uma graphical user interface do R, com ambiente de desenvolvimento integrado. A princípio foi necessário estudar a lógica de programação e como é formada a estrutura de um código escrito em R. Isso foi feito através da leitura de manuais disponíveis nos sites oficiais, visualização de vídeo aulas, participação de tutoriais gratuitos e interação com a comunidade de programadores do software. A partir desse estudo foram selecionados os pacotes e funções a serem utilizados no código. O protótipo foi montado tendo como base uma planilha de dados que simula as informações de uma companhia telefônica que oferece serviços de assinatura de linha telefônica. O arquivo utilizado possui 2000 observações e 10 variáveis, sendo que 6 delas são dados quantitativos (idade, número de linhas, tempo como cliente, renda, fatura e tempo de residência fixa), e 4 qualitativos (local de residência, assinatura de TV a cabo, pagamento em débito automático e cancelamento da linha). [RESULTADOS] Para essa base de dados especificamente o objetivo a ser alcançado era identificar e traçar o perfil dos assinantes que cancelam o serviço. Nesse cenário o protótipo foi subdividido em 8 telas principais: (1) Apresentação, (2) Tabela de Dados, (3) Análise Univariada Quantitativa, (4) Análise Univariada Qualitativa, (5) Análise Bivariada, (6) Árvore de Decisão, (7) Regressão Linear e (8) Regressão Logística. Cada tela possui um propósito específico, especificado respectivamente em cada título. Em todas, com exceção de (1), o usuário tem a opção de customizar os inputs e receber como output, além dos resultados, uma breve análise do comportamento dos dados. O resultado encontrado após a programação do protótipo indica, dos modelos utilizados, o mais confiável é a regressão logística. Além disso, as variáveis relevantes que influenciam no cancelamento da assinatura são: idade, tempo como cliente, fatura e local que reside.  [CONCLUSÃO] Esse estudo mostrou que o shiny possui uma curva de aprendizado elevado. Utilizar as suas estruturas básicas não requer conhecimentos especializados de programação, no entanto, se o programador pretende ter maior controle sobre o código, cujas funções fogem das pré-disponibilizadas, ele deverá precisar de conhecimentos computacionais específicos. O protótipo atinge o objetivo de possibilitar a compreensão e previsão do comportamento das variáveis, e acredita-se ser possível implementar essa ferramenta na realidade das pequenas empresas principalmente devido a limitação de custos e menor complexidade e variedade dos conjuntos de dados.

Departamento: 

IMQ

Anexos: