sábado, maio 17, 2014

O que é R?

R é um ambiente de programação derivado da linguagem S (comercial) e possui um grande número de pacotes para trabalhar com dados. Por esse motivo vem numa crescente de utilização e é bastante difundido principalmente na área científica (estatística e bioinformática), o que não impede o uso em outras frentes como jornais e revistas, por exemplo, para estudos mais profundos com geração de gráficos para o site e material impresso.

Segunda a wikipedia: "R é uma linguagem e um ambiente de desenvolvimento integrado, para cálculos estatísticos e gráficos."

Página oficial: http://www.r-project.org/

No ambiente R, temos sua linguagem fácil de se trabalhar e um grande conjunto de pacotes que a torna muito poderosa para análise de dados. Você pode criar seu pacote e enviar para o CRAN (rede de arquivamento de tudo do ambiente, IDE, linguagem etc).
A conheci pelo curso de especialização de Ciência de Dados no Coursera pela Universidade Johns Hopkins. Eles usam para todos os módulos esse ambiente. É muito interessante.

Os outros:

Vamos lá?

Planilha rápida de comandos: http://cran.r-project.org/doc/contrib/Short-refcard.pdf

Muita gente utiliza também o Python que, agregando algumas bibliotecas como Pandas, NumPy, SciPy etc, faz um trabalho semelhante. Muitos acabam preferindo o Python por já conhecer melhor a linguagem, a forma de trabalho, IDEs ou terem uma plataforma montada com outras aplicações. Cada um escolhe o que agrega mais independente do motivo.

Não vou entrar em detalhes em como instalar, pois isso muda conforme as versões... mas seguem os links:

Como trabalhar?

Ao abrir um terminal e executar o R ou abrir o IDE RStudio, é criado no ambiente uma área de trabalho em sessão, o que possibilita que você crie objetos e trabalhe com ele de duas formas:
  • Comandos livres: assim como no terminal do sistema operacional ou de outras linguagens, você pode executar os comandos que ele vai interpretando e armazenando, se necessário, na sua área de trabalho.
  • Scripts: você cria scripts que são carregados no ambiente e este executa o que está dentro do arquivo de forma sequencial. Normalmente são criadas funções que são executas ao serem acionadas após a carga do script para a área/sessão.
Independente da forma, você pode criar objetos, funções, filtros etc, que podem ser acionados a qualquer momento na sessão que você estiver (pois estão carregados na sua área de trabalho).

Uma das principais coisas que você precisa saber é como carregar dados de arquivos (como CSV, TXT e XLS), acessar bancos de dados e utilizar serviços na web, pois normalmente é assim que você obterá os dados para trabalhar. Depois das análises, é importante a forma de apresentação do resultado: tabela ou gráficos, ambos em tela ou exportados.

Nenhum comentário: