Suponhamos que 99,9% das pessoas que lêem este artigo sabem o que são dados – uma coleção de fatos, estatísticas e informações de um determinado assunto é conhecido como dado, certo?

Mas e quanto à Ciência dos Dados?

A Ciência dos Dados é um “conceito para unificar estatísticas, análise de dados e seus métodos relacionados” para “compreender e analisar fenômenos reais” com dados. Emprega técnicas e teorias extraídas de muitos campos dentro das áreas da matemática, estatística, ciência da informação e da computação.

Este campo está se tornando cada vez mais popular com o advento do machine learning. Para entender a Ciência dos Dados, devemos conhecer pelo menos uma das linguagens de programação. A boa notícia é que há muitas linguagens de programação usadas na Ciência dos Dados.

Vamos descrever os mais importantes:

Python

O Python está no topo de todas as outras linguagens e é a mais popular usada pelos cientistas de dados. O Python está ganhando apelo rapidamente na comunidade e tem se tornado uma linguagem mais prática para desenvolver produtos. O Python é uma poderosa ferramenta para processamento de dados de médio porte. A linguagem também tem a vantagem de contar com uma comunidade rica no compartilhamento de dados e dicas, oferecendo grandes quantidades de toolkits e recursos.

O Bank of America usa o Python para construir novos produtos e interfaces dentro da infraestrutura do banco e para comprimir os dados financeiros. O Python é amplo e flexível, de modo que as pessoas podem se adaptar a ele. Ainda assim, não é a linguagem de maior desempenho, e apenas ocasionalmente pode fornecer infraestruturas de core em larga escala. 

R


O R está na área desde 1997 como uma alternativa livre ao software estatístico caro, como Matlab ou SAS.

Nos últimos anos, o R tornou-se o “filho pródigo” da Ciência dos Dados – agora é uma linguagem familiar não só entre estatísticos nerd, mas também entre operadores de Wall Street, biólogos e desenvolvedores do Vale do Silício. Empresas tão diversas como o Google, o Facebook, o Bank of America e o New York Times usam a linguagem R, ao passo que sua utilidade comercial só continua a aumentar.

Java

O Java e os frameworks baseados em Java são encontrados nas fundações das maiores empresas de tecnologia do Vale do Silício.

Java não fornece a mesma qualidade de visualizações que R e Python, e não é a melhor opção para modelagem estatística. Mas se você está migrando de protótipos antigos e necessita construir grandes sistemas, o Java é muitas vezes a melhor aposta. O conjunto de ferramentas para Java é bem desenvolvido – uma variedade de IDEs e recursos maduros permitem que os desenvolvedores sejam razoavelmente produtivos.

A Java Virtual Machine é muito boa para escrever código que parece idêntico em várias plataformas – e isso se adequa ao ecossistema de Big Data que, como muitas outras áreas de desenvolvimento, apresenta diversidade de plataforma. 

Scala


Scala é outra linguagem baseada em Java e, de forma semelhante ao Java, está se tornando a ferramenta padrão para quem trabalha com machine learning em grandes escalas ou na construção de algoritmos de alto nível. É expressiva e também capaz de construir sistemas robustos.

Existem muitas outras linguagens populares e usadas amplamente pela Ciência dos Dados. Algumas delas são C/C++, Julia, Closure, Lisp, Perl, etc.

De acordo com o KDnuggets, as linguagens de programação em Ciência de Dados classificadas por popularidade são as seguintes:

Linguagem, participação em 2016 (participação em 2015), aumento percentual na participação

Python, participação de 45,8% (era de 30,3%), aumento de 51%
Java, participação de 16,8% (era de 14,1%), aumento de 19%
Unix shell / awk / gawk participação de 10,4% (era de 8,0%), aumento de 30%
C / C ++, 7,3% (9,4%), 23% menor
Scala, 6,2% de participação (3,5%), aumento de 79%
Perl, participação de 2,3% (2,9%), diminuição de 19%
Julia, participação de 1,1% (1,1%), decréscimo de 1,6%
F#, participação de 0,4% (0,7%), diminuição de 41,8%
Clojure, participação de 0,4% (0,5%), queda de 19,4%
Lisp, participação de 0,2% (0,4%), redução de 33,3%


A paisagem da Ciência dos Dados está mudando rapidamente, e as ferramentas usadas para extrair o valor dessa tecnologia também cresceram em números. As duas línguas mais populares que lutam pelo primeiro lugar são disparado R e Python. Ambas são reverenciadas por entusiastas, e ambas contemplam forças e fraquezas. Mas com os gigantes da tecnologia como o Google mostrando a maneira de usar Python e com uma curva de aprendizado curta e fácil, falta pouco para ele se tornar a linguagem mais popular no mundo da ciência dos dados.

Fonte: DZone.com