O Que é Pandas e Seu Funcionamento Para Análise De Dados

Aprenda sobre a biblioteca pandas e como ela é utilizada para análise de dados em python


 

Introdução

Pandas é um pacote muito importante que está à disposição do cientista de dados trabalhando com python nos dias de hoje, é uma biblioteca bastante poderosa para exploração de dados e aprendizado de máquina (machine learning),  se você pretende seguir uma carreira de ciência de dados é importante que você aprenda pandas. Nesse artigo falaremos sobre o que é pandas e como ela é usada no contexto da análise dados.

 

O que é Pandas

Pandas é uma biblioteca escrita em Python para manipulação e análise de dados particularmente ele oferece estrutura de dados e operações para manipular dados numéricos em formato tabular e séries de temporais. Pandas é uma biblioteca de software livre que é fornecida sob a licença BSD e o nome pandas segundo a Wikipédia é derivado do termo “panel data” ou painel de dados

 

Estruturas de dados do pandas

O pandas tem dois tipos de estrutura de dados a primeira chamada de dataframes e a segunda de pseries ou pandas series as estruturas de dados do pandas se assemelham com algumas das de estrutura de dados primitivas do Python (listas e dicionários) contudo as estruturas do pandas possuem características adicionais que vão fazer o seu trabalho com análise de dados muito mais fácil

 

Pandas Series

Pandas series ou pseries é uma estrutura de dados unidimensional que é muito similar com uma lista em Python este é o tipo de dados que representa cada coluna de um DataFrame, uma importante diferença entre o pseries e uma lista em Python é que o pseries  exige que todos os elementos sejam sempre de um mesmo dtype para aqueles familiarizados com numpy vão perceber que esse é o mesmo comportamento demonstrado pelo ndarray

A maneira mais fácil de criar um pandas series é instanciar um objeto recebendo uma lista em python conforme ilustrado no exemplo abaixo

 

import pandas as pd
s = pd.Series(['maserati', 13])
print(s)

 

Pandas Dataframes

Dataframes são uma abstração de uma estrutura tabular onde você consegue armazenar seus dados, eles podem ser pensados como um dicionário em python onde a chave é o nome da coluna e o valor é um objeto pseries por esse motivo é que começar com um dicionário em python provavelmente seja a maneira mais comum de se criar um dataframe veja abaixo como criar um dataframe em pandas:


cars = pd.DataFrame({
    'Type': [truck', 'sedan'],
    'color': ['red', 'blue'],
})
print(cars)

 

Conclusão

Agora que você já sabe que dataframes e pseriessão as principais estruturas de dados utilizadas em Pandas é  interessante saber que além de ter essas abstrações que vão te auxiliar no processamento dos seus dados o pandas também possui uma série de funções embutidas que te possibilitam a fazer diversas operações e transformações no seus conjuntos de dados, em grande parte dos pipelines de processamento de dados o pandas é usado em conjunto com outras bibliotecas de Python sendo o primeiro passo na exploração dos seus dados, por conta disso uma das principais vantagens do pandas é uma excelente integração com diversas outras bibliotecas do python para machine learning e para geração de visualizações como por exemplo: scikitlearn e matplotlib

Espero que tenham gostado deste artigo e qualquer dúvida ou sugestão fiquem a vontade para postar na seção de comentários abaixo

Obrigado!
 

Se Inscreva Na Nossa Newsletter Tenha Acesso Aos Melhores Artigos