十分钟学习pandas

一、导语

这篇文章从pandas官网翻译：链接，而且也有很多网友翻译过，而我为什么没去看他们的，而是去官网自己艰难翻译呢？

毕竟这是一个学习的过程，别人写的不如自己写的记忆深刻。那么开始吧。

1、pandas是什么？

pandas是基于numpy的数据分析库（如果你没了解过numpy，可以在我的博客看numpy相关的文章），提供快速、灵活和富有表现力的数据结构。

pandas的数据结构分为Series（一维）和DataFrame(二维)。这两个主要的数据结构在金融，统计，社会科学和许多工程领域大展神威。

2、pandas能做什么？

轻松处理丢失的数据（以NaN表示）
大小可变性：可以从DataFrame和更高维的对象插入和删除列
自动显式的数据对齐
灵活的按组功能来执行对数据集拆分、联合操作
可轻松地将Python和Numpy数据结构中的不同索引的数据转换为DataFrame对象
可以智能地对大型数据集基于标签进行切片
直观的合并和连接数据集
数据集灵活的重塑和旋转
坐标轴分层标记
强大是IO工具：可以从CSV、Excel文件、数据库加载数据，以及从超快的HDF5格式保存和加载数据
时间序列-特定功能：日期范围生成和频率转换

3、导入numpy、pandas库

import pandas as pd
import numpy as np

二、对象的创建

1、创建一个Series:index

s = pd.Series([1,2,3,4],index=list('abcd'))
out:
a    1
b    2
c    3
d    4
dtype: int64

2、创建一个DataFrame

通过numpy数组，并制定日期时间索引和标签列来创建

dates = pd.date_range('20170123',periods=6)
print(dates)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('abcd'))
print(df)out:DatetimeIndex(['2017-01-23', '2017-01-24', '2017-01-25', '2017-01-26',
               '2017-01-27', '2017-01-28'],
              dtype='datetime64[ns]', freq='D')                   a         b         c         d
2017-01-23 -1.081953  2.547690  0.428435 -2.513003
2017-01-24 -1.123833 -2.080332  0.540281  1.100093
2017-01-25  0.048541 -0.295839 -0.236631  0.107606
2017-01-26 -0.890604  0.408112  0.765936 -0.829474
2017-01-27 -0.845467  2.140932  0.046358 -0.557103
2017-01-28  0.448769  0.584306 -1.892730 -2.223615

通过传递一个可以转换为一系列的对象的字典

df2 = pd.DataFrame({
    'A':1,
    'B':pd.Timestamp('20100123'),
    'C':pd.Series(1,index=list(range(4)),dtype='float32'),
    'D':np.array([3] * 4,dtype='int32'),
    'E':pd.Categorical(['test','train','test','train']),
    'F':'foobar'
})
print(df2)
print('df2 dtypes:')
print(df2.dtypes)out:
   A          B    C  D      E       F
0  1 2010-01-23  1.0  3   test  foobar
1  1 2010-01-23  1.0  3  train  foobar
2  1 2010-01-23  1.0  3   test  foobar
3  1 2010-01-23  1.0  3  train  foobardf2.dtypes:
A             int64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

三、查看数据

1、查看数据的顶部和底部的行

df.head(2) #默认为5行
yearmonthdayhourseason
02010.05.029.017.01.0
12014.02.015.015.04.0df.tail()
yearmonthdayhourseason
377882014.01.04.00.04.0
377892014.04.03.08.01.0

2、显示索引、列和底层的Numpy数据

df.index 显示索引
df.columns 显示列名
df.values 返回的是一个numpy.ndarray类型

3、显示数据的快速统计摘要

 df.describe()

abcd
count6.0000006.0000006.0000006.000000
mean-0.5740910.550811-0.058059-0.819249
std0.6584651.6838780.9677261.374977
min-1.123833-2.080332-1.892730-2.513003
25%-1.034116-0.119852-0.165884-1.875080
50%-0.8680350.4962090.237396-0.693288
75%-0.1749611.7517750.512319-0.058571
max0.4487692.5476900.7659361.100093

4、翻转数据

df.T

5、按轴排序

df2.sort_index(axis=0,ascending=False)

ABCDEF
312010-01-231.03trainfoobar
212010-01-231.03testfoobar
112010-01-231.03trainfoobar
012010-01-231.03testfoobar

6、按值排序

df2.sort_values(by='E')

ABCDEF
012010-01-231.03testfoobar
212010-01-231.03testfoobar
112010-01-231.03trainfoobar
312010-01-231.03trainfoobar

四、选择数据

1、通过[‘column_name’]选择一个列，得到Series

df['A'] #等效于df.A

2、通过[]切片选择行

  df['day'][:6]

0    29.0
1    15.0
2     6.0
3     5.0
4    25.0
5    26.0
Name: day, dtype: float64

3、基于标签选择

.loc属性是主访问方法。以下是有效的输入：

单个标签，例如5或’a'(在这里5被解释为索引的标签)
标签的列表或者数组[‘a,’b’,’c’]
具有标签 ‘b’:’e’的切片对象（注意，这里与通常的python切片相反，包括开始和停止，他是包括开始和结束的）
可以是一个布尔数组
一个callable

s1 = pd.Series(np.random.randn(6),index=list('abcdef'))

out:
a    1.715955
b    0.307930
c   -0.971638
d   -0.594908
e   -3.134987
f    0.396613
dtype: float64

s1.loc['b':'e']

out:
b    0.307930
c   -0.971638
d   -0.594908
e   -3.134987
dtype: float64

s1.loc['b']

out:
0.30792993178289157

还可以用来设置value

s1.loc['b'] = 0

out:
a    1.715955
b    0.000000
c   -0.971638
d   -0.594908
e   -3.134987
f    0.396613
dtype: float64

使用在DataFrame

df1 = pd.DataFrame(np.random.randn(6,4),
                  index = list('abcdef'),
                  columns=list('ABCD'))
out:
    ABCD
a1.235823-0.767938-0.7504740.342353
b0.5062190.3881800.4007160.207014
c-0.8135480.5096180.311099-0.645569
d-0.510755-0.1957601.162505-2.125746
e-0.559745-0.9376680.3634030.554602
f-1.5124070.865061-0.6020540.207695df1.loc[['a','b','e'],:]
out:
ABCD
a1.235823-0.767938-0.7504740.342353
b0.5062190.3881800.4007160.207014
e-0.559745-0.9376680.3634030.554602

使用标签获取行（等效于df.xs(‘a’)）

df1.loc['a']out:
A    1.235823
B   -0.767938
C   -0.750474
D    0.342353
Name: a, dtype: float64

获取带有布尔数组的值

df1.loc['a'] > 0out:
A     True
B    False
C    False
D     True
Name: a, dtype: bool

显示获取值.loc[‘行标签’,’列标签’]

df1.loc['a','A']out:
1.2358232787452161

4、基于索引的选择

.iloc属性可以获得纯粹基于整数的索引。语义准讯python和numpy切片，包括起始便捷，不包括结束边界。

如果使用的索引是非整数，即使是有效的便签也会参数IndexError。

以下是.iloc属性的有效输入

整数，例如7
整数列表或者数组，例如[4,2,0]
整数的切片(slice)对象，例如1::7
一个布尔数组
一个callable

s2 = pd.Series(np.random.randn(5),index=list(range(0,10,2)))
out:
0   -1.051477
2   -0.495461
4    2.417686
6    0.329432
8    1.479104
dtype: float64s2.iloc[:3]
out:
0   -1.051477
2   -0.495461
4    2.417686
6    0.000000
8    1.479104
dtype: float64s2.iloc[3] = 0 #还可以使用iloc来修改一个的value
out：
0   -1.051477
2   -0.495461
4    2.417686
6    0.000000
8    1.479104
dtype: float64s2.iloc[:3] = 0 #还是使用iloc连续赋值
out:
0    0.000000
2    0.000000
4    0.000000
6    0.000000
8    1.479104
dtype: float64

使用在DataFrame

df2 = pd.DataFrame(np.random.randn(6,4),
                  index=list(range(0,12,2)),
                  columns=list(range(0,8,2)))
out:
0246
0-0.708809-0.417166-1.2963870.620899
2-1.5143391.1450040.877585-1.695285
41.365427-0.721800-0.719877-0.418820
60.9809370.230571-0.783681-0.985872
81.031649-1.2322320.7953091.294055
100.618609-1.3708980.2296220.817530

通过整数切片进行选择

df2.iloc[:3]
out:
0246
0-0.708809-0.417166-1.2963870.620899
2-1.5143391.1450040.877585-1.695285
41.365427-0.721800-0.719877-0.418820

通过整数列表进行选择

df2.iloc[[1,3,5],[1,3]]
out:
26
21.145004-1.695285
60.230571-0.985872
10-1.3708980.817530df2.iloc[1:3,:] #df2.iloc[:,1:3]
out:
0246
2-1.5143391.1450040.877585-1.695285
41.365427-0.721800-0.719877-0.418820

还可以获得值 .loc[‘行位置’,’列位置’]

df2.iloc[0,1]
out:
-0.41716586227691288

获取整数位置的行（等于df.xs(1)）

df2.iloc[1]
out:
0   -1.514339
2    1.145004
4    0.877585
6   -1.695285
Name: 2, dtype: float64

超出范围的切片索引，会像python、numpy一样优雅的处理(pandas v0.14.0之前并不能这样，否则可能会导致返回一个空的DataFrame)

df2.iloc[:3,:1000]
out:
0246
0-0.708809-0.417166-1.2963870.620899
2-1.5143391.1450040.877585-1.695285
41.365427-0.721800-0.719877-0.418820

超出范围的单个索引器将生成IndexError（并不能像切片那样优雅地处理）。任何元素超出边界的索引器列表将生成IndexError

df2.iloc[[1,2,8]]
IndexError: positional indexers are out-of-bounds

。。。。有一个重要的是，不要把里面的iloc里面的范围值当做是索引，他表示从0开始的第几个。。。。

5、通过布尔索引选择数据

使用单个列的值条件来选择数据

df1[df1.A>0]
out:
ABCD
a1.235823-0.767938-0.7504740.342353
b0.5062190.3881800.4007160.207014

使用where的方法来获取数据

df2[df2>0]
out:
0246
0NaNNaNNaN0.620899
2NaN1.1450040.877585NaN
41.365427NaNNaNNaN
60.9809370.230571NaNNaN
81.031649NaN0.7953091.294055
100.618609NaN0.2296220.817530

使用isin()方法进行过滤

df3 = df2.copy()
df3['E'] = ['one','one','two','three','four','three']
df3[df3['E'].isin(['two','four'])]
out:
0246E
41.365427-0.721800-0.719877-0.418820two
81.031649-1.2322320.7953091.294055four

五、设置数据

添加新列会自动按照索引对齐数据

s3 = pd.Series([1,2,3,4,5,6],index=pd.date_range('20170125',periods=6))
out:
2017-01-25    1
2017-01-26    2
2017-01-27    3
2017-01-28    4
2017-01-29    5
2017-01-30    6
Freq: D, dtype: int64df3['F'] = s3
out:
0246F
0-0.708809-0.417166-1.2963870.620899NaN
2-1.5143391.1450040.877585-1.695285NaN
41.365427-0.721800-0.719877-0.418820NaN

按标签设置值

dates = pd.date_range('20180101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
df.at[dates[0],'A'] = 0

按位置设置值

df.iat[0,1] = 0

通过分配numpy数组进行设置

df.loc[:,'D'] = np.array([5] * len(df)) #这里新增一个D列

结果：

ABCD
2018-01-010.0000000.000000-0.3126185
2018-01-02-0.774510-0.3223840.3967925
2018-01-03-0.6961620.6036570.5811435
2018-01-041.3014741.053966-1.1721065
2018-01-050.6199731.1816601.1530855
2018-01-06-0.2132771.3061061.0089725

使用where的方法进行操作和设置

df2  = df.copy()
df2[df2 > 0] = -df2
out:
ABCD
2018-01-010.0000000.000000-0.312618-5
2018-01-02-0.774510-0.322384-0.396792-5
2018-01-03-0.696162-0.603657-0.581143-5
2018-01-04-1.301474-1.053966-1.172106-5
2018-01-05-0.619973-1.181660-1.153085-5
2018-01-06-0.213277-1.306106-1.008972-5

补充删除行列的方法

#删除列
del df['E'] #删除'E'列
e = df.pop('E') #删除并返回E列
e = df.drop(['E'],axis=1,inplace=True) #删除E列并返回，是否在原数据中删除取决于参数inplace。axis=0可删除行
#删除行
e = df.drop([2,5]) #删除索引中2-5列，如果指定参数inplace则在原数据中相应行也被删除

六、丢失数据的处理

pandas主要使用np.nan来表示缺失的数据（NaN == Not a Number）。在计算中是默认不包括缺失值的。。

在内部使用NaN表示丢失数据的选择在很大程度上是出于简单性和性能原因。

df3 = df.reindex(index=dates[0:4],columns=list(df.columns) + ['E']) #新增E列
out:
ABCDE
2018-01-010.0000000.000000-0.3126185NaN
2018-01-02-0.774510-0.3223840.3967925NaN
2018-01-03-0.6961620.6036570.5811435NaN
2018-01-041.3014741.053966-1.1721065NaN

df3.loc[dates[0]:dates[1],'E'] = 1 #对前两行的E列进行赋值
out:
ABCDE
2018-01-010.0000000.000000-0.31261851.0
2018-01-02-0.774510-0.3223840.39679251.0
2018-01-03-0.6961620.6036570.5811435NaN
2018-01-041.3014741.053966-1.1721065NaN

删除任何含有确实数据的行

df3.dropna(how='any') #使用dropna方法删除任何含有缺少数据的行，并返回一个副本
out:
ABCDE
2018-01-010.000000.000000-0.31261851.0
2018-01-02-0.77451-0.3223840.39679251.0df3.fillna(value=5) #使用fillna方法填充确实的值，并返回一个副本
out:
ABCDE
2018-01-010.0000000.000000-0.31261851.0
2018-01-02-0.774510-0.3223840.39679251.0
2018-01-03-0.6961620.6036570.58114355.0
2018-01-041.3014741.053966-1.17210655.0

判断是否有空，返回布尔值

df3.isnull() #获取值为nan的布尔值，等同于pd.isnull(df3),与.notnull()相反。注意，不能使用==比较，否则返回的都是False
out:
ABCDE
2018-01-01FalseFalseFalseFalseFalse
2018-01-02FalseFalseFalseFalseFalse
2018-01-03FalseFalseFalseFalseTrue
2018-01-04FalseFalseFalseFalseTrue

未完待续…

十分钟(小时)学习pandas

十分钟学习pandas

一、导语

1、pandas是什么？

2、pandas能做什么？

3、导入numpy、pandas库

二、对象的创建

1、创建一个Series:index

2、创建一个DataFrame

通过numpy数组，并制定日期时间索引和标签列来创建

通过传递一个可以转换为一系列的对象的字典

三、查看数据

1、查看数据的顶部和底部的行

2、显示索引、列和底层的Numpy数据

3、显示数据的快速统计摘要

4、翻转数据

5、按轴排序

6、按值排序

四、选择数据

1、通过[‘column_name’]选择一个列，得到Series

2、通过[]切片选择行

3、基于标签选择

4、基于索引的选择

5、通过布尔索引选择数据

五、设置数据

补充删除行列的方法

六、丢失数据的处理

个人收藏笔记记录

十分钟学习pandas

一、导语

1、pandas是什么？

2、pandas能做什么？

3、导入numpy、pandas库

二、对象的创建

1、创建一个Series:index

2、创建一个DataFrame

通过numpy数组，并制定日期时间索引和标签列来创建

通过传递一个可以转换为一系列的对象的字典

三、查看数据

1、查看数据的顶部和底部的行

2、显示索引、列和底层的Numpy数据

3、显示数据的快速统计摘要

4、翻转数据

5、按轴排序

6、按值排序

四、选择数据

1、通过[‘column_name’]选择一个列，得到Series

2、通过[]切片选择行

3、基于标签选择

4、基于索引的选择

5、通过布尔索引选择数据

五、设置数据

补充删除行列的方法

六、丢失数据的处理

个人收藏笔记记录

开通VIP