核心数据结构

Pandas的核心数据结构有两个，Series和DataFrame。

其中Series是一个带标签的一维同构类型数组。而DataFrame是一个二维表格结构可以包含异构数据列的类型。可以认为DataFrame是Series的容器。

DataFrame是一个数据以行和列方式排列的二维表格数据结构。在DataFrame中，各列可以是不同的数据类型，并且行列大小都是可变的。DataFrame可以对其中的行和列进行算术运算。DataFrame可以使用构造函数pandas.DataFrame(data, index, columns, dtype, copy)来创建，该函数中大部分参数都与Series相同，其参数的主要含义如下：

data，DataFrame中的储存的数据，可以采用ndarray、Series、map、lists、dict、DataFrame或者是常量值来定义。
index，行标签定义，用于定义行索引。其长度要与数据中行总数相同。默认会使用数字序列索引。
columns，列标签定义，用于定义列索引。其长度要与数据行中的元素数量相同。默认会使用数字序列索引。
dtype，定义每列的数据类型。
copy，是否复制数据，默认为False。

DataFrame的创建要较Series复杂许多，一般常用列表、字典、Series、ndarrays和DataFrame来创建。

使用列表来创建DataFrame时，列表的每一个元素都对应DataFrame中的一个数据行。例如以下示例。

import pandas as pd
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data)
print(df)

其输出的结果是下面这个样子。

使用比较复杂的二维列表可以创建比较复杂的DataFrame，例如下面这样的表格。

import pandas as pd
data = [['Kate', 95], ['Lily', 90], ['May', 89]]
df = pd.DataFrame(data, columns=['Name', 'Score'])
print(df)

这个示例则会输出以下表格的样子。

	Name	Score
0	Kate	95
1	Lily	90
2	May		89

示例中使用columns参数给数据行中的每个列都建立了标签，并且形成了熟悉的表格样式数据结构。

除此之外，列标签还可以使用字典来设定，下面使用以上数据来看一下使用字典如何创建DataFrame。

import pandas as pd
data = {'Name': ['Kate', 'Lily', 'May'], 'Score': [95, 90, 89]}
df = pd.DataFrame(data)
print(df)

这个示例会得到与前一个示例同样的结果。读者可以自行比较其异同点。使用字典来创建DataFrame还有一种更为复杂的方法，但是在一些情况下可能更为适用，那就是使用字典列表来作为数据源。同样使用以上数据，来看以下使用自点列表作为数据源的示例。

import pandas as pd
data = [{'Name': 'Kate', 'Score': 95}, {'Name': 'Lily', 'Score': 90}, {'Name': 'May', 'Score': 89}]
df = pd.DataFrame(data)
# 或者可以指定更加详细的参数
df = pd.DataFrame(data, index=['1st', '2nd', '3rd'], columns=['Name', 'Score'])
print(df)

前面的所有示例中都没有给定index参数，所以所有数据列的行索引都是采用自增长整型数值的默认索引的，赋予index参数一个与数据行长度相同的列表，可以为每个数据行建立行标签，也就是自定义行索引。这个语法与columns参数的使用是相同的，可参考上例中指定详细参数的用法。

如果Columns参数指定了字典中不存在的键值，那么DataFrame将会将此列的数据记为NaN，表示这里没有任何数字内容。如果数据行之间键值也不相同，那么DataFrame将会采用所有数据行中出现的列的并集作为DataFrame的列标签，并且在每个数据行缺失的列上使用NaN补齐。这里需要注意的是，DataFrame并不是使用None来补齐数据，而是使用NaN。

除了可以使用列表的列表、字典列表、字典以外，还可以使用字典的Series、字典的ndarray等相似的数据结构来创建DataFrame，读者可以自行尝试不同的创建DataFrame的方法。

与Series类似，DataFrame可以通过dataFrame[column]的格式来访问某个数据列，并且可以对一个不存在的列标签进行赋值来创建一个新列。而删除一个数据列则需要使用.pop(column)函数或者直接使用del dataFrame[column]。

对于数据行的操作，DataFrame则提供了.loc(index)和.iloc(index)两个方法来获取数据列，其中.loc()函数使用DataFrame中实际的行标签来选择行，而.iloc()则是使用数字索引来选择行。对DataFrame使用切片操作是操作数据行，而不是数据列。要向DataFrame中增加一行数据，需要使用.append()函数，删除使用.drop(index)函数。如果DataFrame中有重名的行标签，则会全部被删除掉。

除了使用构造函数来创建DataFrame以外，Pandas还提供了以下用于读取固定格式数据源来直接创建DataFrame的函数（仅包含常用函数，非全部函数）。

函数	用于数据源类型
`pandas.read_csv()`	从`.csv`格式文件读取数据
`pandas.read_clipboard()`	从剪贴板读取数据
`pandas.read_excel()`	从Excel文件读取数据
`pandas.read_gbq()`	从Google BigQuery读取数据
`pandas.read_html()`	从HTML中的表格中读取数据
`pandas.read_json()`	从JSON字符串中读取数据
`pandas.read_pickle()`	从Python保存的Pickle文件中读取数据
`pandas.read_sql()`	从SQL查询或者数据表中读取数据，支持SQLAlchemy
`pandas.read_sql_query()`	从SQL查询中读取数据，支持SQLAlchemy
`pandas.read_sql_table()`	从数据表中读取数据，支持SQLAlchemy

以上函数的具体使用方法可参考Pandas的文档，这里不再赘述。

大道至简，实用至上：Python编程指南

核心数据结构

Series

DataFrame