Python range()函数语法
range(start, stop[,step])
参数说明:
python中range()函数的用法:
(1)range(stop)
创建一个(0,stop)之间的整数序列,步长为1.
创建一个(start,stop)之间的整数序列,步长为1.
创建一个[start,stop)之间的整数序列,步长为step.
参数介绍:
start:表示从返回序列的起始编号,默认情况下从0开始.
stop:表示生成最多但不包括此数字的数字.
step:指的是序列中每个数字之间的差异,默认值为1.
相关介绍
range()是Python的内置函数,在用户需要执行特定次数的操作时使用它,表示循环的意思.内置函数range()可用于以列表的形式生成数字序列.在range()函数中最常见用法是使用for和while循环迭代序列类型(List,string等).
简单的来说,range()函数允许用户在给定范围内生成一系列数字.根据用户传递给函数的参数数量,用户可以决定该系列数字的开始和结束位置以及一个数字与下一个数字之间的差异有多大.
第一部分是生成数据表,常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据. Excel 中的文件菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入.
获取外部数据
python 支持从多种类型的数据导入.在开始使用 python 进行数据导入前需要先导入 pandas 库,为了方便起见,我们也同时导入 numpy 库.
①. import numpy as np
导入数据表
下面分别是从 excel 和 csv 格式文件导入数据并创建数据表的方法.代码是最简模式,里面有很多可选参数设置,例如列名称,索引列,数据格式等等.感兴趣的朋友可以参考 pandas 的
官方文档.
①. df=pd.DataFrame(pd.read_csv('name.csv',header=1))
创建数据表
这是刚刚创建的数据表,我们没有设置索引列,price 字段中包含有 NA 值,city 字段中还包含了一些脏数据.
数据表检查
python 中处理的数据量通常会比较大,所以就需要我们对数据表进行检查.比如我们之前的文章中介绍的纽约出租车数据和 Citibike 的骑行数据,数据量都在千万级,我们无法一目了然的了解数据表的整体情况,必须要通过一些方法来获得数据表的关键信息.数据表检查的另一个目的是了解数据的概况,例如整个数据表的大小,所占空间,数据格式,是否有空值和重复项和具体的数据内容.为后面的清洗和预处理做好准备.
数据维度(行列)
①. #查看数据表的维度
数据表信息
使用 info 函数查看数据表的整体信息,这里返回的信息比较多,包括数据维度,列名称,数据格式和所占空间等信息.
①. #数据表信息
查看数据格式
Excel 中通过选中单元格并查看开始菜单中的数值类型来判断数据的格式.Python 中使用 dtypes 函数来返回数据格式.
Dtypes 是一个查看数据格式的函数,可以一次性查看数据表中所有数据的格式,也可以指定一列来单独查看.
①.#查看数据表各列格式
①.0dtype: object
查看空值
Excel 中查看空值的方法是使用"定位条件"功能对数据表中的空值进行定位."定位条件"在"开始"目录下的"查找和选择"目录中.
Isnull 是 Python 中检验空值的函数,返回的结果是逻辑值,包含空值返回 True,不包含则返回 False.可以对整个数据表进行检查,也可以单独对某一列进行空值检查.
df_isnull
①.#检查特定列空值
①.0Name: price, dtype: bool
查看唯一值
Excel 中查看唯一值的方法是使用"条件格式"对唯一值进行颜色标记.Python 中使用 unique 函数查看唯一值.
Unique 是查看唯一值的函数,只能对数据表中的特定列进行检查.下面是代码,返回的结果是该列中的唯一值.类似与 Excel 中删除重复项后的结果.
①. #查看 city 列中的唯一值
查看数据表数值
Python 中的 Values 函数用来查看数据表中的数值.以数组的形式返回,不包含表头信息.
①.#查看数据表的值
查看列名称
Colums 函数用来单独查看数据表中的列名称.
①. #查看列名称
查看前 10 行数据
如下:
①.、index函数:用于从列表中找出某个值第一个匹配项的索引位置.
python中index函数怎么用?
Python中index方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,该方法与 python find方法一样,只不过如果str不在string中会报一个异常.
index函数一般用处是在序列中检索参数并返回第一次出现的索引,没找到就会报错.
在进行数据处理时,如果数据简单,数量不多,excel是大家的首选.但是当数据众多,类型复杂,需要灵活地显示切片、进行索引、以及排序时,python会更加方便.借助python中的numpy和pandas库,它能快速完成各种任务,包括数据的创建、检查、清洗、预处理、提取、筛选、汇总、统计等.此时此刻呢几篇文章,将以excel为参照,介绍python中数据的处理.
提到pandas,那就不得不提两类重要的数据结构,Series和DataFrame,这两类数据结构都是建立在numpy的数组array基础上.与array相比,Series是一个一维的数据集,但是每个数据元素都带有一个索引,有点类似于字典.而DataFrame在数组的基础上,增加了行索引和列索引,类似于Series的字典,或者说是一个列表集.
所以在数据处理前,要安装好numpy , pandas.此时此刻呢就看看如何完成一套完整的数据操作.
创建数据表的方法分两种,分别是从外部导入数据,以及直接写入数据.
在python中,也可外部导入xlsx格式文件,使用read_excel()函数:
import pandas as pd
from pandas import DataFrame,Series
print data
输出:
Gene Size Function
......
即:调用pandas中read_excel属性,来读取文件test.xlsx,并转换成DataFrame格式,赋给变量data.在每一行后,自动分了一个索引值.除了excel,还支持以下格式文件的导入和写入:
Python写入的方法有很多,但还是不如excel方便.常用的例如使用相等长度的字典或numpy数组来创建:
data1 = DataFrame(
'Func':[np.NaN,'monooxygenase','aminotransferase ']})
print data1
输出
Func Gene Size
分配一个行索引后,自动排序并输出.
在python中,可以使用info()函数查看整个数据的详细信息.
print data.info()
None
此外,还可以通过shape, column, index, values, dtypes等函数来查看数据维度、行列组成、所有的值、 数据类型:
print data1.shape
print data1.index
print data1.columns
print data1.dtypes
Index([u'Func', u'Gene', u'Size'], dtype='object')
Func object
Gene object
dtype: object
在python中,使用函数 isnull 和 notnull 来检测数据丢失, 包含空值返回True,不包含则返回False.
pd.isnull(data1)
pd.notnull(data1)
也可以使用函数的实例方法,以及加入参数,对某一列进行检查:
print data1['Func'].isnull()
0 True False False
①. False False False
再使用fillna对空值进行填充:
data.fillna(value=0)
#用0来填充空值
data['Size'].fillna(data1['Size'].mean())
#用data1中Size列的平均值来填充空值
data['Func']=data['Func'].map(str.strip)
#清理Func列中存在的空格
Excel中可以按"Ctrl◆F",可调出替换对话框,替换相应数据.
Python中,使用replace函数替换:
data['Func'].replace('monooxygenase', 'oxidase')
将Func列中的'monooxygenase'替换成'oxidase'.
Excel中,通过"数据-筛选-高级"可以选择性地看某一列的唯一值.
Python中,使用unique函数查看:
print data['Func'].unique()
[nan u'monooxygenase' u'aminotransferase' u'methyltransferase']
Excel中,通过UPPER、LOWER、PROPER等函数来变成大写、小写、首字母大写.
Python中也有同名函数:
data1['Gene'].str.lower()
Excel中可以通过"数据-删除重复项"来去除重复值.
Python中,可以通过drop_duplicates函数删除重复值:
print data['Func'].drop_duplicates()
0 NaN
①. monooxygenase
Name: Func, dtype: object
还可以设置" keep='last' "参数,后出现的被保留,先出现的被删除:
print data['Func'].drop_duplicates(keep='last')
内容参考:
Python For Data Analysis
以上就是土嘎嘎小编为大家整理的Python中表格函数相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!