python处理excel简明教程

摘要

注:本篇文章内容取自网络,个人重新整理

数据处理是 Python 的一大应用场景,而 Excel 则是最流行的数据处理软件。因此用 Python 进行数据相关的工作时,难免要和 Excel 打交道。

如果仅仅是要以表单形式保存数据,可以借助 CSV 格式(一种以逗号分隔的表格数据格式)进行处理,Excel 也支持此格式。但标准的 Excel 文件(xls/xlsx)具有较复杂的格式,并不方便像普通文本文件一样直接进行读写,需要借助第三方库来实现。

xlrd - 读取Excel文件,但是不能对其进行操作
xlwt - 创建、写入Excel文件,可以控制Excel中单元格的格式,但是不能在已有的Excel文件基础上进行修改
xlutils - 操作Excel文件的实用工具,如复制、分割、筛选等,可以对现有文件修改
pyExcelerator - 与xlwt类似,也可以用来生成excel文件
openpyxl 和 xlsxwriter

xlrd 读取Excel

读取excel内容

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 读取excel内容
# 导入模块
import xlrd
# 打开Excel文件读取数据
book = xlrd.open_workbook('test.xls') # 打开xls文件
print "所有表单数量:", book.nsheets
print "所有表单名称:", book.sheet_names()
# 获取一个工作表
## 通过索引顺序获取
table = book.sheets()[0]
table = book.sheet_by_index(0)
## 通过名称获取
table = book.sheet_by_name('sheet1')
# 遍历所有表单
for s in book.sheets():
for r in range(s.nrows):
# 输出指定行
print s.row(r)
# 获取行数和列数
print u"表单 %s 共 %d 行 %d 列" % (table.name, table.nrows, table.ncols)
# 获取单元格内容的数据类型
print table.cell(1,0).ctype
# 遍历sheet1中所有行row
num_rows = table.nrows
for curr_row in range(num_rows):
if i == 0: # 跳过第一行
continue
row = table.row_values(curr_row)
print('row%s is %s' %(curr_row,row))
# 遍历sheet1中所有列col
num_cols = table.ncols
for curr_col in range(num_cols):
col = table.col_values(curr_col)
print('col%s is %s' %(curr_col,col))
# 遍历sheet1中所有单元格cell
for rown in range(num_rows):
for coln in range(num_cols):
cell = table.cell_value(rown,coln)
print cell
# 获取单元格内容
print "第二行第三列:", table.cell_value(1, 2)
print table.cell(1,0).value.encode('utf-8')
print table.cell_value(1,0).encode('utf-8')
# 使用行列索引
print table.row(1)[0].value.encode('utf-8')
print table.col(1)[0].value.encode('utf-8')
"""
python读取excel中单元格的内容返回的有5种类型,即上面例子中的ctype:
ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
"""
#获取单元格中值的类型
cell_type = table.cell_type(rown,coln)
print cell_type
print table.cell(1,0).ctype
# 当碰到时间类型的单元格时应做特殊处理
if (table.cell(row,col).ctype == 3):
date_value = xlrd.xldate_as_tuple(sheet.cell_value(rows,3),book.datemode)
date_tmp = date(*date_value[:3]).strftime('%Y/%m/%d')
# 读取合并单元格的内容
print table.merged_cells
merge = []
for (rlow,rhigh,clow,chigh) in table.merged_cells:
merge.append([rlow,clow])
for index in merge:
print table.cell_value(index[0],index[1])

xlwt 创建Excel

新建excel并写入数据简单实例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 新建excel并写入数据简单实例
# 导入模块
import xlwt
def set_style(name,height,bold=False):
"""
# 使用样式
"""
# 初始化样式
style = xlwt.XFStyle()
# 为样式创建字体
font = xlwt.Font()
font.name = name # 'Times New Roman'
font.bold = bold
font.color_index = 4
font.height = height
# 其他样式
# borders= xlwt.Borders()
# borders.left= 6
# borders.right= 6
# borders.top= 6
# borders.bottom= 6
style.font = font
# style.borders = borders
return style
def write_excel():
"""
向sheet页中写入数据
"""
# 创建工作簿
f = xlwt.Workbook()
# 创建第一个sheet
sheet1 = f.add_sheet(u'sheet1',cell_overwrite_ok=True) #创建sheet
row0 = [u'业务',u'状态',u'北京',u'上海',u'广州',u'深圳',u'状态小计',u'合计']
column0 = [u'机票',u'船票',u'火车票',u'汽车票',u'其它']
status = [u'预订',u'出票',u'退票',u'业务小计']
#生成第一行
for i in range(0,len(row0)):
sheet1.write(0,i,row0[i],set_style('Times New Roman',220,True))
#生成第一列和最后一列(合并4行)
i, j = 1, 0
while i < 4*len(column0) and j < len(column0):
sheet1.write_merge(i,i+3,0,0,column0[j],set_style('Arial',220,True)) #第一列
sheet1.write_merge(i,i+3,7,7) #最后一列"合计"
i += 4
j += 1
sheet1.write_merge(21,21,0,1,u'合计',set_style('Times New Roman',220,True))
#生成第二列
i = 0
while i < 4*len(column0):
for j in range(0,len(status)):
sheet1.write(j+i+1,1,status[j])
i += 4
sheet2 = f.add_sheet(u'sheet2',cell_overwrite_ok=True) #创建sheet2
row0 = [u'姓名',u'年龄',u'出生日期',u'爱好',u'关系']
column0 = [u'小杰',u'小胖',u'小明',u'大神',u'大仙',u'小敏',u'无名']
#生成第一行
for i in range(0,len(row0)):
sheet2.write(0,i,row0[i],set_style('Times New Roman',220,True))
#生成第一列
for i in range(0,len(column0)):
sheet2.write(i+1,0,column0[i],set_style('Times New Roman',220))
sheet2.write(1,2,'1991/11/11')
sheet2.write_merge(7,7,2,4,u'暂无') #合并列单元格
sheet2.write_merge(1,2,4,4,u'好朋友') #合并行单元格
# 保存该excel文件,有同名文件时直接覆盖
f.save('demo1.xlsx') #保存文件
if __name__ == '__main__':
write_excel()
"""
write_merge(x, x + m, y, w + n, string, sytle)
x表示行,y表示列,m表示跨行个数,n表示跨列个数,string表示要写入的单元格内容,style表示单元格样式。其中,x,y,w,h,都是以0开始计算的。
这个和xlrd中的读合并单元格的不太一样。
如上述:sheet1.write_merge(21,21,0,1,u'合计',set_style('Times New Roman',220,True))
即在22行合并第1,2列,合并后的单元格内容为"合计",并设置了style。
"""

xlutils 修改Excel

向excel文件中写入数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 向excel文件中写入数据
# 导入模块
import xlrd
from xlutils.copy import copy
# 打开一个workbook
rb = xlrd.open_workbook('./xlutils.xls')
wb = copy(rb)
# 获取sheet对象,通过sheet_by_index()获取的sheet对象没有write()方法
ws = wb.get_sheet(0)
# 写入数据
ws.write(1, 1, 'changed!')
# 添加sheet页
wb.add_sheet('sheetnnn2',cell_overwrite_ok=True)
# 利用保存时同名覆盖达到修改excel文件的目的,注意未被修改的内容保持不变
wb.save('./xlutils.xls')

pyExcelerator 操作Excel

读excel文件中的数据

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 读excel文件中的数据
import pyExcelerator
# parse_xls返回一个列表,每项都是一个sheet页的数据。
# 每项是一个二元组(表名,单元格数据)。
# 其中单元格数据为一个字典,键值就是单元格的索引(i,j)。
# 如果某个单元格无数据,那么就不存在这个值
sheets = pyExcelerator.parse_xls('./testdata.xls')
print sheets

新建excel文件并写入数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 新建excel文件并写入数据
import pyExcelerator
# 创建workbook和sheet对象
wb = pyExcelerator.Workbook()
ws = wb.add_sheet('sheel1')
# 设置样式
myfont = pyExcelerator.Font()
myfont.name = u'Times New Roman'
myfont.bold = True
mystyle = pyExcelerator.XFStyle()
mystyle.font = myfont
# 写入数据,使用样式
ws.write(0,0,u'ni hao 帕索!',mystyle)
# 保存该excel文件,有同名文件时直接覆盖
wb.save('./mini.xls')
print '创建excel文件完成!'

时间转换

1
2
3
4
5
6
7
8
9
10
11
12
13
14
因为这里 xldate 有自己的格式定义。如果要使用正确的格式,必须转换:
new_date = xlrd.xldate.xldate_as_datetime(date, book.datemode)
date 是对应单元格的数据,book 是打开的文件对象。
另外,在打开文件时,加上参数 formatting_info=True,可以保证在时间数据在 copy 时保持原样。
写入时间数据,则可通过此方法创建 excel 的时间对象:
xlrd.xldate.xldate_from_datetime_tuple
或者通过 xlwt.easyxf 指定时间格式:
style = xlwt.easyxf(num_format_str='D-MMM-YY')
ws.write(1, 0, datetime.now(), style)