使用Python提取表格数据可以通过多种方式实现,具体取决于数据的来源和格式。以下是几种常见的方法:
提取Excel表格数据
安装pandas库
pip install pandas
导入pandas库
import pandas as pd
读取Excel文件
df = pd.read_excel('file_name.xlsx') 替换为实际文件名
提取某一行数据
row_data = df.iloc[row_index] 替换为实际行索引
提取某几列数据
col_data = df.loc[:, ['col1', 'col2', 'col3']] 替换为实际列名
批量提取多个Excel文件数据
安装pandas和openpyxl
pip install pandas openpyxl
读取单个Excel文件
df = pd.read_excel('data.xlsx')print(df.head())
批量读取多个Excel文件
import osfolder_path = 'path_to_folder'file_list = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.xlsx')]all_data = pd.DataFrame()for file in file_list:df = pd.read_excel(file)all_data = all_data.append(df, ignore_index=True)
提取PDF表格数据
安装pdfplumber库
pip install pdfplumber
提取PDF中的表格数据
import pandas as pdimport pdfplumberpdf = pdfplumber.open('file_name.pdf')df = pd.DataFrame()for i in range(3, 53): 假设表格信息从第4页开始page = pdf.pages[i]table = page.extract_table()df = df.append(table, ignore_index=True)
提取Word文档中的表格数据
安装Spire.Doc for Python
读取Word文档中的表格并保存为Excel工作表
from spire.doc import Documentfrom spire.xls import Workbookdoc = Document.loadFromFile('file_name.docx')wb = Workbook()ws = wb.add_sheet('Sheet1')for section in doc.sections:for table in section.tables:for row in table.rows:for cell in row.cells:ws.set_cell_value(row.index, cell.column_index, cell.text)wb.save('output_file_name.xlsx')
提取HTML中的表格数据
使用BeautifulSoup库
from bs4 import BeautifulSouphtml = '''
| Header 1 | Header 2 |
|---|---|
| Data 1 | Data 2 |
''' soup = BeautifulSoup(html, 'html.parser') table = soup.find('table') data = [] for row in table.find_all('tr'): rowData = [cell.text for cell in row.find_all('td')] data.append(rowData) df = pd.DataFrame(data[1:], columns=data)
以上是使用Python提取不同类型表格数据的基本方法。根据具体需求,您可能需要对数据进行进一步处理和分析。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://sigusoft.com/bj/116923.html