pythonexcel数据提取_python下载库

激活谷笔记 • 2025-03-07 21:04 • 阅读 116

使用Python提取表格数据可以通过多种方式实现，具体取决于数据的来源和格式。以下是几种常见的方法：

提取Excel表格数据

安装pandas库

 pip install pandas

导入pandas库

 import pandas as pd

读取Excel文件

 df = pd.read_excel（'file_name.xlsx'） 替换为实际文件名

提取某一行数据

 row_data = df.iloc[row_index] 替换为实际行索引

提取某几列数据

 col_data = df.loc[:, ['col1', 'col2', 'col3']] 替换为实际列名

批量提取多个Excel文件数据

安装pandas和openpyxl

 pip install pandas openpyxl

读取单个Excel文件

 df = pd.read_excel（'data.xlsx'） print（df.head（））

批量读取多个Excel文件

 import os folder_path = 'path_to_folder' file_list = [os.path.join（folder_path, f） for f in os.listdir（folder_path） if f.endswith（'.xlsx'）] all_data = pd.DataFrame（） for file in file_list: df = pd.read_excel（file） all_data = all_data.append（df, ignore_index=True）

提取PDF表格数据

安装pdfplumber库

 pip install pdfplumber

提取PDF中的表格数据

 import pandas as pd import pdfplumber pdf = pdfplumber.open（'file_name.pdf'） df = pd.DataFrame（） for i in range（3, 53）: 假设表格信息从第4页开始 page = pdf.pages[i] table = page.extract_table（） df = df.append（table, ignore_index=True）

提取Word文档中的表格数据

安装Spire.Doc for Python

读取Word文档中的表格并保存为Excel工作表

 from spire.doc import Document from spire.xls import Workbook doc = Document.loadFromFile（'file_name.docx'） wb = Workbook（） ws = wb.add_sheet（'Sheet1'） for section in doc.sections: for table in section.tables: for row in table.rows: for cell in row.cells: ws.set_cell_value（row.index, cell.column_index, cell.text） wb.save（'output_file_name.xlsx'）

提取HTML中的表格数据

使用BeautifulSoup库

 from bs4 import BeautifulSoup html = '''           
 
   
  
  
    
   
    
    Header 1 
    Header 2 
    
    
    Data 1 
    Data 2 
    
   
 
   
 
 ''' soup = BeautifulSoup（html, 'html.parser'） table = soup.find（'table'） data = [] for row in table.find_all（'tr'）: rowData = [cell.text for cell in row.find_all（'td'）] data.append（rowData） df = pd.DataFrame（data[1:], columns=data）

Header 1	Header 2
Data 1	Data 2

以上是使用Python提取不同类型表格数据的基本方法。根据具体需求，您可能需要对数据进行进一步处理和分析。

pythonexcel数据提取_python下载库

相关推荐