卓越飞翔博客卓越飞翔博客

卓越飞翔 - 您值得收藏的技术分享站
技术文章11201本站已运行3223

Python 对大段文本进行预处理 并保存EXCEL表格

由于该网站考试页面需要每月一次登录考试时才能出现,自己不太会爬取,所以直接复制处理后,

再用python进行题库对比 答案也就几分钟就出来了。本人新手 如有不足请包含!

在网页上直接复制下来内容如图:

处理结果:

保存到excel表格中:


import re
import pandas as pd
def clean(line):
    line = re.sub('\nA', '\nAA', line)  # 为分段加标记
    line = re.sub('\d+.(1分).', '#', line).split('#')  # 为分割加标记,并以#号分割
 
    data = []
    for item in line:
        stem = item.split('\nA')[0]
        option = item.split('\nA')[1]
        dit = {
            '题干': stem,
            '选项': option
        }
        data.append(dit)
 
    return data
 
 
def save(data):
    df = pd.DataFrame(data)
    df.to_excel('newtg.xlsx', index=False, sheet_name='Sheet1')
 
 
def main():
    with open('1.txt', 'r', encoding='utf-8-sig') as f:
        content = f.read()
    content2 = clean(content)
    data = save(content2)
    # print(content2)
    # print(data)
 
 
if __name__ == '__main__':
    main()
卓越飞翔博客
上一篇: 批处理下载并调用exiftool清除图片ICC_PROFILE 元数据
下一篇: python爬虫直接干翻美团
留言与评论(共有 0 条评论)
   
验证码:
隐藏边栏