drop_weight_rewrite/data_do/处理11篇yy数据.py


								# -*- coding: utf-8 -*-


								"""

								@Time    :  2022/12/20 10:35

								@Author  :

								@FileName:

								@Software:

								@Describe:

								"""

								import os

								from bs4 import BeautifulSoup

								import pandas as pd

								import re

								# 遍历文件夹


								yuanshi = "../data/11篇yy/paperyyreduce20230221120936.html"

								soup_source = BeautifulSoup(open(yuanshi, encoding='utf-8'),

								                            "html.parser")


								yyshuju = "../data/11篇yy/paperyyreduce_result20230221120936"

								soup_result = BeautifulSoup(open(yyshuju,  encoding='utf-8'),

								                     "html.parser")


								source_sentence_list = soup_source.select('p > em')

								result_sentence_list = soup_result.select('p > em')


								data = []

								for sentence_index in range(len(source_sentence_list)):

								    try:

								        print(source_sentence_list[sentence_index]["id"])

								        print(result_sentence_list[sentence_index]["id"])

								        print(result_sentence_list[sentence_index]["class"])

								        if source_sentence_list[sentence_index]["id"] == result_sentence_list[sentence_index]["id"] \

								                and (result_sentence_list[sentence_index]["class"] == ['similar','red']

								                     or result_sentence_list[sentence_index]["class"] == ['similar']):

								        # if source_sentence_list[sentence_index]["id"] == result_sentence_list[sentence_index]["id"]:

								            source_text = source_sentence_list[sentence_index].string

								            result_text = result_sentence_list[sentence_index].string

								            source_text = source_text.strip("\n")

								            result_text = result_text.strip("\n")

								            if source_text != None and result_text != None:

								                data.append([source_text,result_text])

								    except:

								        print(sentence_index)


								    # print(data)


								def data_clean(text):

								    # 清洗excel中的非法字符，都是不常见的不可显示字符，例如退格，响铃等

								    ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]|[\013-\014]|[\016-\037]')

								    text = ILLEGAL_CHARACTERS_RE.sub(r'', text)

								    return text


								print(data)

								df = pd.DataFrame(data,columns=["原文","yy降重"])

								for col in df.columns:

								    df[col] = df[col].apply(lambda x: data_clean(x))


								df.to_excel("../data/11篇_yy.xlsx",index=None)