drop_weight_rewrite/data_do/处理11篇yy数据.py

# -*- coding: utf-8 -*-

"""
@Time    :  2022/12/20 10:35
@Author  :
@FileName:
@Software:
@Describe:
"""
import os
from bs4 import BeautifulSoup
import pandas as pd
import re
# 遍历文件夹


yuanshi = "../data/11篇yy/paperyyreduce20230221120936.html"
soup_source = BeautifulSoup(open(yuanshi, encoding='utf-8'),
                            "html.parser")

yyshuju = "../data/11篇yy/paperyyreduce_result20230221120936"
soup_result = BeautifulSoup(open(yyshuju,  encoding='utf-8'),
                     "html.parser")

source_sentence_list = soup_source.select('p > em')
result_sentence_list = soup_result.select('p > em')


data = []
for sentence_index in range(len(source_sentence_list)):
    try:
        print(source_sentence_list[sentence_index]["id"])
        print(result_sentence_list[sentence_index]["id"])
        print(result_sentence_list[sentence_index]["class"])
        if source_sentence_list[sentence_index]["id"] == result_sentence_list[sentence_index]["id"] \
                and (result_sentence_list[sentence_index]["class"] == ['similar','red']
                     or result_sentence_list[sentence_index]["class"] == ['similar']):
        # if source_sentence_list[sentence_index]["id"] == result_sentence_list[sentence_index]["id"]:
            source_text = source_sentence_list[sentence_index].string
            result_text = result_sentence_list[sentence_index].string
            source_text = source_text.strip("\n")
            result_text = result_text.strip("\n")
            if source_text != None and result_text != None:
                data.append([source_text,result_text])
    except:
        print(sentence_index)

    # print(data)


def data_clean(text):
    # 清洗excel中的非法字符，都是不常见的不可显示字符，例如退格，响铃等
    ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]|[\013-\014]|[\016-\037]')
    text = ILLEGAL_CHARACTERS_RE.sub(r'', text)
    return text

print(data)
df = pd.DataFrame(data,columns=["原文","yy降重"])
for col in df.columns:
    df[col] = df[col].apply(lambda x: data_clean(x))

df.to_excel("../data/11篇_yy.xlsx",index=None)
完成t5单条预测版本 2 years ago			`# -- coding: utf-8 --`

			`"""`
			`@Time : 2022/12/20 10:35`
			`@Author :`
			`@FileName:`
			`@Software:`
			`@Describe:`
			`"""`
			`import os`
			`from bs4 import BeautifulSoup`
			`import pandas as pd`
			`import re`
			`# 遍历文件夹`



			`yuanshi = "../data/11篇yy/paperyyreduce20230221120936.html"`
			`soup_source = BeautifulSoup(open(yuanshi, encoding='utf-8'),`
			`"html.parser")`

			`yyshuju = "../data/11篇yy/paperyyreduce_result20230221120936"`
			`soup_result = BeautifulSoup(open(yyshuju, encoding='utf-8'),`
			`"html.parser")`

			`source_sentence_list = soup_source.select('p > em')`
			`result_sentence_list = soup_result.select('p > em')`


			`data = []`
			`for sentence_index in range(len(source_sentence_list)):`
			`try:`
			`print(source_sentence_list[sentence_index]["id"])`
			`print(result_sentence_list[sentence_index]["id"])`
			`print(result_sentence_list[sentence_index]["class"])`
			`if source_sentence_list[sentence_index]["id"] == result_sentence_list[sentence_index]["id"] \`
			`and (result_sentence_list[sentence_index]["class"] == ['similar','red']`
			`or result_sentence_list[sentence_index]["class"] == ['similar']):`
			`# if source_sentence_list[sentence_index]["id"] == result_sentence_list[sentence_index]["id"]:`
			`source_text = source_sentence_list[sentence_index].string`
			`result_text = result_sentence_list[sentence_index].string`
			`source_text = source_text.strip("\n")`
			`result_text = result_text.strip("\n")`
			`if source_text != None and result_text != None:`
			`data.append([source_text,result_text])`
			`except:`
			`print(sentence_index)`

			`# print(data)`


			`def data_clean(text):`
			`# 清洗excel中的非法字符，都是不常见的不可显示字符，例如退格，响铃等`
			`ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]\|[\013-\014]\|[\016-\037]')`
			`text = ILLEGAL_CHARACTERS_RE.sub(r'', text)`
			`return text`

			`print(data)`
			`df = pd.DataFrame(data,columns=["原文","yy降重"])`
			`for col in df.columns:`
			`df[col] = df[col].apply(lambda x: data_clean(x))`

			`df.to_excel("../data/11篇_yy.xlsx",index=None)`