drop_weight_rewrite/data_do/筛选训练数据new.py

# -*- coding: utf-8 -*-

"""
@Time    :  2023/1/31 19:02
@Author  :
@FileName:
@Software:
@Describe:
"""
import os
# os.environ["TF_KERAS"] = "1"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
import json
import numpy as np
from bert4keras.backend import keras, set_gelu
from bert4keras.tokenizers import Tokenizer, load_vocab
from bert4keras.models import build_transformer_model
from bert4keras.optimizers import Adam, extend_with_piecewise_linear_lr
from bert4keras.snippets import sequence_padding, DataGenerator
from bert4keras.snippets import open
from keras.layers import Lambda, Dense
import tensorflow as tf
from keras.backend import set_session
from sklearn.metrics.pairwise import cosine_similarity
from rouge import Rouge  # pip install rouge
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from tqdm import tqdm
import jieba
from gensim.models import KeyedVectors, word2vec, Word2Vec
import random
import difflib
import re

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
set_session(tf.Session(config=config)) # 此处不同

class Word2vecModel:
    def __init__(self):
        self.path = "E:\pycharm_workspace\查重分析\word2vec_model\\word2vec_add_new_18.model"
        self.model = Word2Vec.load(self.path)

    def word2vec_res(self,seg_0_list, seg_1_list):
        sentence_0_list = []
        sentence_1_list = []
        for i in seg_0_list:
            a = self.model.wv[i]
            sentence_0_list.append(a)

        for i in seg_1_list:
            a = self.model.wv[i]
            sentence_1_list.append(a)

        return sentence_0_list, sentence_1_list

class Evaluator(keras.callbacks.Callback):
    """评估与保存
    """

    def __init__(self):
        self.rouge = Rouge()
        self.smooth = SmoothingFunction().method1
        self.best_bleu = 0.

    # def on_epoch_end(self, epoch, logs=None):
    #     metrics = self.evaluate(valid_data)  # 评测模型
    #     if metrics['bleu'] > self.best_bleu:
    #         self.best_bleu = metrics['bleu']
    #         model.save_weights('./best_model.weights')  # 保存模型
    #     metrics['best_bleu'] = self.best_bleu
    #     print('valid_data:', metrics)


    def evaluate_t(self, data_1, data_2, topk=1):
        total = 0
        rouge_1, rouge_2, rouge_l, bleu = 0, 0, 0, 0

        scores = self.rouge.get_scores(hyps=[data_1], refs=[data_2])
        rouge_1 += scores[0]['rouge-1']['f']
        rouge_2 += scores[0]['rouge-2']['f']
        rouge_l += scores[0]['rouge-l']['f']
        bleu += sentence_bleu(
            references=[data_1.split(' ')],
            hypothesis=data_2.split(' '),
            smoothing_function=self.smooth
        )
        # rouge_1 /= total
        # rouge_2 /= total
        # rouge_l /= total
        # bleu /= total
        return [rouge_1, rouge_2, rouge_l, bleu]

class bertModel:
    def __init__(self):

        # modelpath = "E:\pycharm_workspace\premodel\keras\chinese_simbert_L-12_H-768_A-12"
        # modelpath = "E:\pycharm_workspace\premodel\keras\chinese_roberta_wwm_ext_L-12_H-768_A-12"
        # modelpath = "E:\pycharm_workspace\premodel\keras\chinese_L-12_H-768_A-12"
        modelpath = "/home/majiahui/project/models-llm/keras/chinese_L-12_H-768_A-12"
        self.config_path = modelpath + r'/bert_config.json'
        self.checkpoint_path = modelpath + r'/bert_model.ckpt'
        self.dict_path = modelpath + r'/vocab.txt'
        self.token_dict, self.keep_tokens = load_vocab(
            dict_path=self.dict_path,
            simplified=True,
            startswith=['[PAD]', '[UNK]', '[CLS]', '[SEP]'],
        )
        self.tokenizer = Tokenizer(self.token_dict, do_lower_case=True)
        self.buildmodel()


    def buildmodel(self):
        bert = build_transformer_model(
            config_path=self.config_path,
            checkpoint_path=self.checkpoint_path,
            return_keras_model=False,
        )

        output = Lambda(lambda x: x[:, 0], name='CLS-token')(bert.model.output)
        self.model = keras.models.Model(bert.model.input, output)
        self.model.summary()

    def predict(self,text):
        batch_token_ids, batch_segment_ids = [], []
        token_ids, segment_ids = self.tokenizer.encode(text, maxlen=256)
        batch_token_ids.append(token_ids)
        batch_segment_ids.append(segment_ids)
        return self.model.predict([batch_token_ids, batch_segment_ids])

    def predict_batch(self,text_list):
        batch_token_ids, batch_segment_ids = [], []

        for t in text_list:
            token_ids, segment_ids = self.tokenizer.encode(t, maxlen=256)
            batch_token_ids.append(token_ids)
            batch_segment_ids.append(segment_ids)

        batch_token_ids = sequence_padding(batch_token_ids)
        batch_segment_ids = sequence_padding(batch_segment_ids)
        return self.model.predict([batch_token_ids, batch_segment_ids])

def simbert(data_1, data_2):
    pass

def word2vec():
    pass

def bleu():
    pass

def bool_len_strsim(data_1, data_2):
    str_sim_value = difflib.SequenceMatcher(None, data_1, data_2).quick_ratio()
    if len(data_2) - len(data_1) < 0:
        if len(data_2) / len(data_1) > 0.8:
            num_yu = 1 - len(data_2) / len(data_1)
            str_sim_value = 1 - str_sim_value * num_yu
        else:
            return False, ""

    if str_sim_value < 0.65:
        return True, str_sim_value
    else:
        return False, ""


def has_numbers(input_string):
    return any(char.isdigit() for char in input_string)


def bool_num(data_1, data_2):
    bool_1 = has_numbers(data_1)
    bool_2 = has_numbers(data_2)
    if bool_1 == True and bool_2 == True:
        return True
    else:
        return False

def is_contains_english(str):
    my_re = re.compile(r'[A-Za-z]', re.S)
    res = re.findall(my_re, str)
    if len(res):
        return True
    else:
        return False


def is_contains_kongge(str):
    if " " in str or "\t" in str:
        return True
    else:
        return False

if __name__ == '__main__':
    file = "../data/train_yy_pre.txt"
    # file = "../data/train_yy_zong_sim_99.txt"
    model = bertModel()
    eval_class = Evaluator()
    data_new = []

    data_1_list = []
    data_2_list = []

    # word2vecmodel = Word2vecModel()
    try:
        with open(file, 'r', encoding="utf-8") as f:
            lines = [x.strip() for x in f if x.strip() != '']
    except:
        with open(file, 'r', encoding="gbk") as f:
            lines = [x.strip() for x in f if x.strip() != '']

    bertsim_list = []
    bleusim_list = []
    word2vecsim_list = []
    data_train_text = []

    # random.shuffle(lines)
    print(len(lines))
    for txt in tqdm(lines):

        text = txt.split('\t')
        if len(text) == 3:
            data_1 = text[0]
            data_2 = text[2]

            # 判断是否包含数字
            bool_num_ = bool_num(data_1, data_2)
            if bool_num_ == False:
                continue

            # 判断是否包含英文
            # data_english_bool = is_contains_english(data_1)
            # if data_english_bool == True:
            #     continue

            # 判断是否包含空格
            data_kongge_bool = is_contains_kongge(data_1)
            if data_kongge_bool == True:
                continue

            # 判断是否符合字符相似度标准
            bool_len_strsim_v, strsim = bool_len_strsim(data_1,data_2)
            if bool_len_strsim_v == True:
                continue

            # # 第一种方法
            # y1 = model.predict(data_1)[0]
            # y2 = model.predict(data_2)[0]
            # cos_sim = cosine_similarity(y1.reshape(1, -1), y2.reshape(1, -1))
            # # bertsim_list.append((cos_sim[0][0], strsim, data_1, data_2))
            # if cos_sim[0][0] > 0.9:
            #     cos_sim_bool = True
            # else:
            #     cos_sim_bool = False
            #
            # if cos_sim_bool == False:
            #     continue
            #
            # data_new.append("\t".join([data_1, "to", data_2]))


                # data_train_text.append("\t".join([data_1, "to", data_2]))

            # 第二种方法
            y = model.predict_batch([data_1, data_2])
            y1 = y[0]
            y2 = y[1]
            cos_sim = cosine_similarity(y1.reshape(1, -1), y2.reshape(1, -1))
            # bertsim_list.append((cos_sim[0][0], strsim, data_1, data_2))
            if cos_sim[0][0] > 0.9:
                cos_sim_bool = True
            else:
                cos_sim_bool = False

            if cos_sim_bool == False:
                continue

            data_new.append("\t".join([data_1, "to", data_2]))


    # bertsim_list.sort(reverse=True)
    # with open("../data/tongji_len_strsim_nertsim_1.txt", "w", encoding="utf-8") as f:
    #     for i in bertsim_list:
    #         f.write(str(i[0]))
    #         f.write(str("\t"))
    #         f.write(str(i[1]))
    #         f.write(str("\t"))
    #         f.write(str(i[2]))
    #         f.write(str("\t"))
    #         f.write(str(i[3]))
    #         f.write("\n")
    # print(len(data_train_text))
    fileName = '../data/train_new/train_yy_1.txt'
    # fileName = '../data/train_new/train_yy.txt'
    with open(fileName, 'w', encoding='utf-8') as f:
        for i in data_new:
            f.write(str(i) + '\n')
        f.close()
修改流程 2 years ago			`# -- coding: utf-8 --`

			`"""`
			`@Time : 2023/1/31 19:02`
			`@Author :`
			`@FileName:`
			`@Software:`
			`@Describe:`
			`"""`
			`import os`
			`# os.environ["TF_KERAS"] = "1"`
			`os.environ["CUDA_VISIBLE_DEVICES"] = "0"`
			`import json`
			`import numpy as np`
			`from bert4keras.backend import keras, set_gelu`
			`from bert4keras.tokenizers import Tokenizer, load_vocab`
			`from bert4keras.models import build_transformer_model`
			`from bert4keras.optimizers import Adam, extend_with_piecewise_linear_lr`
			`from bert4keras.snippets import sequence_padding, DataGenerator`
			`from bert4keras.snippets import open`
			`from keras.layers import Lambda, Dense`
			`import tensorflow as tf`
			`from keras.backend import set_session`
			`from sklearn.metrics.pairwise import cosine_similarity`
			`from rouge import Rouge # pip install rouge`
			`from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction`
			`from tqdm import tqdm`
			`import jieba`
			`from gensim.models import KeyedVectors, word2vec, Word2Vec`
			`import random`
			`import difflib`
			`import re`

			`config = tf.ConfigProto()`
			`config.gpu_options.allow_growth = True`
			`set_session(tf.Session(config=config)) # 此处不同`

			`class Word2vecModel:`
			`def __init__(self):`
			`self.path = "E:\pycharm_workspace\查重分析\word2vec_model\\word2vec_add_new_18.model"`
			`self.model = Word2Vec.load(self.path)`

			`def word2vec_res(self,seg_0_list, seg_1_list):`
			`sentence_0_list = []`
			`sentence_1_list = []`
			`for i in seg_0_list:`
			`a = self.model.wv[i]`
			`sentence_0_list.append(a)`

			`for i in seg_1_list:`
			`a = self.model.wv[i]`
			`sentence_1_list.append(a)`

			`return sentence_0_list, sentence_1_list`

			`class Evaluator(keras.callbacks.Callback):`
			`"""评估与保存`
			`"""`

			`def __init__(self):`
			`self.rouge = Rouge()`
			`self.smooth = SmoothingFunction().method1`
			`self.best_bleu = 0.`

			`# def on_epoch_end(self, epoch, logs=None):`
			`# metrics = self.evaluate(valid_data) # 评测模型`
			`# if metrics['bleu'] > self.best_bleu:`
			`# self.best_bleu = metrics['bleu']`
			`# model.save_weights('./best_model.weights') # 保存模型`
			`# metrics['best_bleu'] = self.best_bleu`
			`# print('valid_data:', metrics)`


			`def evaluate_t(self, data_1, data_2, topk=1):`
			`total = 0`
			`rouge_1, rouge_2, rouge_l, bleu = 0, 0, 0, 0`

			`scores = self.rouge.get_scores(hyps=[data_1], refs=[data_2])`
			`rouge_1 += scores[0]['rouge-1']['f']`
			`rouge_2 += scores[0]['rouge-2']['f']`
			`rouge_l += scores[0]['rouge-l']['f']`
			`bleu += sentence_bleu(`
			`references=[data_1.split(' ')],`
			`hypothesis=data_2.split(' '),`
			`smoothing_function=self.smooth`
			`)`
			`# rouge_1 /= total`
			`# rouge_2 /= total`
			`# rouge_l /= total`
			`# bleu /= total`
			`return [rouge_1, rouge_2, rouge_l, bleu]`

			`class bertModel:`
			`def __init__(self):`

			`# modelpath = "E:\pycharm_workspace\premodel\keras\chinese_simbert_L-12_H-768_A-12"`
			`# modelpath = "E:\pycharm_workspace\premodel\keras\chinese_roberta_wwm_ext_L-12_H-768_A-12"`
			`# modelpath = "E:\pycharm_workspace\premodel\keras\chinese_L-12_H-768_A-12"`
			`modelpath = "/home/majiahui/project/models-llm/keras/chinese_L-12_H-768_A-12"`
			`self.config_path = modelpath + r'/bert_config.json'`
			`self.checkpoint_path = modelpath + r'/bert_model.ckpt'`
			`self.dict_path = modelpath + r'/vocab.txt'`
			`self.token_dict, self.keep_tokens = load_vocab(`
			`dict_path=self.dict_path,`
			`simplified=True,`
			`startswith=['[PAD]', '[UNK]', '[CLS]', '[SEP]'],`
			`)`
			`self.tokenizer = Tokenizer(self.token_dict, do_lower_case=True)`
			`self.buildmodel()`


			`def buildmodel(self):`
			`bert = build_transformer_model(`
			`config_path=self.config_path,`
			`checkpoint_path=self.checkpoint_path,`
			`return_keras_model=False,`
			`)`

			`output = Lambda(lambda x: x[:, 0], name='CLS-token')(bert.model.output)`
			`self.model = keras.models.Model(bert.model.input, output)`
			`self.model.summary()`

			`def predict(self,text):`
			`batch_token_ids, batch_segment_ids = [], []`
			`token_ids, segment_ids = self.tokenizer.encode(text, maxlen=256)`
			`batch_token_ids.append(token_ids)`
			`batch_segment_ids.append(segment_ids)`
			`return self.model.predict([batch_token_ids, batch_segment_ids])`

			`def predict_batch(self,text_list):`
			`batch_token_ids, batch_segment_ids = [], []`

			`for t in text_list:`
			`token_ids, segment_ids = self.tokenizer.encode(t, maxlen=256)`
			`batch_token_ids.append(token_ids)`
			`batch_segment_ids.append(segment_ids)`

			`batch_token_ids = sequence_padding(batch_token_ids)`
			`batch_segment_ids = sequence_padding(batch_segment_ids)`
			`return self.model.predict([batch_token_ids, batch_segment_ids])`

			`def simbert(data_1, data_2):`
			`pass`

			`def word2vec():`
			`pass`

			`def bleu():`
			`pass`

			`def bool_len_strsim(data_1, data_2):`
			`str_sim_value = difflib.SequenceMatcher(None, data_1, data_2).quick_ratio()`
			`if len(data_2) - len(data_1) < 0:`
			`if len(data_2) / len(data_1) > 0.8:`
			`num_yu = 1 - len(data_2) / len(data_1)`
			`str_sim_value = 1 - str_sim_value * num_yu`
			`else:`
			`return False, ""`

			`if str_sim_value < 0.65:`
			`return True, str_sim_value`
			`else:`
			`return False, ""`


			`def has_numbers(input_string):`
			`return any(char.isdigit() for char in input_string)`


			`def bool_num(data_1, data_2):`
			`bool_1 = has_numbers(data_1)`
			`bool_2 = has_numbers(data_2)`
			`if bool_1 == True and bool_2 == True:`
			`return True`
			`else:`
			`return False`

			`def is_contains_english(str):`
			`my_re = re.compile(r'[A-Za-z]', re.S)`
			`res = re.findall(my_re, str)`
			`if len(res):`
			`return True`
			`else:`
			`return False`


			`def is_contains_kongge(str):`
			`if " " in str or "\t" in str:`
			`return True`
			`else:`
			`return False`

			`if __name__ == '__main__':`
			`file = "../data/train_yy_pre.txt"`
			`# file = "../data/train_yy_zong_sim_99.txt"`
			`model = bertModel()`
			`eval_class = Evaluator()`
			`data_new = []`

			`data_1_list = []`
			`data_2_list = []`

			`# word2vecmodel = Word2vecModel()`
			`try:`
			`with open(file, 'r', encoding="utf-8") as f:`
			`lines = [x.strip() for x in f if x.strip() != '']`
			`except:`
			`with open(file, 'r', encoding="gbk") as f:`
			`lines = [x.strip() for x in f if x.strip() != '']`

			`bertsim_list = []`
			`bleusim_list = []`
			`word2vecsim_list = []`
			`data_train_text = []`

			`# random.shuffle(lines)`
			`print(len(lines))`
			`for txt in tqdm(lines):`

			`text = txt.split('\t')`
			`if len(text) == 3:`
			`data_1 = text[0]`
			`data_2 = text[2]`

			`# 判断是否包含数字`
			`bool_num_ = bool_num(data_1, data_2)`
			`if bool_num_ == False:`
			`continue`

			`# 判断是否包含英文`
			`# data_english_bool = is_contains_english(data_1)`
			`# if data_english_bool == True:`
			`# continue`

			`# 判断是否包含空格`
			`data_kongge_bool = is_contains_kongge(data_1)`
			`if data_kongge_bool == True:`
			`continue`

			`# 判断是否符合字符相似度标准`
			`bool_len_strsim_v, strsim = bool_len_strsim(data_1,data_2)`
			`if bool_len_strsim_v == True:`
			`continue`

			`# # 第一种方法`
			`# y1 = model.predict(data_1)[0]`
			`# y2 = model.predict(data_2)[0]`
			`# cos_sim = cosine_similarity(y1.reshape(1, -1), y2.reshape(1, -1))`
			`# # bertsim_list.append((cos_sim[0][0], strsim, data_1, data_2))`
			`# if cos_sim[0][0] > 0.9:`
			`# cos_sim_bool = True`
			`# else:`
			`# cos_sim_bool = False`
			`#`
			`# if cos_sim_bool == False:`
			`# continue`
			`#`
			`# data_new.append("\t".join([data_1, "to", data_2]))`


			`# data_train_text.append("\t".join([data_1, "to", data_2]))`

			`# 第二种方法`
			`y = model.predict_batch([data_1, data_2])`
			`y1 = y[0]`
			`y2 = y[1]`
			`cos_sim = cosine_similarity(y1.reshape(1, -1), y2.reshape(1, -1))`
			`# bertsim_list.append((cos_sim[0][0], strsim, data_1, data_2))`
			`if cos_sim[0][0] > 0.9:`
			`cos_sim_bool = True`
			`else:`
			`cos_sim_bool = False`

			`if cos_sim_bool == False:`
			`continue`

			`data_new.append("\t".join([data_1, "to", data_2]))`



			`# bertsim_list.sort(reverse=True)`
			`# with open("../data/tongji_len_strsim_nertsim_1.txt", "w", encoding="utf-8") as f:`
			`# for i in bertsim_list:`
			`# f.write(str(i[0]))`
			`# f.write(str("\t"))`
			`# f.write(str(i[1]))`
			`# f.write(str("\t"))`
			`# f.write(str(i[2]))`
			`# f.write(str("\t"))`
			`# f.write(str(i[3]))`
			`# f.write("\n")`
			`# print(len(data_train_text))`
			`fileName = '../data/train_new/train_yy_1.txt'`
			`# fileName = '../data/train_new/train_yy.txt'`
			`with open(fileName, 'w', encoding='utf-8') as f:`
			`for i in data_new:`
			`f.write(str(i) + '\n')`
			`f.close()`