20230831_查重

2 years ago · ded2da121b
13 changed files with 1013 additions and 0 deletions
--- a/check_version_1_0/CheckFalsk.py
+++ b/check_version_1_0/CheckFalsk.py
--- a/check_version_1_0/SearchSimPaper.py
+++ b/check_version_1_0/SearchSimPaper.py
@ -0,0 +1,254 @@
+# -*- coding = utf-8 -*-
+# @Time:  18:01
+# @Author:ZYP
+# @File：SearchSimPaper.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import gc
+import time
+
+# =========================================================================================
+# 查找相似文档
+# · 文档之间关键词进行取交集
+# · 再对选取出的文档与送检文档进行关键词之间的相似度计算
+# · 最终选出最相似的文档，进行排序返回
+# =========================================================================================
+
+import math
+import numpy as np
+from collections import defaultdict
+from pymysql.converters import escape_string
+from sklearn.metrics.pairwise import cosine_similarity
+from util import cut_text, l2_normal, get_word_vec
+
+
+def load_inverted_table(class_list, mysql, log):
+    """根据分类结果，将每个类别的倒排表进行聚合，返回一个几个类别的字典、几个类别库中总论文数量"""
+    # 记录总的倒排表 {word:[doc_id1,doc_id2,doc_id3, ...]}
+    total_inverted_dict1 = {}
+    # 记录每个类别的论文数量的和
+    total_nums1 = 0
+
+    for label_num in class_list:
+        conn, cursor = mysql.open()
+        select_sql = """
+            select word, paper_doc_id from word_map_paper_{};
+        """.format(str(label_num))
+
+        s_time1 = time.time()
+        cursor.execute(select_sql)
+        for word, paper_doc_id in cursor.fetchall():
+            if word not in total_inverted_dict1.keys():
+                total_inverted_dict1[word] = paper_doc_id
+            else:
+                # total_inverted_dict1[word] = ','.join(
+                #     set(total_inverted_dict1[word].split(',') + paper_doc_id.split(',')))
+                total_inverted_dict1[word] = total_inverted_dict1[word] + ',' + paper_doc_id
+
+        e_time1 = time.time()
+        log.log('查找{}类倒排表花费的时间：{}s'.format(str(label_num), e_time1 - s_time1))
+
+        s_time2 = time.time()
+        select_paper_num_sql = """
+            select count_number from count_map where label_num={};
+        """.format(str(label_num))
+
+        cursor.execute(select_paper_num_sql)
+
+        for nums in cursor.fetchall():
+            total_nums1 += int(nums[0])
+
+        e_time2 = time.time()
+        log.log('查找{}类别下数据量花费：{}s'.format(str(label_num), e_time2 - s_time2))
+
+        mysql.close(cursor, conn)
+
+    return total_inverted_dict1, total_nums1
+
+
+def select_sim_doc_message(sim_doc1, mysql):
+    """
+    通过相似的 doc_id 在库中查找相关的信息，然后计算每个 doc_id 的均值文档向量，以字典形式返回 {文档号：均值文档向量....}
+    :param sim_doc1: 相似文档的列表，[doc_id1, doc_id2, ...]
+    :return: 返回{doc_id:(doc_avg_vec, doc_path)}
+    """
+    all_paper_vec_dict = {}
+    conn, cursor = mysql.open()
+    for doc_id in sim_doc1:
+        select_sql = """
+            select tb1.doc_id, tb1.title, tb1.abst_zh, tb2.vsm, tb1.content from
+            (
+                (select doc_id, title, abst_zh, content from main_table_paper_detail_message) tb1
+                left join
+                (select doc_id, vsm from id_keywords_weights) tb2
+                on
+                tb1.doc_id=tb2.doc_id
+            )where tb1.doc_id="{}";
+        """.format(
+            escape_string(doc_id))
+
+        cursor.execute(select_sql)
+
+        sim_doc_id, sim_title, sim_abst, sim_vsm, sim_content_path = cursor.fetchone()
+        sim_vsm_dict = {weight.split('@#$@')[0]: float(weight.split('@#$@')[1]) for weight in sim_vsm.split('&*^%')}
+        vector_paper = []
+        value_sum = 0.0
+        for word, weight in sim_vsm_dict.items():
+            if word in sim_title:
+                value = 0.5 * weight
+            elif word in sim_abst:
+                value = 0.3 * weight
+            else:
+                value = 0.2 * weight
+
+            word_vec = get_word_vec(word)
+            if isinstance(word_vec, int):
+                continue
+            vector_paper.append(word_vec * value)
+            value_sum += value
+
+        del sim_vsm_dict
+        gc.collect()
+
+        # 求一篇文档的关键词的向量均值
+        # avg_vector = np.array(np.sum(np.array(vector_paper, dtype=np.float32), axis=0) / len(vector_paper))
+        avg_vector = np.array(np.sum(np.array(vector_paper, dtype=np.float32), axis=0) / value_sum)
+        all_paper_vec_dict[doc_id] = (avg_vector, sim_content_path)
+
+    mysql.close(cursor, conn)
+
+    return all_paper_vec_dict
+
+
+def submit_paper_avg_vec(paper_dict1, tf_weight_dict):
+    """根据送检的文档的 tf 值，计算这篇文档的均值向量，以 numpy 数组形式返回"""
+    vector_paper = []
+    value_sum = 0.0
+    for word, weight in tf_weight_dict.items():
+        if word in paper_dict1['title']:
+            value = 0.5 * weight
+        elif word in paper_dict1['abst_zh']:
+            value = 0.3 * weight
+        else:
+            value = 0.2 * weight
+
+        word_vec = get_word_vec(word)
+        if isinstance(word_vec, int):
+            continue
+
+        vector_paper.append(word_vec * value)
+        value_sum += value
+
+    # avg_vector = np.array(np.sum(np.array(vector_paper, dtype=np.float32), axis=0) / len(vector_paper))
+    avg_vector = np.array(np.sum(np.array(vector_paper, dtype=np.float32), axis=0) / value_sum)
+
+    return avg_vector
+
+
+def compare_sim_in_papers(check_vector, sim_message, top=40):
+    """
+    计算文档间的相似度,使用的是余弦相似度
+    :param check_vector: 送检文章的文本向量
+    :param sim_message: 待检测的 50 篇相似文档,以字典形式存储
+    :param top: 设置返回最相似的 N 篇文档
+    :return: 返回相似文档的字典 形式：{doc_id:(相似得分, 文档路径)}
+    """
+    sim_res_dict = {}
+    for doc_id, (vector, content_path) in sim_message.items():
+        # sim_res_dict[doc_id] = cosine_similarity([scalar(check_vector), scalar(vector)])[0][1]
+        sim_res_dict[doc_id] = (str(cosine_similarity([check_vector, vector])[0][1]), content_path)
+    _ = sorted(sim_res_dict.items(), key=lambda x: float(x[1][0]), reverse=True)
+    return {key: value for key, value in _[:top]}
+
+
+def search_sim_paper(paper_dict, class_list, mysql, log, top=100):
+    """
+    根据送检论文的字典，在库中进行相似文档的查询，最后返回最相似的 top 文章，用于逐句查重。
+    :param paper_dict: 处理好的格式化送检论文
+    :param class_list: 模型预测送检论文的类别 id 的列表
+    :param top: 返回前 top 个文档
+    :return: 返回相似文档的字典 形式：{doc_id:(相似得分, 文档路径)}
+    """
+    all_str = paper_dict['title'] + '。' + paper_dict['abst_zh'] + '。' + paper_dict['content']
+    # 合并倒排表，并统计 论文总量  total_inverted_dict：总的倒排表
+    s0 = time.time()
+    total_inverted_dict, total_nums = load_inverted_table(class_list, mysql, log)
+    e0 = time.time()
+    log.log('查询倒排表花费时间为：{}s'.format(e0 - s0))
+
+    s1 = time.time()
+    # 计算送检文档的词频字典{word1:fre1, word2:fre2, ...}
+    word_fre_dict = cut_text(all_str, tokenizer='jieba')
+    e1 = time.time()
+    log.log('切词时间为：{}s'.format(e1 - s1))
+
+    s2 = time.time()
+    # 计算送检文档所有词语的 tf-idf 值
+    tf_idf_dict = {}
+    for word, freq in word_fre_dict.items():
+        if freq <= 2:
+            continue
+        tf = freq / sum(word_fre_dict.values())
+        if word in total_inverted_dict.keys():
+            idf = math.log(total_nums / (len(set(total_inverted_dict[word].split(','))) + 1))
+        else:
+            idf = math.log(total_nums / 1)
+
+        tf_idf = tf * idf
+        tf_idf_dict[word] = tf_idf
+    e2 = time.time()
+    log.log('计算送检文档关键词的TF-idf值花费的时间为：{}s'.format(e2 - s2))
+
+    s3 = time.time()
+    # 前 15 的单词、权重
+    tf_dict = l2_normal(tf_idf_dict)
+    e3 = time.time()
+    log.log('权重正则化花费的时间为：{}s'.format(e3 - s3))
+
+    s4 = time.time()
+    # 统计交集的
+    count_words_num = defaultdict(int)
+    for word, weight in tf_dict.items():
+        if word in total_inverted_dict.keys():
+            for doc_id in set(total_inverted_dict[word].split(',')):
+                count_words_num[doc_id] += 1
+        else:
+            continue
+    e4 = time.time()
+    log.log('统计doc_id交集花费的时间为：{}s'.format(e4 - s4))
+
+    # 排序
+    count_word_num = {i: j for i, j in sorted(count_words_num.items(), key=lambda x: x[1], reverse=True)}
+
+    # 查找前 200 篇相似的文档
+    sim_doc = list(count_word_num.keys())[:200]
+
+    # 计算这 200 篇文档的 文档均值向量
+    s_time1 = time.time()
+    sim_paper_vec_dict = select_sim_doc_message(sim_doc, mysql)
+    e_time1 = time.time()
+    log.log('计算200篇均值向量所花费的时间为：{}s'.format(e_time1 - s_time1))
+
+    # 计算送检文档的 文档均值向量
+    s_time2 = time.time()
+    submit_vec = submit_paper_avg_vec(paper_dict, tf_dict)
+    e_time2 = time.time()
+    log.log('计算送检文档的均值向量所花费的时间为：{}s'.format(e_time2 - s_time2))
+
+    # 计算送检文档 和 查出来的文档的相似度 并排序, 取 top 10 文章用作整篇查重
+    s_time3 = time.time()
+    sim_paper_dict = compare_sim_in_papers(submit_vec, sim_paper_vec_dict, top=top)
+    e_time3 = time.time()
+    log.log('计算送检文档和查出的文档的相似度（并排序）所花费的时间为：{}s'.format(e_time3 - s_time3))
+
+    del total_inverted_dict
+    del total_nums
+    del submit_vec
+    del sim_paper_vec_dict
+    del count_word_num
+    del sim_doc
+    del word_fre_dict
+
+    gc.collect()
+
+    return sim_paper_dict
--- a/check_version_1_0/demo01_multiprocessimg.py
+++ b/check_version_1_0/demo01_multiprocessimg.py
@ -0,0 +1,85 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/29 18:58
+# @Author:ZYP
+# @File：demo01_multiprocessimg.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import json
+import multiprocessing
+import os
+import time
+import uuid
+import signal
+from util import Logging
+
+import redis
+import requests
+
+from SearchSimPaper import search_sim_paper
+from mysql_collect import mysql
+
+pool = redis.ConnectionPool(host='192.168.31.145', port=63179, max_connections=50, password='zhicheng123*', db=8)
+redis_ = redis.Redis(connection_pool=pool, decode_responses=True)
+
+db_key_query = 'query'
+
+log = Logging()
+
+
+def check_main_func(uuid_):
+    while True:
+        if redis_.llen(db_key_query) == 0:
+            continue
+        while True:
+            ss = redis_.rpop(db_key_query)
+            if ss is None:
+                time.sleep(2)
+            else:
+                break
+
+        paper_data = json.loads(ss.decode())
+        id_ = paper_data["id"]
+        message_dict = paper_data["paper"]
+        class_res = \
+            json.loads(requests.post('http://192.168.31.145:50003/roformer', data=json.dumps(message_dict)).text)[
+                'label_num']
+        # class_res = [117, 36, 81]
+
+        sim_paper_id_dict = search_sim_paper(message_dict, class_res, mysql, log)
+        redis_.set(id_, json.dumps(sim_paper_id_dict))
+
+        pid = redis_.hget('process_pid', uuid_)
+        log.log("这个进程的 uuid 为：", uuid_)
+        redis_.hdel("process_pid", uuid_)
+        os.kill(int(pid), signal.SIGTERM)
+        break
+
+
+# def set_process():
+#     name = str(uuid.uuid1())
+#     process = multiprocessing.Process(target=check_main_func, args=(), name=name)
+#     process.start()
+#     process.join()
+#     return name, process
+
+
+if __name__ == '__main__':
+    # while redis_.llen('process_num') < 4:
+    #     name, process = set_process()
+    #     redis_.lpush('process_num', name)
+    #     process.is_alive()
+
+    # pool = multiprocessing.Pool(processes=4)
+    # while True:
+    #     if redis_.llen('process_num') < 4:
+    #         redis_.lpush('process_num', '1')
+    #         pool.apply_async(check_main_func, args=())
+
+    # pool = multiprocessing.Pool(processes=4)
+    while True:
+        if redis_.hlen('process_pid') < 4:
+            uuid_ = str(uuid.uuid1())
+            process = multiprocessing.Process(target=check_main_func, args=(uuid_,))
+            process.start()
+            process_id = process.pid
+            redis_.hset('process_pid', uuid_, str(process_id))
--- a/check_version_1_0/demo01_test_redis.py
+++ b/check_version_1_0/demo01_test_redis.py
@ -0,0 +1,110 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/28 15:03
+# @Author:ZYP
+# @File：demo01_test_redis.py
+# @mail：zypsunshine1@gmail.com
+# # @Software: PyCharm
+import time
+
+import flask
+import redis
+import uuid
+import json
+import requests
+# from util import Logging
+# from threading import Thread
+# from mysql_collect import mysql
+# from SearchSimPaper import search_sim_paper
+# import jieba
+from flask import request
+
+# import multiprocessing
+
+app_check = flask.Flask(__name__)
+pool = redis.ConnectionPool(host='192.168.31.145', port=63179, max_connections=50, password='zhicheng123*', db=8)
+redis_ = redis.Redis(connection_pool=pool, decode_responses=True)
+
+# pool1 = redis.ConnectionPool(host='192.168.31.145', port=63179, max_connections=50, password='zhicheng123*', db=11)
+# redis_1 = redis.Redis(connection_pool=pool1, decode_responses=True)
+
+# jieba.initialize()
+
+db_key_query = 'query'
+
+
+# db_key_result = 'result'
+
+# log = Logging()
+
+
+# def check_main_func():
+#     while True:
+#         if redis_.llen(db_key_query) == 0:
+#             continue
+#         while True:
+#             ss = redis_.rpop(db_key_query)
+#             if ss is None:
+#                 time.sleep(2)
+#             else:
+#                 break
+#
+#         paper_data = json.loads(ss.decode())
+#         id_ = paper_data["id"]
+#         message_dict = paper_data["paper"]
+#         class_res = \
+#             json.loads(requests.post('http://192.168.31.145:50003/roformer', data=json.dumps(message_dict)).text)[
+#                 'label_num']
+#
+#         sim_paper_id_dict = search_sim_paper(message_dict, class_res, mysql, log)
+#         redis_.set(id_, json.dumps(sim_paper_id_dict))
+
+
+@app_check.route("/check", methods=["POST"])
+def handle_query():
+    s = time.time()
+    message_dict = json.loads(request.data.decode())
+    uuid_request = str(message_dict['uuid'])
+    id_ = str(uuid.uuid1())  # 为query生成唯一标识
+    d = {'id': id_, 'paper': message_dict}  # 绑定文本和query id
+    redis_.rpush(db_key_query, json.dumps(d))
+    while True:
+        result = redis_.get(id_)
+        if result is not None:
+            redis_.delete(id_)
+            result_text = {'uuid': uuid_request, 'data': result.decode('UTF-8')}
+            # result_text = json.loads(result.decode('UTF-8'))
+            break
+    e = time.time()
+    print('{} 花费了{} s 的时间'.format(uuid_request, (e - s)))
+
+    redis_.lpush('query_recall', json.dumps(result_text))
+
+    return uuid_request  # 返回结果
+
+
+#     # return '1'
+
+
+if __name__ == "__main__":
+    # for i in range(2):
+    #     t = Thread(target=check_main_func, args=())
+    #     t.start()
+    # processes = []
+    #
+    # # 创建并启动多个进程
+    # for i in range(2):
+    #     process = multiprocessing.Process(target=check_main_func, args=())
+    #     processes.append(process)
+    #     process.start()
+
+    app_check.run(debug=False, host='0.0.0.0', port=50004)
+
+    # res = redis_.rpop(db_key_query)
+    # print(res)
+
+    # id_ = "51bc72dc-464e-11ee-baf3-45147420c4fb"
+    # res = redis_.get(id_)
+    # if res is not None:
+    #     redis_.delete(id_)
+    #     result_text = {'code': "200", 'data': res.decode('UTF-8')}
+    # print(result_text)
--- a/check_version_1_0/fasttext/fasttext_api.py
+++ b/check_version_1_0/fasttext/fasttext_api.py
@ -0,0 +1,35 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/22 14:44
+# @Author:ZYP
+# @File：fasttext_api.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import json
+
+import numpy as np
+from gensim.models.keyedvectors import KeyedVectors
+import time
+from flask import Flask, request
+
+app_fasttext = Flask(__name__)
+
+fasttext_path = '/home/zc-nlp-zyp/work_file/ssd_data/public_data/fasttext_model/fasttext.vector'
+model_fasttext = KeyedVectors.load_word2vec_format(fasttext_path, binary=True)
+
+
+@app_fasttext.route('/fasttext', methods=['POST'])
+def get_word2vec():
+    word_dict = json.loads(request.data.decode())
+    try:
+        vec = model_fasttext.get_vector(word_dict["word"])
+        str_vec = ','.join([str(i) for i in vec])
+        # vec1 = np.array([float(j) for j in str_vec.split(',')], dtype=np.float64)
+        vec_dict = {'vec': str_vec}
+        return json.dumps(vec_dict)
+    except:
+        return 'error_fasttext'
+
+
+# if __name__ == '__main__':
+#     app.run(host='0.0.0.0', port=50002, debug=False)
+
--- a/check_version_1_0/fasttext/fasttext_config.py
+++ b/check_version_1_0/fasttext/fasttext_config.py
@ -0,0 +1,25 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/22 15:30
+# @Author:ZYP
+# @File：fasttext_config.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import logging
+import logging.handlers
+import os
+import gevent.monkey
+
+gevent.monkey.patch_all()
+
+bind = '0.0.0.0:50002'  # 绑定的ip已经端口号
+chdir = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/fasttext'  # gunicorn要切换到的目的工作目录
+timeout = 60  # 超时
+worker_class = 'gevent'  # 使用gevent模式，还可以使用sync 模式，默认的是sync模式
+workers = 4  # multiprocessing.cpu_count() * 2 + 1  # 启动的进程数
+threads = 4
+loglevel = "info"  # 日志级别，这个日志级别指的是错误日志的级别，而访问日志的级别无法设置
+access_log_format = '%(t)s %(p)s %(h)s "%(r)s" %(s)s %(L)s %(b)s %(f)s" "%(a)s"'  # 设置gunicorn访问日志格式，错误日志无法设置
+pidfile = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/fasttext/fasttext_log/gunicorn.pid"
+accesslog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/fasttext/fasttext_log/access.log"
+errorlog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/fasttext/fasttext_log/error.log"
+daemon = True
--- a/check_version_1_0/flask_config.py
+++ b/check_version_1_0/flask_config.py
@ -0,0 +1,27 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/21 14:36
+# @Author:ZYP
+# @File：flask_config.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import logging
+import logging.handlers
+import os
+import multiprocessing
+import gevent.monkey
+
+gevent.monkey.patch_all()
+
+bind = '0.0.0.0:50004'  # 绑定的ip已经端口号
+chdir = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo'  # gunicorn要切换到的目的工作目录
+timeout = 200  # 超时
+worker_class = 'gevent'  # 使用gevent模式，还可以使用sync 模式，默认的是sync模式
+workers = 5  # multiprocessing.cpu_count() * 2 + 1  # 启动的进程数
+threads = 1
+loglevel = "info"  # 日志级别，这个日志级别指的是错误日志的级别，而访问日志的级别无法设置
+access_log_format = '%(t)s %(p)s %(h)s "%(r)s" %(s)s %(L)s %(b)s %(f)s" "%(a)s"'  # 设置gunicorn访问日志格式，错误日志无法设置
+pidfile = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/gunicornLogs/gunicorn.pid"
+accesslog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/gunicornLogs/access.log"
+errorlog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/gunicornLogs/error.log"
+
+daemon = True
--- a/check_version_1_0/mysql_collect.py
+++ b/check_version_1_0/mysql_collect.py
@ -0,0 +1,102 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/21 18:41
+# @Author:ZYP
+# @File：mysql_collect.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import pymysql
+from dbutils.pooled_db import PooledDB
+
+host = '192.168.31.145'
+port = 3306
+user = 'root'
+password = '123456'
+database = 'zhiwang_db'
+
+
+class MySQLConnectionPool:
+
+    def __init__(self, ):
+        self.pool = PooledDB(
+            creator=pymysql,  # 使用链接数据库的模块
+            mincached=20,  # 初始化时，链接池中至少创建的链接，0表示不创建
+            maxconnections=200,  # 连接池允许的最大连接数，0和None表示不限制连接数
+            blocking=True,  # 连接池中如果没有可用连接后，是否阻塞等待。True，等待；False，不等待然后报错
+            host=host,
+            port=port,
+            user=user,
+            password=password,
+            database=database
+        )
+
+    def open(self):
+        conn = self.pool.connection()
+        # self.cursor = self.conn.cursor(cursor=pymysql.cursors.DictCursor)  # 表示读取的数据为字典类型
+        cursor = conn.cursor()  # 表示读取的数据为字典类型
+        return conn, cursor
+
+    def close(self, cursor, conn):
+        cursor.close()
+        conn.close()
+
+    def select_one(self, sql, *args):
+        """查询单条数据"""
+        conn, cursor = self.open()
+        cursor.execute(sql, args)
+        result = cursor.fetchone()
+        self.close(conn, cursor)
+        return result
+
+    def select_all(self, sql, args):
+        """查询多条数据"""
+        conn, cursor = self.open()
+        cursor.execute(sql, args)
+        result = cursor.fetchall()
+        self.close(conn, cursor)
+        return result
+
+    def insert_one(self, sql, args):
+        """插入单条数据"""
+        self.execute(sql, args, isNeed=True)
+
+    def insert_all(self, sql, datas):
+        """插入多条批量插入"""
+        conn, cursor = self.open()
+        try:
+            cursor.executemany(sql, datas)
+            conn.commit()
+            return {'result': True, 'id': int(cursor.lastrowid)}
+        except Exception as err:
+            conn.rollback()
+            return {'result': False, 'err': err}
+
+    def update_one(self, sql, args):
+        """更新数据"""
+        self.execute(sql, args, isNeed=True)
+
+    def delete_one(self, sql, *args):
+        """删除数据"""
+        self.execute(sql, args, isNeed=True)
+
+    def execute(self, sql, args, isNeed=False):
+        """
+        执行
+        :param isNeed 是否需要回滚
+        """
+        conn, cursor = self.open()
+        if isNeed:
+            try:
+                cursor.execute(sql, args)
+                conn.commit()
+            except:
+                conn.rollback()
+        else:
+            cursor.execute(sql, args)
+            conn.commit()
+        self.close(conn, cursor)
+
+
+mysql = MySQLConnectionPool()
+# sql_select_all = 'select * from `main_table_paper_detail_message` limit %s;'
+# results = mysql.select_all(sql_select_all, (1,))
+# print(results)
--- a/check_version_1_0/roformer/roformer_api.py
+++ b/check_version_1_0/roformer/roformer_api.py
@ -0,0 +1,141 @@
+# -*- coding = utf-8 -*-
+# @Time:  16:41
+# @Author:ZYP
+# @File：roformer_api.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+
+# =========================================================================================
+# 加载深度学习模型
+# · 加载论文分类模型
+# · 加载 BERT 模型
+# =========================================================================================
+
+import json
+import os
+import numpy as np
+from bert4keras.models import build_transformer_model
+from keras.layers import Lambda, Dense
+from keras.models import Model
+from bert4keras.tokenizers import Tokenizer
+from bert4keras.backend import K
+import tensorflow as tf
+from keras.backend import set_session
+from flask import Flask, request
+
+# =========================================================================================================================
+# roformer 模型的参数
+# =========================================================================================================================
+class_nums = 168
+max_len = 512
+roformer_config_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/zhiwang_VSM/class_analysis/max_class_train/model/chinese_roformer-v2-char_L-12_H-768_A-12/bert_config.json'
+roformer_ckpt_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/zhiwang_VSM/class_analysis/max_class_train/model/chinese_roformer-v2-char_L-12_H-768_A-12/bert_model.ckpt'
+roformer_vocab_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/zhiwang_VSM/class_analysis/max_class_train/model/chinese_roformer-v2-char_L-12_H-768_A-12/vocab.txt'
+roformer_model_weights_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/zhiwang_VSM/class_analysis/max_class_train/model/model3/best_model.weights'
+label_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/zhiwang_VSM/class_analysis/max_class_train/data/label_threshold.txt'
+
+tfconfig = tf.ConfigProto()
+tfconfig.gpu_options.allow_growth = True
+set_session(tf.Session(config=tfconfig))  # 此处不同
+global graph
+graph = tf.get_default_graph()
+sess = tf.Session(graph=graph)
+set_session(sess)
+
+os.environ["CUDA_VISIBLE_DEVICES"] = "0"
+
+app_roformer = Flask(__name__)
+
+
+def load_roformer_model(config, ckpt):
+    """加载训练好的168多标签分类模型"""
+    roformer = build_transformer_model(
+        config_path=config,
+        checkpoint_path=ckpt,
+        model='roformer_v2',
+        return_keras_model=False)
+    output = Lambda(lambda x: x[:, 0])(roformer.model.output)
+    output = Dense(
+        units=class_nums,
+        kernel_initializer=roformer.initializer
+    )(output)
+    model1 = Model(roformer.model.input, output)
+    model1.summary()
+    return model1
+
+
+def load_label(label_path1):
+    """加载label2id、id2label、每个类别的阈值，用于分类"""
+    with open(label_path1, 'r', encoding='utf-8') as f:
+        json_dict = json.load(f)
+    label2id1 = {i: j[0] for i, j in json_dict.items()}
+    id2label1 = {j[0]: i for i, j in json_dict.items()}
+    label_threshold1 = np.array([j[1] for i, j in json_dict.items()])
+    return label2id1, id2label1, label_threshold1
+
+
+# 加载label的相关信息
+label2id, id2label, label_threshold = load_label(label_path)
+# roformer 模型的分词器
+tokenizer_roformer = Tokenizer(roformer_vocab_path)
+
+# 加载模型
+model_roformer = load_roformer_model(roformer_config_path, roformer_ckpt_path)
+set_session(sess)
+
+# 加载训练好的权重
+model_roformer.load_weights(roformer_model_weights_path)
+
+
+def encode(text_list1):
+    """将文本列表进行循环编码"""
+    sent_token_id1, sent_segment_id1 = [], []
+    for index, text in enumerate(text_list1):
+        if index == 0:
+            token_id, segment_id = tokenizer_roformer.encode(text)
+        else:
+            token_id, segment_id = tokenizer_roformer.encode(text)
+            token_id = token_id[1:]
+            segment_id = segment_id[1:]
+        if (index + 1) % 2 == 0:
+            segment_id = [1] * len(token_id)
+        sent_token_id1 += token_id
+        sent_segment_id1 += segment_id
+    if len(sent_token_id1) > max_len:
+        sent_token_id1 = sent_token_id1[:max_len]
+        sent_segment_id1 = sent_segment_id1[:max_len]
+
+    sent_token_id = np.array([sent_token_id1])
+    sent_segment_id = np.array([sent_segment_id1])
+    return sent_token_id, sent_segment_id
+
+
+@app_roformer.route('/roformer', methods=['POST'])
+def pred_class_num():
+    """将分类的预测结果进行返回，返回对应库的下标，同时对送检论文的要求处理成字典形式，包括 title、key_words、abst_zh、content 等"""
+    try:
+        target_paper_dict = json.loads(request.data.decode())
+        text_list1 = [target_paper_dict['title']]  # , target_paper_dict['key_words']
+        abst_zh = target_paper_dict['abst_zh']
+
+        if len(abst_zh.split("。")) <= 10:
+            text_list1.append(abst_zh)
+        else:
+            text_list1.append("。".join(abst_zh.split('。')[:5]))
+            text_list1.append("。".join(abst_zh.split('。')[-5:]))
+
+        sent_token, segment_ids = encode(text_list1)
+
+        with graph.as_default():
+            K.set_session(sess)
+            y_pred = model_roformer.predict([sent_token, segment_ids])
+
+        idx = np.where(y_pred[0] > label_threshold, 1, 0)
+        pred_label_num_dict = {'label_num': [index for index, i in enumerate(idx) if i == 1]}
+        return json.dumps(pred_label_num_dict)
+    except:
+        return 'error_roformer'
+
+
+# if __name__ == '__main__':
+#     app_roformer.run('0.0.0.0', port=50003, debug=False)
--- a/check_version_1_0/roformer/roformer_config.py
+++ b/check_version_1_0/roformer/roformer_config.py
@ -0,0 +1,26 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/22 16:06
+# @Author:ZYP
+# @File：roformer_config.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import logging
+import logging.handlers
+import os
+import multiprocessing
+import gevent.monkey
+
+gevent.monkey.patch_all()
+
+bind = '0.0.0.0:50003'  # 绑定的ip已经端口号
+chdir = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/roformer'  # gunicorn要切换到的目的工作目录
+timeout = 60  # 超时
+backlog = 2048
+worker_class = 'gevent'  # 使用gevent模式，还可以使用sync 模式，默认的是sync模式
+workers = 1  # multiprocessing.cpu_count() * 2 + 1  # 启动的进程数
+loglevel = "info"  # 日志级别，这个日志级别指的是错误日志的级别，而访问日志的级别无法设置
+access_log_format = '%(t)s %(p)s %(h)s "%(r)s" %(s)s %(L)s %(b)s %(f)s" "%(a)s"'  # 设置gunicorn访问日志格式，错误日志无法设置
+pidfile = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/roformer/roformer_log/gunicorn.pid"
+accesslog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/roformer/roformer_log/access.log"
+errorlog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/roformer/roformer_log/error.log"
+daemon = True
--- a/check_version_1_0/util.py
+++ b/check_version_1_0/util.py
@ -0,0 +1,96 @@
+# -*- coding = utf-8 -*-
+# @Time:  18:02
+# @Author:ZYP
+# @File：util.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+# =========================================================================================
+# 工具类
+# 用于加载停用词、数据库、word2vec、fasttext模型
+# =========================================================================================
+import os
+import time
+import math
+import json
+import jieba
+import numpy as np
+import requests
+from collections import defaultdict
+from textrank4zh import TextRank4Keyword
+
+jieba.initialize()
+
+stop_word_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/fasttext_train/data/total_stopwords.txt'
+
+class Logging:
+    def __init__(self):
+        pass
+
+    def log(*args, **kwargs):
+        format = '%Y/%m/%d-%H:%M:%S'
+        format_h = '%Y-%m-%d'
+        value = time.localtime(int(time.time()))
+        dt = time.strftime(format, value)
+        dt_log_file = time.strftime(format_h, value)
+        log_file = 'gunicornLogs/access-%s-%s' % (str(os.getpid()), dt_log_file) + ".log"
+        if not os.path.exists(log_file):
+            with open(os.path.join(log_file), 'w', encoding='utf-8') as f:
+                print(dt, *args, file=f, **kwargs)
+        else:
+            with open(os.path.join(log_file), 'a+', encoding='utf-8') as f:
+                print(dt, *args, file=f, **kwargs)
+
+
+def load_stopwords(path=stop_word_path):
+    """加载停用词"""
+    with open(path, 'r', encoding='utf-8') as f:
+        stop_words = {i.strip() for i in f.readlines()}
+    return stop_words
+
+
+def cut_text(text_str, tokenizer='jieba'):
+    """使用相应的分词算法对文章进行分词，然后统计每个单词的词频，按照降序返回相应的字典"""
+    word_dict = defaultdict(int)
+    if tokenizer == 'jieba':
+        all_word_list = jieba.cut(text_str)
+        for word in all_word_list:
+            if word not in stop_word:
+                word_dict[word] += 1
+    # elif tokenizer == 'hanlp':
+    #     for i in HanLP.segment(text_str):
+    #         if i.word not in stop_word and i.nature != 'w':
+    #             word_dict[i.word] += 1
+    else:
+        print('您输入的 tokenizer 参数有误！')
+
+    return {k: v for k, v in sorted(word_dict.items(), key=lambda x: x[1], reverse=True)}
+
+
+def l2_normal(tf_idf_dict):
+    """对计算出来的tf-idf字典进行归一化，归一到（0-1）之间"""
+    l2_norm = math.sqrt(sum(map(lambda x: x ** 2, tf_idf_dict.values())))
+    tf_idf_dict1 = sorted(tf_idf_dict.items(), key=lambda x: x[1] / l2_norm, reverse=True)
+    tf_idf_dict2 = {key: value / l2_norm for key, value in tf_idf_dict1[:15]}
+    return tf_idf_dict2
+
+
+def get_word_vec(word):
+    """根据相应的词语，使用模型进行提取词语向量，如果不存在词表中返回0，存在词表中返回对应向量"""
+    vec = requests.post('http://192.168.31.74:50001/word2vec', data=json.dumps({'word': word}), timeout=100)
+    if len(vec.text) < 100:
+        vec = requests.post('http://192.168.31.74:50002/fasttext', data=json.dumps({'word': word}), timeout=100)
+        if len(vec.text) < 100:
+            vec = 0
+            return vec
+        else:
+            json_dict = json.loads(vec.text)
+            res_vec = np.array([float(j) for j in json_dict["vec"].split(',')], dtype=np.float64)
+            return res_vec
+    else:
+        json_dict = json.loads(vec.text)
+        res_vec = np.array([float(j) for j in json_dict["vec"].split(',')], dtype=np.float64)
+        return res_vec
+
+
+stop_word = load_stopwords()
+tr4w = TextRank4Keyword(stop_words_file=stop_word_path)
--- a/check_version_1_0/word2vec/word2vec_api.py
+++ b/check_version_1_0/word2vec/word2vec_api.py
@ -0,0 +1,34 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/22 14:44
+# @Author:ZYP
+# @File：word2vec_api.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import json
+
+import numpy as np
+from gensim.models.keyedvectors import KeyedVectors
+import time
+from flask import Flask, request
+
+app_word2vec = Flask(__name__)
+
+word2vec_path = "/home/zc-nlp-zyp/work_file/ssd_data/public_data/word2vec_model/word2vec.vector"
+model_word2vec = KeyedVectors.load_word2vec_format(word2vec_path, binary=True)
+
+
+@app_word2vec.route('/word2vec', methods=['POST'])
+def get_word2vec():
+    word_dict = json.loads(request.data.decode())
+    try:
+        vec = model_word2vec.get_vector(word_dict["word"])
+        str_vec = ','.join([str(i) for i in vec])
+        # vec1 = np.array([float(j) for j in str_vec.split(',')], dtype=np.float64)
+        vec_dict = {'vec': str_vec}
+        return json.dumps(vec_dict)
+    except:
+        return 'error_word2vec'
+
+
+# if __name__ == '__main__':
+#     app.run(host='0.0.0.0', port=50001, debug=False)
--- a/check_version_1_0/word2vec/word2vec_config.py
+++ b/check_version_1_0/word2vec/word2vec_config.py
@ -0,0 +1,26 @@
+# -*- coding:utf-8 -*-
+# @Time: 2023/8/22 15:30
+# @Author:ZYP
+# @File：word2vec_config.py
+# @mail：zypsunshine1@gmail.com
+# @Software: PyCharm
+import logging
+import logging.handlers
+import os
+import multiprocessing
+import gevent.monkey
+
+gevent.monkey.patch_all()
+
+bind = '0.0.0.0:50001'  # 绑定的ip已经端口号
+chdir = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/word2vec'  # gunicorn要切换到的目的工作目录
+timeout = 60  # 超时
+worker_class = 'gevent'  # 使用gevent模式，还可以使用sync 模式，默认的是sync模式
+workers = 4  # multiprocessing.cpu_count() * 2 + 1  # 启动的进程数
+threads = 4
+loglevel = "info"  # 日志级别，这个日志级别指的是错误日志的级别，而访问日志的级别无法设置
+access_log_format = '%(t)s %(p)s %(h)s "%(r)s" %(s)s %(L)s %(b)s %(f)s" "%(a)s"'  # 设置gunicorn访问日志格式，错误日志无法设置
+pidfile = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/word2vec/word2vec_log/gunicorn.pid"
+accesslog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/word2vec/word2vec_log/access.log"
+errorlog = "/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/check1/change_demo/word2vec/word2vec_log/error.log"
+daemon = True