generate_references/accurate_check.py

import json
import datetime
import pymysql
import re
import requests
from flask import Flask, jsonify
from flask import request
import uuid
import time
import redis
from threading import Thread

pool = redis.ConnectionPool(host='localhost', port=63179, max_connections=100, db=8, password="zhicheng123*")
redis_ = redis.Redis(connection_pool=pool, decode_responses=True)

db_key_query = 'query_check_task'
db_key_querying = 'querying_check_task'
db_key_queryset = 'queryset_check_task'
db_key_query_recall = 'query_recall'


def run_query(conn, sql, params):
    with conn.cursor() as cursor:
        cursor.execute(sql, params)
        result = cursor.fetchall()
    return result


# def processing_one_text(paper_id):
#     conn = pymysql.connect(
#         host='192.168.31.145',
#         port=3306,
#         user='root',
#         password='123456',
#         db='zhiwang_db',
#         charset='utf8mb4',
#         cursorclass=pymysql.cursors.DictCursor
#     )
#
#     sql = 'SELECT * FROM main_table_paper_detail_message WHERE doc_id=%s'
#     params = (paper_id,)
#
#     result = run_query(conn, sql, params)
#
#     conn.close()
#     print(result[0]['title'], result[0]['author'])
#     title = result[0]['title']
#     author = result[0]['author']
#     degree = result[0]['degree']
#     year = result[0]['content'].split("/")[5]
#     content_path = result[0]['content']
#     school = result[0]['school']
#     qikan_name = result[0]['qikan_name']
#     author = str(author).strip(";")
#     author = str(author).replace(";", ",")
#     # select
#     # school, qikan_name
#     # from main_table_paper_detail_message limit
#     # 10000 \G;;
#
#     try:
#         with open(content_path, encoding="utf-8") as f:
#             text = f.read()
#     except:
#         with open(content_path, encoding="gbk") as f:
#             text = f.read()
#
#     paper_info = {
#         "title": title,
#         "author": author,
#         "degree": degree,
#         "year": year,
#         "paper_len_word": len(text),
#         "school": school,
#         "qikan_name": qikan_name
#     }
#     return paper_info

from clickhouse_driver import Client

class PureClient:
    def __init__(self, database='test_db'):
        # 只需要写本地地址
        self.client = Client(host='192.168.31.74', port=9000, user='default',
                             password='zhicheng123*', database=database)

    def run(self, sql):
        client = self.client
        collection = client.query_dataframe(sql)
        return collection

def processing_one_text(paper_id):

    pureclient = PureClient()
    print("paper_id", paper_id)
    sql = 'SELECT * FROM main_paper_message WHERE doc_id={}'.format(paper_id)
    result = pureclient.run(sql)
    print("result", result)
    title = result['title'][0]
    author = result['author'][0]
    degree = result['degree'][0]
    year = result['content'][0].split("/")[5]
    school = result['school'][0]
    qikan_name = result['qikan_name'][0]
    author = str(author).strip(";")
    author = str(author).replace(";", ",")
    # select
    # school, qikan_name
    # from main_table_paper_detail_message limit
    # 10000 \G;;

    paper_info = {
        "title": title,
        "author": author,
        "degree": degree,
        "year": year,
        "school": school,
        "qikan_name": qikan_name
    }
    print("paper_info", paper_info)
    return paper_info


def ulit_recall_paper(recall_data_list_dict):
    '''
    对返回的十篇文章路径读取并解析
    :param recall_data_list_path:
    :return data: list [[sentence, filename],[sentence, filename],[sentence, filename]]
    '''

    # data = []
    # for path in recall_data_list_path:
    #     filename = path.split("/")[-1]
    #     with open(path, encoding="gbk") as f:
    #         text = f.read()
    #     text_list = text.split("\n")
    #     for sentence in text_list:
    #         if sentence != "":
    #             data.append([sentence, filename])
    # return data

    data = []
    for i in list(recall_data_list_dict.items()):
        data_one = processing_one_text(i[0])

        print("ulit_recall_paper-1")
        degree = "[D]"
        if data_one['degree'] == "期刊":
            degree = "[J]"

        #     school = result[0]['school']
        #     qikan_name = result[0]['qikan_name']
        if data_one['school'] != " ":
            source = data_one['school']
        else:
            source = data_one['qikan_name']
        print("ulit_recall_paper-2")
        paper_name = ".".join([data_one['author'], data_one['title'] + degree, ",".join([source, data_one['year']])])
        paper_name = paper_name + "."
        data.append(paper_name)
        print("ulit_recall_paper-3")
    data = list(set(data))
    return data


def classify_accurate_check():
    while True:
        if redis_.llen(db_key_query_recall) == 0:  # 若队列中没有元素就继续获取
            time.sleep(1)
            continue

        print("计算结果")
        query_recall = redis_.lpop(db_key_query_recall).decode('UTF-8')  # 获取query的text
        query_recall_dict = json.loads(query_recall)

        query_recall_uuid = query_recall_dict["uuid"]
        recall_data_list_dict = query_recall_dict["data"]
        is_success = query_recall_dict["is_success"]

        try:
            if is_success == "0":
                return_text = {"resilt": "宇鹏接口不成功", "probabilities": None, "status_code": 400}
            else:
                if recall_data_list_dict == "{}":
                    return_text = {"resilt": "查询结果为空", "probabilities": None, "status_code": 400}
                else:
                    recall_data_list = ulit_recall_paper(recall_data_list_dict)
                    recall_data = "\n".join(recall_data_list)
                    return_text = {"resilt": recall_data, "probabilities": None, "status_code": 200}
        except:
            return_text = {"resilt": "计算有问题", "probabilities": None, "status_code": 400}

        load_result_path = "./new_data_logs/{}.json".format(query_recall_uuid)
        print("queue_uuid: ", query_recall_uuid)
        print("load_result_path: ", load_result_path)

        with open(load_result_path, 'w', encoding='utf8') as f2:
            # ensure_ascii=False才能输入中文，否则是Unicode字符
            # indent=2 JSON数据的缩进，美观
            json.dump(return_text, f2, ensure_ascii=False, indent=4)

        redis_.set(query_recall_uuid, load_result_path, 86400)


if __name__ == '__main__':
    t1 = Thread(target=classify_accurate_check)
    t1.start()
生成参考文献第一次提交 2 years ago			`import json`
			`import datetime`
			`import pymysql`
			`import re`
			`import requests`
			`from flask import Flask, jsonify`
			`from flask import request`
			`import uuid`
			`import time`
			`import redis`
			`from threading import Thread`

			`pool = redis.ConnectionPool(host='localhost', port=63179, max_connections=100, db=8, password="zhicheng123*")`
			`redis_ = redis.Redis(connection_pool=pool, decode_responses=True)`

			`db_key_query = 'query_check_task'`
			`db_key_querying = 'querying_check_task'`
			`db_key_queryset = 'queryset_check_task'`
			`db_key_query_recall = 'query_recall'`


			`def run_query(conn, sql, params):`
			`with conn.cursor() as cursor:`
			`cursor.execute(sql, params)`
			`result = cursor.fetchall()`
			`return result`


			`# def processing_one_text(paper_id):`
			`# conn = pymysql.connect(`
			`# host='192.168.31.145',`
			`# port=3306,`
			`# user='root',`
			`# password='123456',`
			`# db='zhiwang_db',`
			`# charset='utf8mb4',`
			`# cursorclass=pymysql.cursors.DictCursor`
			`# )`
			`#`
			`# sql = 'SELECT * FROM main_table_paper_detail_message WHERE doc_id=%s'`
			`# params = (paper_id,)`
			`#`
			`# result = run_query(conn, sql, params)`
			`#`
			`# conn.close()`
			`# print(result[0]['title'], result[0]['author'])`
			`# title = result[0]['title']`
			`# author = result[0]['author']`
			`# degree = result[0]['degree']`
			`# year = result[0]['content'].split("/")[5]`
			`# content_path = result[0]['content']`
			`# school = result[0]['school']`
			`# qikan_name = result[0]['qikan_name']`
			`# author = str(author).strip(";")`
			`# author = str(author).replace(";", ",")`
			`# # select`
			`# # school, qikan_name`
			`# # from main_table_paper_detail_message limit`
			`# # 10000 \G;;`
			`#`
			`# try:`
			`# with open(content_path, encoding="utf-8") as f:`
			`# text = f.read()`
			`# except:`
			`# with open(content_path, encoding="gbk") as f:`
			`# text = f.read()`
			`#`
			`# paper_info = {`
			`# "title": title,`
			`# "author": author,`
			`# "degree": degree,`
			`# "year": year,`
			`# "paper_len_word": len(text),`
			`# "school": school,`
			`# "qikan_name": qikan_name`
			`# }`
			`# return paper_info`

			`from clickhouse_driver import Client`

			`class PureClient:`
			`def __init__(self, database='test_db'):`
			`# 只需要写本地地址`
			`self.client = Client(host='192.168.31.74', port=9000, user='default',`
			`password='zhicheng123*', database=database)`

			`def run(self, sql):`
			`client = self.client`
			`collection = client.query_dataframe(sql)`
			`return collection`

			`def processing_one_text(paper_id):`

			`pureclient = PureClient()`
			`print("paper_id", paper_id)`
			`sql = 'SELECT * FROM main_paper_message WHERE doc_id={}'.format(paper_id)`
			`result = pureclient.run(sql)`
			`print("result", result)`
			`title = result['title'][0]`
			`author = result['author'][0]`
			`degree = result['degree'][0]`
			`year = result['content'][0].split("/")[5]`
			`school = result['school'][0]`
			`qikan_name = result['qikan_name'][0]`
			`author = str(author).strip(";")`
			`author = str(author).replace(";", ",")`
			`# select`
			`# school, qikan_name`
			`# from main_table_paper_detail_message limit`
			`# 10000 \G;;`

			`paper_info = {`
			`"title": title,`
			`"author": author,`
			`"degree": degree,`
			`"year": year,`
			`"school": school,`
			`"qikan_name": qikan_name`
			`}`
			`print("paper_info", paper_info)`
			`return paper_info`


			`def ulit_recall_paper(recall_data_list_dict):`
			`'''`
			`对返回的十篇文章路径读取并解析`
			`:param recall_data_list_path:`
			`:return data: list [[sentence, filename],[sentence, filename],[sentence, filename]]`
			`'''`

			`# data = []`
			`# for path in recall_data_list_path:`
			`# filename = path.split("/")[-1]`
			`# with open(path, encoding="gbk") as f:`
			`# text = f.read()`
			`# text_list = text.split("\n")`
			`# for sentence in text_list:`
			`# if sentence != "":`
			`# data.append([sentence, filename])`
			`# return data`

			`data = []`
			`for i in list(recall_data_list_dict.items()):`
			`data_one = processing_one_text(i[0])`

			`print("ulit_recall_paper-1")`
			`degree = "[D]"`
			`if data_one['degree'] == "期刊":`
			`degree = "[J]"`

			`# school = result[0]['school']`
			`# qikan_name = result[0]['qikan_name']`
			`if data_one['school'] != " ":`
			`source = data_one['school']`
			`else:`
			`source = data_one['qikan_name']`
			`print("ulit_recall_paper-2")`
			`paper_name = ".".join([data_one['author'], data_one['title'] + degree, ",".join([source, data_one['year']])])`
			`paper_name = paper_name + "."`
			`data.append(paper_name)`
			`print("ulit_recall_paper-3")`
			`data = list(set(data))`
			`return data`


			`def classify_accurate_check():`
			`while True:`
			`if redis_.llen(db_key_query_recall) == 0: # 若队列中没有元素就继续获取`
			`time.sleep(1)`
			`continue`

			`print("计算结果")`
			`query_recall = redis_.lpop(db_key_query_recall).decode('UTF-8') # 获取query的text`
			`query_recall_dict = json.loads(query_recall)`

			`query_recall_uuid = query_recall_dict["uuid"]`
			`recall_data_list_dict = query_recall_dict["data"]`
			`is_success = query_recall_dict["is_success"]`

			`try:`
			`if is_success == "0":`
			`return_text = {"resilt": "宇鹏接口不成功", "probabilities": None, "status_code": 400}`
			`else:`
			`if recall_data_list_dict == "{}":`
			`return_text = {"resilt": "查询结果为空", "probabilities": None, "status_code": 400}`
			`else:`
			`recall_data_list = ulit_recall_paper(recall_data_list_dict)`
			`recall_data = "\n".join(recall_data_list)`
			`return_text = {"resilt": recall_data, "probabilities": None, "status_code": 200}`
			`except:`
			`return_text = {"resilt": "计算有问题", "probabilities": None, "status_code": 400}`

			`load_result_path = "./new_data_logs/{}.json".format(query_recall_uuid)`
			`print("queue_uuid: ", query_recall_uuid)`
			`print("load_result_path: ", load_result_path)`

			`with open(load_result_path, 'w', encoding='utf8') as f2:`
			`# ensure_ascii=False才能输入中文，否则是Unicode字符`
			`# indent=2 JSON数据的缩进，美观`
			`json.dump(return_text, f2, ensure_ascii=False, indent=4)`

			`redis_.set(query_recall_uuid, load_result_path, 86400)`


			`if __name__ == '__main__':`
			`t1 = Thread(target=classify_accurate_check)`
			`t1.start()`