更新参考文献

1 year ago · 2e736e38b2
8 changed files with 546 additions and 18 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,14 @@
 ## 参考文献生成
 新参考文件项目使用faiss聚类方式查询，实现秒级响应
 #### 生成ndarray数据，生成文献基本信息
    修改或增加数据
    python 数据生成ndarray.py
 #### 训练faiss
    修改或增加 npy文件路径 
    python 训练faiss.py
 #### 部署服务
    python generate_references_api.py
--- a/generate_reference_faiss_data_info.py
+++ b/generate_reference_faiss_data_info.py
@ -0,0 +1,236 @@
 import os
 import random
 os.environ["CUDA_VISIBLE_DEVICES"] = "0"
 from flask import Flask, jsonify
 from flask import request
 import numpy as np
 import faiss
 import json
 import requests
 import socket
 from sentence_transformers import SentenceTransformer
 with open("data/lable/id2lable.json", encoding="utf-8") as f:
    id2lable = json.loads(f.read())
 with open("data/lable/lable2id.json", encoding="utf-8") as f:
    lable2id = json.loads(f.read())
 with open("data/discipline_types.json") as f:
    lable_discipline_types = json.loads(f.read())
 app = Flask(__name__)
 app.config["JSON_AS_ASCII"] = False
 d = 768  # dimension
 model = SentenceTransformer('Dmeta-embedding-zh')
 def get_host_ip():
    """
    查询本机ip地址
    :return: ip
    """
    try:
        s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
        s.connect(('8.8.8.8', 80))
        ip = s.getsockname()[0]
    finally:
        s.close()
    return ip
 # url = "http://{}:50003/roformer".format(str(get_host_ip()))
 url = "http://{}:50003/roformer".format("192.168.31.149")
 def dialog_line_parse(url, text):
    """
    将数据输入模型进行分析并输出结果
    :param url: 模型url
    :param text: 进入模型的数据
    :return: 模型返回结果
    """
    response = requests.post(
        url,
        json=text,
        timeout=1000
    )
    if response.status_code == 200:
        return response.json()
    else:
        # logger.error(
        #     "【{}】 Failed to get a proper response from remote "
        #     "server. Status Code: {}. Response: {}"
        #     "".format(url, response.status_code, response.text)
        # )
        print("【{}】 Failed to get a proper response from remote "
            "server. Status Code: {}. Response: {}"
            "".format(url, response.status_code, response.text))
        print(text)
        return []
 def panduan_paper_lable(paper_lable_text):
    paper_lable = {
        "硕士": "D",
        "期刊": "J",
        "博士": "J"
    }
    return paper_lable[paper_lable_text]
 def ulit_recall_paper(reference_list, nums):
    '''
    对返回的十篇文章路径读取并解析
    :param recall_data_list_path:
    :return data: list [[sentence, filename],[sentence, filename],[sentence, filename]]
    '''
    # data = []
    # for path in recall_data_list_path:
    #     filename = path.split("/")[-1]
    #     with open(path, encoding="gbk") as f:
    #         text = f.read()
    #     text_list = text.split("\n")
    #     for sentence in text_list:
    #         if sentence != "":
    #             data.append([sentence, filename])
    # return data
    # recall_data_list
    # 作者 论文名称 论文类别 论文来源 论文年份 摘要 期刊
    # "[1]赵璐.基于旅游资源开发下的新农村景观营建研究[D].西安建筑科技大学,2014."
    data_info = []
    data_title = []
    for data_one in reference_list:
        if data_one[1] not in data_title:
            print("data_one", data_one)
            print("data_one[0]", data_one[0])
            paper = ".".join([
                ",".join([str(i).replace("\n", "").replace("\r", "") for i in data_one[0].split(";") if i != ""]),
                data_one[1] + f"[{panduan_paper_lable(data_one[6])}]",
                ",".join([
                    data_one[3], str(data_one[4]) + "."
                ])
            ])
            data_title.append(data_one[1])
            data_info.append({
                "author": data_one[0],
                "title": data_one[1],
                "special_topic": data_one[2],
                "qikan_name": data_one[3],
                "year": str(data_one[4]),
                "abstract": data_one[5],
                "classlable": data_one[6],
                "reference": paper
            })
    # print(data)
    print(data_title)
    print(nums)
    random.shuffle(data_info)
    random.shuffle(data_info)
    data_info = data_info[:int(nums)]
    return data_info
 def main(title, abstract, nums):
    data = {
        "title": title,
        "abst_zh": abstract,
        "content": ""
    }
    # {
    #     "label_num": [
    #         117,
    #         143
    #     ]
    # }
    result = dialog_line_parse(url, data)
    # print(result['label_num'][0])
    # print(id2lable[result['label_num'][0]])
    subject_pinyin = lable_discipline_types[id2lable[str(result['label_num'][0])]]
    # with open(f"data/prompt/{subject_pinyin}.npy") as :
    #     zidonghua = np.load('data/prompt/{subject_pinyin}.npy')
    data_subject = np.load(f"data/prompt_qikan/{subject_pinyin}.npy")
    data_subject_1 = np.load(f"data/prompt_master/{subject_pinyin}.npy")
    data_subject_2 = np.load(f"data/prompt_doctor/{subject_pinyin}.npy")
    print("xb.shape", data_subject.shape)
    print("xb_1.shape", data_subject_1.shape)
    print("xb_2.shape", data_subject_2.shape)
    data_subject = np.concatenate((data_subject, data_subject_1, data_subject_2))
    print("data_subject.shape", data_subject.shape)
    index = faiss.read_index(f'data/prompt_qikan_master_doctor_ivf/{subject_pinyin}.ivf')
    with open(f"data/data_info_qikan/{subject_pinyin}.json") as f:
        data_info = json.loads(f.read())
    with open(f"data/data_info_master/{subject_pinyin}.json") as f:
        data_info_1 = json.loads(f.read())
    with open(f"data/data_info_doctor/{subject_pinyin}.json") as f:
        data_info_2 = json.loads(f.read())
    print(len(data_info))
    print(len(data_info_1))
    print(len(data_info_2))
    data_info = data_info + data_info_1 + data_info_2
    print(len(data_info))
    print(data_info[0])
    index.add(data_subject)
    # index.nprobe = 2  # default nprobe is 1, try a few more
    # k = nums
    k = 20
    prompt = "标题：“{}”，摘要：“{}”".format(title, abstract)
    embs = model.encode([prompt], normalize_embeddings=True)
    D, I = index.search(embs, int(k))
    # print(I)
    reference_list = []
    for i in I[0]:
        reference_list.append(data_info[i])
    data_info = ulit_recall_paper(reference_list, nums)
    return "200", data_info
@app.route("/", methods=["POST"])
 def handle_query():
    # try:
    title = request.form.get("title")
    abstract = ""
    nums = request.form.get('nums')
    # content = ulit_request_file(file)
    status_code, data_info_list = main(title, abstract, nums)
    if status_code == "400":
        return_text = {"resilt": "", "probabilities": None, "status_code": 400}
    else:
        if status_code == "200":
            return_text = {
                "data_info": data_info_list,
                "probabilities": None,
                "status_code": 200
            }
        else:
            return_text = {"resilt": "", "probabilities": None, "status_code": 400}
    return jsonify(return_text)  # 返回结果
 if __name__ == "__main__":
    app.run(host="0.0.0.0", port=17003, threaded=True)
--- a/generate_references_api_1.py
+++ b/generate_references_api_1.py
@ -75,7 +75,7 @@ def panduan_paper_lable(paper_lable_text):
    paper_lable = {
        "硕士": "D",
        "期刊": "J",
-        "博士": "J"
+        "博士": "D"
    }
    return paper_lable[paper_lable_text]
@ -106,12 +106,22 @@ def ulit_recall_paper(reference_list, nums):
    for data_one in reference_list:
        print("data_one", data_one)
        print("data_one[0]", data_one[0])
        if panduan_paper_lable(data_one[6]) == "J":
            paper = ".".join([
                ",".join([str(i).replace("\n", "").replace("\r", "") for i in data_one[0].split(";") if i != ""]),
                data_one[1] + f"[{panduan_paper_lable(data_one[6])}]",
                ",".join([
-                data_one[3], str(data_one[4]) + "."
+                    data_one[3], str(data_one[4])
                ])
            ]) + "，" + f"({data_one[8]})" + f":{data_one[7]}" + "."
        else:
            paper = ".".join([
                ",".join([str(i).replace("\n", "").replace("\r", "") for i in data_one[0].split(";") if i != ""]),
                data_one[1] + f"[{panduan_paper_lable(data_one[6])}]",
                ",".join([
                    data_one[3], str(data_one[4]) + "."
                ]),
            ])
        data.append(paper)
@ -157,7 +167,7 @@ def main(title, abstract, nums):
    index = faiss.read_index(f'data/prompt_qikan_master_doctor_ivf/{subject_pinyin}.ivf')
-    with open(f"data/data_info_qikan/{subject_pinyin}.json") as f:
+    with open(f"data/data_info_qikan_1/{subject_pinyin}.json") as f:
        data_info = json.loads(f.read())
    with open(f"data/data_info_master/{subject_pinyin}.json") as f:
--- a/博士数据整理.py
+++ b/博士数据整理.py
@ -0,0 +1,74 @@
 import json
 from tqdm import tqdm
 # json.load()
 # with open("t_xuewei_cnki_spider.csv", encoding="utf-8") as f:
 #     a = f.read()
 #     print(a)
 import pandas as pd
 filename = 'data/spider_latest_doctor_paper_list.csv'
 chunksize = 10000  # 指定每次读取的行数，可以根据需要调整
 df_list = []
 # 使用 chunksize 参数迭代读取 CSV 文件
 for chunk in pd.read_csv(filename, chunksize=chunksize):
    # 作者 论文名称 论文类别 论文来源 论文年份 摘要
    # 对每个 chunk 进行处理
    # print(chunk.columns)
    # 9 / 0
    df_list_dan = chunk.values.tolist()
    # print(df_list[0])
    for i in tqdm(range(len(df_list_dan))):
        if str(df_list_dan[i][2]) != "nan" and \
                str(df_list_dan[i][1]) != "nan" and\
                str(df_list_dan[i][6]) != "nan" and\
                str(df_list_dan[i][3]) != "nan" and\
                str(df_list_dan[i][4]) != "nan" and\
                str(df_list_dan[i][13]) != "nan":
            df_list.append({
                'author': df_list_dan[i][2],
                'title': df_list_dan[i][1],
                'special_topic': df_list_dan[i][6],
                'qikan_name': df_list_dan[i][3],
                'year': df_list_dan[i][4],
                'abstract': df_list_dan[i][13],
            })
 # data = []
 # json_list = [
 #     "/home/majiahui/project/爬取目录筛选/t_xuewei_detail_cnki.json",
 #     "/home/majiahui/project/爬取目录筛选/t_xuewei_detail_cnki2.json",
 #     "/home/majiahui/project/爬取目录筛选/t_xuewei_detail_cnki3.json",
 #     "/home/majiahui/project/爬取目录筛选/t_xuewei_detail_cnki6.json",
 #     "/home/majiahui/project/爬取目录筛选/t_xuewei_detail_cnki7.json",
 # ]
 #
 #
 # print("主库数据完成加载")
 # for path in json_list:
 #     name, typr_file = path.split(".")
 #     name = name.split("/")[-1]
 #     a = json.load(open(path))
 #     for i in a:
 #         autoid = "_".join([name, str(i['autoid'])])
 #         if autoid in df_dict:
 #             data.append([i['f_title']] + df_dict[autoid])
 #     print("path完成筛选")
 #
 print(len(df_list))
 with open("data/data_0423_doctor.json", "w", encoding="utf-8") as f:
    f.write(json.dumps(df_list, ensure_ascii=False, indent=2))
 #
 # with open("data.json", encoding="utf-8") as f:
 #     for i in f.readlines():
 #         a = json.loads(i)
 #
 #
 # print(a)
--- a/博士数据生成ndarray.py
+++ b/博士数据生成ndarray.py
@ -0,0 +1,134 @@
 import os
 os.environ["CUDA_VISIBLE_DEVICES"] = "1"
 import json
 import numpy as np
 from tqdm import tqdm
 from sentence_transformers import SentenceTransformer
 import re
 model = SentenceTransformer('Dmeta-embedding-zh')
 print(1)
 with open("data/discipline_types.json", encoding="utf-8") as f:
    lable_discipline_types = json.loads(f.read())
 def erjimul_ulit():
    pass
 def shengcehng_array(data):
    embs = model.encode(data, normalize_embeddings=True)
    return embs
 def is_contain_chinese(word):
    """
    判断字符串是否包含中文字符
    :param word: 字符串
    :return: 布尔值，True表示包含中文，False表示不包含中文
    """
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    match = pattern.search(word)
    return True if match else False
 if __name__ == '__main__':
    # data = []
    with open("data/data_0423_doctor.json", encoding="utf-8") as f:
        # for i in f.readlines():
        #     a = json.loads(i)
        #     data.append(a)
        data = json.loads(f.read())
    print(len(data))
    a = 0
    a_ = 0
    data_info = {}  # 作者 论文名称 论文类别 论文来源 论文年份 摘要
    data_prompt = {}
    data_info_en = {}  # 作者 论文名称 论文类别 论文来源 论文年份 摘要
    data_prompt_en = {}
    for data_dan in data:
        if str(data_dan["special_topic"]) == "nan" or \
                str(data_dan["author"]) == "nan" or \
                str(data_dan["title"]) == "nan" or \
                str(data_dan["qikan_name"]) == "nan" or \
                str(data_dan["year"]) == "nan" or \
                str(data_dan["abstract"]) == "nan":
            a_ += 1
            continue
        leibie_list = data_dan["special_topic"].split(";")
        for leibie in leibie_list:
            if leibie in lable_discipline_types:
                zh_bool = is_contain_chinese(data_dan["title"])
                if zh_bool == True:
                    if lable_discipline_types[leibie] not in data_prompt:
                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt[lable_discipline_types[leibie]] = [dan_data_prompt]
                        data_info[lable_discipline_types[leibie]] = [
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "博士"]]
                    else:
                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt[lable_discipline_types[leibie]].append(dan_data_prompt)
                        data_info[lable_discipline_types[leibie]].append(
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "博士"])
                else:
                    if lable_discipline_types[leibie] not in data_prompt_en:
                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt_en[lable_discipline_types[leibie]] = [dan_data_prompt]
                        data_info_en[lable_discipline_types[leibie]] = [
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "博士"]]
                    else:
                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt_en[lable_discipline_types[leibie]].append(dan_data_prompt)
                        data_info_en[lable_discipline_types[leibie]].append(
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "博士"])
            a += 1
    print(2)
    strat = 0
    end = 10000
    print(len(data_prompt))
    for leibie in tqdm(data_prompt):
        data_ndarray = np.empty((0, 768))
        print("len(data_prompt[leibie])", len(data_prompt[leibie]))
        while True:
            if end >= len(data_prompt[leibie]):
                break
            linshi_data = data_prompt[leibie][strat:end]
            data_ndarray = np.concatenate((data_ndarray, shengcehng_array(linshi_data)))
            print("data_ndarray.shape", data_ndarray.shape)
            strat = end
            end += 10000
        linshi_data = data_prompt[leibie][strat:len(data_prompt[leibie])]
        print("len(linshi_data)", len(linshi_data))
        data_ndarray = np.concatenate((data_ndarray, shengcehng_array(linshi_data)))
        print("data_ndarray.shape", data_ndarray.shape)
        np.save(f'data/prompt_doctor/{leibie}.npy', data_ndarray)
        strat = 0
        end = 10000
    for leibie in data_info:
        print(len(data_info[leibie]))
        with open(f"data/data_info_doctor/{leibie}.json", "w", encoding="utf-8") as f:
            f.write(json.dumps(data_info[leibie], ensure_ascii=False, indent=2))
    for i in data_prompt_en:
        print(i)
        print(len(data_prompt_en[i]))
    print(len(data))
    print(a_)
--- a/数据生成ndarray.py
+++ b/数据生成ndarray.py
@ -1,27 +1,42 @@
 import os
-os.environ["CUDA_VISIBLE_DEVICES"] = "0"
+
 os.environ["CUDA_VISIBLE_DEVICES"] = "1"
 import json
 import numpy as np
 from tqdm import tqdm
 from sentence_transformers import SentenceTransformer
 import re
 model = SentenceTransformer('Dmeta-embedding-zh')
 print(1)
 with open("data/discipline_types.json", encoding="utf-8") as f:
    lable_discipline_types = json.loads(f.read())
 def erjimul_ulit():
    pass
 def shengcehng_array(data):
    embs = model.encode(data, normalize_embeddings=True)
    return embs
 def is_contain_chinese(word):
    """
    判断字符串是否包含中文字符
    :param word: 字符串
    :return: 布尔值，True表示包含中文，False表示不包含中文
    """
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    match = pattern.search(word)
    return True if match else False
 if __name__ == '__main__':
    # data = []
-    with open("data/data_0416.json", encoding="utf-8") as f:
+    with open("data/data_0423_qikan.json", encoding="utf-8") as f:
        # for i in f.readlines():
        #     a = json.loads(i)
        #     data.append(a)
@ -34,20 +49,52 @@ if __name__ == '__main__':
    a_ = 0
    data_info = {}  # 作者 论文名称 论文类别 论文来源 论文年份 摘要
    data_prompt = {}
    data_info_en = {}  # 作者 论文名称 论文类别 论文来源 论文年份 摘要
    data_prompt_en = {}
    for data_dan in data:
-        if str(data_dan["special_topic"]) == "nan":
+        if str(data_dan["special_topic"]) == "nan" or \
                str(data_dan["author"]) == "nan" or \
                str(data_dan["title"]) == "nan" or \
                str(data_dan["qikan_name"]) == "nan" or \
                str(data_dan["year"]) == "nan" or \
                str(data_dan["abstract"]) == "nan":
            a_ += 1
            continue
        leibie_list = data_dan["special_topic"].split(";")
        for leibie in leibie_list:
            if leibie in lable_discipline_types:
                zh_bool = is_contain_chinese(data_dan["title"])
                if zh_bool == True:
                    if lable_discipline_types[leibie] not in data_prompt:
-                    data_prompt[lable_discipline_types[leibie]] = ["标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])]
+                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
-                    data_info[lable_discipline_types[leibie]] = [[data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"], data_dan["year"], data_dan["abstract"], "期刊"]]
+                        data_prompt[lable_discipline_types[leibie]] = [dan_data_prompt]
                        data_info[lable_discipline_types[leibie]] = [
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "期刊"]]
                    else:
                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt[lable_discipline_types[leibie]].append(dan_data_prompt)
                        data_info[lable_discipline_types[leibie]].append(
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "期刊"])
                else:
-                    data_prompt[lable_discipline_types[leibie]].append("标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"]))
+                    if lable_discipline_types[leibie] not in data_prompt_en:
-                    data_info[lable_discipline_types[leibie]].append([data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"], data_dan["year"], data_dan["abstract"], "期刊"])
+                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt_en[lable_discipline_types[leibie]] = [dan_data_prompt]
                        data_info_en[lable_discipline_types[leibie]] = [
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "期刊"]]
                    else:
                        dan_data_prompt = "标题：“{}”，摘要：“{}”".format(data_dan["title"], data_dan["abstract"])
                        data_prompt_en[lable_discipline_types[leibie]].append(dan_data_prompt)
                        data_info_en[lable_discipline_types[leibie]].append(
                            [data_dan["author"], data_dan["title"], data_dan["special_topic"], data_dan["qikan_name"],
                             data_dan["year"], data_dan["abstract"], "期刊"])
            a += 1
    print(2)
@ -78,3 +125,10 @@ if __name__ == '__main__':
        print(len(data_info[leibie]))
        with open(f"data/data_info_qikan/{leibie}.json", "w", encoding="utf-8") as f:
            f.write(json.dumps(data_info[leibie], ensure_ascii=False, indent=2))
    for i in data_prompt_en:
        print(i)
        print(len(data_prompt_en[i]))
    print(len(data))
    print(a_)
--- a/期刊数据整理.py
+++ b/期刊数据整理.py
@ -54,7 +54,7 @@ for chunk in pd.read_csv(filename, chunksize=chunksize):
 #     print("path完成筛选")
 #
 #
-with open("data/data_0416.json", "w") as f:
+with open("data/data_0423_qikan.json", "w") as f:
    f.write(json.dumps(df_list, ensure_ascii=False, indent=2))
 #
--- a/训练faiss.py
+++ b/训练faiss.py
@ -15,6 +15,12 @@ a = 0
 for leibie_zh in lable_discipline_types:
    xb = np.load(f'data/prompt_qikan/{lable_discipline_types[leibie_zh]}.npy')
    xb_1 = np.load(f'data/prompt_master/{lable_discipline_types[leibie_zh]}.npy')
    xb_2 = np.load(f'data/prompt_doctor/{lable_discipline_types[leibie_zh]}.npy')
    print("xb.shape", xb.shape)
    print("xb_1.shape", xb_1.shape)
    print("xb_2.shape", xb_2.shape)
    xb = np.concatenate((xb, xb_1, xb_2))
    # nlist = math.floor((len(lable_discipline_types[leibie_zh]) ** 0.5))  # 聚类的数目
    # print(leibie_zh)
@ -30,5 +36,5 @@ for leibie_zh in lable_discipline_types:
    assert not index.is_trained
    index.train(xb) # IndexIVFFlat是需要训练的，这边是学习聚类
    assert index.is_trained
-    faiss.write_index(index, f'data/prompt_qikan_ivf/{lable_discipline_types[leibie_zh]}.ivf')
+    faiss.write_index(index, f'data/prompt_qikan_master_doctor_ivf/{lable_discipline_types[leibie_zh]}.ivf')
 print(a)