CheckPaper/util.py

# -*- coding = utf-8 -*-
# @Time:  18:02
# @Author:ZYP
# @File：util.py
# @mail：zypsunshine1@gmail.com
# @Software: PyCharm

# =========================================================================================
# 工具类
# 用于加载停用词、数据库、word2vec、fasttext模型
# =========================================================================================


import os
import math
import jieba
import pymysql
from pyhanlp import HanLP
from collections import defaultdict
from textrank4zh import TextRank4Keyword
from gensim.models.keyedvectors import KeyedVectors

stop_word_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/fasttext_train/data/total_stopwords.txt'

jieba.load_userdict('/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/fasttext_train/data'
                    '/user_dict_final_230316.txt')

os.environ['JAVA_HOME'] = '/home/zc-nlp-zyp/work_file/software/jdk1.8.0_341'


def deal_paper(target_paper_path):
    """根据不同格式的论文进行相应的清洗策略，将杂乱的文本处理成字典形式，分为 题目、摘要、正文 等，然后返回字典格式"""
    paper_dict = {}
    """
    具体的清洗策略，具体情况、具体分析（清洗等）
    """
    return paper_dict


class MysqlConnect:
    """mysql 的连接类，创建　mysql 连接对象"""

    def __init__(self, host='localhost', user='root', passwd='123456', database='zhiwang_class_db', charset='utf8'):
        self.conn = pymysql.connect(host=host, user=user, passwd=passwd, database=database, charset=charset)
        self.cursor = self.conn.cursor()

    def implement_sql(self, sql, is_close=True):
        """向sql中插入数据，查询完成后关闭连接"""
        self.cursor.execute(sql)
        self.conn.commit()
        if is_close:
            self.cursor.close()
            self.conn.close()

    def select_sql(self, sql, is_close=True):
        """向sql中插入数据，查询完成后关闭连接"""
        self.cursor.execute(sql)
        res = [i for i in self.cursor.fetchall()]
        if is_close:
            self.cursor.close()
            self.conn.close()
        return res

    def close_connect(self):
        self.cursor.close()
        self.conn.close()


def load_stopwords(path=stop_word_path):
    """加载停用词"""
    with open(path, 'r', encoding='utf-8') as f:
        stop_words = {i.strip() for i in f.readlines()}
    return stop_words


def cut_text(text_str, tokenizer='jieba'):
    """使用相应的分词算法对文章进行分词，然后统计每个单词的词频，按照降序返回相应的字典"""
    word_dict = defaultdict(int)
    if tokenizer == 'jieba':
        all_word_list = jieba.cut(text_str)
        for word in all_word_list:
            if word not in stop_word:
                word_dict[word] += 1
    elif tokenizer == 'hanlp':
        for i in HanLP.segment(text_str):
            if i.word not in stop_word and i.nature != 'w':
                word_dict[i.word] += 1
    else:
        print('您输入的 tokenizer 参数有误！')

    return {k: v for k, v in sorted(word_dict.items(), key=lambda x: x[1], reverse=True)}


def l2_normal(tf_idf_dict):
    """对计算出来的tf-idf字典进行归一化，归一到（0-1）之间"""
    l2_norm = math.sqrt(sum(map(lambda x: x ** 2, tf_idf_dict.values())))
    tf_idf_dict1 = sorted(tf_idf_dict.items(), key=lambda x: x[1] / l2_norm, reverse=True)
    tf_idf_dict2 = {key: value / l2_norm for key, value in tf_idf_dict1[:15]}
    return tf_idf_dict2


def save_result(output_dir, result_dict):
    """
    将查重结果字典进行本地化存储
    :param output_dir: 结果的输出路径
    :param result_dict: 结果字典
    :return:
    """
    output_path = os.path.join(output_dir, 'check_res.txt')
    f1 = open(output_path, 'a', encoding='utf-8')
    for doc_id, sent_dict in result_dict.items():
        select_sql = """
            select title from main_table_paper_detail_message where doc_id='{}'
        """.format(str(doc_id))

        mysql.cursor.execute(select_sql)
        title_name = mysql.cursor.fetchone()[0]
        for in_check_sent, out_check_sent_list in sent_dict.items():
            f1.write(
                in_check_sent + '||||' + "《" + title_name + "》" + '||||' + "[SEP]".join(out_check_sent_list) + '\n')

        f1.write('=' * 100 + '\n')

    f1.close()


def get_word_vec(word):
    """根据相应的词语，使用模型进行提取词语向量，如果不存在词表中返回0，存在词表中返回对应向量"""
    if word in model_word2vec.key_to_index.keys():
        vec = model_word2vec.get_vector(word)
    else:
        try:
            vec = model_fasttext.get_vector(word)
        except:
            return 0
    return vec


# 加载 word2vec 模型
word2vec_path = ''
model_word2vec = KeyedVectors.load_word2vec_format(word2vec_path)
fasttext_path = ''
model_fasttext = KeyedVectors.load_word2vec_format(fasttext_path)
stop_word = load_stopwords()
mysql = MysqlConnect(database='zhiwang_class_db')
tr4w = TextRank4Keyword(stop_words_file=stop_word_path)
查重总体流程 3 years ago			`# -- coding = utf-8 --`
			`# @Time: 18:02`
			`# @Author:ZYP`
			`# @File：util.py`
			`# @mail：zypsunshine1@gmail.com`
			`# @Software: PyCharm`

			`# =========================================================================================`
			`# 工具类`
			`# 用于加载停用词、数据库、word2vec、fasttext模型`
			`# =========================================================================================`


			`import os`
			`import math`
			`import jieba`
			`import pymysql`
			`from pyhanlp import HanLP`
			`from collections import defaultdict`
			`from textrank4zh import TextRank4Keyword`
			`from gensim.models.keyedvectors import KeyedVectors`

			`stop_word_path = '/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/fasttext_train/data/total_stopwords.txt'`

			`jieba.load_userdict('/home/zc-nlp-zyp/work_file/ssd_data/program/check_paper/fasttext_train/data'`
			`'/user_dict_final_230316.txt')`

			`os.environ['JAVA_HOME'] = '/home/zc-nlp-zyp/work_file/software/jdk1.8.0_341'`


			`def deal_paper(target_paper_path):`
			`"""根据不同格式的论文进行相应的清洗策略，将杂乱的文本处理成字典形式，分为题目、摘要、正文等，然后返回字典格式"""`
			`paper_dict = {}`
			`"""`
			`具体的清洗策略，具体情况、具体分析（清洗等）`
			`"""`
			`return paper_dict`


			`class MysqlConnect:`
			`"""mysql 的连接类，创建　mysql 连接对象"""`

			`def __init__(self, host='localhost', user='root', passwd='123456', database='zhiwang_class_db', charset='utf8'):`
			`self.conn = pymysql.connect(host=host, user=user, passwd=passwd, database=database, charset=charset)`
			`self.cursor = self.conn.cursor()`

			`def implement_sql(self, sql, is_close=True):`
			`"""向sql中插入数据，查询完成后关闭连接"""`
			`self.cursor.execute(sql)`
			`self.conn.commit()`
			`if is_close:`
			`self.cursor.close()`
			`self.conn.close()`

			`def select_sql(self, sql, is_close=True):`
			`"""向sql中插入数据，查询完成后关闭连接"""`
			`self.cursor.execute(sql)`
			`res = [i for i in self.cursor.fetchall()]`
			`if is_close:`
			`self.cursor.close()`
			`self.conn.close()`
			`return res`

			`def close_connect(self):`
			`self.cursor.close()`
			`self.conn.close()`


			`def load_stopwords(path=stop_word_path):`
			`"""加载停用词"""`
			`with open(path, 'r', encoding='utf-8') as f:`
			`stop_words = {i.strip() for i in f.readlines()}`
			`return stop_words`


			`def cut_text(text_str, tokenizer='jieba'):`
			`"""使用相应的分词算法对文章进行分词，然后统计每个单词的词频，按照降序返回相应的字典"""`
			`word_dict = defaultdict(int)`
			`if tokenizer == 'jieba':`
			`all_word_list = jieba.cut(text_str)`
			`for word in all_word_list:`
			`if word not in stop_word:`
			`word_dict[word] += 1`
			`elif tokenizer == 'hanlp':`
			`for i in HanLP.segment(text_str):`
			`if i.word not in stop_word and i.nature != 'w':`
			`word_dict[i.word] += 1`
			`else:`
			`print('您输入的 tokenizer 参数有误！')`

			`return {k: v for k, v in sorted(word_dict.items(), key=lambda x: x[1], reverse=True)}`


			`def l2_normal(tf_idf_dict):`
			`"""对计算出来的tf-idf字典进行归一化，归一到（0-1）之间"""`
			`l2_norm = math.sqrt(sum(map(lambda x: x ** 2, tf_idf_dict.values())))`
			`tf_idf_dict1 = sorted(tf_idf_dict.items(), key=lambda x: x[1] / l2_norm, reverse=True)`
			`tf_idf_dict2 = {key: value / l2_norm for key, value in tf_idf_dict1[:15]}`
			`return tf_idf_dict2`


			`def save_result(output_dir, result_dict):`
			`"""`
			`将查重结果字典进行本地化存储`
			`:param output_dir: 结果的输出路径`
			`:param result_dict: 结果字典`
			`:return:`
			`"""`
			`output_path = os.path.join(output_dir, 'check_res.txt')`
			`f1 = open(output_path, 'a', encoding='utf-8')`
			`for doc_id, sent_dict in result_dict.items():`
			`select_sql = """`
			`select title from main_table_paper_detail_message where doc_id='{}'`
			`""".format(str(doc_id))`

			`mysql.cursor.execute(select_sql)`
			`title_name = mysql.cursor.fetchone()[0]`
			`for in_check_sent, out_check_sent_list in sent_dict.items():`
			`f1.write(`
			`in_check_sent + '\|\|\|\|' + "《" + title_name + "》" + '\|\|\|\|' + "[SEP]".join(out_check_sent_list) + '\n')`

			`f1.write('=' * 100 + '\n')`

			`f1.close()`


			`def get_word_vec(word):`
			`"""根据相应的词语，使用模型进行提取词语向量，如果不存在词表中返回0，存在词表中返回对应向量"""`
			`if word in model_word2vec.key_to_index.keys():`
			`vec = model_word2vec.get_vector(word)`
			`else:`
			`try:`
			`vec = model_fasttext.get_vector(word)`
			`except:`
			`return 0`
			`return vec`


			`# 加载 word2vec 模型`
			`word2vec_path = ''`
			`model_word2vec = KeyedVectors.load_word2vec_format(word2vec_path)`
			`fasttext_path = ''`
			`model_fasttext = KeyedVectors.load_word2vec_format(fasttext_path)`
			`stop_word = load_stopwords()`
			`mysql = MysqlConnect(database='zhiwang_class_db')`
			`tr4w = TextRank4Keyword(stop_words_file=stop_word_path)`