第一次提交，自建库查询

2 months ago · 70e151d687
5 changed files with 1923 additions and 0 deletions
--- a/README.md
+++ b/README.md
--- a/Rouge_w.py
+++ b/Rouge_w.py
@ -0,0 +1,192 @@
+# -*- coding: utf-8 -*-
+
+"""
+@Time    :  2023/3/16 11:03
+@Author  : 
+@FileName: 
+@Software: 
+@Describe:
+"""
+from rouge import Rouge
+rouge = Rouge()
+from copy import deepcopy
+
+class Rouge_w:
+    def __init__(self):
+        self.k = 0.1
+        self.ki = 1.2
+        self.p = 1.0
+
+    def fi_(self,a):
+        return a * self.ki
+
+    def f(self, a):
+        return self.k * (a ** 2)
+
+    def WLCS(self, X, Y, f):
+        m = len(X)
+        n = len(Y)
+        c = [[0 for j in range(n+1)] for i in range(m+1)]
+        w = [[0 for j in range(n+1)] for i in range(m+1)]
+
+        for i in range(1, m+1):
+            for j in range(1, n+1):
+                if X[i-1] == Y[j-1]:
+                    k = w[i-1][j-1]
+                    c[i][j] = c[i-1][j-1] + 10.0 * (f(k+1) - f(k))
+                    w[i][j] = k+1
+                else:
+                    if c[i-1][j] > c[i][j-1]:
+                        c[i][j] = c[i-1][j]
+                        w[i][j] = 0
+                    else:
+                        c[i][j] = c[i][j-1]
+                        w[i][j] = 0
+
+        return c[m][n]
+
+    def f_1(self, k):
+        return k ** 0.5
+
+    def f_(self, k):
+        return k ** 2
+
+# print(WLCS([1,2,5], [1,2,5],f))
+
+    def score(self, p, r):
+        m = len(p)
+        n = len(r)
+        wlcs = self.WLCS(p, r, self.f)
+        p_wlcs = self.f_1(wlcs/self.f_(m))
+        r_wlcs = self.f_1(wlcs/self.f_(n))
+        f_lcs = (1 + self.p **2) * ((p_wlcs * r_wlcs) / (p_wlcs + ((self.p ** 2) *r_wlcs) + 1e-8))
+        return f_lcs
+
+class Rouge_l:
+    def __init__(self):
+        self.b = 3
+
+    def LCS(self, X, Y):
+        m = len(X)
+        n = len(Y)
+        # 创建一个二维数组来存储中间结果
+        dp = [[0] * (n + 1) for _ in range(m + 1)]
+
+        # 使用动态规划填充dp数组
+        for i in range(1, m + 1):
+            for j in range(1, n + 1):
+                if X[i - 1] == Y[j - 1]:
+                    dp[i][j] = dp[i - 1][j - 1] + 1
+                else:
+                    dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
+
+        return dp[m][n]
+
+# print(WLCS([1,2,5], [1,2,5],f))
+
+    def score(self, p, r):
+        m = len(p)
+        n = len(r)
+        lcs = self.LCS(p, r)
+        p_lcs = lcs/m
+        r_lcs = lcs/n
+        f_lcs = ((1 + self.b ** 2) * (p_lcs * r_lcs) / (p_lcs + self.b ** 2 * r_lcs + 1e-8))
+        return f_lcs
+
+
+# class Ngrams(object):
+#     """
+#         Ngrams datastructure based on `set` or `list`
+#         depending in `exclusive`
+#     """
+#
+#     def __init__(self, ngrams={}, exclusive=True):
+#         if exclusive:
+#             self._ngrams = set(ngrams)
+#         else:
+#             self._ngrams = list(ngrams)
+#         self.exclusive = exclusive
+#
+#     def add(self, o):
+#         if self.exclusive:
+#             self._ngrams.add(o)
+#         else:
+#             self._ngrams.append(o)
+#
+#     def __len__(self):
+#         return len(self._ngrams)
+#
+#     def intersection(self, o):
+#         if self.exclusive:
+#             inter_set = self._ngrams.intersection(o._ngrams)
+#             return Ngrams(inter_set, exclusive=True)
+#         else:
+#             other_list = deepcopy(o._ngrams)
+#             inter_list = []
+#
+#             for e in self._ngrams:
+#                 try:
+#                     i = other_list.index(e)
+#                 except ValueError:
+#                     continue
+#                 other_list.pop(i)
+#                 inter_list.append(e)
+#             return Ngrams(inter_list, exclusive=False)
+#
+#     def union(self, *ngrams):
+#         if self.exclusive:
+#             union_set = self._ngrams
+#             for o in ngrams:
+#                 union_set = union_set.union(o._ngrams)
+#             return Ngrams(union_set, exclusive=True)
+#         else:
+#             union_list = deepcopy(self._ngrams)
+#             for o in ngrams:
+#                 union_list.extend(o._ngrams)
+#             return Ngrams(union_list, exclusive=False)
+#
+# class Rouge_l:
+#     def __init__(self):
+#
+#     def score(self, evaluated_sentences, reference_sentences, raw_results=False, exclusive=True, **_):
+#         if len(evaluated_sentences) <= 0 or len(reference_sentences) <= 0:
+#             raise ValueError("Collections must contain at least 1 sentence.")
+#
+#         # total number of words in reference sentences
+#         m = len(
+#             Ngrams(
+#                 _split_into_words(reference_sentences),
+#                 exclusive=exclusive))
+#
+#         # total number of words in evaluated sentences
+#         n = len(
+#             Ngrams(
+#                 _split_into_words(evaluated_sentences),
+#                 exclusive=exclusive))
+#
+#         # print("m,n %d %d" % (m, n))
+#         union_lcs_sum_across_all_references = 0
+#         union = Ngrams(exclusive=exclusive)
+#         for ref_s in reference_sentences:
+#             lcs_count, union = _union_lcs(evaluated_sentences,
+#                                           ref_s,
+#                                           prev_union=union,
+#                                           exclusive=exclusive)
+#             union_lcs_sum_across_all_references += lcs_count
+#
+#         llcs = union_lcs_sum_across_all_references
+#         r_lcs = llcs / m
+#         p_lcs = llcs / n
+#
+#         f_lcs = 2.0 * ((p_lcs * r_lcs) / (p_lcs + r_lcs + 1e-8))
+
+if __name__ == '__main__':
+
+    rouge_model = Rouge_l()
+    X =  ["A", "B", "C", "D", "u", "u", "u", "u", "u", "u"]
+    Y1 = ["A", "B", "C", "D", "H", "I", "K", "K", "K", "K", "K", "K"]
+    Y2 = ["A", "H", "B", "K", "C", "I", "K", "K", "K", "K", "K", "K"]
+    # X = "我爱你"
+    # Y = "我他爱"
+    print(rouge_model.score(X, Y1))
+    # print(WLCS([1,2,5], [1,2,5],f))
--- a/flask_check_bert_test.py
+++ b/flask_check_bert_test.py
--- a/redis_check_uuid_mistral.py
+++ b/redis_check_uuid_mistral.py
@ -0,0 +1,92 @@
+# -*- coding: utf-8 -*-
+
+"""
+@Time    :  2023/3/2 19:31
+@Author  :
+@FileName:
+@Software:
+@Describe:
+"""
+#
+# import redis
+#
+# redis_pool = redis.ConnectionPool(host='127.0.0.1', port=6379, password='', db=0)
+# redis_conn = redis.Redis(connection_pool=redis_pool)
+#
+#
+# name_dict = {
+#     'name_4' : 'Zarten_4',
+#     'name_5' : 'Zarten_5'
+# }
+# redis_conn.mset(name_dict)
+
+import flask
+import redis
+import uuid
+import json
+from threading import Thread
+import time
+
+app = flask.Flask(__name__)
+pool = redis.ConnectionPool(host='localhost', port=63179, max_connections=100, db=6, password="zhicheng123*")
+redis_ = redis.Redis(connection_pool=pool, decode_responses=True)
+
+db_key_query = 'queryset_check_task'
+db_key_querying = 'querying_check_task'
+db_key_error = 'error'
+
+@app.route("/search", methods=["POST"])
+def handle_query():
+    id_ = flask.request.json['id']  # 获取用户query中的文本 例如"I love you"
+    result = redis_.get(id_)  # 获取该query的模型结果
+    if result is not None:
+        # redis_.delete(id_)
+        result_path = result.decode('UTF-8')
+        with open(result_path, encoding='utf8') as f1:
+            # 加载文件的对象
+            result_dict = json.load(f1)
+        code = result_dict["status_code"]
+        resilt = result_dict["resilt"]
+        probabilities = result_dict["probabilities"]
+        if str(code) == 400:
+            redis_.rpush(db_key_error, json.dumps({"id": id_}))
+            return False
+        result_text = {'code': code, 'resilt': resilt, 'probabilities': probabilities}
+    else:
+        querying_list = list(redis_.smembers("querying"))
+        querying_set = set()
+        for i in querying_list:
+            querying_set.add(i.decode())
+
+        querying_bool = False
+        if id_ in querying_set:
+            querying_bool = True
+
+        query_list_json = redis_.lrange(db_key_query, 0, -1)
+        query_set_ids = set()
+        for i in query_list_json:
+            data_dict = json.loads(i)
+            query_id = data_dict['id']
+            query_set_ids.add(query_id)
+
+        query_bool = False
+        if id_ in query_set_ids:
+            query_bool = True
+
+        if querying_bool == True and query_bool == True:
+            result_text = {'code': "201", 'text': "", 'probabilities': None}
+        elif querying_bool == True and query_bool == False:
+            result_text = {'code': "202", 'text': "", 'probabilities': None}
+        else:
+            result_text = {'code': "203", 'text': "", 'probabilities': None}
+            load_request_path = './request_data_logs_203/{}.json'.format(id_)
+            with open(load_request_path, 'w', encoding='utf8') as f2:
+                # ensure_ascii=False才能输入中文，否则是Unicode字符
+                # indent=2 JSON数据的缩进，美观
+                json.dump(result_text, f2, ensure_ascii=False, indent=4)
+
+    return flask.jsonify(result_text)  # 返回结果
+
+
+if __name__ == "__main__":
+    app.run(debug=False, host='0.0.0.0', port=14001)
--- a/连接数据库.py
+++ b/连接数据库.py
@ -0,0 +1,49 @@
+from clickhouse_driver import Client
+
+# 连接到ClickHouse
+client = Client(
+    host='192.168.31.74',
+    port=9000,
+    user='default',
+    password='zhicheng123*',
+    database='mini_check'
+)
+
+
+# 2. 使用新数据库
+client.execute('USE mini_check')
+
+# 3. 创建简单的表
+# create_table_sql = """
+# CREATE TABLE IF NOT EXISTS user_table (
+#     user_uuid String,
+#     file_path String,
+#     is_delete UInt32,
+# ) ENGINE = MergeTree()
+# """
+
+# create_table_sql = """
+# CREATE TABLE IF NOT EXISTS user_table (
+#     user_uuid String,
+#     file_path String,
+#     is_delete UInt32,
+# ) ENGINE = MergeTree()
+# ORDER BY (user_uuid)  -- 必须指定 ORDER BY
+# SETTINGS index_granularity = 8192;
+# """
+#
+# client.execute(create_table_sql)
+#
+# 4. 插入数据
+data = [
+    ("113", '/home/zyp/mnt/8T_disk/program/docx_deal/deal_finish_txt/2023-04-08/14397246.txt', 1),
+    ("113", '/home/zyp/mnt/8T_disk/program/docx_deal/deal_finish_txt/2023-04-08/14397314.txt', 1),
+    ("113", '/home/zyp/mnt/8T_disk/program/docx_deal/deal_finish_txt/2023-04-08/14397321.txt', 1)
+]
+client.execute('INSERT INTO user_table (user_uuid, file_path, is_delete) VALUES', data)
+#
+# 5. 查询数据
+result = client.query_dataframe('SELECT * FROM user_table')
+print(result)
+
+