目录处理

2 years ago · 455e40702f
1 changed files with 131 additions and 0 deletions
--- a/目录筛选.py
+++ b/目录筛选.py
@ -0,0 +1,131 @@
+import os
+from tqdm import tqdm
+import re
+
+# chatgpt生成的数据
+file = "./data/paper_prompt_title_3/title_mulu_prompt_data.txt"
+
+
+with open(file, encoding="utf-8") as f:
+    text = f.read()
+
+
+text_list = text.split("@" * 20)[:-1]
+
+# print(text_list1
+
+pantten_title = "《(.*?)》生成目录，要求只有一级标题和二级标题，"
+pantten_biaoti = '[1-9一二三四五六七八九ⅠⅡⅢⅣⅤⅥⅦⅧⅨ][、.]\s{0,}?[\u4e00-\u9fa5a-zA-Z]+'
+thanks = "致谢"
+references = "参考文献"
+excursus = "附录"
+
+
+mulu_list_new = []
+
+for text_dan in tqdm(text_list):
+    # print(text_dan)
+    try:
+        title_prompt, mulu = text_dan.split("**************")
+    except:
+        continue
+    result_biaoti_list = re.findall(pantten_title, title_prompt)
+    try:
+        result_biaoti_list[0]
+    except:
+        print(title_prompt)
+        continue
+
+    title = str(result_biaoti_list[0]).strip("\n")
+    mulu = str(mulu).strip("\n")
+
+    # 生成参考文件的提示文本
+
+    table_of_contents = []
+    nerlable_list = []
+
+    # mulu_base64 = base64.b64encode(mulu.encode('utf-8'))
+    # mulu_path = os.path.join(uuid_path, "mulu.txt")
+    # with open(mulu_path, 'wb', encoding='utf8') as f2:
+    #     f2.write(mulu_base64)
+    mulu_list = str(mulu).split("\n")
+    if mulu_list[0] == "目录":
+        mulu_list = mulu_list[1:]
+    mulu_list = [i.strip() for i in mulu_list if i != ""]
+    mulu_str = "@".join(mulu_list)
+
+    mulu_list_bool = []
+    for i in mulu_list:
+        result_biaoti_list = re.findall(pantten_biaoti, i)
+        if result_biaoti_list != []:
+            mulu_list_bool.append((i, "一级标题"))
+        else:
+            mulu_list_bool.append((i, "二级标题"))
+
+    mulu_list_bool_part = mulu_list_bool[:3]
+
+    if mulu_list_bool_part[0][1] != "一级标题":
+        continue
+    if mulu_list_bool_part[0][1] == mulu_list_bool_part[1][1] == mulu_list_bool_part[2][1] == "一级标题":
+        continue
+
+    thanks_references_bool_table = mulu_list_bool[-5:]
+
+    for i in thanks_references_bool_table:
+        try:
+            if references in i[0]:
+                mulu_list_bool.remove(i)
+            if thanks in i[0]:
+                mulu_list_bool.remove(i)
+            if excursus in i[0]:
+                mulu_list_bool.remove(i)
+        except:
+
+            print(thanks_references_bool_table)
+            continue
+
+    for i in mulu_list_bool:
+        if i[1] == "一级标题":
+            paper_dan = {
+                "title": "@@" + i[0],
+                "small_title": [],
+                "word_count": 0
+            }
+            table_of_contents.append(paper_dan)
+        else:
+            table_of_contents[-1]["small_title"].append(i[0])
+
+    is_contine = False
+    if len(table_of_contents) < 6:
+        continue
+    else:
+        for big_title in table_of_contents[:-1]:
+            if len(big_title["small_title"]) < 2 or len(big_title["small_title"]) > 5:
+                is_contine = True
+                break
+    if is_contine == True:
+        continue
+
+    # print(table_of_contents)
+    #
+    # print(len(table_of_contents))
+
+    table_of_contents_new = []
+    for dabiaoti_index in range(len(table_of_contents)):
+        dabiaoti_dict = table_of_contents[dabiaoti_index]
+        dan_str_list = [dabiaoti_dict["title"][2:]] + dabiaoti_dict["small_title"]
+        dan_str = "\n".join(dan_str_list)
+        table_of_contents_new.append(dan_str)
+
+    mulu_txt = "\n\n".join(table_of_contents_new)
+
+    title_prompt = title_prompt.replace("\n", "\\n")
+    mulu_txt = mulu_txt.replace("\n", "\\n")
+
+    mulu_list_new.append("**************".join([title_prompt,mulu_txt]))
+
+
+with open("./data/训练数据集合/generate_mulu.txt", mode="w", encoding="utf-8") as f:
+    for i in mulu_list_new:
+        f.write(i)
+        f.write("\n")