chatgpt服务使用vllm方式预测

2 years ago · f4ed2c6b17
9 changed files with 310 additions and 49 deletions
--- a/README.md
+++ b/README.md
@ -1,58 +1,14 @@
 # VLLM项目
 ## 项目启动
-bash run_app_flask.sh
+bash run_model_predict.sh
 bash run_api.sh
 ## 调用示例
-![img.png](img.png)
+"http://192.168.31.74:12000/predict"
 http://114.116.25.228:18000/predict
 {
-    "texts": "论文题目是“晚清至民国温州瓯柑运销体制的转变”，目录是“一、引言\n1. 研究背景\n2. 研究意义\n3. 研究方法\n\n二、晚清至民国时期温州瓯柑的运销体制\n1. 温州瓯柑的产地和品种\n2. 运销渠道及其特点\n3. 运销体制的演变\n\n三、温州瓯柑运销体制转变的原因\n1. 经济背景\n2. 政治背景\n3. 社会背景\n\n四、温州瓯柑运销体制转变的影响\n1. 经济影响\n2. 社会影响\n3. 文化影响\n\n五、温州瓯柑运销体制转变的启示\n1. 历史经验\n2. 现实意义\n3. 发展前景\n\n六、结论\n\n七、参考文献”，请为这篇论文生成15篇左右的参考文献，要求其中有有中文参考文献不低于12篇，英文参考文献不低于2篇"
+    "texts": "User:你好\nAssistant:"
 }
 ## 返回示例
 ![img_1.png](img_1.png)
 ## 请求参数
 ### 仅有标题生成的任务
 {
 "生成论文来源的背景#\n问：以《习近平新时代中国特色社会主义法治观初探》为论文题目，写一段题目来源的背景，要求字数在200字以内\n答：\n"
 "生成研究内容#\n问：请帮我生成《基于神经网络的商品推荐系统的研究与实现》为题目的研究内容，包括整体简介和分最少三个方面总结\n答：\n"
 "生成目录#\n问：为论文题目《我国医患纠纷行政调解前置程序问题的研究》生成目录，要求只有一级标题和二级标题，一级标题使用中文数字 例如一、xxx；二级标题使用阿拉伯数字 例如1.1 xxx；一级标题不少于7个；每个一级标题至少包含3个二级标题\n答：\n"
 "生成课题的研究背景和意义#\n问：请分别写出以《商业车险费率市场化改革对财险公司影响研究》为课题的研究背景和意义，字数不少于1000字\n答：\n"
 "生成论文简短总结#\n问：以《用于智能马桶盖的无袖带式血压监测系统开发》为论文题目，写一个论文简短总结，要求在300字以内\n答：\n"
 "生成课题的国内外研究状况综述#\n问：请写出以《新时代中国院线电影观感积极率研究》为课题的国内外研究状况综述，字数在800字左右\n答：\n"
 "生成6点本篇论文应完成的主要内容#\n问：请根据题目为《兰州市数字化城市管理提升研究》，和研究内容为“{生成研究内容}”总结出至少6点本篇论文应完成的主要内容，使用阿拉伯数字排列\"\n答：\n"
 "生成参考文献#"
 "生成论文小标题内容#\n问：论文题目是《1926-1930年归绥地区灾荒与社会流动》，目录是“{生成目录}”，请把其中的小标题“{小标题}”的内容补充完整，补充内容字数在900字左右\n答：\n"
 "生成论文摘要#\n问：论文题目是《纳米水化硅酸钙改性隔热涂料的研究》，目录是“{生成目录}”，生成论文摘要，要求生成的字数在600字左右\"\n答：\n"
 "生成关键字#\n问：请为“{生成论文摘要}”这段论文摘要生成3-5个关键字，使用阿拉伯数字作为序号标注，例如“1.xxx \n2.xxx \n3.xxx \n4.xxx \n5.xxx \n”\"\n答：\n"
 "翻译摘要#\n问：请把“{生成论文摘要}”这段文字翻译成英文\"\n答：\n"
 "翻译关键词#\n问：请把“{生成关键字}”这几个关键字翻译成英文\"\n答：\n"
 }
 ### 带着核心内容和标题的生成任务
 {
 "生成论文来源的背景#\n问：以《民航繁忙干线机票最低价格预测方法研究》为论文题目，以“本研究旨在探索一种新的机票价格预测方法，以提高乘客购票体验和航空公司的经济效益。该研究包括数据采集、数据预处理、特征工程、机器学习模型构建和模型评估等步骤。最终成果是开发出一款可预测繁忙干线机票最低价格的模型，并通过对比实际价格和预测价格的误差，验证该模型的准确性和可靠性。通过本研究，我们希望能为航空公司提供更准确的价格预测，为乘客提供更便捷的购票体验。”为论文的研究方向，写一段题目来源的背景，要求字数在200字以内\n答：\n"
 "生成研究内容#\n问：请帮我生成《A公司3C产品逆向物流业务流程优化》为题目，以“本文旨在优化A公司3C产品逆向物流业务流程，包括对退货、维修、换货等环节进行调研和分析，提出改善方案。最终成果是优化后的逆向物流业务流程实施，并以一个特定3C产品的退货流程为例，验证所设计方案的可行性和有效性。”为论文的研究方向，生成论文研究内容，包括整体简介和分最少三个方面总结\n答：\n"
 "生成目录#\n问：论文题目为《低碳试点城市的绿色GDP核算研究》，以“该研究旨在通过对低碳试点城市的绿色GDP核算，探索一种新的经济发展模式，以实现经济增长与环境保护的双赢。研究将结合城市资源利用情况、环境质量、生态系统服务等方面进行综合评估，建立低碳经济发展指标体系，从而为低碳试点城市的可持续发展提供理论和实践支持。最终成果将是一份完整的绿色GDP核算报告，以低碳试点城市为例，验证该研究的可行性和实用性。”为论文的研究方向，为论文生成目录，要求只有一级标题和二级标题，一级标题使用中文数字 例如一、xxx；二级标题使用阿拉伯数字 例如1.1 xxx；一级标题不少于7个；每个一级标题至少包含3个二级标题\n答：\n"
 "生成课题的研究背景和意义#\n问：请分别写出以《企业拟上市过程中的政府服务方式探析》为课题，以“研究拟上市企业在上市过程中，政府部门如何提供服务，探讨政府服务方式的优化和提升。最终成果是通过实地调研和案例分析，总结出一套适用于拟上市企业的政府服务模式，以提高拟上市企业上市成功率和促进经济发展。”为论文的研究方向，生成论文的研究背景和意义，字数不少于1000字\n答：\n"
 "生成论文简短总结#\n问：以《韩国民主巩固的困境问题研究》为论文题目，以“研究韩国民主化进程中所面临的困境问题，包括政治、经济、社会等多个方面的因素。最终成果是通过对韩国民主化进程的深入分析，提出一些可行的解决方案，以促进韩国民主巩固的发展。通过对韩国政治体制、经济发展、社会文化等方面的综合研究，探讨韩国民主化进程中所面临的困境问题，如政治腐败、经济不平等、社会分化等，分析其根源及影响因素。在此基础上，提出一些可行的解决方案，如加强反腐败力度、促进经济平等、强化社会文化建设等，以推动韩国民主巩固的进程。最终，通过实践验证所提出的解决方案的可行性，为韩国民主巩固的发展提供有益的借鉴。”为论文的研究方向，写一个论文简短总结，要求在300字以内\n答：\n"
 "生成课题的国内外研究状况综述#\n问：以《鲤疱疹病毒3型vIL-10基因的克隆表达及其对免疫相关因子调节作用的研究》为课题，以“研究鲤疱疹病毒3型vIL-10基因的克隆表达，探究其在免疫调节中的作用。通过实验验证其对免疫相关因子的调节作用，并分析其在免疫调节过程中的机制。最终成果是获得鲤疱疹病毒3型vIL-10基因的表达载体，并证明其在免疫调节中具有重要的调节作用。”为论文的研究方向，请写出这篇论文的国内外研究状况综述，字数在800字左右\n答：\n"
 }
--- a/flask_predict.py
+++ b/flask_predict.py
@ -0,0 +1,51 @@
 from flask import Flask, jsonify
 from flask import request
 import redis
 import uuid
 import json
 import time
 import socket
 def get_host_ip():
    """
    查询本机ip地址
    :return: ip
    """
    try:
        s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
        s.connect(('8.8.8.8', 80))
        ip = s.getsockname()[0]
    finally:
        s.close()
    return ip
 app = Flask(__name__)
 app.config["JSON_AS_ASCII"] = False
 pool = redis.ConnectionPool(host='localhost', port=63179, max_connections=50,db=11, password="zhicheng123*")
 redis_ = redis.Redis(connection_pool=pool, decode_responses=True)
 db_key_query = 'query'
 db_key_query_articles_directory = 'query_articles_directory'
 db_key_result = 'result'
 batch_size = 32
@app.route("/predict", methods=["POST"])
 def handle_query():
    text = request.json["texts"]  # 获取用户query中的文本 例如"I love you"
    id_ = str(uuid.uuid1())  # 为query生成唯一标识
    d = {'id': id_, 'text': text}  # 绑定文本和query id
    redis_.rpush(db_key_query, json.dumps(d))  # 加入redis
    while True:
        result = redis_.get(id_)  # 获取该query的模型结果
        if result is not None:
            redis_.delete(id_)
            result_text = {'code': "200", 'data': json.loads(result)}
            break
        time.sleep(1)
    return jsonify(result_text)  # 返回结果
 if __name__ == "__main__":
    app.run(debug=False, host='0.0.0.0', port=18001)
--- a/gunicorn_config.py
+++ b/gunicorn_config.py
@ -0,0 +1,21 @@
 # 并行工作线程数
 workers = 8
 # 监听内网端口5000【按需要更改】
 bind = '0.0.0.0:12000'
 loglevel = 'debug'
 worker_class = "gevent"
 # 设置守护进程【关闭连接时，程序仍在运行】
 daemon = True
 # 设置超时时间120s，默认为30s。按自己的需求进行设置
 timeout = 120
 # 设置访问日志和错误信息日志路径
 accesslog = './logs/acess.log'
 errorlog = './logs/error.log'
 # access_log_format = '%(h) -  %(t)s - %(u)s - %(s)s %(H)s'
 # errorlog = '-' # 记录到标准输出
 # 设置最大并发量
 worker_connections = 20000
--- a/mistral_model_predict_vllm.py
+++ b/mistral_model_predict_vllm.py
@ -0,0 +1,57 @@
 import os
 os.environ["CUDA_VISIBLE_DEVICES"] = "3"
 from transformers import pipeline
 import redis
 import uuid
 import json
 from threading import Thread
 from vllm import LLM, SamplingParams
 import time
 import threading
 import time
 import concurrent.futures
 import requests
 import socket
 pool = redis.ConnectionPool(host='localhost', port=63179, max_connections=50,db=11, password="zhicheng123*")
 redis_ = redis.Redis(connection_pool=pool, decode_responses=True)
 db_key_query = 'query'
 db_key_query_articles_directory = 'query_articles_directory'
 db_key_result = 'result'
 batch_size = 512
 sampling_params = SamplingParams(temperature=0.95, top_p=0.7,presence_penalty=0.9,stop="</s>", max_tokens=4096)
 models_path = "/home/majiahui/project/models-llm/openbuddy-llama-7b-finetune"
 llm = LLM(model=models_path, tokenizer_mode="slow")
 def classify(batch_size):  # 调用模型，设置最大batch_size
    while True:
        texts = []
        query_ids = []
        if redis_.llen(db_key_query) == 0:  # 若队列中没有元素就继续获取
            time.sleep(2)
            continue
        for i in range(min(redis_.llen(db_key_query), batch_size)):
            query = redis_.lpop(db_key_query).decode('UTF-8')  # 获取query的text
            query_ids.append(json.loads(query)['id'])
            texts.append(json.loads(query)['text'])  # 拼接若干text 为batch
        outputs = llm.generate(texts, sampling_params)  # 调用模型
        generated_text_list = [""] * len(texts)
        print("outputs", len(outputs))
        for i, output in enumerate(outputs):
            index = output.request_id
            generated_text = output.outputs[0].text
            generated_text_list[int(index)] = generated_text
        for (id_, output) in zip(query_ids, generated_text_list):
            res = output
            redis_.set(id_, json.dumps(res))  # 将模型结果送回队列
 if __name__ == '__main__':
    t = Thread(target=classify, args=(batch_size,))
    t.start()
--- a/run_api.sh
+++ b/run_api.sh
@ -0,0 +1 @@
 gunicorn flask_predict:app -c gunicorn_config.py
--- a/run_model_predict.sh
+++ b/run_model_predict.sh
@ -0,0 +1 @@
 nohup python mistral_model_predict_vllm.py > mistral_model_predict_vllm_logs.file 2>&1 &
--- a/yace.py
+++ b/yace.py
@ -0,0 +1,47 @@
 import concurrent.futures
 import requests
 import socket
 def dialog_line_parse(url, text):
    """
    将数据输入模型进行分析并输出结果
    :param url: 模型url
    :param text: 进入模型的数据
    :return: 模型返回结果
    """
    response = requests.post(
        url,
        json=text,
        timeout=1000
    )
    if response.status_code == 200:
        return response.json()
    else:
        # logger.error(
        #     "【{}】 Failed to get a proper response from remote "
        #     "server. Status Code: {}. Response: {}"
        #     "".format(url, response.status_code, response.text)
        # )
        print("【{}】 Failed to get a proper response from remote "
            "server. Status Code: {}. Response: {}"
            "".format(url, response.status_code, response.text))
        print(text)
        return []
 nums = 1000
 url = "http://192.168.31.74:18001/predict"
 input_data = []
 for i in range(nums):
    input_data.append([url, {"texts": "User:你好\nAssistant:"}])
 with concurrent.futures.ThreadPoolExecutor() as executor:
    # 使用submit方法将任务提交给线程池，并获取Future对象
    futures = [executor.submit(dialog_line_parse, i[0], i[1]) for i in input_data]
    # 使用as_completed获取已完成的任务，并获取返回值
    results = [future.result() for future in concurrent.futures.as_completed(futures)]
 print(results)
--- a/yace2.py
+++ b/yace2.py
@ -0,0 +1,76 @@
 import threading
 import requests
 import time
 # 用于记录成功和失败请求的全局变量
 success_count = 0
 failure_count = 0
 lock = threading.Lock()
 def dialog_line_parse(url, text):
    """
    将数据输入模型进行分析并输出结果
    :param url: 模型url
    :param text: 进入模型的数据
    :return: 模型返回结果
    """
    response = requests.post(
        url,
        json=text,
        timeout=1000
    )
    if response.status_code == 200:
        return response.json()
    else:
        # logger.error(
        #     "【{}】 Failed to get a proper response from remote "
        #     "server. Status Code: {}. Response: {}"
        #     "".format(url, response.status_code, response.text)
        # )
        print("【{}】 Failed to get a proper response from remote "
            "server. Status Code: {}. Response: {}"
            "".format(url, response.status_code, response.text))
        print(text)
        return []
 # 定义一个函数来执行 HTTP 请求
 def make_request(url):
    global success_count, failure_count
    try:
        a = dialog_line_parse(url, {"texts": "User:你好\nAssistant:"})['data']
        print(a)
        with lock:
            success_count += 1
    except:
        with lock:
            failure_count += 1
 # 要并发请求的 URL 列表
 urls = [
    'http://192.168.31.74:18001/predict',
    # 可以添加更多的 URL
 ] * 30
 # 创建一个线程列表
 threads = []
 # 创建并启动线程
 start= time.time()
 for url in urls:
    thread = threading.Thread(target=make_request, args=(url,))
    thread.start()
    threads.append(thread)
 # 等待所有线程完成
 for thread in threads:
    thread.join()
 end = time.time()
 print(end-start)
 print(f"Successful requests: {success_count}")
 print(f"Failed requests: {failure_count}")
--- a/yuce3.py
+++ b/yuce3.py
@ -0,0 +1,51 @@
 import concurrent.futures
 import requests
 import socket
 def dialog_line_parse(url, text):
    """
    将数据输入模型进行分析并输出结果
    :param url: 模型url
    :param text: 进入模型的数据
    :return: 模型返回结果
    """
    response = requests.post(
        url,
        json=text,
        timeout=1000
    )
    if response.status_code == 200:
        return response.json()
    else:
        # logger.error(
        #     "【{}】 Failed to get a proper response from remote "
        #     "server. Status Code: {}. Response: {}"
        #     "".format(url, response.status_code, response.text)
        # )
        print("【{}】 Failed to get a proper response from remote "
            "server. Status Code: {}. Response: {}"
            "".format(url, response.status_code, response.text))
        print(text)
        return []
 text = "User:生成目录#\n问：为论文题目《基于跨文化意识培养的中职英语词汇教学模式及策略行动研究》生成目录，要求只有一级标题和二级标题，一级标题使用中文数字 例如一、xxx；二级标题使用阿拉伯数字 例如1.1 xxx；一级标题不少于7个；每个一级标题至少包含3个二级标题\n答:\n\nAssistant:"  # 获取用户query中的文本 例如"I love you"
 nums = 10
 nums = int(nums)
 url = "http://192.168.31.74:18001/predict"
 input_data = []
 for i in range(nums):
    input_data.append([url, {"texts": text}])
 with concurrent.futures.ThreadPoolExecutor() as executor:
    # 使用submit方法将任务提交给线程池，并获取Future对象
    futures = [executor.submit(dialog_line_parse, i[0], i[1]) for i in input_data]
    # 使用as_completed获取已完成的任务，并获取返回值
    results = [future.result() for future in concurrent.futures.as_completed(futures)]
 print(results)
	`@ -0,0 +1 @@`
					`gunicorn flask_predict:app -c gunicorn_config.py`
	`@ -0,0 +1 @@`
					`nohup python mistral_model_predict_vllm.py > mistral_model_predict_vllm_logs.file 2>&1 &`