普通版降重
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
majiahui@haimaqingfan.com 861ccd3a4c 修改流程 1 year ago
config 修改流程 1 year ago
data_do 修改流程 1 year ago
优化点 第一次提交,非batch预测版本 2 years ago
改进方案 第一次提交,非batch预测版本 2 years ago
.gitignore 第一次提交,非batch预测版本 2 years ago
11篇_xlsx2txt.py 完成t5单条预测版本 2 years ago
README.md 修改流程 1 year ago
bert_config_dropout_0_3.json 第一次提交,非batch预测版本 2 years ago
bert_config_dropout_0_4.json 第一次提交,非batch预测版本 2 years ago
cehsi.py 修改流程 1 year ago
ceshishuzi.py 修改流程 1 year ago
ceshiyouxiaokuohao.py 修改流程 1 year ago
chuli_yy_data.py 第一次提交,非batch预测版本 2 years ago
crontab_sh.sh V1.0完成 2 years ago
eval_yylable.py 第一次提交,非batch预测版本 2 years ago
evaluate_test.py 完成batch预测版本 2 years ago
flask_multiple_results.py 修改流程 1 year ago
flask_predict.py 完成batch预测版本 2 years ago
flask_predict_no_batch.py 第一次提交,非batch预测版本 2 years ago
flask_predict_no_batch_t5.py 修改流程 1 year ago
flask_predict_redis.py V1.0完成 2 years ago
flask_predict_t5.py V1.0完成 2 years ago
gunicorn_check_uuid_config.py V1.0完成 2 years ago
gunicorn_config.py V1.0完成 2 years ago
predict_11pian.py 修改流程 1 year ago
predict_11pian_random.py 第一次提交,非batch预测版本 2 years ago
predict_11pian_sim_sim.py 第一次提交,非batch预测版本 2 years ago
predict_batch.py 完成batch预测版本 2 years ago
predict_drop_sim_sim.py 第一次提交,非batch预测版本 2 years ago
predict_drop_weight_sim.py 代码优化,不做功能改变,增加配置文件,把模型加载做成类 2 years ago
predict_no_batch_1.py 修改流程 1 year ago
predict_no_batch_2.py 修改流程 1 year ago
predict_sim.py 代码优化,不做功能改变,增加配置文件,把模型加载做成类 2 years ago
predict_t5.py 修改流程 1 year ago
predict_t5_multiple_results.py 修改流程 1 year ago
predict_tf25.py 第一次提交,非batch预测版本 2 years ago
predict_tf_sim.py 修改流程 1 year ago
predict_txt.py 第一次提交,非batch预测版本 2 years ago
predict_yinhoa.py 第一次提交,非batch预测版本 2 years ago
python_to_redis.py V1.0完成 2 years ago
redis_check_uuid.py 修改流程 1 year ago
request_drop.py V1.0完成 2 years ago
run_app_nohub_search_redis.sh V1.0完成 2 years ago
run_app_nohub_t5.sh V1.0完成 2 years ago
run_check_uuid_app.sh V1.0完成 2 years ago
simbert_train.py 第一次提交,非batch预测版本 2 years ago
simbert_train_dropout.py 第一次提交,非batch预测版本 2 years ago
task_seq2seq_autotitle.py 第一次提交,非batch预测版本 2 years ago
task_seq2seq_t5.py 修改流程 1 year ago
测试10000篇数据.py V1.0完成 2 years ago
测试range_1.py 第一次提交,非batch预测版本 2 years ago
测试redis命名.py 修改流程 1 year ago
筛选引号数据.py 第一次提交,非batch预测版本 2 years ago
请求改写文本.py 修改流程 1 year ago

README.md

改写项目

基于unilm模型以及t5的生成式任务,使用keras框架,数据处理脚本在data_do文件夹下
训练数据 train_yy.txt

训练

训练 t5:     python task_seq2seq_t5.py
训练 simbert: python simbert_train.py

预测

simbert: python predict_sim.py
t5: python predict_t5.py

API serve

请求句子uuid服务启动方式:bash run_app_nohub_t5.sh
根据uuid查找改写结果服务启动方式:bash run_app_nohub_search_redis.sh

请求响应示例

请求句子uuid: https://console-docs.apipost.cn/preview/e3717e390cbdb50e/f4479038c8015f34
请求改写结果: https://console-docs.apipost.cn/preview/6b9de12817e8ef08/b158334d2c9534d2

从yy数据生成训练数据

python data_do/处理yy数据原始数据.py
python data_do/进一步处理降重数据.py
python data_do/yy训练数据处理.py
python 筛选训练数据strsim.py
python 合并数据.py    

测试11篇数据

测试数据是否有bug

python 测试10000篇数据.py