You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

453 lines
33 KiB

6 days ago
# -*- coding: utf-8 -*-
from snownlp import seg
from snownlp import SnowNLP
import pymysql
import configparser
import os
def get_db_config():
config = configparser.ConfigParser()
config_path = os.path.join(os.path.dirname(__file__), '../config/database.ini')
config.read(config_path)
return {
'host': config.get('simplyphp', 'master').replace('"',''),
'user': config.get('simplyphp', 'user').replace('"',''),
'password': config.get('simplyphp', 'passwd').replace('"',''),
'database': config.get('simplyphp', 'db').replace('"',''),
'charset': 'utf8mb4'
}
# 新增数据库连接配置
DB_CONFIG = get_db_config()
def get_comments_from_db():
"""从数据库获取微博评论"""
connection = pymysql.connect(**DB_CONFIG)
try:
with connection.cursor(pymysql.cursors.DictCursor) as cursor:
sql = "SELECT id,content FROM spider_weibo_comments where is_search=-1 limit 0,1000"
cursor.execute(sql)
results = cursor.fetchall()
# return [item[0] for item in results]
return results
finally:
connection.close()
6 days ago
#pip install snownlp
def filter_medical_comments(comments_list):
filtered_comments = []
update_records = []
6 days ago
positive_keywords = [
'有效', '好用', '管用', '有用', '效果好', '见效', '有效果', '显著', '明显',
'改善', '缓解', '康复', '痊愈', '立竿见影', '有奇效', '灵验', '奏效',
'特效', '疗效显著', '效果持久', '见效快', '恢复快', '作用很大','作用很好',
'', '好评', '感谢', '谢谢', '感恩', '推荐', '点赞', '太好了', '太神了',
'太厉害了', '太棒了', '太赞了', '太强了', '超赞', '惊喜', '感动', '欣慰',
'开心', '喜欢', '喜爱', '信赖', '满意', '安心', '放心', '惊喜', '感动',
'惊艳', '惊艳到', '惊叹', '佩服', '信赖', '信任', '安心', '舒心', '贴心',
'温暖', '幸福', '惊喜', '惊喜万分', '喜出望外', '心满意足', '赞不绝口',
'竖起大拇指', '五星好评', '无可挑剔', '令人难忘', '爱不释手',
'巨好用', '贼管用', '超有效', '特有用', '极佳', '绝了', '无敌', '完美',
'顶尖', '非凡', '卓越', '出色', '意外的好', '好到爆', '好用爆了',
'效果拔群', '惊艳', '令人惊叹', '极其有效', '格外好用', '分外管用',
'异常出色', '相当不错', '真心不错', '真心好用', '实在管用', '确实有效',
'非常明显', '特别显著', '极度舒适', '超级满意', '无比惊喜', '彻底解决',
'完全康复', '根本改善', '质的飞跃', '翻天覆地', '脱胎换骨', '焕然一新',
'解决了', '治好了', '好多了', '舒服多了', '舒缓了', '减轻了', '消失', '好了',
6 days ago
'根除', '治愈', '解救', '化解', '战胜', '摆脱', '修复', '解救', '消除',
'消退', '痊愈', '康复', '愈合', '好转', '恢复', '根治', '清除', '驱散',
'击退', '控制', '抑制', '止住', '缓解', '舒缓', '镇定', '安抚', '平复',
'临床验证', '科学有效', '安全可靠', '无副作用', '标本兼治', '对症下药',
'循证有效', '机理明确', '数据支持', '实验证明', '权威认证', '专家推荐',
'医学验证', '科研证实', '专利技术', '独家配方', '国际标准', '行业领先',
'技术先进', '工艺精湛', '成分安全', '天然无害', '环保健康', '质量上乘',
'yyds', '神仙产品', '宝藏', '天花板', '绝绝子', '吹爆', '按头安利',
'回购', '囤货', '无限回购', '一生推', '锁死', '入坑不亏', '种草',
'拔草成功', '真香', '神仙操作', '宝藏发现', '绝了', '封神', '炸裂',
'逆天', '开挂', '神仙效果', '王炸产品', '必备神器', '不踩雷', '闭眼入',
'直接封神', '原地封神', 'yyds永不过时', '绝绝子本尊',
'物超所值', '性价比高', '值得买', '超值', '划算', '省心', '省事',
'方便', '简单', '易用', '必备', '神器', '救星', '必备品', '物有所值',
'一分钱一分货', '值得投资', '值得拥有', '买得值', '不亏', '不后悔',
'物美价廉', '价廉物美', '经济实惠', '实惠好用', '性价比之王', '良心价',
'超划算', '超实惠', '物超所值', '买对了', '选对了', '明智之选', '正确决定',
'比...好', '完胜', '碾压', '吊打', '远超预期', '出乎意料', '远超同类',
'秒杀其他', '与众不同', '独一无二', '甩几条街', '高下立判', '不可比拟',
'无可替代', '无与伦比', '独树一帜', '领先一步', '更胜一筹', '技高一筹',
'优势明显', '竞争力强', '行业标杆', '标杆产品', '标准制定者', '引领者',
'颠覆传统', '突破创新', '革新体验', '改变游戏规则',
'稳定', '持久', '根治', '不易复发', '巩固', '维持', '长效', '持续改善',
'稳步提升', '渐进好转', '日渐康复', '日益改善', '逐步恢复', '全面提升',
'全方位改善', '整体提升', '综合改善', '系统解决', '深度修复', '源头治理',
'标本兼治', '根本解决', '彻底改变', '全面革新', '高效能', '高效应',
'高速见效', '快速起效', '迅捷恢复', '急速改善', '瞬间舒缓', '即刻缓解',
'再次购买', '多次回购', '长期使用', '持续使用', '坚持使用', '推荐给朋友',
'分享给家人', '安利同事', '转介绍', '口碑传播', '主动推荐', '自发宣传',
'写好评', '晒单', '上传照片', '视频分享', '发朋友圈', '小红书推荐',
'微博分享', '抖音推荐', '知乎推荐', 'B站分享', '成为粉丝', '忠实用户',
'长期支持', '品牌拥护', '信赖品牌', '支持国货', '选择信任', '持续关注',
'温和', '舒适', '安全', '无刺激', '无负担', '无压力', '轻松', '自在',
'惬意', '享受', '愉悦', '舒爽', '清新', '自然', '柔和', '亲肤', '零负担',
'零刺激', '零风险', '零不适', '无过敏', '无红肿', '无副作用', '无依赖',
'无抗药性', '无耐药性', '可长期使用', '老少皆宜', '全家适用', '孕妇可用',
'婴幼儿适用', '敏感肌友好', '温和配方', '天然成分', '有机原料', '绿色环保',
'服务周到', '售后完善', '专业指导', '耐心解答', '快速响应', '及时回复',
'贴心服务', '细致入微', '全程跟进', '个性化方案', '定制服务', '专属顾问',
'无忧售后', '包退包换', '质保可靠', '物流快捷', '包装精美', '使用方便',
'操作简单', '容易上手', '说明书清晰', '客服专业', '态度友好', '体验愉悦',
'购物愉快', '流程顺畅', '支付便捷', '配送及时', '开箱惊喜'
]
negative_keywords = [
'无效', '没用', '不管用', '没效果', '没有效果', '不行', '骗人', '无用', '啥用', '没啥用',
'没什么用', '没卵用', '浪费时间', '浪费钱', '不起作用', '不见好', '没好转', '毫无效果',
'徒劳', '白费力气', '不顶用', '不好使', '不灵', '不灵验', '不见效', '没效', '无济于事',
'不起效', '没作用', '无作用', '无效果', '白花钱', '打水漂', '石沉大海', '竹篮打水',
'杯水车薪', '隔靴搔痒', '对牛弹琴', '徒劳无功', '于事无补', '效果甚微', '微乎其微',
'聊胜于无', '形同虚设', '有名无实', '华而不实', '花架子', '空架子', '纸上谈兵',
'作用不大', '效果不佳', '效果不彰', '效果有限', '效果甚微', '效果差劲', '效果全无',
'劣质', '低劣', '粗糙', '差劲', '垃圾', '烂货', '次品', '山寨', '假冒', '假货',
'伪劣', '瑕疵', '残次', '破旧', '易坏', '易碎', '易损', '易褪色', '易变形',
'不耐用', '不结实', '不牢固', '不持久', '掉漆', '脱色', '开胶', '断裂', '破损',
'漏液', '渗漏', '发霉', '生锈', '氧化', '变质', '过期', '有异味', '有瑕疵',
'有缺陷', '有划痕', '有污渍', '有杂质', '有异物', '不合格', '不达标', '不匹配',
'欺诈', '诈骗', '虚假宣传', '夸大其词', '言过其实', '名不副实', '挂羊头卖狗肉',
'偷工减料', '以次充好', '缺斤少两', '货不对板', '图文不符', '描述不符', '夸大效果',
'虚假广告', '误导消费', '消费陷阱', '文字游戏', '玩套路', '设圈套', '割韭菜',
'智商税', '交学费', '被套路', '上当受骗', '受骗上当', '蒙骗', '蒙蔽', '欺瞒',
'危险', '有害', '有毒', '致癌', '致畸', '致敏', '刺激', '腐蚀', '灼伤', '损伤',
'感染', '发炎', '红肿', '瘙痒', '疼痛', '溃烂', '留疤', '毁容', '后遗症',
'并发症', '中毒', '不适', '难受', '头晕', '恶心', '呕吐', '腹泻', '过敏反应',
'严重过敏', '全身过敏', '过敏性休克', '医疗事故', '安全隐患', '质量事故',
'难用', '难闻', '难吃', '难喝', '难以下咽', '刺鼻', '异味', '怪味', '刺眼', '刺耳',
'扎人', '磨脚', '硌手', '卡顿', '死机', '闪退', '崩溃', '延迟', '卡死', '不流畅',
'不顺手', '不方便', '不人性', '反人类', '设计缺陷', '操作复杂', '界面丑陋', '体验糟糕',
'体验极差', '体验感差', '毫无体验', '令人烦躁', '令人抓狂', '令人崩溃', '令人作呕',
'态度差', '态度恶劣', '爱答不理', '推诿', '推脱', '推卸', '敷衍', '搪塞', '拖延',
'不作为', '不负责', '不专业', '业务不熟', '解答不清', '误导', '欺骗', '强买强卖',
'霸王条款', '捆绑销售', '价格欺诈', '虚假促销', '发货慢', '物流慢', '配送延误',
'丢件', '损毁', '包装破损', '漏发', '错发', '不发货', '不退款', '不退换', '售后差',
'售后无门', '客服难找', '电话不通', '无人回复', '维权困难', '投诉无果',
'不值', '不值当', '不值钱', '不值这个价', '价不配位', '性价比低', '价格虚高',
'漫天要价', '暴利', '宰客', '抢钱', '智商税', '冤枉钱', '花得冤', '买贵了',
'买后悔', '买错了', '选错了', '决策失误', '浪费', '奢侈', '奢侈浪费', '不划算',
'血亏', '亏大了', '买亏了', '被宰', '被坑', '被割韭菜', '交智商税', '价格水分大',
'失望', '绝望', '心寒', '心碎', '愤怒', '恼火', '生气', '气愤', '郁闷', '烦躁',
'无奈', '无语', '懊悔', '后悔', '遗憾', '痛苦', '难受', '焦虑', '担忧', '害怕',
'恐慌', '恐惧', '厌恶', '讨厌', '憎恶', '嫌弃', '鄙视', '看不起', '唾弃', '痛恨',
'痛哭', '泪流满面', '彻夜难眠', '心如刀割', '万念俱灰', '生无可恋', '后悔莫及',
'追悔莫及', '悔不当初', '欲哭无泪', '气急败坏', '火冒三丈', '七窍生烟', '怒不可遏',
'极其差劲', '极度糟糕', '超级垃圾', '特别坑爹', '非常失望', '巨难用', '贼难吃',
'忒难闻', '顶难喝', '死难用', '烂到极致', '差到极点', '糟糕透顶', '无可救药',
'一文不值', '一塌糊涂', '一败涂地', '一无是处', '不可救药', '病入膏肓', '积重难返',
'千疮百孔', '满目疮痍', '惨不忍睹', '触目惊心', '令人发指', '人神共愤', '天怒人怨',
'踩雷', '大雷', '巨雷', '天雷', '避坑', '快逃', '拔草', '劝退', '翻车', '翻船',
'塌房', '暴雷', '雷品', '黑榜', '差评如潮', '吐槽大会', '一生黑', '拉黑', '取关',
'卸载', '再见', '永别', '再也不见', '绕道走', '快跑', '别买', '别入', '慎入',
'血泪教训', '前车之鉴', '反面教材', '智商检测', '韭菜专属', '冤种必备',
'病情加重', '症状加剧', '并发症', '器官损伤', '功能受损', '免疫力下降', '耐药性',
'药物依赖', '成瘾性', '戒断反应', '慢性中毒', '肝肾损伤', '神经损伤', '不可逆损伤',
'终身残疾', '生命危险', '危及生命', '抢救', '急救', '住院', '手术', '后遗症',
'终身服药', '治疗失败', '病情反复', '复发', '转移', '恶化', '不治', '无救',
'不如...', '比不上', '被吊打', '被碾压', '被秒杀', '差距大', '天壤之别', '云泥之别',
'相形见绌', '黯然失色', '望尘莫及', '判若云泥', '不可同日而语', '一个天上一个地下',
'退步', '落后', '过时', '淘汰', '落伍', '老掉牙', '跟不上时代', '技术落后',
'设计老旧', '理念陈旧', '不思进取', '固步自封', '原地踏步', '不进反退',
'反复发作', '久治不愈', '迁延不愈', '慢性病', '终身病', '不治之症', '顽疾',
'痼疾', '老毛病', '历史问题', '积重难返', '沉疴难起', '病根难除', '尾大不掉',
'积弊已久', '系统性问题', '结构缺陷', '先天不足', '设计硬伤', '工艺缺陷',
'三无产品', '无证经营', '非法添加', '违禁成分', '超标', '违规', '违法', '侵权',
'盗版', '仿冒', '抄袭', '剽窃', '假专利', '虚假认证', '伪造检测', '无批文',
'无许可', '被查处', '被下架', '被召回', '被曝光', '被通报', '被约谈', '被罚款',
'被起诉', '被告', '赔偿', '官司', '纠纷', '维权', '举报', '投诉', '315曝光',
'污染', '破坏环境', '高耗能', '高污染', '不可降解', '有害垃圾', '资源浪费',
'过度包装', '血汗工厂', '压榨劳工', '童工', '不人道', '不道德', '无良企业',
'黑心商家', '资本作恶', '行业毒瘤', '社会危害', '道德沦丧', '价值观扭曲',
'垃圾', '坑爹', '失望', '不满意', '没用', '无效', '不推荐', '没效果',
'不灵', '没用处', '不管用', '不见效', '不靠谱', '忽悠', '骗人', '副作用'
]
medical_keywords = [
'方法', '偏方', '妙招', '小妙招', '治疗', '疗法', '中医', '药方',
'配方', '秘方', '验方', '处方', '食疗', '调理', '养生', '保健',
'药材', '草药', '中药', '汤剂', '膏方', '丸剂', '针灸', '推拿',
'按摩', '刮痧', '拔罐', '艾灸', '穴位', '经络', '气血', '阴阳',
'五行', '寒热', '虚实', '内服', '外敷', '熏蒸', '泡脚', '泡澡',
'敷贴', '贴敷', '熬煮', '煎煮', '泡制', '炮制', '调养', '调理',
'药酒', '药茶', '药膳', '药浴', '药枕', '药包', '药粉', '药丸',
'药散', '药油', '药膏', '药贴', '药水', '药液', '药汁', '药汤',
'煎剂', '浸剂', '酊剂', '流浸膏', '浸膏', '散剂', '颗粒剂',
'藏象学说', '脏腑理论', '三焦辨证', '卫气营血', '六经辨证', '八纲辨证',
'五行生克', '阴阳平衡', '天人相应', '整体观念', '辨证论治', '治未病',
'标本兼治', '同病异治', '异病同治', '正治反治', '扶正祛邪', '调整阴阳',
'调和气血', '因时制宜', '因地制宜', '因人制宜', '四气五味', '升降浮沉',
'归经理论', '君臣佐使', '方剂配伍', '药性理论', '七情和合', '十八反',
'十九畏', '中药炮制', '道地药材', '四诊合参', '脉诊', '舌诊', '望诊',
'闻诊', '问诊', '体质辨识', '九种体质', '经络循行', '奇经八脉', '十二经脉',
'经别', '经筋', '皮部', '腧穴', '原穴', '络穴', '郄穴', '背俞穴', '募穴',
'八会穴', '八脉交会穴', '下合穴', '交会穴', '五输穴', '子午流注', '灵龟八法',
'刺络放血', '耳针', '头针', '眼针', '腹针', '腕踝针', '皮内针', '电针',
'水针', '穴位注射', '穴位埋线', '穴位贴敷', '穴位磁疗', '穴位激光',
'拔罐疗法', '走罐', '闪罐', '药罐', '刺血拔罐', '刮痧疗法', '砭石疗法',
'推拿手法', '一指禅', '㨰法', '揉法', '摩法', '擦法', '推法', '搓法',
'抖法', '振法', '按法', '点法', '捏法', '拿法', '捻法', '拍法', '击法',
'扳法', '摇法', '拔伸法', '牵引疗法', '小针刀', '刃针', '浮针', '腹诊推拿',
'脏腑推拿', '小儿推拿', '正骨', '整脊', '导引术', '气功疗法', '太极拳疗法',
'八段锦疗法', '五禽戏疗法', '六字诀', '易筋经', '中药熏洗', '中药雾化',
'中药离子导入', '中药灌肠', '中药鼻腔给药', '中药口腔喷雾', '中药外洗',
'中药湿敷', '中药热熨', '中药冷敷', '中药沐浴', '中药足浴', '中药香薰',
'中药蜡疗', '中药泥疗', '药线疗法', '药捻疗法', '箍围疗法', '切开疗法',
'人参', '黄芪', '当归', '熟地', '白芍', '川芎', '丹参', '三七', '红花',
'桃仁', '赤芍', '丹皮', '紫草', '金银花', '连翘', '板蓝根', '大青叶',
'蒲公英', '鱼腥草', '黄芩', '黄连', '黄柏', '栀子', '夏枯草', '决明子',
'龙胆草', '苦参', '白鲜皮', '青蒿', '地骨皮', '银柴胡', '胡黄连', '大黄',
'芒硝', '番泻叶', '芦荟', '火麻仁', '郁李仁', '甘遂', '大戟', '芫花',
'牵牛子', '商陆', '独活', '威灵仙', '川乌', '草乌', '蕲蛇', '乌梢蛇',
'木瓜', '蚕沙', '伸筋草', '寻骨风', '松节', '海风藤', '青风藤', '丁公藤',
'昆明山海棠', '雪上一枝蒿', '秦艽', '防己', '桑枝', '豨莶草', '臭梧桐',
'海桐皮', '络石藤', '雷公藤', '老鹳草', '穿山龙', '丝瓜络', '五加皮',
'桑寄生', '狗脊', '千年健', '雪莲花', '鹿衔草', '石楠叶', '藿香', '佩兰',
'苍术', '厚朴', '砂仁', '白豆蔻', '草豆蔻', '草果', '茯苓', '薏苡仁',
'猪苓', '泽泻', '冬瓜皮', '玉米须', '葫芦', '香加皮', '枳椇子', '车前子',
'滑石', '木通', '通草', '瞿麦', '萹蓄', '地肤子', '海金沙', '石韦',
'冬葵子', '灯心草', '萆薢', '茵陈', '金钱草', '虎杖', '地耳草', '垂盆草',
'鸡骨草', '珍珠草', '附子', '干姜', '肉桂', '吴茱萸', '小茴香', '丁香',
'高良姜', '胡椒', '花椒', '荜茇', '荜澄茄', '陈皮', '青皮', '枳实',
'木香', '沉香', '檀香', '川楝子', '乌药', '荔枝核', '香附', '佛手',
'香橼', '玫瑰花', '绿萼梅', '娑罗子', '薤白', '大腹皮', '甘松', '九香虫',
'刀豆', '柿蒂', '山楂', '神曲', '麦芽', '谷芽', '莱菔子', '鸡内金',
'阿胶', '何首乌', '龙眼肉', '楮实子', '使君子', '苦楝皮', '槟榔', '南瓜子',
'鹤草芽', '雷丸', '鹤虱', '榧子', '芜荑', '大蓟', '小蓟', '地榆',
'槐花', '侧柏叶', '白茅根', '苎麻根', '羊蹄', '三七', '茜草', '蒲黄',
'花蕊石', '降香', '白及', '仙鹤草', '紫珠叶', '棕榈炭', '血余炭', '藕节',
'炮姜', '灶心土', '川芎', '延胡索', '郁金', '姜黄', '乳香', '没药',
'五灵脂', '夏天无', '枫香脂', '丹参', '红花', '桃仁', '益母草', '泽兰',
'牛膝', '鸡血藤', '王不留行', '月季花', '凌霄花', '土鳖虫', '自然铜',
'苏木', '骨碎补', '血竭', '儿茶', '刘寄奴', '莪术', '三棱', '水蛭',
'虻虫', '斑蝥', '穿山甲', '半夏', '天南星', '白附子', '白芥子', '皂荚',
'旋覆花', '白前', '前胡', '桔梗', '川贝母', '浙贝母', '瓜蒌', '竹茹',
'竹沥', '天竺黄', '昆布', '海藻', '黄药子', '海蛤壳', '海浮石', '瓦楞子',
'礞石', '苦杏仁', '紫苏子', '百部', '紫菀', '款冬花', '马兜铃', '枇杷叶',
'桑白皮', '葶苈子', '白果', '矮地茶', '洋金花', '华山参', '罗汉果',
'朱砂', '磁石', '龙骨', '琥珀', '珍珠', '酸枣仁', '柏子仁', '远志',
'合欢皮', '首乌藤', '石决明', '珍珠母', '牡蛎', '紫贝齿', '代赭石',
'刺蒺藜', '罗布麻叶', '羚羊角', '牛黄', '钩藤', '天麻', '地龙', '全蝎',
'蜈蚣', '僵蚕', '麝香', '冰片', '苏合香', '石菖蒲', '人参', '西洋参',
'党参', '太子参', '黄芪', '白术', '山药', '白扁豆', '甘草', '大枣',
'刺五加', '绞股蓝', '红景天', '沙棘', '饴糖', '蜂蜜', '鹿茸', '巴戟天',
'淫羊藿', '仙茅', '杜仲', '续断', '肉苁蓉', '锁阳', '补骨脂', '益智仁',
'菟丝子', '沙苑子', '蛤蚧', '核桃仁', '冬虫夏草', '紫河车', '当归',
'熟地黄', '白芍', '阿胶', '何首乌', '龙眼肉', '北沙参', '南沙参', '百合',
'麦冬', '天冬', '石斛', '玉竹', '黄精', '枸杞子', '墨旱莲', '女贞子',
'桑椹', '黑芝麻', '龟甲', '鳖甲', '麻黄根', '浮小麦', '糯稻根须', '五味子',
'乌梅', '五倍子', '罂粟壳', '诃子', '石榴皮', '肉豆蔻', '赤石脂', '禹余粮',
'山茱萸', '桑螵蛸', '海螵蛸', '金樱子', '莲子', '芡实', '椿皮', '鸡冠花',
'四君子汤', '六君子汤', '香砂六君子汤', '参苓白术散', '补中益气汤',
'玉屏风散', '生脉散', '四物汤', '当归补血汤', '归脾汤', '八珍汤',
'十全大补汤', '炙甘草汤', '六味地黄丸', '知柏地黄丸', '杞菊地黄丸',
'麦味地黄丸', '都气丸', '左归丸', '大补阴丸', '一贯煎', '肾气丸',
'右归丸', '地黄饮子', '龟鹿二仙胶', '七宝美髯丹', '桂枝汤', '麻黄汤',
'九味羌活汤', '小青龙汤', '止嗽散', '银翘散', '桑菊饮', '麻黄杏仁甘草石膏汤',
'柴葛解肌汤', '升麻葛根汤', '败毒散', '参苏饮', '再造散', '加减葳蕤汤',
'大承气汤', '大陷胸汤', '大黄牡丹汤', '温脾汤', '麻子仁丸', '济川煎',
'十枣汤', '舟车丸', '疏凿饮子', '小柴胡汤', '蒿芩清胆汤', '四逆散',
'逍遥散', '痛泻要方', '半夏泻心汤', '白虎汤', '竹叶石膏汤', '清营汤',
'犀角地黄汤', '黄连解毒汤', '凉膈散', '普济消毒饮', '仙方活命饮',
'导赤散', '龙胆泻肝汤', '左金丸', '泻白散', '清胃散', '玉女煎', '芍药汤',
'白头翁汤', '青蒿鳖甲汤', '清骨散', '当归六黄汤', '理中丸', '小建中汤',
'吴茱萸汤', '四逆汤', '回阳救急汤', '当归四逆汤', '阳和汤', '四神丸',
'真人养脏汤', '金锁固精丸', '桑螵蛸散', '固冲汤', '固经丸', '易黄汤',
'朱砂安神丸', '天王补心丹', '酸枣仁汤', '甘麦大枣汤', '安宫牛黄丸',
'紫雪丹', '至宝丹', '苏合香丸', '紫金锭', '越鞠丸', '柴胡疏肝散',
'半夏厚朴汤', '瓜蒌薤白白酒汤', '枳实薤白桂枝汤', '天台乌药散',
'暖肝煎', '厚朴温中汤', '良附丸', '金铃子散', '丹参饮', '失笑散',
'桂枝茯苓丸', '鳖甲煎丸', '血府逐瘀汤', '补阳还五汤', '复元活血汤',
'温经汤', '生化汤', '活络效灵丹', '大黄䗪虫丸', '小活络丹', '川芎茶调散',
'大秦艽汤', '牵正散', '玉真散', '消风散', '羚角钩藤汤', '镇肝熄风汤',
'天麻钩藤饮', '大定风珠', '杏苏散', '桑杏汤', '清燥救肺汤', '麦门冬汤',
'养阴清肺汤', '百合固金汤', '平胃散', '藿香正气散', '茵陈蒿汤',
'八正散', '三仁汤', '甘露消毒丹', '连朴饮', '当归拈痛汤', '二妙散',
'五苓散', '猪苓汤', '防己黄芪汤', '苓桂术甘汤', '真武汤', '实脾散',
'萆薢分清饮', '羌活胜湿汤', '独活寄生汤', '二陈汤', '温胆汤', '茯苓丸',
'清气化痰丸', '小陷胸汤', '滚痰丸', '贝母瓜蒌散', '三子养亲汤',
'半夏白术天麻汤', '定痫丸', '保和丸', '枳实导滞丸', '木香槟榔丸',
'健脾丸', '枳实消痞丸', '葛花解酲汤', '乌梅丸', '肥儿丸', '布袋丸',
'化虫丸', '伐木丸', '犀黄丸', '透脓散', '小金丹', '内补黄芪汤',
'苇茎汤', '大黄牡丹汤', '薏苡附子败酱散', '阳和汤',
'感冒', '咳嗽', '哮喘', '肺痈', '肺痨', '肺胀', '肺痿', '心悸', '胸痹',
'不寐', '健忘', '痴呆', '癫狂', '痫病', '胃痛', '痞满', '呕吐', '呃逆',
'噎膈', '腹痛', '泄泻', '痢疾', '便秘', '胁痛', '黄疸', '积聚', '鼓胀',
'头痛', '眩晕', '中风', '瘿病', '疟疾', '水肿', '淋证', '癃闭', '关格',
'遗精', '阳痿', '早泄', '不育', '腰痛', '消渴', '痹证', '痿证', '颤证',
'痉证', '内伤发热', '虚劳', '肥胖', '癌症', '肿瘤', '郁证', '血证',
'痰饮', '自汗', '盗汗', '厥证', '脱证', '虫病', '痹病', '湿阻', '中暑',
'冻伤', '烧伤', '毒蛇咬伤', '破伤风', '肠痈', '乳痈', '乳癖', '乳岩',
'瘰疬', '瘿瘤', '疝气', '脱肛', '痔疮', '肛裂', '肛瘘', '脱疽', '臁疮',
'丹毒', '流注', '走黄', '内陷', '疔疮', '', '', '有头疽', '无头疽',
'发颐', '流痰', '附骨疽', '环跳疽', '足发背', '手发背', '褥疮', '窦道',
'漏管', '蛇串疮', '湿疮', '瘾疹', '牛皮癣', '白疕', '粉刺', '酒齄鼻',
'瓜藤缠', '猫眼疮', '风瘙痒', '风热疮', '紫癜风', '白驳风', '油风',
'黧黑斑', '雀斑', '疣目', '鼠乳', '鸡眼', '胼胝', '皲裂', '冻疮', '烧伤',
'毒蛇咬伤', '破伤风', '狂犬病', '食物中毒', '药物中毒', '一氧化碳中毒',
'有机磷中毒', '铅中毒', '汞中毒', '月经不调', '痛经', '闭经', '崩漏',
'经行乳房胀痛', '经行头痛', '经行发热', '经行身痛', '经行泄泻', '经行吐衄',
'经行口糜', '经行风疹块', '经行眩晕', '经行浮肿', '经行情志异常',
'绝经前后诸证', '带下病', '妊娠恶阻', '妊娠腹痛', '异位妊娠', '胎漏',
'胎动不安', '滑胎', '胎萎不长', '胎死不下', '子满', '子肿', '子晕',
'子痫', '子嗽', '子淋', '妊娠小便不通', '难产', '产后血晕', '产后痉证',
'产后发热', '产后腹痛', '产后恶露不绝', '产后恶露不下', '产后大便难',
'产后排尿异常', '产后自汗', '盗汗', '产后身痛', '缺乳', '乳汁自出',
'不孕症', '阴痒', '阴疮', '阴挺', '妇人腹痛', '癥瘕', '盆腔炎', '脏躁',
'小儿感冒', '小儿咳嗽', '肺炎喘嗽', '哮喘', '鹅口疮', '口疮', '呕吐',
'泄泻', '厌食', '积滞', '疳证', '营养性缺铁性贫血', '惊风', '癫痫',
'多动症', '抽动症', '遗尿', '五迟', '五软', '解颅', '夜啼', '汗证',
'病毒性心肌炎', '注意力缺陷多动障碍', '过敏性紫癜', '皮肤黏膜淋巴结综合征',
'中药药理', '中药化学', '中药制剂', '中药分析', '中药鉴定', '中药资源',
'GAP种植', '中药指纹图谱', '中药血清药化学', '中药代谢组学', '中药基因组学',
'中药蛋白组学', '中药网络药理学', '中药循证医学', '中医标准化', '中医信息化',
'中医人工智能', '中医大数据', '中医预防医学', '中医康复医学', '中医护理学',
'中医营养学', '中医心理学', '中医时间医学', '中医气象医学', '中医地理医学',
'中医体质学', '中医证候学', '中医治则学', '中医各家学说', '中医医史文献',
'中医古籍整理', '中医海外传播', '中医现代化', '中西医结合', '整合医学',
'精准中医', '系统生物学', '组学技术', '分子生物学', '细胞生物学',
'免疫药理学', '神经药理学', '心血管药理学', '抗肿瘤研究', '抗病毒研究',
'抗炎研究', '抗氧化研究', '调节免疫', '调节代谢', '调节肠道菌群',
'药代动力学', '药效动力学', '毒理学', '临床评价', '真实世界研究',
'随机对照试验', '队列研究', '病例对照研究', '系统评价', 'Meta分析',
'临床路径', '诊疗指南', '专家共识', '病证结合', '方证对应', '证候要素',
'证候靶点', '生物标志物', '疗效评价', '生存质量', '患者报告结局',
'中医适宜技术', '基层推广', '家庭医生', '医养结合', '健康中国',
'藏医', '蒙医', '维医', '傣医', '壮医', '瑶医', '苗医', '彝医', '侗医',
'回医', '朝医', '哈萨克医', '畲医', '土家医', '羌医', '布依医', '仡佬医',
'鄂伦春医', '赫哲医', '达斡尔医', '景颇医', '阿昌医', '德昂医', '保安医',
'裕固医', '京医', '塔塔尔医', '独龙医', '门巴医', '珞巴医', '基诺医',
'黄帝内经', '伤寒论', '金匮要略', '温病条辨', '神农本草经', '难经',
'脉经', '针灸甲乙经', '肘后备急方', '千金方', '外台秘要', '太平圣惠方',
'圣济总录', '太平惠民和剂局方', '本草纲目', '景岳全书', '医宗金鉴',
'张仲景', '华佗', '孙思邈', '李时珍', '扁鹊', '皇甫谧', '葛洪',
'陶弘景', '王叔和', '巢元方', '钱乙', '刘完素', '张从正', '李杲',
'朱震亨', '张景岳', '叶天士', '吴鞠通', '王清任', '傅青主'
]
def is_question(comment):
# 替换评论中的关键词 '#张宝旬妙招#'
question_words = ['', '', '怎么', '什么', '', '?', '是否', '有没有', '怎样', '几时', '为何', '为什么']
if len(comment) <= 5:
return True
if any(word in comment for word in question_words):
return True
return False
for commentItem in comments_list:
comment_id = commentItem['id']
comment = commentItem['content'].replace('#张宝旬妙招#', '')
6 days ago
if is_question(comment):
update_records.append((0, comment_id))
6 days ago
continue
s = SnowNLP(comment)
sentiment_score = s.sentiments
# print(comment)
# print(sentiment_score)
# print('*'*100)
6 days ago
contains_positive = any(keyword in comment for keyword in positive_keywords)
contains_negative = any(keyword in comment for keyword in negative_keywords)
contains_medical = any(keyword in comment for keyword in medical_keywords)
if (contains_medical and (contains_positive or contains_negative or sentiment_score > 0.7 or sentiment_score < 0.3)) or ((contains_positive or contains_negative) and (sentiment_score > 0.7 or sentiment_score < 0.3)):
# if contains_positive or contains_negative or sentiment_score > 0.7 or sentiment_score < 0.3:
# filtered_comments.append({
# 'comment': comment,
# 'sentiment': sentiment_score,
# 'is_positive': contains_positive or sentiment_score > 0.7,
# 'is_negative': contains_negative or sentiment_score < 0.3,
# # 'is_positive': sentiment_score > 0.5,
# # 'is_negative': sentiment_score < 0.3,
# # 'has_medical_reference': contains_medical
# })
update_records.append((1, comment_id))
else:
update_records.append((0, comment_id))
update_database(update_records)
6 days ago
return filtered_comments
def update_database(records):
connection = pymysql.connect(**DB_CONFIG)
try:
with connection.cursor() as cursor:
sql = "UPDATE spider_weibo_comments SET is_search = %s WHERE id = %s"
cursor.executemany(sql, records)
connection.commit()
finally:
connection.close()
def domain():
contentdata = get_comments_from_db()
length = len(contentdata)
if length < 1000:
if length > 0:
filtered = filter_medical_comments(contentdata)
print(f'已经是最后一页,没有数据了:{length}')
exit()
else:
print(f'{length}条数据')
filtered = filter_medical_comments(contentdata)
domain()
# comments = [item['content'] for item in contentdata]
# filtered = filter_medical_comments(contentdata)
# comments = []
# import json
# print(json.dumps(filtered, ensure_ascii=False, indent=None))
# print(f"筛选出 {len(filtered)} 条相关评论:")
# for item in filtered:
# print(f"评论: {item['comment']}")
# print(f"情感得分: {item['sentiment']:.2f}")
# print(f"是否正面: {item['is_positive']}")
# print(f"是否负面: {item['is_negative']}")
# print("-" * 50)
6 days ago
if __name__ == "__main__":
domain()
6 days ago