macbert/base_model.py

# -*- coding: utf-8 -*-
"""
@author:XuMing(xuming624@qq.com), Abtion(abtion@outlook.com)
@description: 
"""
import operator
from abc import ABC
from loguru import logger
import torch
import torch.nn as nn
import numpy as np
import pytorch_lightning as pl
from pycorrector.macbert import lr_scheduler
from pycorrector.macbert.evaluate_util import compute_corrector_prf, compute_sentence_level_prf


class FocalLoss(nn.Module):
    """
    Softmax and sigmoid focal loss.
    copy from https://github.com/lonePatient/TorchBlocks
    """

    def __init__(self, num_labels, activation_type='softmax', gamma=2.0, alpha=0.25, epsilon=1.e-9):

        super(FocalLoss, self).__init__()
        self.num_labels = num_labels
        self.gamma = gamma
        self.alpha = alpha
        self.epsilon = epsilon
        self.activation_type = activation_type

    def forward(self, input, target):
        """
        Args:
            logits: model's output, shape of [batch_size, num_cls]
            target: ground truth labels, shape of [batch_size]
        Returns:
            shape of [batch_size]
        """
        if self.activation_type == 'softmax':
            idx = target.view(-1, 1).long()
            one_hot_key = torch.zeros(idx.size(0), self.num_labels, dtype=torch.float32, device=idx.device)
            one_hot_key = one_hot_key.scatter_(1, idx, 1)
            logits = torch.softmax(input, dim=-1)
            loss = -self.alpha * one_hot_key * torch.pow((1 - logits), self.gamma) * (logits + self.epsilon).log()
            loss = loss.sum(1)
        elif self.activation_type == 'sigmoid':
            multi_hot_key = target
            logits = torch.sigmoid(input)
            zero_hot_key = 1 - multi_hot_key
            loss = -self.alpha * multi_hot_key * torch.pow((1 - logits), self.gamma) * (logits + self.epsilon).log()
            loss += -(1 - self.alpha) * zero_hot_key * torch.pow(logits, self.gamma) * (1 - logits + self.epsilon).log()
        return loss.mean()


def make_optimizer(cfg, model):
    params = []
    for key, value in model.named_parameters():
        if not value.requires_grad:
            continue
        lr = cfg.SOLVER.BASE_LR
        weight_decay = cfg.SOLVER.WEIGHT_DECAY
        if "bias" in key:
            lr = cfg.SOLVER.BASE_LR * cfg.SOLVER.BIAS_LR_FACTOR
            weight_decay = cfg.SOLVER.WEIGHT_DECAY_BIAS
        params += [{"params": [value], "lr": lr, "weight_decay": weight_decay}]
    if cfg.SOLVER.OPTIMIZER_NAME == 'SGD':
        optimizer = getattr(torch.optim, cfg.SOLVER.OPTIMIZER_NAME)(params, momentum=cfg.SOLVER.MOMENTUM)
    else:
        optimizer = getattr(torch.optim, cfg.SOLVER.OPTIMIZER_NAME)(params)
    return optimizer


def build_lr_scheduler(cfg, optimizer):
    scheduler_args = {
        "optimizer": optimizer,

        # warmup options
        "warmup_factor": cfg.SOLVER.WARMUP_FACTOR,
        "warmup_epochs": cfg.SOLVER.WARMUP_EPOCHS,
        "warmup_method": cfg.SOLVER.WARMUP_METHOD,

        # multi-step lr scheduler options
        "milestones": cfg.SOLVER.STEPS,
        "gamma": cfg.SOLVER.GAMMA,

        # cosine annealing lr scheduler options
        "max_iters": cfg.SOLVER.MAX_ITER,
        "delay_iters": cfg.SOLVER.DELAY_ITERS,
        "eta_min_lr": cfg.SOLVER.ETA_MIN_LR,

    }
    scheduler = getattr(lr_scheduler, cfg.SOLVER.SCHED)(**scheduler_args)
    return {'scheduler': scheduler, 'interval': cfg.SOLVER.INTERVAL}


class BaseTrainingEngine(pl.LightningModule):
    def __init__(self, cfg, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.cfg = cfg

    def configure_optimizers(self):
        optimizer = make_optimizer(self.cfg, self)
        scheduler = build_lr_scheduler(self.cfg, optimizer)

        return [optimizer], [scheduler]

    def on_validation_epoch_start(self) -> None:
        logger.info('Valid.')

    def on_test_epoch_start(self) -> None:
        logger.info('Testing...')


class CscTrainingModel(BaseTrainingEngine, ABC):
    """
        用于CSC的BaseModel, 定义了训练及预测步骤
        """

    def __init__(self, cfg, *args, **kwargs):
        super().__init__(cfg, *args, **kwargs)
        # loss weight
        self.w = cfg.MODEL.HYPER_PARAMS[0]

    def training_step(self, batch, batch_idx):
        ori_text, cor_text, det_labels = batch
        outputs = self.forward(ori_text, cor_text, det_labels)
        loss = self.w * outputs[1] + (1 - self.w) * outputs[0]
        self.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True, batch_size=len(ori_text))
        return loss

    def validation_step(self, batch, batch_idx):
        ori_text, cor_text, det_labels = batch
        outputs = self.forward(ori_text, cor_text, det_labels)
        loss = self.w * outputs[1] + (1 - self.w) * outputs[0]
        det_y_hat = (outputs[2] > 0.5).long()
        cor_y_hat = torch.argmax((outputs[3]), dim=-1)
        encoded_x = self.tokenizer(cor_text, padding=True, return_tensors='pt')
        encoded_x.to(self._device)
        cor_y = encoded_x['input_ids']
        cor_y_hat *= encoded_x['attention_mask']

        results = []
        det_acc_labels = []
        cor_acc_labels = []
        for src, tgt, predict, det_predict, det_label in zip(ori_text, cor_y, cor_y_hat, det_y_hat, det_labels):
            _src = self.tokenizer(src, add_special_tokens=False)['input_ids']
            _tgt = tgt[1:len(_src) + 1].cpu().numpy().tolist()
            _predict = predict[1:len(_src) + 1].cpu().numpy().tolist()
            cor_acc_labels.append(1 if operator.eq(_tgt, _predict) else 0)
            det_acc_labels.append(det_predict[1:len(_src) + 1].equal(det_label[1:len(_src) + 1]))
            results.append((_src, _tgt, _predict,))

        return loss.cpu().item(), det_acc_labels, cor_acc_labels, results

    def validation_epoch_end(self, outputs) -> None:
        det_acc_labels = []
        cor_acc_labels = []
        results = []
        for out in outputs:
            det_acc_labels += out[1]
            cor_acc_labels += out[2]
            results += out[3]
        loss = np.mean([out[0] for out in outputs])
        self.log('val_loss', loss)
        logger.info(f'loss: {loss}')
        logger.info(f'Detection:\n'
                    f'acc: {np.mean(det_acc_labels):.4f}')
        logger.info(f'Correction:\n'
                    f'acc: {np.mean(cor_acc_labels):.4f}')
        compute_corrector_prf(results, logger)
        compute_sentence_level_prf(results, logger)

    def test_step(self, batch, batch_idx):
        return self.validation_step(batch, batch_idx)

    def test_epoch_end(self, outputs) -> None:
        logger.info('Test.')
        self.validation_epoch_end(outputs)

    def predict(self, texts):
        inputs = self.tokenizer(texts, padding=True, return_tensors='pt')
        inputs.to(self.cfg.MODEL.DEVICE)
        with torch.no_grad():
            outputs = self.forward(texts)
            y_hat = torch.argmax(outputs[1], dim=-1)
            expand_text_lens = torch.sum(inputs['attention_mask'], dim=-1) - 1
        rst = []
        for t_len, _y_hat in zip(expand_text_lens, y_hat):
            rst.append(self.tokenizer.decode(_y_hat[1:t_len]).replace(' ', ''))
        return rst
第一次提交 2 years ago			`# -- coding: utf-8 --`
			`"""`
			`@author:XuMing(xuming624@qq.com), Abtion(abtion@outlook.com)`
			`@description:`
			`"""`
			`import operator`
			`from abc import ABC`
			`from loguru import logger`
			`import torch`
			`import torch.nn as nn`
			`import numpy as np`
			`import pytorch_lightning as pl`
			`from pycorrector.macbert import lr_scheduler`
			`from pycorrector.macbert.evaluate_util import compute_corrector_prf, compute_sentence_level_prf`


			`class FocalLoss(nn.Module):`
			`"""`
			`Softmax and sigmoid focal loss.`
			`copy from https://github.com/lonePatient/TorchBlocks`
			`"""`

			`def __init__(self, num_labels, activation_type='softmax', gamma=2.0, alpha=0.25, epsilon=1.e-9):`

			`super(FocalLoss, self).__init__()`
			`self.num_labels = num_labels`
			`self.gamma = gamma`
			`self.alpha = alpha`
			`self.epsilon = epsilon`
			`self.activation_type = activation_type`

			`def forward(self, input, target):`
			`"""`
			`Args:`
			`logits: model's output, shape of [batch_size, num_cls]`
			`target: ground truth labels, shape of [batch_size]`
			`Returns:`
			`shape of [batch_size]`
			`"""`
			`if self.activation_type == 'softmax':`
			`idx = target.view(-1, 1).long()`
			`one_hot_key = torch.zeros(idx.size(0), self.num_labels, dtype=torch.float32, device=idx.device)`
			`one_hot_key = one_hot_key.scatter_(1, idx, 1)`
			`logits = torch.softmax(input, dim=-1)`
			`loss = -self.alpha * one_hot_key * torch.pow((1 - logits), self.gamma) * (logits + self.epsilon).log()`
			`loss = loss.sum(1)`
			`elif self.activation_type == 'sigmoid':`
			`multi_hot_key = target`
			`logits = torch.sigmoid(input)`
			`zero_hot_key = 1 - multi_hot_key`
			`loss = -self.alpha * multi_hot_key * torch.pow((1 - logits), self.gamma) * (logits + self.epsilon).log()`
			`loss += -(1 - self.alpha) * zero_hot_key * torch.pow(logits, self.gamma) * (1 - logits + self.epsilon).log()`
			`return loss.mean()`


			`def make_optimizer(cfg, model):`
			`params = []`
			`for key, value in model.named_parameters():`
			`if not value.requires_grad:`
			`continue`
			`lr = cfg.SOLVER.BASE_LR`
			`weight_decay = cfg.SOLVER.WEIGHT_DECAY`
			`if "bias" in key:`
			`lr = cfg.SOLVER.BASE_LR * cfg.SOLVER.BIAS_LR_FACTOR`
			`weight_decay = cfg.SOLVER.WEIGHT_DECAY_BIAS`
			`params += [{"params": [value], "lr": lr, "weight_decay": weight_decay}]`
			`if cfg.SOLVER.OPTIMIZER_NAME == 'SGD':`
			`optimizer = getattr(torch.optim, cfg.SOLVER.OPTIMIZER_NAME)(params, momentum=cfg.SOLVER.MOMENTUM)`
			`else:`
			`optimizer = getattr(torch.optim, cfg.SOLVER.OPTIMIZER_NAME)(params)`
			`return optimizer`


			`def build_lr_scheduler(cfg, optimizer):`
			`scheduler_args = {`
			`"optimizer": optimizer,`

			`# warmup options`
			`"warmup_factor": cfg.SOLVER.WARMUP_FACTOR,`
			`"warmup_epochs": cfg.SOLVER.WARMUP_EPOCHS,`
			`"warmup_method": cfg.SOLVER.WARMUP_METHOD,`

			`# multi-step lr scheduler options`
			`"milestones": cfg.SOLVER.STEPS,`
			`"gamma": cfg.SOLVER.GAMMA,`

			`# cosine annealing lr scheduler options`
			`"max_iters": cfg.SOLVER.MAX_ITER,`
			`"delay_iters": cfg.SOLVER.DELAY_ITERS,`
			`"eta_min_lr": cfg.SOLVER.ETA_MIN_LR,`

			`}`
			`scheduler = getattr(lr_scheduler, cfg.SOLVER.SCHED)(**scheduler_args)`
			`return {'scheduler': scheduler, 'interval': cfg.SOLVER.INTERVAL}`


			`class BaseTrainingEngine(pl.LightningModule):`
			`def __init__(self, cfg, args, *kwargs):`
			`super().__init__(args, *kwargs)`
			`self.cfg = cfg`

			`def configure_optimizers(self):`
			`optimizer = make_optimizer(self.cfg, self)`
			`scheduler = build_lr_scheduler(self.cfg, optimizer)`

			`return [optimizer], [scheduler]`

			`def on_validation_epoch_start(self) -> None:`
			`logger.info('Valid.')`

			`def on_test_epoch_start(self) -> None:`
			`logger.info('Testing...')`


			`class CscTrainingModel(BaseTrainingEngine, ABC):`
			`"""`
			`用于CSC的BaseModel, 定义了训练及预测步骤`
			`"""`

			`def __init__(self, cfg, args, *kwargs):`
			`super().__init__(cfg, args, *kwargs)`
			`# loss weight`
			`self.w = cfg.MODEL.HYPER_PARAMS[0]`

			`def training_step(self, batch, batch_idx):`
			`ori_text, cor_text, det_labels = batch`
			`outputs = self.forward(ori_text, cor_text, det_labels)`
			`loss = self.w * outputs[1] + (1 - self.w) * outputs[0]`
			`self.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True, batch_size=len(ori_text))`
			`return loss`

			`def validation_step(self, batch, batch_idx):`
			`ori_text, cor_text, det_labels = batch`
			`outputs = self.forward(ori_text, cor_text, det_labels)`
			`loss = self.w * outputs[1] + (1 - self.w) * outputs[0]`
			`det_y_hat = (outputs[2] > 0.5).long()`
			`cor_y_hat = torch.argmax((outputs[3]), dim=-1)`
			`encoded_x = self.tokenizer(cor_text, padding=True, return_tensors='pt')`
			`encoded_x.to(self._device)`
			`cor_y = encoded_x['input_ids']`
			`cor_y_hat *= encoded_x['attention_mask']`

			`results = []`
			`det_acc_labels = []`
			`cor_acc_labels = []`
			`for src, tgt, predict, det_predict, det_label in zip(ori_text, cor_y, cor_y_hat, det_y_hat, det_labels):`
			`_src = self.tokenizer(src, add_special_tokens=False)['input_ids']`
			`_tgt = tgt[1:len(_src) + 1].cpu().numpy().tolist()`
			`_predict = predict[1:len(_src) + 1].cpu().numpy().tolist()`
			`cor_acc_labels.append(1 if operator.eq(_tgt, _predict) else 0)`
			`det_acc_labels.append(det_predict[1:len(_src) + 1].equal(det_label[1:len(_src) + 1]))`
			`results.append((_src, _tgt, _predict,))`

			`return loss.cpu().item(), det_acc_labels, cor_acc_labels, results`

			`def validation_epoch_end(self, outputs) -> None:`
			`det_acc_labels = []`
			`cor_acc_labels = []`
			`results = []`
			`for out in outputs:`
			`det_acc_labels += out[1]`
			`cor_acc_labels += out[2]`
			`results += out[3]`
			`loss = np.mean([out[0] for out in outputs])`
			`self.log('val_loss', loss)`
			`logger.info(f'loss: {loss}')`
			`logger.info(f'Detection:\n'`
			`f'acc: {np.mean(det_acc_labels):.4f}')`
			`logger.info(f'Correction:\n'`
			`f'acc: {np.mean(cor_acc_labels):.4f}')`
			`compute_corrector_prf(results, logger)`
			`compute_sentence_level_prf(results, logger)`

			`def test_step(self, batch, batch_idx):`
			`return self.validation_step(batch, batch_idx)`

			`def test_epoch_end(self, outputs) -> None:`
			`logger.info('Test.')`
			`self.validation_epoch_end(outputs)`

			`def predict(self, texts):`
			`inputs = self.tokenizer(texts, padding=True, return_tensors='pt')`
			`inputs.to(self.cfg.MODEL.DEVICE)`
			`with torch.no_grad():`
			`outputs = self.forward(texts)`
			`y_hat = torch.argmax(outputs[1], dim=-1)`
			`expand_text_lens = torch.sum(inputs['attention_mask'], dim=-1) - 1`
			`rst = []`
			`for t_len, _y_hat in zip(expand_text_lens, y_hat):`
			`rst.append(self.tokenizer.decode(_y_hat[1:t_len]).replace(' ', ''))`
			`return rst`