资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

金融负面信息识别

任务简介

判断金融文本蕴含的信息是否是负面的,例如:“海象理财已经不兑付,我们关注公众号报团维权,千万别放弃!#全民打击骗子平台海象理财张勇贾永良和兜底方复华王新”信息是负面的。

快速开始

金融负面信息识别任务代码位于:wenxin_appzoo/tasks/negative_information_for_finance

目录结构

├── data    
│   ├── predict_data     
│   │   └── predict.txt     
│   ├── test_data      
│   │   └── test.txt         
│   └── train_data  
│        └── train.txt      
├── examples     
│   ├── cls_ernie_fc_ch_infer.json   
│   └── cls_ernie_fc_ch.json   
├── inference   
│   ├── custom_inference.py
│   └── __init__.py   
├── __init__.py  
├── model  
│   ├── base_cls.py   
│   ├── ernie_classification.py   
│   └── __init__.py  
├── reader  
│   └── categorical_field_reader.py   
├── run_infer.py      
├── run_trainer.py      
└── trainer        
    ├── custom_dynamic_trainer.py  
    ├── custom_trainer.py  
    └── __init__.py  

数据准备

  • 这里我们提供一份已标注的示例数据集。该任务预置网络基于ernie_financial(金融领域预训练模型)进行训练,数据集不需要分词。
  • 训练集、测试集和预测集分别存放在./data目录下的train_data、test_data和predict_data文件夹下。
  • 注:数据集(包含词表)均为utf-8格式。

训练集/测试集/

  • 训练集、测试集的数据格式相同,每个样例分为两个部分文本和对应标签
《上海民间金融平台再三炸雷涉非法集资上千亿》此外,联璧金融涉嫌自融的传闻并未完全辟谣,自融问题或涉非法集资	1
paypal全球用户规模已突破2.5亿paypal刚宣布全球已经有超过2.5亿用户使用其支付服务	0

预测集

新规:半年内使用过蚂蚁借呗、京东白条的,一律不给贷款!   
今日有微博用户爆料,美团外卖4名员工实名举报某设计师利用上班时间,进行kci区块链项目传销诈骗

训练我的第一个模型

开始训练

  • 使用预置网络进行训练的方式为使用./run_trainer.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
  • 训练分几个步骤
  1. 请使用以下命令在../../models_hub/中通过对应脚本download_ernie_financial_1.0_ch.sh下载模型参数文件,以及其对应配置文件ernie_financial_1.0_ch_config.json和词表vocab_ernie_financial_1.0_ch.txt.
# download_ernie_financial_1.0_ch.sh 模型下载
# 进入models_hub目录
cd ../../models_hub/  
sh download_ernie_financial_1.0_ch.sh
  1. 基于示例的数据集,可以运行以下命令在训练集(train.txt)上进行模型训练,并在测试集(test.txt)上进行验证;
# 基于json实现预置网络训练。其调用了配置文件./examples/cls_ernie_fc_ch.json
python run_trainer.py --param_path ./examples/cls_ernie_fc_ch.json
  1. 训练运行的日志会自动保存在./log/test.log文件中;
  2. 训练中以及结束后产生的模型文件会默认保存在./output/目录下,其中save_inference_model/文件夹会保存用于预测的模型文件,save_checkpoint/文件夹会保存用于热启动的模型文件

预测我的第一个模型

开始预测

  • 使用预置网络进行预测的方式为使用./run_infer.py入口脚本,通过--param_path参数来传入./examples/目录下的json配置文件。
  • 预测分为以下几个步骤:
  1. 基于示例的数据集,可以运行以下命令在预测集(predict.txt)上进行预测:
# 基于json实现预测。其调用了配置文件./examples/cls_ernie_fc_ch_infer.json
python run_infer.py --param_path ./examples/cls_ernie_fc_ch_infer.json
  1. 预测运行的日志会自动保存在./output/predict_result.txt文件中。
上一篇
适用场景
下一篇
文本匹配