【ED】文本分类实例操作和JavaAPI调用代码
756665228 发布于2018-12-07 11:41 浏览:3965 回复:4
3
收藏
最后编辑于2019-06-17

文本分类

文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类,是朴素贝叶斯分类方法。

应用广泛

垃圾邮件分类:二分类问题,判断邮件是否为垃圾邮件

情感分析

二分类问题,判断文本情感是积极(positive)还是消极(negative)

多分类问题,判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类

新闻主题分类:判断新闻属于哪个类别,如财经、体育、娱乐等自动问答系统中的问句分类

社区问答系统中的问题分类:多标签分类,如知乎看山杯更多应用:

让AI当法官: 基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签分类)。

判断新闻是否为机器人所写: 二分类

.......

ED平台操作,相信小伙伴已经很熟悉了。

小帅为了方便开发者们都能体验一把。把训练用到的数据集上传了到群文件。请自行下载上传测试哦。QQ群号;185289236

接下来小帅就直接给调用文本分类接口示例代码

其他语言示例代码   http://aixiaoshuai.mydoc.io/?t=334303

 

Java示例代码

需要额外使用到的jar&工具类


	com.alibaba
	fastjson
	1.2.35
	
----------------------------------------------------------
HttpUtil
https://ai.baidu.com/file/544D677F5D4E4F17B4122FBD60DB82B3

示例代码:

import com.xs.util.baidu.HttpUtil;
/**
 * 文本分类接口示例代码 -JavaAPI
 * @author 小帅丶
 *
 */
public class TextClsAPISample {
	static final String TEXT_CLS_API ="https://aip.baidubce.com/rpc/2.0/ai_custom/v1/text_cls/xstext";
	static final String ACCESS_TOKEN = "";
	public static void main(String[] args) throws Exception {
			String text = "今天老师不在";
			String result = getTextClsResult(ACCESS_TOKEN, text);
			System.out.println(result);
	}
	/**
	 * 请求EasyDL文本分类接口
	 * @param accessToken 鉴权的token
	 * @param text 
	 * @return String
	 * @throws Exception
	 */
	public static String getTextClsResult(String accessToken,String text) throws Exception {
		// 请将API地址替换为EasyDL所提供的API地址
		String url = TEXT_CLS_API;
		// access_token获取方法请详见API使用说明,请注意access_token有效期为30天
		String access_token = accessToken;
		// 返回分类数量top_num设置为5 如不设置默认返回6条结果
		String params = "{\"text\":\"" + text + "\",\"top_num\":5}";
		String result = HttpUtil.post(url, access_token, params);
		// 输出识别结果
		System.out.println(result);
		return result;
	}
}

返回的结果

{
    "log_id": 2954506822969007600, 
    "results": [
        {
            "name": "campus", 
            "score": 0.883552074432373
        }, 
        {
            "name": "sport", 
            "score": 0.07205522060394287
        }, 
        {
            "name": "publish", 
            "score": 0.03141676262021065
        }, 
        {
            "name": "woman", 
            "score": 0.012975791469216347
        }
    ]
}
收藏
点赞
3
个赞
共4条回复 最后由756665228回复于2019-06-17 17:03
#5756665228回复于2019-06-17 17:03:44
#4 卡号喜欢过回复
null--->[HTTP/1.1 200 OK] Server--->[Apache] Connection--->[keep-alive] Vary--->[Accept-Encoding] Set-Cookie--->[BAIDUID=73205FD533CBC811C4CEE1864497CA8C:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2145916555; path=/; domain=.baidu.com; version=1] Content-Length--->[72] P3p--->[CP=" OTI DSP COR IVA OUR IND COM "] Date--->[Mon, 17 Jun 2019 01:36:17 GMT] Content-Type--->[application/json] result:{"error_code":110,"error_msg":"Access token invalid or no longer valid"} {"error_code":110,"error_msg":"Access token invalid or no longer valid"} {"error_code":110,"error_msg":"Access token invalid or no longer valid"} 博主  这是什么问题呀   // 请将API地址替换为EasyDL所提供的API地址 String url = TEXT_CLS_API;   这个地方的API地址  是换成什么呀
展开

替换成您自己发布的云服务API地址呀。

1
#4卡号喜欢过回复于2019-06-17 09:42:40

null--->[HTTP/1.1 200 OK]
Server--->[Apache]
Connection--->[keep-alive]
Vary--->[Accept-Encoding]
Set-Cookie--->[BAIDUID=73205FD533CBC811C4CEE1864497CA8C:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2145916555; path=/; domain=.baidu.com; version=1]
Content-Length--->[72]
P3p--->[CP=" OTI DSP COR IVA OUR IND COM "]
Date--->[Mon, 17 Jun 2019 01:36:17 GMT]
Content-Type--->[application/json]
result:{"error_code":110,"error_msg":"Access token invalid or no longer valid"}
{"error_code":110,"error_msg":"Access token invalid or no longer valid"}
{"error_code":110,"error_msg":"Access token invalid or no longer valid"}

博主  这是什么问题呀  

// 请将API地址替换为EasyDL所提供的API地址
String url = TEXT_CLS_API;  

这个地方的API地址  是换成什么呀

1
#3crazyzsunny回复于2019-06-15 14:02:51

其实文本的情感多分类问题按照输出可以看成一个回归的问题,细粒度的文本情感分析输出已经不是离散的数值了,可以精确到小数点的情感强度差别,如0.8和0.9都表示积极,但是强度是不一样的

0
#2荒墨丶迷失回复于2018-12-12 17:15:00

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

其中朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
通过以上定理和“朴素”的假定,我们可以知道:
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)

1
TOP
切换版块