主题:如何使用EasyDL构建互联网内容安全方案
时间:2020年6月2日
讲师:百度AI技术生态部高级产品经理 Nathan
【课程大纲】
1. 背景介绍:互联网安全范围和检查重要性
2. 实战演示:如何利用EasyDL定制内容安全方案
首先,关于内容审核的定义。内容审核范围就是我们要对图片、文本、语音、视频合规性进行检查,比如图片像一些聊天、论坛的图片,我们都要对它进行检测,文本包括聊天信息、论坛贴子、弹幕、评论内容,新闻等等这些都算是文本内容。下一步是语音,包括聊天语音,还有电台的语音都要做语音审核。下一步是视频,包括社交短视频,新闻视频,还有直播,这都属于视频的范畴。我们对这些多媒体类型关注维度像色情、暴恐、政治敏感、恶意推广、低俗等,这些是我们内容审核的含义所在。
内容审核现在越来越成为更多企业越来越关心的问题,首先,监管单位针对内容从2019年有三个专项行动:护苗、净网、剑网。护苗就是通过线上线下措施保护青少年的安全,对互联网短视频内容,动画片内容进行审核,防止里面有一些青少年色情的内容。线下内容像针对学校周边的小卖部,里面出现的儿童读物、刊物进行审核,所以护苗行动是覆盖线上线下。第二是净网行动,组织部门就是扫黄打黑办,主要是针对黄色非法内容进行清除。第三是剑网行动,主要针对网络侵权盗版,文章和图片等进行审核。同时我们2019年监管单位有更多完善管理规范,比如《网络音视频信息服务管理规定》、《未成年人节目管理规定》、《儿童个人信息网络保护规定》、《网络信息内容生态治理规定》,这四个规定里有两个都是关于未成年人和儿童的,现在打开一些短视频APP,视频网站,都会有一个弹窗,是否进入青少年模式,这都是在规定里进行的要求,比如要求动画片里面广告时长等,所以我们可以看到,通过一些专项行动和完善的管理规范,现在行业管理法规越来越健全,内容安全问题成为不管是大厂商和小厂商都在重点关注的内容。
内容审核的现状。除了监管单位非常关注内容审核,其实很多互联网多媒体类型的公司,比如一些短视频、长视频公司,论坛社交平台,都有在做内容审核工作,不过现在更多在依赖人工审核。
完全依赖人工审核有几个缺点:
1. 人工审核效率低,一个人一天只审图片只能是一万张,如果图库或者社交类软件,图片量级比较大,就要雇佣很多人。
2. 人工审核成本非常高,像一些短视频APP,人工审核团队1.5万人,这个投入基本要投入9亿元的资金到这里面。
3. 被审核的内容,人工审核时延比较高,不像机器是一个接口,人工要有任务的分发,任务的审核,以及任务最终返回到运营系统,整个流程都要30分钟以上,所以审核的时效性较低。
同时,监管的要求越来越细,越来越严格,我们拿两个点管中窥豹,第一是《网络音视频信息服务管理规定》,这里要求不得利用网络音视频信息传播危害政治安全、社会稳定,淫秽色情等信息,包括侵害他人名誉权、肖像权、隐私权的信息。比如说你上传一些明星照片这些,有一些平台使用了明星的照片,如果没有得到人家许可,这些都是违反了相关的管理规定的,包括这个平台可能会传一些谣言、色情信息都是不可以的。第二个像《未成年人节目管理规定》,第九条未成年人节目里不得包含暴力、血腥、恐怖、教唆犯罪、吸毒、吸烟、酗酒等内容。我们简单看两条管理规定,我们发现管理规定不像以前一个大面,不允许有一些违规的内容,现在对违规内容的定义进行了非常细致的规定或进行了明确。
针对不同的用户或者同一个用户不同的部门,审核规则不太一样。举个例子,像直播业务,像男性性感、女性性感都是需要人工复审,卡通色情等等都需要人工审核。像电视业务部,像性爱玩具,这些都是售卖的东西,还有一些男士内衣等,赤裸上身这些都算是正常的东西,它的审核规则和刚才我们看到的直播不太一样。比如这个平台还有一个论坛板块,论坛里有母婴的板块,比如出现一些儿童裸露,相对预期内的CASE,这些复审一下,如果是正常的儿童裸露都是正常的情况,所以不同的业务部门,针对不同的审核规则,这个是现在的现状。
针对刚才监管单位的审核要求越来越细,不同的部门和不同的审核规则,对于用户挑选一家审核能力比较齐全的公司或者服务商是非常高的要求。但是现在的服务商拥有的基础审核能力,大家通常都会具备,一些细粒度审核能力并不是每家都有,包括自定义人脸库,自定义审核松紧度,自定义黑白名单,包括新审核内容,敏感时期策略自动切换等等,这些能力其实都需要的,但是市面上一些服务商无法同时具备这些功能。
我们总结一下现在人工审核遇到的问题。第一是人工审核成本非常高、效率低、主观性强,比如针对一张图片到底算性感还是色情,可能不同的审核员就有不同的标准,这个就会给后面的结果统计造成很大的负担。第二块是监管和业务审核规则更新快适配难度大,如果监管的规则推陈出新,需要频繁更改代码调整策略,操作成本非常高。还有监管要求检测一个新的类型,比如想实现这样的审核,比如客户已经用了机器审核,要准备大量数据训练这个模型,对客户来说这个成本也是非常高。还有当客户拿到了机审结果,想和现有的人工审核团队结合,想要打造一个人机协同审核系统,这个系统的构建成本难度也是非常大的。
基于刚才我们讲到这些痛点,其实我们总结一下,客户需要的是精准、全面、灵活、高效的审核解决方案。精准是说审核的模型,需要机器审核的模型足够精准,这样才能减少一部分人工审核的工作量。第二是需要能力足够全面,灵活适配,切合监管的需求,满足越来越细化的监管要求。第三是客户需要人审和机审管理平台或者提升效率。基于这些需求,我们百度大脑内容审核的愿景,希望利用AI审核能力帮助企业进行高效、低成本的审核,助力内容风险管控。基于这样一个愿景,我们有两条路径,第一是基于百度大脑全面的AI技术积累,提供最领先、全面的AI审核能力,凭借广泛的业务经验积累,开放基于最佳实践的人机协同的审核管理系统。基于这样一个愿景和这两条路径,百度推出了两个产品,第一是内容审核平台,第二是人机协同审核管理平台,在这两个平台下我们有非常多的核心能力,像图像、文本、语音。
我们看一下百度内容审核平台,我们打造产品的理念是我们想要给用户提供足够全面的审核能力,足够灵活的规则配置,精准的审核模型。全面的能力,我们监管单位的要求越来越严格,很多东西之前没有需要监管,现在都需要监管,这对审核能力全面性有一个调整。灵活就是随着突发事件,随着一些监管单位要求的更新,要求我们的审核规则不能是一成不变,要求灵活进行调整。精准就是只有精准审核模型,才能替代人工审核工作量,提升审核的效率。
第一个,在我们这个平台里我们包含的能力是图像审核能力,这里包括超过14项图像审核,像色情识别、暴恐识别、政治敏感、广告识别等等,从图像这些维度分析这个图片到底是违规还是合规。这里有一个点,有一个预制违禁图库,积累了多年风险处置经验,结合监管要求实时更新,帮助很多种小客户,前期没有做黑库的积累,拿不到监管要求,不知道怎么解读监管政策的小客户,帮他们接入平台以后就拥有对这块黑库的识别能力。同时,我们也具有非常丰富标签的图审能力,刚才讲到,比如色情识别,不同的客户业务部门或者不同客户之间就有非常大的区别的需求,百度怎么解决的呢,我们就是将色情识别拆分为足够细的维度,现在拆了20个维度,不同的用户,不同的业务部门就能根据自己的需求规定这些标签,哪些标签在我这个业务场景是属于违规的,比如这里有一个像儿童色情,性爱玩具等进行拆分,客户在我这个场景里是正常,就归为正常类,如果是违规就归到违规的内容。
同时我们也提供了非常维度丰富的文本审核服务,超过8项能力,包括文本色情、暴恐违禁、政治敏感、恶意推广广告、低俗辱骂、低质灌水内容。首先会过一下预制词库,如果没有命中,我们也会过用户自己的黑白名单,也就是说用户可以在我们平台上自己创建文本黑白名单,如果都没有命中,就过我们计算模型,最后输出一个结果给客户,这是我们的文本审核能力。
语音审核能力,一段语音过来我们会拆成两部分,第一部分是语音的内容,我们就会把这个语音先经过百度的语音审核,加上文字的信息,文字再过去,过我们的文字审核。第二是声音内容,像娇喘声等无法转换成文字,这些有专门的交换声识别模型,帮助用户做娇喘模型,过了语音识别和文本审核,我们最终会结合这两块的审核信息,给到用户最终的审核结果。
肯定有用户说百度已经提供了这些模型,最全的图像、文本、语音审核模型,还有一些特殊业务审核需求怎么办,比如在用户的场景里要审核一些紧急刹车声、枪击声怎么办,我们提供了一套EasyDL平台,它是一个支持图像、文本、视频、音频数据的零门槛AI开发平台。比如我们需要训练一个直播里,这个主播是在汽车内直播还是汽车外直播,识别这样的场景,客户只要准备汽车内的图片十几张,汽车外的图片十几张,就能检测是否在汽车内直播的模型,客户如果想设计一个枪击声识别,某个声类准备数十秒的音频数据,丢到EasyDL平台里,就可以定制一个自主声音审核模型,非常方便。
EasyDL这里是面向企业级开发者提供全流程的零门槛一站式的平台方案。包括前端的EasyData数据智能服务平台,也就是说客户如果想训练一个模型,但是缺乏训练这个模型所需要的数据,或者说标注平台,可以使用EasyData解决数据的采集,标注机器扩充的功能,训练出模型以后,通过弹性托管云服务进行波束,或者是生成端上的模型,生成私有化模型都可以。
EasyDL还推出了几个版本,我们知道客户拿几十张图片训练一个模型,刚训练第一个模型或者直接把图片丢进EasyDL平台里,过十几分钟能获得达到90%准确率的模型,我们知道90%准确率对大部分用户是够用的,可以进行商业化,但是对于一部分客户来说需要更高的准确率,可能需要95%,98%的准确率才能进行商业化的使用,所以我们对EasyDL也进行了两个版本的区分。刚才如果有部分客户需要90%准确率就可以的,可以使用普通版,EasyDL基础版,针对零基础开发经验的程序员或者技术人员是比较好的。如果针对本身具有深度学习基础的审核研发人员,就可以使用EasyDL专业版,我们提供了更多模型训练过程中的参数,能让用户进行调整,打造准确率更高的审核模型。
EasyDL平台有四个特性,第一是可即用,整个训练模型的步骤共四步,非常快,比如你使用EasyDL基础版,你不需要任何深度学习的基础,整个过程都是界面化操作。第二是更轻快,通过算法语工程优化,平均训练耗时小于15分钟。第三是高精度,超过分之二的模型,top1准确率达到90%,并且提供强安全措施,数据加密和隔离,完善的服务健全,帮助客户对模型和数据进行监管和加密,包括我们训练出的模型用户可以进行私有化部署,这样不用太担心数据的问题。
EasyDL训练简单四步,最快五分钟就可以获得定制内容,第一个就是创建数据集,第二是训练模型,第三校验模型是否达到预期,第四步发布上线。同时我们EasyDL有数据支持,我们也希望有数据、或拥有数据标注能力的伙伴成为我们的合作伙伴,帮助我们更多EasyDL的用户提供更加全面的数据采集,数据标注的服务,帮助他们获得更高质量的训练数据。
讲了这么多,我们进行一个演示,我们看怎么使用EasyDL去自主定制欧美色情的识别模型。大家要用EasyDL从哪里进去,首先登录我们的官网,进来以后找到第二个标签开发平台,我们点击EasyDL经典版,打开以后进到产品的介绍页面,这里讲了一下一共有哪些功能,图像分类,物体检测,图像分割,文本分类等等,比如在内容审核场景,什么时候训练图像分类模型,什么时候训练物体检测模型。图像分类更多的是对场景的判断,比如刚才讲到分辨它是否是在车内直播,建议大家使用图像分类,或者说在户外直播,用图像分类。物体检测,比如我们定义了一个违规的雕塑,违规的旗帜,违规的勋章,我们想看图片里有没有具体这个东西,我们训练的是物体检测的模型,像刚才讲到是不是在车内直播,其实车内直播拍摄角度很多,但是我们一眼看上去就知道在车内,像这种适合用图像分类。
【实操部分】(这个部分老师有操作演示,建议通过录播学习哦~)
我们看看,训练一个图像分类的模型,首先进到数据集这边,创建我们的数据集,因为之前出于时间考虑,我这边数据集已经上传完了,比如我拿另外一个演示,欧美色情测试数据,因为我们的数据集提前已经放在不同的文件夹里进行了标注,所以我们选已标注数据,我们通过本地的方式,上传压缩包,以文件夹命名这个分类,上传这个压缩包。这样就是在上传过程中了,之后点击确认并返回,这样就已经有了这样的数据集。
有了数据集以后,我们就要创建模型,数据集其实是我们把训练的数据上传上去,现在我们要用上传的数据训练一个模型,我们点创建模型,首先要填写一些基本信息,像名称欧美色情审核测试模型,公司可以根据实际情况,我们是百度,所属行业,文化娱乐,应用场景是图片审核,功能描述就是我们打一个欧美色情审核测试模型,我们就创建了这样的模型,下面我们就要训练这个模型,我们选择欧美色情审核测试模型,部署方式,最终我们训练出来是公有云服务,还是训练出一个模型最终私有化部署到内容,还是离线SDK,还是和硬件结合,比如刚才讲的EdgeBoard等结合的模型,我们以公有云API为例,下面就是算法,就是高精度、高性能,AutoDL迁移训练的方式。高精度,就是我们会消耗更长训练的时间,获得准确率更高的模型。高性能是训练时间更短一些,但是训练出来的模型准确率相对来说没有高精度高。AutoDL,消耗时间更长,但是更适合与更细分类的场景就要用这个为准。我们以高性能为准,选择添加训练数据,选择数据以后里面就是标签,点击开始训练。之前因为时间关系,我已经训练过了,当我们训练完以后,我们就会产生这样的模型,比如我们对它进行了几次训练,第一次是V1版本,第六次训练就是V6版本,我们可以对数据集进行扩充,比如之前上传一些欧美性感色情图片,我们可以扩充数据集,之后我们可以对它进行重新训练获得更准确的效果,这上面是训练完成的,我们点击申请发布,这样才把服务接口发布到线上,通过PaaS方式调用,Top1是80%准确度,Top5是百分之百。第一个是上传数据集,第二是创建模型,我们点训练,选一个高精度还是高性能的版本,最后我们获得这样一个版本,最后启动校验服务以后就可以进行发布的操作,这就是整个EasyDL训练一个欧美性感色情模型的过程。
百度的内容审核方案就是通过百度预制全面审核,包括图像、文本、语音,长短视频的审核能力尽可能满足客户的需求。同时针对客户特殊的需求,我们通过用户自训练平台,通过EasyDL平台让用户自己训练这样的模型,来满足客户的需求。所以我们看一下具体到我们这个平台里怎么操作的。
用户使用我们这些审核能力的时候,包括EasyDL的能力,首先在EasyDL里训练好相应的模型,同时刚才讲到客户需要使用色情识别,需要什么模型就勾选什么模型,哪个模型里,比如色情模型包括20个标签,需要审什么标签勾上就可以,后面有一个滑动条可以调整松紧度,我们自定义审核图片EasyDL,我们可以把EasyDL训练的模型以及下面的标签拉过来,训练的时候分了三个标签,PORN,SEXY,NORMAL,前两个是不合规,如果是后一个是合规的,用户可以自己选择松紧度。
除了刚才讲到全面审核能力以外,我们还提供了一些自定义的库的能力,比如自定义黑白名单,自定义图像和文本黑白名单,可以上传一些自己想拦截的人脸和图像的黑白名单。最后提供了审核策略自动切换的功能,很多客户需要在特殊敏感时期切换线上策略,比如审核更加严格等等这些,我们通过一个账号上面配置多条策略,不同策略我们可以看一下生效状态,还有生效时间,优先级,是现在特殊时期切换特殊策略,过了以后切换回平时审核的功能。
我们回顾一下,百度的审核能力主打是全面、灵活、精准、全面。百度提供了超过14项图像审核能力,以及我们也提供了EasyDL定制图像审核能力的平台,我们提供了8项图像审核能力,语音提供了超过9项能力,语音也是可以通过EasyDL进行新的筛选审核模型做一些分类,在这些能力之上,我们提供了快捷易用的接入方式,以及灵活方便的审核规则配置,所有的审核维度,审核标签,审核松紧度都可以实现。
其实基于刚才的审核能力,客户对成本的控制是没有上限的,他们希望通过其他的方式进一步提升审核效率,降低审核成本。第一个是需要一套功能更加完备的审核管理系统,提升审核管理效率,第二是提高审核人员的人效,所以我们提供了百度人机协同审核管理平台,我们通过合理的流程,易用的操作界面,进一步提升审核效率,同时我们直接提供了这样的平台,省去开发人机协同审核平台的成本或者审核后台的成本。
首先我们这个平台对用户来说是登录即可使用,也是类似于SaaS服务,用户如果自己开发这样的平台可能需要六个月的时间,我们提供这样的平台就直接省去了用户六个月的时间。同时在一些特殊时期或者在一些放假的高峰期,很多用户的审核量会飙升,势必审核平台的部署的机器要做动态的扩容,要让更多的机器过来,同时需要更多的审核员完成审核操作,如果用户使用自己创建的平台,这些资源相对来说不可弹性扩容。使用百度的这套服务,不管是云端的机器还是人力资源都是可以实现动态的扩容。第二我们这个人机审核平台有一各高校的流程,我们通过一审二审三审的流程,同时设置了高危组和普通组,降低审核员的压力,提升审核效率,同时保证审核结果。第三块是易用的操作界面和完备管理功能,审核界面的过程都是流式的界面,一次可以拉多个任务,用户对这些审核完成以后统一提交,效率高很多。针对短视频,我们会对短视频进行取样的切片展示,让冗长的短视频以关键帧的方式展现在这边,让用户一目了然看到这个短视频讲什么内容。
我们以短视频为例看一下人机协同审核流程怎么做的,首先一个短视频进来以后,用户需要创建一个审核规则,调用短视频接口。首先过AI机审,比如针对短视频,我们把短视频拆为视频、画面内容和音频内容,画面内容会有音频审核,通过EasyDL训练模型对它进行审核,音频也是拆成语音内容和图片内容,之后就会人审和人机审核,我们通过三层人审,保证准确率,确保最终输出的结果至少有两个环节结果是一致的。我们整套方案提供了公有云和私有化部署的方式,用户可以直接使用公有云PaaS服务,也可以把整训练能力都部署到内网,保证我们数据的安全性。
我们也希望拥有人审团队业务方可以直接使用人机协同审核平台,不用做这样的开发工作,进一步提升审核效率。如果没有人审团队,我们百度会对您推荐一些服务商,他们会把审核员部署到人机审核平台上,我们最终一起经过人机确认的高精度的工作。同时我们非常期待更多拥有人力资源的服务商来加入到我们的人机审核平台这边,成为我们的供应商之一,我们提供AI审核,技术支持指导,人机审核管理平台,提供销售、推广、渠道,帮助你们完成业务的转型和业务的增长。
总结一下,主要是两块内容,第一是百度内容审核平台,通过界面化的方式提供了全面、灵活、精准的审核服务,让审核服务更加贴合您的需求。在这个全面里,百度不光预制了百度官方的模型,我们也提供了EasyDL这个自训练平台,用户如果有一些业务的诉求,我们现在还没有考虑到,现在通过EasyDL训练对应的图像识别、物体检测,声音分类的模型来满足。第二是人机协同审核管理平台,利用高效的人机协同审核流程,进一步提升审核效率,省去开发成本。大家如果对百度内容审核感兴趣,可以搜索这个网址,也可以微信扫码AI小程序,体验我们的审核能力,也可以加入我们的内容审核的QQ群进行提问。
最后,感谢大家的聆听,欢迎大家去体验我们的模型和平台,或者上EasyDL定制我们的内容安全审核方案,定制相应的图像、语音、文本的模型。谢谢大家。
【Q&A】
Q:想了解一下您这边能不能介绍一下算法的原理?
A:算法的原理,简单说我们拿图像分类举例,首先我们EasyDL是基于PaddlePaddle深度学习模型,比如刚才我们上传欧美性感分类模型,比如我们把欧美色情,欧美性感,欧美正常打包到不同的文件夹,就是完成了标注的过程,我们再把这三个文件夹打包成一个文件,上传到EasyDL平台,这时候就是告诉EasyDL平台,我们要对这三个分类区分,我们要训练出一个模型,要对这三种标签进行识别,模型训练的是分类的标签,然后来满足大家的需求。如果大家对怎么实现分类的过程感兴趣,一个是可以上EasyDL平台看一下文献资料,也可以在网上可以找一下深度学习怎么实现图像分类,有一个更加深入的了解。
Q:如果图片大小不一样会自动处理吗?
A:图片大小不一样,我们这边也会自动处理,我们更关注的是图片里的内容,是否是属于同一分类,图片的大小,只要这些图片都在图像边界里,我们这边都会做处理,或者图片大小对识别的结果影响不是非常大,只要是在规定的范围内。
Q:有同学问什么时候可以自动标注,自动标注完可以手动标注吗,这是智能标注吧。
A:对,就是EasyDL前面一个环节EasyData,EasyDL也包含了这个标注的功能,刚才我们讲的分类,这个标注的成本低一些,如果训练一个物体检测模型,我们是需要在标注的环节把要识别的物体框起来,EasyDL和EasyData里都提供交互式的标注功能,能让用户非常方便把我们要检测的东西框选出来,实现标注的功能。
Q:您分享的代码可以不可以下载?
A:我想问一下,想要代码是哪一块,这个代码是这样的,第一是比如调用的码,调用之前申请健全的(英文)等代码,我们都已经放到百度AI市场,在文档里都有示例代码或者SDK,这些SDK都是开源的,代码也是大家可以看到的,大家可以在官网的文档里找到相应的代码。
Q:已经标注好的数据上传是原图和Json一起吗,有格式要求吗?
A:已经标注好的数据,其实分不同情况,像图像分类,不需要上传Json,只需要把不同的分类放到不同的文件夹里,这个操作就是标注,模型会自动根据你放不同文件夹的内容进行训练分类模型。比如刚才讲到物体检测等,可以用平台上交互式标注,来进行物体框选标注,上传的时候并不需要上传Json。
Q:可以对数据分类吗?
A:我理解是不是要问的图像分类,要训练图像分类模型,直接去使用EasyDL里的图像分类实现就可以了。
Q:目标检测完成想要记数,应该在哪里记数呢?
A:记数是物体检测的功能,举个例子,之前EasyDL举办过一些活动,比如说拍照识别一个碗里有多少绿豆,识别图片中有多少螺丝,其实这是一个物体检测,多目标物体检测的功能,这在物体检测功能里。
Q:视频流自动拆分为图片和声音吗?
A:视频我们提供了两种服务类型,第一种是客户如果直接想把视频流传给我们,我们可以用VCR直接可以实现(英文)效果,我们在百度的服务后端会把视频和音频拆出来,画面过图像审核,语音过音频审核。第二我们也支持用户自己对视频流进行截帧,再把音频拆成一小段一小段的音频内容,这两种都可以,这两种的区别,第二种对于用户来说成本更加友好一些。因为我们也知道,像直播主播就坐在那里,也没有发出声音,如果这段音频客户能劫走这是无声视频,不传过来进行审核,成本会降低一些。如果客户不想做这么复杂的事情,也可以直接把视频流推过来,我们会帮助客户从视频、音频维度做多方面的审核。
Q:对视频流,是不是可以使用EasyData进行抽帧的工作?
A:是的,可以。
Q: EasyDL算法部署是在服务器端吗?
A:EasyDL的算法部署的地方很多,刚才在训练的模型有看到,第一个你可以部署在云端。第二种,你训练的模型想放在手机上使用,你想离线,在安卓、IOS或者APP里使用,也可以训练出模型,导出到IOS端或者安卓端使用或者上传一个部署包,到时候基于Docker安装方式部署到本地,这些都是可以的。
Q:不考虑网络带宽,直播审核时延大概多少?
A:一般大概是秒级别的,比如说像图像,直播流的审核,画面的审核就是我们会对它进行切帧进行审核。每一帧基本上会在大概五六百毫秒左右返回,具体说审核的时延,我们在审核的时候也会跟客户沟通切帧的策略,比如审核严格一些还是松一些,严格就是抽帧更密一些,松一些会少一些,价格也会便宜一些,针对单张图片或者单帧都是几百毫秒的时延,语音基本上也基本上是这样的时延。
Q:可以对数值类型的数据进行分类吗?
A:我理解这个不是属于图像分类或者深度学习的范畴了,数值类型的数据,同学可以举一些具体场景的例子,什么叫数值型数据。
Q:如何将水表字的识别,现在哪里可以买出?
A:这个问题提的问题是对仪器仪表的识别,还是在百度AI市场上,我们刚上线了一款新的识别能力,叫仪器仪表识别,就是针对的场景,像水表、电表,仪器仪表的读数进行识别,前提是我们识别这些都是所见即所得的那种,路径我跟大家说一下在百度市场里,在开放能力,文字识别,其他文字识别里有一个仪器仪表,像血压计的数字可以识别,但是如果有一些水表需要读的,需要通过计算方式才能得出具体数字,这个目前还不行。
在百度AI市场,开放能力,文字识别,有一个仪器仪表识别,点击以后就是这个页面,专门针对这个场景进行识别的,像血糖仪、血压仪、燃气表、电表都可以进行识别。
Q:如果对仪器仪表识别可以在开发能力里找一下这个功能。还有同学问API和SDK调用的速度上差别有多大?
A:SDK是离线还是云端,如果是离线SDK和云端API调用,这两种是没有区别的,只不过是SDK是方便用户更简便调用而已,如果都是云端没有区别。是不是想生成离线的SDK相比,这个没有非常统一的结论,离线SDK一定比云端快或者云端一块比离线SDK快,看你模型的复杂度、标签数等等,相对来说比较复杂的模型,你部署在云端,因为GPU算力比较强,云端快一些。如果是简单的模型,像是猫,是狗的,可能性能上的差异体现不出来,更多的时延是在网络带宽上,这种案例离线的SDK速度更快一些。
Q:自定义的行为识别可以定制训练了吗?
A:也是可以定制训练的,像吐痰,这行为本身是有一些行为特征的,我们可以通过这些行为特征训练相应的模型。还有抽烟、吸毒,这些都是可以通过同样的方式训练的。
Q:视频是基于关键帧还是逐帧判断?
A:关键帧是这样的,我们百度有一个关键帧的技术,当然也提供平均抽帧的方式,平均抽帧说白了就是咱定义每5秒抽一帧,关键帧我给大家看一下,比如在内容审核平台里,找到短视频审核,我们可以自定义多少秒到多少秒的视频,多少秒抽一帧,都可以自定义抽帧的规则。除此以外,我们还提供了一个关键帧的SDK,它会对每一帧抽取,对比前后两帧画面内容的变化,如果画面内容变化比较大,我们会认为后面那一帧是关键帧,比如教学视频,老师停留在一页PPT,停留10分钟,我们发现这10分钟里前后两帧画面变化内容不大,我们就不会进行抽帧,如果变化比较大我们就会抽帧审核,我们百度提供这样关键帧抽取的SDK。
Q:多个模型训练的结果可以合并为一个API吗?
A:这个暂时还不行,但是我们图像审核这边,百度官方预制的模型里已经做了这样的事情,如果你想同时过色情、暴恐、政治敏感等信息,你只要通过一个接口调用,我们在后端并发提供这些服务,如果利用了EasyDL的模型,我们同时也会过EasyDL的模型,如果有这样的需求,可以通过审核的接口调用,这样可以走多个并发。
Q:画面变化是怎么度量的?
A:没有每个画面里的三原色的构成比例是否合理,这个是非常容易判断前后两帧是否相似度比较大的判断维度,比如说前面这个图片帧,红色占了多少像素,绿色占了多少像素,如果前后两帧占比没有太大差别,从这个维度上我们认为是一样的,当然也会结合其他图像判断维度,看这两帧是不是属于相同帧。
Q:云端API计算资源可以购买吗?
A:用户不用太担心,我们EasyDL是按次数收费的,比如用一次收一次钱或者技术包,如果调用的量比较大,训练的审核模型,需要更高的QPS,需要更大的调用量,这个都可以联系我们做相应的部署,把这个模型部署到更大的集群上。
Q:应该怎么样联系到呢?
A:这就是刚才留的联系方式里,大家如果需要联系可以和小助手联系,不管是EasyDL还是图像审核的PM都可以进行沟通。
Q:抽烟等行为是通过图片还是视频呢?
A:不管怎么样,归根到底是基于图片帧做的,当然如果我们审的是视频还会加上前后帧的联系,像抽烟我们现在更多的图片审核里,更多的是基于物体检测做的,比如看有没有烟,如果审视频里有没有抽烟的行为,除了刚才我们说的基于图片帧检测有没有烟,同时也会基于前后帧的联系,看这个是不是有抽烟的行为。包括像打人,斗殴等都是一样的,你光从图片帧去看不能判断他去打人,但是联系前后帧的变化才知道他在打人。
【下周课程预告】
今天的直播课就到这里,感谢Nathan老师,也感谢大家的参与,如果没有添加小助手,可以添加助手的微信,也可以关注我们的直播间,以及每次的课程回放,今天的直播就到这里。
很详细
小编辛苦