【百度语音识别】JavaAPI方式语音识别示例
756665228 发布于2017-12-06 10:57 浏览:5122 回复:29
7
收藏
最后编辑于2018-03-07

【百度语音识别】JavaAPI方式语音识别示例MP3转PCM

  • Java-API合成语音示例:http://ai.baidu.com/forum/topic/show/496727
  • REST-API文档地址:http://ai.baidu.com/docs#/TTS-API/top
  • 注意:需要下载MP3插件jar。才可以进行MP3CONVERTPCM  链接: https://pan.baidu.com/s/1nwmC4Xz 密码: fzqd
  • 遇到的坑:HTTPUtil工具类中。不需要拼接access_token参数。大家注意一下。ContentType也改一下。

----------------------------------------------------开始代码示例----------------------------------------------------

  • 写一个MP3转PCM的方法 需要下载注意的jar才可以正确转换哦

第一步就是语音合成的MP3文件转换PCM格式文件

package com.xs.audio.tns;

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;

import javax.sound.sampled.AudioFormat;
import javax.sound.sampled.AudioInputStream;
import javax.sound.sampled.AudioSystem;
/**
 * MP3转PCM Java方式实现
 * @author 小帅丶
 * @date 2017年12月6日
 */
public class MP3ConvertPCM {
	/**
	 * MP3转换PCM文件方法
	 * @param mp3filepath 原始文件路径
	 * @param pcmfilepath 转换文件的保存路径
	 * @throws Exception 
	 */
	public static void mp3Convertpcm(String mp3filepath,String pcmfilepath) throws Exception{
		File mp3 = new File(mp3filepath);
		File pcm = new File(pcmfilepath);
		//原MP3文件转AudioInputStream
		AudioInputStream mp3audioStream = AudioSystem.getAudioInputStream(mp3);
		//将AudioInputStream MP3文件 转换为PCM AudioInputStream
		AudioInputStream pcmaudioStream = AudioSystem.getAudioInputStream(AudioFormat.Encoding.PCM_SIGNED, mp3audioStream);
		//准备转换的流输出到OutputStream
		OutputStream os = new FileOutputStream(pcm);
		int bytesRead = 0;
		byte[] buffer = new byte[8192];
		while ((bytesRead=pcmaudioStream.read(buffer, 0, 8192))!=-1) {
			os.write(buffer, 0, bytesRead);
		}
		os.close();
		pcmaudioStream.close();
	}
}
  • HttpUtil工具类新增加一个postASR的方法
  /**
     * 获取语音识别内容
     * @param requestUrl
     * @param params
     * @return
     * @throws Exception
     */
    public static String postASR(String requestUrl, String params) throws Exception {
    	System.out.println(params);
    	String generalUrl = requestUrl;//这里不需要对接口地址拼接access_token参数 切记!!!
        System.out.println("发送的连接为:"+generalUrl);
        URL url = new URL(generalUrl);
        // 打开和URL之间的连接
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
    	System.out.println("打开链接,开始发送请求"+new Date().getTime()/1000);
        connection.setRequestMethod("POST");
        // 设置通用的请求属性
        connection.setRequestProperty("Content-Type", "application/json");
        connection.setRequestProperty("Connection", "Keep-Alive");
        connection.setUseCaches(false);
        connection.setDoOutput(true);
        connection.setDoInput(true);
        // 得到请求的输出流对象
        DataOutputStream out = new DataOutputStream(connection.getOutputStream());
        out.writeBytes(params);
        out.flush();
        out.close();
        // 建立实际的连接
        connection.connect();
        // 获取所有响应头字段
        Map<String, List<String>> headers = connection.getHeaderFields();
        // 遍历所有的响应头字段
        for (String key : headers.keySet()) {
            System.out.println(key + "--->" + headers.get(key));
        }
        // 定义 BufferedReader输入流来读取URL的响应
        BufferedReader in = null;
        if (requestUrl.contains("nlp"))
            in = new BufferedReader(new InputStreamReader(connection.getInputStream(), "GBK"));
        else
            in = new BufferedReader(new InputStreamReader(connection.getInputStream(), "UTF-8"));
        String result = "";
        String getLine;
        while ((getLine = in.readLine()) != null) {
            result += getLine;
        }
        in.close();
        System.out.println("请求结束"+new Date().getTime()/1000);
        System.out.println("result:" + result);
        return result;
    }
  • 下面就是语音识别的示例代码哦
package com.xs.audio.tns;

import java.io.File;
import java.util.HashMap;

import com.xs.util.baidu.Base64Util;
import com.xs.util.baidu.FileUtil;
import com.xs.util.baidu.HttpUtil;
import com.xs.util.baidu.RandomStringGenerator;
/**
 * 语音识别Java-API JSON上传方式示例代码
 * @author 小帅丶
 *
 */
public class Audio2Text {
	//接口地址
	private static final String AUDIO2TEXT_URL = "http://vop.baidu.com/server_api";
	public static void main(String[] args) throws Exception {
		//合成的MP3语音文件
		String path = "C:/Users/Administrator/text2audio/VOICE1512521962.mp3";
		//MP3转pcm要保存的路径和文件名
		String path2 = "C:/Users/Administrator/text2audio/VOICE1512521962.pcm";
		MP3ConvertPCM.mp3Convertpcm(path, path2);
		// 对语音二进制数据进行识别   
	    byte[] data = FileUtil.readFileByBytes(path2);    //readFileByBytes仅为获取二进制数据示例
	    String speech = Base64Util.encode(data);
	    File file = new File(path2);
	    long len = file.length();
	    String result = Audio2text("pcm", 16000,RandomStringGenerator.getRandomStringByLength(60),"自己获取的AccessToken", speech, len);
	    System.out.println(result);
	}
	/**
	 * JSON方式上传
	 * @param format	必填	语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件
	 * @param rate	必填	采样率, 8000 或者 16000, 推荐 16000 采用率
	 * @param channel	必填	声道数,仅支持单声道,请填写固定值 1
	 * @param cuid	必填	用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
	 * @param token	必填	开放平台获取到的access_token, 见上面的“鉴权认证机制”段落
	 * @param lan	选填	语种选择,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写
	 * @param url	选填	可下载的语音下载地址,与callback连一起使用,确保百度服务器可以访问。
	 * @param callback	选填	用户服务器的识别结果回调地址,确保百度服务器可以访问
	 * @param speech	选填	本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。
	 * @param len	选填	本地语音文件的的字节数,单位字节
	*/
	public static String Audio2text(String format,Integer rate,String cuid,String token,String speech,long len) throws Exception{
		HashMap<String, Object> paramMap = new HashMap<String, Object>();
		paramMap.put("speech",speech);
		paramMap.put("format", format);
		paramMap.put("rate", rate);
		paramMap.put("channel",1);
		paramMap.put("cuid",cuid);
		paramMap.put("token", token);
		paramMap.put("len", len);
		net.sf.json.JSONObject params = net.sf.json.JSONObject.fromObject(paramMap);
		String data = HttpUtil.postASR(AUDIO2TEXT_URL,params.toString());
		System.out.println("语音文件识别的内容:"+data);
		return data;
	}
}

看看返回的内容

{
    "corpus_no": "6496262443167631439", 
    "err_msg": "success.", 
    "err_no": 0, 
    "result": [
        "开发者小帅你好,"
    ], 
    "sn": "74778487111512528965"
}

以上就是语音识别Java-API调用示例代码哦。难点是MP3转PCM会卡壳开发者们。

合成返回的只有mp3这一点不是很友好。百度语音部门应该优化一下哦

收藏
点赞
7
个赞
共29条回复 最后由lcsedHE回复于2018-03-07 10:16
#30lcsedHE回复于2018-03-07

厉害了我的哥

0
#28756665228回复于2018-02-04
#27 黑天集团小人物回复
RandomStringGenerator

自己写的个生成随机字符串的方法而已

0
#27黑天集团小人物回复于2018-02-04

RandomStringGenerator

0
#26黑天集团小人物回复于2018-02-04
#25 756665228回复
建议自己也多找找技术网站。就能自己解决了。

楼主 是什么啊  都没有这个类

0
#25756665228回复于2017-12-18
#24 我是车仔回复
万分感谢楼主,好人一生平安!

建议自己也多找找技术网站。就能自己解决了。

1
#24我是车仔回复于2017-12-18

万分感谢楼主,好人一生平安!

0
#23756665228回复于2017-12-18
#20 我是车仔回复
哎,我就是找不到你要求的jar,才找别的替换的.....
  • 参考别的开发者的代码:
package com.xs.audio.tns;

import java.io.File;

import javax.sound.sampled.AudioFileFormat;
import javax.sound.sampled.AudioFormat;
import javax.sound.sampled.AudioInputStream;
import javax.sound.sampled.AudioSystem;
import javax.sound.sampled.DataLine;
import javax.sound.sampled.SourceDataLine;

import javazoom.spi.mpeg.sampled.file.MpegAudioFileReader;
/**
 * MP3转PCM方法
 * @author 小帅丶
 *
 */
public class MP3ConvertPCMBySPI {
    public static void main(String[] args) {
        String path = "C:/Users/Administrator/text2audio/VOICE1513237078";
        String mp3filepath = path + ".mp3";
        String pcmfilepath = path + ".pcm";
        try {
        	MP3ConvertPCMBySPI.convertMP32PCM(mp3filepath, pcmfilepath);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
	 /**
     * MP3转换PCM文件方法
     * @param mp3filepath  原始文件路径
     * @param pcmfilepath  转换文件的保存路径
     * @throws Exception
     */
    public static void convertMP32PCM(String mp3filepath, String pcmfilepath) throws Exception {
    	//转换PCM audioInputStream 数据
        AudioInputStream audioInputStream = getPcmAudioInputStream(mp3filepath);
        //写入PCM预给定的文件
        AudioSystem.write(audioInputStream, AudioFileFormat.Type.WAVE, new File(pcmfilepath));
    }
    /**
     * 获取PCM AudioInputStream 数据
     * @param mp3filepath
     * @return AudioInputStream
     */
    private static AudioInputStream getPcmAudioInputStream(String mp3filepath) {
        File mp3File = new File(mp3filepath);
        AudioInputStream audioInputStream = null;
        AudioFormat targetFormat = null;
        try {
            AudioInputStream in = null;
            MpegAudioFileReader mp = new MpegAudioFileReader();
            in = mp.getAudioInputStream(mp3File);
            AudioFormat baseFormat = in.getFormat();
            targetFormat = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED, baseFormat.getSampleRate(), 16,
                    baseFormat.getChannels(), baseFormat.getChannels() * 2, baseFormat.getSampleRate(), false);
            audioInputStream = AudioSystem.getAudioInputStream(targetFormat, in);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return audioInputStream;
    }
    /**
     * 播放MP3方法
     * @param mp3filepath
     * @throws Exception
     */
    public static void playMP3(String mp3filepath) throws Exception {
        File mp3 = new File(mp3filepath);
        // 播放
        int k = 0, length = 8192;
        AudioInputStream audioInputStream = getPcmAudioInputStream(mp3filepath);
        if (audioInputStream == null)
            System.out.println("null audiostream");
        AudioFormat targetFormat;
        targetFormat = audioInputStream.getFormat();
        byte[] data = new byte[length];
        DataLine.Info dinfo = new DataLine.Info(SourceDataLine.class, targetFormat);
        SourceDataLine line = null;
        try {

            line = (SourceDataLine) AudioSystem.getLine(dinfo);
            line.open(targetFormat);
            line.start();

            int bytesRead = 0;
            byte[] buffer = new byte[length];
            while ((bytesRead = audioInputStream.read(buffer, 0, length)) != -1) {
                line.write(buffer, 0, bytesRead);
            }
            audioInputStream.close();

            line.stop();
            line.close();

        } catch (Exception ex) {
            ex.printStackTrace();
            System.out.println("audio problem " + ex);

        }
    }
}

 

  • 所用到的jar是mp3spi. 可以直接用pom配置进行下载
<!-- https://mvnrepository.com/artifact/com.googlecode.soundlibs/mp3spi -->
<dependency>
    <groupId>com.googlecode.soundlibs</groupId>
    <artifactId>mp3spi</artifactId>
    <version>1.9.5.4</version>
</dependency>
0
#22756665228回复于2017-12-18
#20 我是车仔回复
哎,我就是找不到你要求的jar,才找别的替换的.....

http://ai.baidu.com/forum/topic/show/496972 你看看别人基于我的自己研究用的别的jar是不是支持maven下载

1
#21756665228回复于2017-12-18
#20 我是车仔回复
哎,我就是找不到你要求的jar,才找别的替换的.....

哎我也是醉了。帖子顶部有云盘下载地址。

我都说了maven库没有这个jar 官网应该算是舍弃了吧

有替换的jar。但是我还没进行测试。所以只能手动引入那个jar。希望你明白吧。

1
#20我是车仔回复于2017-12-18

哎,我就是找不到你要求的jar,才找别的替换的.....

0
#19756665228回复于2017-12-18
#18 我是车仔回复
楼主您好,我报这个错:java.lang.IllegalArgumentException: Unsupported conversion: PCM_SIGNED from MPEG1L3 48000.0 Hz, unknown bits per sample, mono, unknown frame size, 41.666668 frames/second,  我是maven的项目,之前看网上的一些回答,添加这些依赖还是报错。 <dependency> <groupId>com.googlecode.soundlibs</groupId> <artifactId>mp3spi</artifactId> <version>1.9.5.4</version> </dependency> <dependency> <groupId>com.googlecode.soundlibs</groupId> <artifactId>jlayer</artifactId> <version>1.0.1-1</version> <exclusions> <exclusion> <groupId>junit</groupId> <artifactId>junit</artifactId> </exclusion> </exclusions> </dependency>
展开

请按照我要求的jar来测试行吗?

那个jar不更新了。没有maven库。

替换别的用我的代码不一定行。那你需要自己测试。

我空闲了也会找个有maven库的测试一下。

最开始只是先测试接口。就找了那个jar。

1
#18我是车仔回复于2017-12-18

楼主您好,我报这个错:java.lang.IllegalArgumentException: Unsupported conversion: PCM_SIGNED from MPEG1L3 48000.0 Hz, unknown bits per sample, mono, unknown frame size, 41.666668 frames/second, 

我是maven的项目,之前看网上的一些回答,添加这些依赖还是报错。

<dependency>
<groupId>com.googlecode.soundlibs</groupId>
<artifactId>mp3spi</artifactId>
<version>1.9.5.4</version>
</dependency>
<dependency>
<groupId>com.googlecode.soundlibs</groupId>
<artifactId>jlayer</artifactId>
<version>1.0.1-1</version>
<exclusions>
<exclusion>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
</exclusion>
</exclusions>
</dependency>

0
#17756665228回复于2017-12-18
#16 杰克曼666回复
楼主你好, 有一个疑问: 没有看到你在哪里用到了MP3的jar包啊?

那个是插件。针对MP3解码的。不是非得调用到的才能叫用到。反正你不引入就会出错的。

1
#16杰克曼666回复于2017-12-18

楼主你好, 有一个疑问: 没有看到你在哪里用到了MP3的jar包啊?

0
#15756665228回复于2017-12-15
#12 我是车仔回复
maven项目怎么打mp3plugin.jar呢?

maven确实没有。那个已经不更新了。你可以看看jar里面有配置文件吗?如果有可以自己手动安装到本地仓库。有谷歌的jar 还没怎么测试过

1
#14我是车仔回复于2017-12-15

搜索不到啊亲

0
#13荒墨丶迷失回复于2017-12-15
#12 我是车仔回复
maven项目怎么打mp3plugin.jar呢?

maven 库里面 你能搜索到mp3plugin.jar吗

0
#12我是车仔回复于2017-12-15

maven项目怎么打mp3plugin.jar呢?

0
#11756665228回复于2017-12-15
#10 我是车仔回复
FileUtil和HttpUtil是下载的吗?

是的。百度官方提供了那几个工具类。

整理的工具类下载地址:http://aixiaoshuai.mydoc.io/?t=234826

1
#10我是车仔回复于2017-12-15

FileUtil和HttpUtil是下载的吗?

0
TOP
切换版块