本示例展示了如何对一个音视频文件进行语音识别。示例首先提取音视频文件中的音轨、转码为16kHz 16bit MONO PCM格式,并保存为一个临时文件,然后调用阿里云百炼语音识别大模型实时语音识别API,实现语音转文字的过程。
应用场景 | 典型用法 | 使用说明 |
---|---|---|
入门场景 | 音视频文件语音识别 | 对音视频文件进行语音识别 |
推荐模型 | API详情 |
---|---|
paraformer-realtime-v2 paraformer-realtime-v1 paraformer-realtime-8k-v1 |
Paraformer实时语音识别API详情 |
完整的识别结果会以json格式保存在result.json
文件中。完整结果包含句级别和字级别的时间戳信息等。语音识别的纯文本会同时在控制台打印:
The brief result is:
横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。