alibabacloud-bailian-speech-demo/samples/speech-recognition/recognize_speech_from_single_file at master · kevinlin09/alibabacloud-bailian-speech-demo

README.md

本示例展示了如何对一个音视频文件进行语音识别。示例首先提取音视频文件中的音轨、转码为16kHz 16bit MONO PCM格式，并保存为一个临时文件，然后调用阿里云百炼语音识别大模型实时语音识别API，实现语音转文字的过程。

应用场景	典型用法	使用说明
入门场景	音视频文件语音识别	对音视频文件进行语音识别

推荐模型	API详情
paraformer-realtime-v2 paraformer-realtime-v1 paraformer-realtime-8k-v1	Paraformer实时语音识别API详情

完整的识别结果会以json格式保存在result.json文件中。完整结果包含句级别和字级别的时间戳信息等。语音识别的纯文本会同时在控制台打印：

The brief result is:
横看成岭侧成峰，远近高低各不同。不识庐山真面目，只缘身在此山中。