添加asr校验有效人声

2026-01-04 18:51:30 +08:00 · 2026-01-04 18:51:30 +08:00 · aee1d6b797
commit aee1d6b797
parent cd4855f567
6 changed files with 8711 additions and 4 deletions
--- a/app/src/main/assets/itn_zh_number.fst
+++ b/app/src/main/assets/itn_zh_number.fst
--- a/app/src/main/assets/sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/README.md
+++ b/app/src/main/assets/sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/README.md
@ -0,0 +1,4 @@
+# Introduction
+
+Model in this directory is converted from
+https://huggingface.co/ASLP-lab/WSYue-ASR/tree/main/u2pp_conformer_yue
--- a/app/src/main/assets/sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/model.int8.onnx
+++ b/app/src/main/assets/sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/model.int8.onnx
--- a/app/src/main/assets/sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/tokens.txt
+++ b/app/src/main/assets/sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/tokens.txt
--- a/app/src/main/java/com/zs/smarthuman/sherpa/VoiceController.kt
+++ b/app/src/main/java/com/zs/smarthuman/sherpa/VoiceController.kt
@ -2,12 +2,17 @@ package com.zs.smarthuman.sherpa

 import android.content.res.AssetManager
 import android.util.Log
+import com.k2fsa.sherpa.onnx.OfflineModelConfig
+import com.k2fsa.sherpa.onnx.OfflineRecognizer
+import com.k2fsa.sherpa.onnx.OfflineRecognizerConfig
+import com.k2fsa.sherpa.onnx.OfflineWenetCtcModelConfig
+import com.k2fsa.sherpa.onnx.getFeatureConfig
 import java.util.ArrayDeque

 class VoiceController(
    assetManager: AssetManager,
    private val onWakeup: () -> Unit,
-    private val onFinalAudio: (FloatArray) -> Unit,
+    private val onFinalAudio: (FloatArray, String) -> Unit, // 修改：传回识别结果文本
    private val idleTimeoutSeconds: Int = 10,
    private val maxRecordingSeconds: Int = 10,
    private val onStateChanged: ((VoiceState) -> Unit)? = null,
@ -53,6 +58,57 @@ class VoiceController(
        onSpeechEnd = { avgEnergy, peakRms -> onVadEnd(avgEnergy, peakRms) }
    )

+
+    // 初始化非流式 ASR
+    private var offlineRecognizer: OfflineRecognizer? = null
+
+    init {
+        offlineRecognizer = initOfflineRecognizer(assetManager)
+    }
+
+    private fun initOfflineRecognizer(assetManager: AssetManager): OfflineRecognizer {
+        // Wenetspeech 模型配置
+        val wenetConfig = OfflineWenetCtcModelConfig(
+            model = "sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/model.int8.onnx"
+        )
+
+        val modelConfig = OfflineModelConfig(
+            wenetCtc = wenetConfig,
+            tokens = "sherpa-onnx-wenetspeech-yue-u2pp-conformer-ctc-zh-en-cantonese-int8-2025-09-10/tokens.txt",
+            numThreads = 4,
+            debug = true
+        )
+
+        val featConfig = getFeatureConfig(sampleRate = sampleRate, featureDim = 80)
+
+        return OfflineRecognizer(
+            assetManager = assetManager,
+            config = OfflineRecognizerConfig(
+                featConfig = featConfig,
+                modelConfig = modelConfig
+            )
+        )
+    }
+
+    // runSecondPass 里直接用 offlineRecognizer
+    private fun runSecondPass(samples: FloatArray): String {
+        return try {
+            offlineRecognizer?.let {
+                val stream = it.createStream()
+                stream.acceptWaveform(samples, sampleRate)
+                it.decode(stream)
+                val result = it.getResult(stream)
+                stream.release()
+                result.text
+            }?:""
+
+        } catch (e: Exception) {
+            Log.e(TAG, "Error during ASR processing: ${e.message}")
+            ""
+        }
+    }
+
+
    /* ================= 音频入口 ================= */
    fun acceptAudio(samples: FloatArray) {
        cachePreBuffer(samples)
@ -167,6 +223,23 @@ class VoiceController(
            return
        }

+        // 检查音频数据是否有效
+        if (audio.isEmpty()) {
+            Log.d(TAG, "❌ Audio is empty")
+            resetToWaitSpeech()
+            return
+        }
+
+        val asrText = runSecondPass(audio)
+            if (asrText.isEmpty()) {
+                resetToWaitSpeech()
+                Log.d(TAG, "识别不出来asr")
+                return
+            } else {
+                Log.d(TAG, "识别出来:${asrText}")
+            }
+
+
        // 评分逻辑
        var score = 0
        when {
@ -194,7 +267,7 @@ class VoiceController(

        audioBuffer.clear()
        state = VoiceState.UPLOADING
-        onFinalAudio(audio)
+        onFinalAudio(audio, asrText)  // 传递音频和识别文本
    }

    /* ================= 播放回调 ================= */
@ -242,6 +315,7 @@ class VoiceController(
    fun release() {
        wakeupManager.release()
        vadManager.reset()
+        offlineRecognizer?.release()
    }

    /* ================= Utils ================= */
--- a/app/src/main/java/com/zs/smarthuman/ui/MainActivity.kt
+++ b/app/src/main/java/com/zs/smarthuman/ui/MainActivity.kt
@ -196,8 +196,8 @@ class MainActivity : BaseViewModelActivity<ActivityMainBinding, MainViewModel>()
                        }
                    )
            },
-            onFinalAudio = { audio ->
-                Log.d("lrs", "检测到语音，长度=${audio.size}")
+            onFinalAudio = { audio, asrText ->
+                Log.d("lrsxx", "检测到语音，长度=${audio.size},文本:${asrText}")
                mViewModel?.uploadVoice(
                    AudioPcmUtil.pcm16ToBase64(AudioPcmUtil.floatToPcm16(audio)),
                    1