6th November, 2025
India has always been a land of languages. From one town to another, dialects, accents, and linguistic blends transform effortlessly — often merging Hindi and English in a uniquely expressive rhythm. Capturing this natural flow of multilingual conversation is not just a technical challenge; it’s a cultural mission.
Traditional Automatic Speech Recognition (ASR) systems have long focused on what is spoken — the literal words. But communication in India carries far more — how something is said often holds the true meaning. Tone, pace, emotion, and intent all weave together to form the heartbeat of a conversation.
Dhrith, our next-generation ASR model, listens beyond words. It understands emotion, rhythm, and code-switched language — giving transcription not only linguistic precision but emotional depth. Dhrith transforms ordinary speech recognition into an emotionally aware experience, enabling applications that feel human, responsive, and deeply connected to India’s multilingual reality.
By combining linguistic understanding with affective cues, Dhrith enriches conversations with context — bridging the emotional gap between humans and machines. This opens vast possibilities: from emotionally aware conversational AI and empathetic call analytics to the foundation of the next generation of Indic Text-to-Speech (TTS) systems.
| Model | Transcript |
|---|---|
| Soket Dhrith | Finally verification successful हुआ, success rate 98.7% था। शायद server overload हो गया था। [resigned tone] |
| Sarvam Sarika 2.5 | फाइनली वेरिफिकेशन सक्सेसफुल हुआ, सक्सेस रेट 98.7% था। शायद सर्वर ओवरलोड हो गया था। |
| Deepgram Nova 2 | finally verification successful हुआ success rate ninety eight point seven percent था शायद server overload हो गया था |
| Model | Transcript |
|---|---|
| Soket Dhrith | भाई, तेरे को पता है तो मैं बात कर रहा था ना कि मेरे को गाड़ी खरीदना है तो मैं शोरूम पे गया था तो गाड़ी का price करीब 2 करोड़ पड़ रहा था। अब जो deal था वो बोल रहा है तुमको अभी ₹50 लाख pay करना है and बाकी जो amount रहेगा तुमको महीने का ₹70000 पड़ेगा and तुम देख सकते हो ऐसे बोल रहा था। तो मैंने सोचा कि अच्छा deal है तो ले ले लेता हूं। [calm] |
| Sarvam Sarika 2.5 | भाई, तेरे को पता है तेरे से मैं बात कर रहा था ना कि मेरे को गाड़ी खरीदना है तो मैं शोरूम पे गया था। तो गाड़ी का प्राइस करीब दो करोड़ पड़ रहा था। अब जो डीलर था वो बोल रहा है तुमको अभी 50 lakhs rupees pay करना है एंड बाकी जो अमाउंट रहेगा तुमको महीने का 70000 रुपया पड़ेगा एंड तुम देख सकते हो ऐसे बोल रहा था तो मैंने सोचा कि अच्छा डील है तो ले लेता हूं। |
| Deepgram Nova 2 | भाई तेरे को पता है तेरे से बात कर रहा था ना की मेरे को गाड़ी खरीदना है तो मैं form पर गया था तो गाड़ी का price करीब दो करोड़ पद रहा था अब जो डीलर था वो बोल रहा है तुमको अभी fifty लाख पे करना है एंड बाकी जो amount रहेगा तुमको महीने का ₹seventy thousand पड़ेगा एंड तुम देख सकते हो ऐसे बोल रहा था तो मैंने अच्छा deal है तो ले ले |
| OpenAI GPT-4o-Mini Transcribe | भाई तुझे पता है, मैंने गाड़ी खरीदनी है तो मैं शोरूम पे गया था, तो गाड़ी का प्राइस करीब दो करोड़ पर रहा था, अब जो डीलर था वो बोल रहा है तुम्हें अभी 50,00,000 रुपये पे करना है, और बाकी जो अमौंड रहेगा तुम्हें माइने का 70,000 रुपये पड़ेगा, और तुम देख सकते हो ऐसे बोल रहा था, तो मैंने सोचा कि अच्छा डील है तो ले लेता हूं. |
| Model | Transcript |
|---|---|
| Soket Dhrith | PAN card number AFXPK7190K upload करते वक्त file size में issue आ गया था। [matter-of-fact] शायद compression ratio घट गया होगा। [hesitates] 1.58:1 पे आ गया था। [matter-of-fact] |
| Sarvam Sarika 2.5 | पैन कार्ड नंबर ए एफ एक्स पी के 7190 के अपलोड करते वक्त फाइल साइज में इशू आ गया था। शायद कंप्रेशन रेशियो घट गया होगा। 1.58:1 पे आ गया था। |
| Deepgram Nova 2 | पान card number afxpk seven thousand one hundred ninety के upload करते वक्त file size में issue ए गया था शायद compression ratio घट गया होगा one point five eight is to one पर आ गया था |
| OpenAI GPT-4o-Mini Transcribe | पैन कार्ड नंबर AFXPK7190K अपलोड करते वक्त फाइल साइज में इश्यू आ गया था. शायद कंप्रेशन रेशियो घट गया होगा, 1.58:1 पे आ गया था. |
| Model | Transcript |
|---|---|
| Soket Dhrith | हम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते। [matter-of-fact] जहां खड़े हो जाते हैं, लाइन वहीं से शुरू होती है। [deliberate] |
| Sarvam Sarika 2.5 | हम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते। जहां खड़े हो जाते हैं, लाइन वहीं से शुरू होती |
| Deepgram Nova 2 | हम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते जहा खड़े हो जाते हैं line वहीं से शुरू होती है |
| OpenAI GPT-4o-Mini Transcribe | हम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते। जहाँ खड़े हो जाते हैं, लाइन वहीं से शुरू होती है। |
| Model | Transcript |
|---|---|
| Soket Dhrith | ओह हो! [excited] Spell की शुरुआत wicket के साथ। Wonder boy Rachin Ravindra के wicket के साथ। Kuldeep Yadav! [shouting] ये फल मुबारक! खुल गई किस्मत! खुल जा सिम सिम! [excited] और ये बड़ा wicket चाहिए था भारत को। एक set batsman जो 200 बना चुका है tournament में। उसका जब wicket लिया, डंडे बिखेर दिए, furniture disturb कर दिया। [dramatic] देखिए team एकदम से इकट्ठी हो गई और Kuldeep! [shouting] वो जादूगर जादूगर जादूगर जाएगा किसी को समझ नहीं आएगा। [shouting] गेंद googly थी, अंदर आई, pad पे लगी, दिशा बदली और फिर डंडे पे लगी। [dramatic] और देखिए इसे कहते हैं अलग जगाना। [emphasized] इसे कहते हैं गुरु team में विश्वास जगाना है। [dramatic] इसे कहते हैं प्रज्जवलित मशाल जिसे देख के सब कहें हम जीत सकते हैं भाई। [shouting] मैं हूं ना कहां Kuldeep ने। [shouting] |
| Sarvam Sarika 2.5 | ओ हो हो! स्पेल की शुरुआत विकेट के साथ वंडर बॉय रचिन रविंद्र के विकेट के साथ कुलदीप यादव ये फल मुबारक नहीं किस्मत, खुल जा सिम सिम और ये बड़ा विकेट चाहिए था भारत को। एक सेट बैट्समैन जो 200 बना चुका है इस टूर्नामेंट में, उसका जब विकेट लिया, डंडे बिखेर दिए, फर्नीचर डिस्टर्ब कर दिया, देखिए टीम एकदम से इकट्ठी हो गई है और कुलदीप वो जादूगर जादूगर जादू कर जाएगा किसी को समझ नहीं आएगा। गेंद गूगली थी ये अंदर आई पैड पे लगी दिशा बदली और फिर डंडे पे लगी और देखिए इसे कहते हैं अलख जगाना। इसे कहते हैं गुरु टीम में विश्वास जगाना है। इसे कहते हैं प्रज्वलित मशाल जिसे देख के सब कहें हम जीत सकते हैं भाई। मैं हूं ना कहा कुलदीप ने। |
| Deepgram Nova 2 | ओ हो हो spell की शुरुआत wicket के साथ wonder boy रचिन रविंद्र के wicket के साथ कुलदीप यादव यह फ़ल मुबारक खुल गई किस्मत खुल जा सिम सिम और यह बड़ा wicket चाहिए था भारत को एक set batsman जो दो सौ बना चुका है इस tournament में उसका जब wicket लिया डंडे बिखेर दिए furniture disturb कर दिया देखिए team एकदम से इकट्ठी हो गई है और कुलदीप वह जादूगर जादूगर जादूगर कर जाएगा किसी को समझ नहीं आएगा गेंद कूकली थी अंदर आई pack पर लगी दिशा बदली और फिर डंडे पर लगी और देखिए इसे कहते हैं अलग जगाना इसे कहते हैं गुरु team में विश्वास जगाना है इसे कहते हैं प्रज्वलित मशाल जिसे देखकर सब कहें हम जीत सकते हैं भई मैं हूं ना कहा कुलदीप ने |
| OpenAI GPT-4o-Mini Transcribe | ओहोहो! स्पेल की शुरुआत विकेट के साथ, वंडर बॉय रचिन रविंद्र के विकेट के साथ, खुल दी पियादव, ये फल मुबारक, खुल गई किसमत, खुल जा सिमसिम, और ये बड़ा विकेट चाहिए था भारत को, एक सेट बैट्समैन जो 200 बना चुका है इस टॉर्नमेंट में, उसका जब विकेट लिया, डंडे बिखेर दिये, फर्नीचर डिस्टर्ब कर दिया, देखिए टीम एकटम से इकठी हो गई, और कुलदीप, वो जादूगर, जादूगर, जादूगर जाएगा, किसी को समझ नहीं आएगा, गेंद गूगली थी, अंदर आई, पैट पे लगी, दिशा बदली, और फिर डंडे पे लगी, और देखिए इसे कहते हैं अलग जगाना, इसे कहते हैं गुरू टीम में विश्वास जगाना, इसे कहते हैं प्रज्जवलित मशाल, जिसे देखके सब कहें हम जीत सकते हैं भाई, मैं हूँ ना कहा कुलदीप ने, |
| Model | Transcript |
|---|---|
| Soket Dhrith | और इस बार तो छक्के के लिए तैयार है। [excited] ये गेंद गई है एक बार फिर दर्शक दीर्घा में। [dramatic] |
| Sarvam Sarika 2.5 | और इस बार तो छक्के के लिए तैयार है। ये गेंद गई है एक बार फिर दर्शक दीर्घा में। |
| Deepgram Nova 2 | और इस बार तो छक्के के लिए तैयार है यह गेंद गई है एक बार फिर दर्शक दीर्घा में |
| OpenAI GPT-4o-Mini Transcribe | और इस बार तो छक्के के लिए तैयार है। |
| Model | Transcript |
|---|---|
| Soket Dhrith | गब्बर के ताप से तुम्हें एक ही आदमी बचा सकता है [dramatic] एक ही आदमी [emphasized] खुद गब्बर [dramatic tone]. |
| Sarvam Sarika 2.5 | गब्बर के ताप से तुम्हें एक ही आदमी बचा सकता है, एक ही आदमी! खुद गब्बर! |
| Deepgram Nova 2 | गब्बर के ताप से तुम्हें एक कोई आदमी बचा सकता है एक कोई आदमी खुद गब्बर |
To assess Dhrith’s performance, we developed a benchmark specifically tailored for India’s multilingual, code-mixed speech patterns, reflecting real-world data across Hindi, English, and Hinglish blends. The benchmark includes diverse speech styles — spontaneous dialogue, emotional tone shifts, regional accents, and natural background noise — making it a rigorous testbed for emotion-aware ASR systems.
We evaluated nine leading ASR models on this benchmark, including open and commercial systems such as Gemini 2.5 Flash, Deepgram Nova 2, GPT-4o Mini Transcribe, Sarvam Sarika 2.5, Google Gemma-3n, ElevenLabs Scribe v1, and AI4Bharat Indic Whisper.
All models were tested on identical audio samples with consistent normalization and transcription post-processing. Metrics were computed using our in-house evaluation suite, designed to handle multilingual and emotion-tagged outputs.
| Model | WER (%) | CER (%) | NWER (%) | NCER (%) | SER (%) | DIS (%) | ET (%) | CM (%) |
|---|---|---|---|---|---|---|---|---|
| Gemini 2.5 Flash | 8.57 | 5.69 | 8.01 | 5.39 | 2.35 | 15.10 | 99.63 | 94.31 |
| Soket Dhrith | 11.19 | 7.54 | 10.70 | 7.31 | 8.73 | 14.78 | 61.34 | 90.44 |
| Deepgram Nova 2 | 15.74 | 9.03 | 15.03 | 8.66 | 0.57 | 14.39 | 0.00 | 80.31 |
| GPT-4o Mini Transcribe | 42.34 | 36.97 | 41.65 | 36.58 | 9.28 | 12.47 | 0.00 | 62.36 |
| Sarvam Sarika 2.5 | 56.84 | 49.61 | 58.67 | 51.76 | 8.71 | 10.44 | 0.00 | 37.13 |
| Google Gemma-3n-E4B | 58.05 | 55.15 | 58.21 | 55.16 | 19.15 | 14.52 | 95.69 | 66.01 |
| Google Gemma-3n-E2B | 59.47 | 56.83 | 59.82 | 57.31 | 19.87 | 14.38 | 83.44 | 66.59 |
| Elevenlabs Sribe v1 | 71.27 | 63.14 | 72.69 | 64.56 | 9.61 | 9.83 | 0.00 | 46.53 |
| Vaani Whisper Large | 75.23 | 65.53 | 76.84 | 67.40 | 6.16 | 10.09 | 0.00 | 47.19 |
| AI4Bharat Indic Whisper | 80.86 | 68.79 | 82.03 | 69.86 | 8.00 | 8.97 | 0.00 | 39.09 |
Unlike conventional ASR evaluations that focus only on literal accuracy, this benchmark captures the multidimensional nature of Indian speech. It measures both linguistic and expressive performance through the following metrics:
Note: Expression tags were removed before post-processing to compute WER/CER with and without noise.
All experiments were conducted on our Hindi–English code-mixed evaluation dataset, built from diverse real-world audio. We will soon release this benchmark on HuggingFace, along with evaluation scripts and reference annotations, to encourage transparent and reproducible comparisons across future ASR systems.
Our ongoing research is focused on:
And soon, we’ll open public APIs and developer access, allowing partners, startups, and enterprises to integrate Dhrith into their products and workflows.