6th November, 2025

Dhrith: Emotionally Intelligent ASR for India’s Multilingual Voices

India has always been a land of languages. From one town to another, dialects, accents, and linguistic blends transform effortlessly — often merging Hindi and English in a uniquely expressive rhythm. Capturing this natural flow of multilingual conversation is not just a technical challenge; it’s a cultural mission.

Traditional Automatic Speech Recognition (ASR) systems have long focused on what is spoken — the literal words. But communication in India carries far more — how something is said often holds the true meaning. Tone, pace, emotion, and intent all weave together to form the heartbeat of a conversation.

Dhrith, our next-generation ASR model, listens beyond words. It understands emotion, rhythm, and code-switched language — giving transcription not only linguistic precision but emotional depth. Dhrith transforms ordinary speech recognition into an emotionally aware experience, enabling applications that feel human, responsive, and deeply connected to India’s multilingual reality.

By combining linguistic understanding with affective cues, Dhrith enriches conversations with context — bridging the emotional gap between humans and machines. This opens vast possibilities: from emotionally aware conversational AI and empathetic call analytics to the foundation of the next generation of Indic Text-to-Speech (TTS) systems.

Samples

ModelTranscript
Soket DhrithFinally verification successful हुआ, success rate 98.7% था। शायद server overload हो गया था। [resigned tone]
Sarvam Sarika 2.5फाइनली वेरिफिकेशन सक्सेसफुल हुआ, सक्सेस रेट 98.7% था। शायद सर्वर ओवरलोड हो गया था।
Deepgram Nova 2finally verification successful हुआ success rate ninety eight point seven percent था शायद server overload हो गया था

ModelTranscript
Soket Dhrithभाई, तेरे को पता है तो मैं बात कर रहा था ना कि मेरे को गाड़ी खरीदना है तो मैं शोरूम पे गया था तो गाड़ी का price करीब 2 करोड़ पड़ रहा था। अब जो deal था वो बोल रहा है तुमको अभी ₹50 लाख pay करना है and बाकी जो amount रहेगा तुमको महीने का ₹70000 पड़ेगा and तुम देख सकते हो ऐसे बोल रहा था। तो मैंने सोचा कि अच्छा deal है तो ले ले लेता हूं। [calm]
Sarvam Sarika 2.5भाई, तेरे को पता है तेरे से मैं बात कर रहा था ना कि मेरे को गाड़ी खरीदना है तो मैं शोरूम पे गया था। तो गाड़ी का प्राइस करीब दो करोड़ पड़ रहा था। अब जो डीलर था वो बोल रहा है तुमको अभी 50 lakhs rupees pay करना है एंड बाकी जो अमाउंट रहेगा तुमको महीने का 70000 रुपया पड़ेगा एंड तुम देख सकते हो ऐसे बोल रहा था तो मैंने सोचा कि अच्छा डील है तो ले लेता हूं।
Deepgram Nova 2भाई तेरे को पता है तेरे से बात कर रहा था ना की मेरे को गाड़ी खरीदना है तो मैं form पर गया था तो गाड़ी का price करीब दो करोड़ पद रहा था अब जो डीलर था वो बोल रहा है तुमको अभी fifty लाख पे करना है एंड बाकी जो amount रहेगा तुमको महीने का ₹seventy thousand पड़ेगा एंड तुम देख सकते हो ऐसे बोल रहा था तो मैंने अच्छा deal है तो ले ले
OpenAI GPT-4o-Mini Transcribeभाई तुझे पता है, मैंने गाड़ी खरीदनी है तो मैं शोरूम पे गया था, तो गाड़ी का प्राइस करीब दो करोड़ पर रहा था, अब जो डीलर था वो बोल रहा है तुम्हें अभी 50,00,000 रुपये पे करना है, और बाकी जो अमौंड रहेगा तुम्हें माइने का 70,000 रुपये पड़ेगा, और तुम देख सकते हो ऐसे बोल रहा था, तो मैंने सोचा कि अच्छा डील है तो ले लेता हूं.

ModelTranscript
Soket DhrithPAN card number AFXPK7190K upload करते वक्त file size में issue आ गया था। [matter-of-fact] शायद compression ratio घट गया होगा। [hesitates] 1.58:1 पे आ गया था। [matter-of-fact]
Sarvam Sarika 2.5पैन कार्ड नंबर ए एफ एक्स पी के 7190 के अपलोड करते वक्त फाइल साइज में इशू आ गया था। शायद कंप्रेशन रेशियो घट गया होगा। 1.58:1 पे आ गया था।
Deepgram Nova 2पान card number afxpk seven thousand one hundred ninety के upload करते वक्त file size में issue ए गया था शायद compression ratio घट गया होगा one point five eight is to one पर आ गया था
OpenAI GPT-4o-Mini Transcribeपैन कार्ड नंबर AFXPK7190K अपलोड करते वक्त फाइल साइज में इश्यू आ गया था. शायद कंप्रेशन रेशियो घट गया होगा, 1.58:1 पे आ गया था.

ModelTranscript
Soket Dhrithहम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते। [matter-of-fact] जहां खड़े हो जाते हैं, लाइन वहीं से शुरू होती है। [deliberate]
Sarvam Sarika 2.5हम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते। जहां खड़े हो जाते हैं, लाइन वहीं से शुरू होती
Deepgram Nova 2हम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते जहा खड़े हो जाते हैं line वहीं से शुरू होती है
OpenAI GPT-4o-Mini Transcribeहम भी वो हैं जो कभी किसी के पीछे नहीं खड़े होते। जहाँ खड़े हो जाते हैं, लाइन वहीं से शुरू होती है।

ModelTranscript
Soket Dhrithओह हो! [excited] Spell की शुरुआत wicket के साथ। Wonder boy Rachin Ravindra के wicket के साथ। Kuldeep Yadav! [shouting] ये फल मुबारक! खुल गई किस्मत! खुल जा सिम सिम! [excited] और ये बड़ा wicket चाहिए था भारत को। एक set batsman जो 200 बना चुका है tournament में। उसका जब wicket लिया, डंडे बिखेर दिए, furniture disturb कर दिया। [dramatic] देखिए team एकदम से इकट्ठी हो गई और Kuldeep! [shouting] वो जादूगर जादूगर जादूगर जाएगा किसी को समझ नहीं आएगा। [shouting] गेंद googly थी, अंदर आई, pad पे लगी, दिशा बदली और फिर डंडे पे लगी। [dramatic] और देखिए इसे कहते हैं अलग जगाना। [emphasized] इसे कहते हैं गुरु team में विश्वास जगाना है। [dramatic] इसे कहते हैं प्रज्जवलित मशाल जिसे देख के सब कहें हम जीत सकते हैं भाई। [shouting] मैं हूं ना कहां Kuldeep ने। [shouting]
Sarvam Sarika 2.5ओ हो हो! स्पेल की शुरुआत विकेट के साथ वंडर बॉय रचिन रविंद्र के विकेट के साथ कुलदीप यादव ये फल मुबारक नहीं किस्मत, खुल जा सिम सिम और ये बड़ा विकेट चाहिए था भारत को। एक सेट बैट्समैन जो 200 बना चुका है इस टूर्नामेंट में, उसका जब विकेट लिया, डंडे बिखेर दिए, फर्नीचर डिस्टर्ब कर दिया, देखिए टीम एकदम से इकट्ठी हो गई है और कुलदीप वो जादूगर जादूगर जादू कर जाएगा किसी को समझ नहीं आएगा। गेंद गूगली थी ये अंदर आई पैड पे लगी दिशा बदली और फिर डंडे पे लगी और देखिए इसे कहते हैं अलख जगाना। इसे कहते हैं गुरु टीम में विश्वास जगाना है। इसे कहते हैं प्रज्वलित मशाल जिसे देख के सब कहें हम जीत सकते हैं भाई। मैं हूं ना कहा कुलदीप ने।
Deepgram Nova 2ओ हो हो spell की शुरुआत wicket के साथ wonder boy रचिन रविंद्र के wicket के साथ कुलदीप यादव यह फ़ल मुबारक खुल गई किस्मत खुल जा सिम सिम और यह बड़ा wicket चाहिए था भारत को एक set batsman जो दो सौ बना चुका है इस tournament में उसका जब wicket लिया डंडे बिखेर दिए furniture disturb कर दिया देखिए team एकदम से इकट्ठी हो गई है और कुलदीप वह जादूगर जादूगर जादूगर कर जाएगा किसी को समझ नहीं आएगा गेंद कूकली थी अंदर आई pack पर लगी दिशा बदली और फिर डंडे पर लगी और देखिए इसे कहते हैं अलग जगाना इसे कहते हैं गुरु team में विश्वास जगाना है इसे कहते हैं प्रज्वलित मशाल जिसे देखकर सब कहें हम जीत सकते हैं भई मैं हूं ना कहा कुलदीप ने
OpenAI GPT-4o-Mini Transcribeओहोहो! स्पेल की शुरुआत विकेट के साथ, वंडर बॉय रचिन रविंद्र के विकेट के साथ, खुल दी पियादव, ये फल मुबारक, खुल गई किसमत, खुल जा सिमसिम, और ये बड़ा विकेट चाहिए था भारत को, एक सेट बैट्समैन जो 200 बना चुका है इस टॉर्नमेंट में, उसका जब विकेट लिया, डंडे बिखेर दिये, फर्नीचर डिस्टर्ब कर दिया, देखिए टीम एकटम से इकठी हो गई, और कुलदीप, वो जादूगर, जादूगर, जादूगर जाएगा, किसी को समझ नहीं आएगा, गेंद गूगली थी, अंदर आई, पैट पे लगी, दिशा बदली, और फिर डंडे पे लगी, और देखिए इसे कहते हैं अलग जगाना, इसे कहते हैं गुरू टीम में विश्वास जगाना, इसे कहते हैं प्रज्जवलित मशाल, जिसे देखके सब कहें हम जीत सकते हैं भाई, मैं हूँ ना कहा कुलदीप ने,

ModelTranscript
Soket Dhrithऔर इस बार तो छक्के के लिए तैयार है। [excited] ये गेंद गई है एक बार फिर दर्शक दीर्घा में। [dramatic]
Sarvam Sarika 2.5और इस बार तो छक्के के लिए तैयार है। ये गेंद गई है एक बार फिर दर्शक दीर्घा में।
Deepgram Nova 2और इस बार तो छक्के के लिए तैयार है यह गेंद गई है एक बार फिर दर्शक दीर्घा में
OpenAI GPT-4o-Mini Transcribeऔर इस बार तो छक्के के लिए तैयार है।

ModelTranscript
Soket Dhrithगब्बर के ताप से तुम्हें एक ही आदमी बचा सकता है [dramatic] एक ही आदमी [emphasized] खुद गब्बर [dramatic tone].
Sarvam Sarika 2.5गब्बर के ताप से तुम्हें एक ही आदमी बचा सकता है, एक ही आदमी! खुद गब्बर!
Deepgram Nova 2गब्बर के ताप से तुम्हें एक कोई आदमी बचा सकता है एक कोई आदमी खुद गब्बर

Evaluation and Benchmarking

To assess Dhrith’s performance, we developed a benchmark specifically tailored for India’s multilingual, code-mixed speech patterns, reflecting real-world data across Hindi, English, and Hinglish blends. The benchmark includes diverse speech styles — spontaneous dialogue, emotional tone shifts, regional accents, and natural background noise — making it a rigorous testbed for emotion-aware ASR systems.

We evaluated nine leading ASR models on this benchmark, including open and commercial systems such as Gemini 2.5 Flash, Deepgram Nova 2, GPT-4o Mini Transcribe, Sarvam Sarika 2.5, Google Gemma-3n, ElevenLabs Scribe v1, and AI4Bharat Indic Whisper.

All models were tested on identical audio samples with consistent normalization and transcription post-processing. Metrics were computed using our in-house evaluation suite, designed to handle multilingual and emotion-tagged outputs.

ModelWER (%)CER (%)NWER (%)NCER (%)SER (%)DIS (%)ET (%)CM (%)
Gemini 2.5 Flash8.575.698.015.392.3515.1099.6394.31
Soket Dhrith11.197.5410.707.318.7314.7861.3490.44
Deepgram Nova 215.749.0315.038.660.5714.390.0080.31
GPT-4o Mini Transcribe42.3436.9741.6536.589.2812.470.0062.36
Sarvam Sarika 2.556.8449.6158.6751.768.7110.440.0037.13
Google Gemma-3n-E4B58.0555.1558.2155.1619.1514.5295.6966.01
Google Gemma-3n-E2B59.4756.8359.8257.3119.8714.3883.4466.59
Elevenlabs Sribe v171.2763.1472.6964.569.619.830.0046.53
Vaani Whisper Large75.2365.5376.8467.406.1610.090.0047.19
AI4Bharat Indic Whisper80.8668.7982.0369.868.008.970.0039.09

Benchmark Design

Unlike conventional ASR evaluations that focus only on literal accuracy, this benchmark captures the multidimensional nature of Indian speech. It measures both linguistic and expressive performance through the following metrics:

  • WER (Word Error Rate): Standard measure of substitution, insertion, and deletion errors at the word level.
  • CER (Character Error Rate): Fine-grained equivalent of WER at character level, capturing minor linguistic mismatches.
  • NWER / NCER (No-Noise WER/CER): Recomputed after filtering conversational fillers such as “uh-huh,” “haan,” “achha,” “वैसे,” etc. This reflects model accuracy on semantically meaningful content rather than natural speech hesitations.
  • SER (Semantic WER): A novel metric that calculates error rate of semantic similarity between ground-truth and predicted transcripts using LaBSE sentence embeddings, rewarding semantically equivalent but lexically different outputs.
  • DIS (Disfluency Density): Average frequency of verbal fillers (e.g., “oh,” “acha,” “तो फिर,” “हां हां”) per transcript, indicating the model’s ability to detect and preserve human-like speech patterns.
  • ET (Expression Tagging Density): Measures how often the model identifies expressive or paralinguistic tags like [laughing], [shouting], or [pause] — essential for emotionally aware systems.
  • CM (Code-Mix Density): Evaluates how well the generated transcript mirrors the language-mixing pattern in the ground truth, ensuring linguistic fidelity in bilingual utterances.
Note: Expression tags were removed before post-processing to compute WER/CER with and without noise.

Key Insights

  • Competitive Accuracy: Dhrith achieves second-best WER and CER across the entire benchmark, surpassing all models except Gemini 2.5 Flash (which benefits from thinking-tokens).
  • Multilingual Robustness: Despite being trained primarily for Hindi-English, Dhrith maintains high NWER and NCER performance, indicating strong resilience to filler noise and dialectal variation.
  • Emotion and Expression Awareness: With an Expression Tagging (ET) density of 61.34%, Dhrith is the only open Indian ASR model capable of consistently annotating emotional context — far outperforming all others except Gemini
  • Code-Mix Fidelity: Dhrith records a Code-Mix Density of 90.44%, demonstrating exceptional sensitivity to India’s bilingual conversational flow — a crucial feature for real-world deployment in call centers, virtual assistants, and entertainment domains.
  • Balanced Performance: While some systems trade linguistic precision for expressivity or vice versa, Dhrith achieves a strong balance between transcription accuracy, emotional depth, and naturalness, setting a new benchmark for Indian multilingual ASR.

All experiments were conducted on our Hindi–English code-mixed evaluation dataset, built from diverse real-world audio. We will soon release this benchmark on HuggingFace, along with evaluation scripts and reference annotations, to encourage transparent and reproducible comparisons across future ASR systems.

What Makes Dhrith Different

  1. Emotionally Aware Transcriptions: Dhrith doesn’t just transcribe speech — it interprets feeling. Each transcription captures the expressive cues behind the voice: emotion, tone, pitch, pace, and confidence. This creates transcripts that feel alive, providing richer insights for analysis, AI understanding, and customer interactions.
  2. Multilingual and Code-Switched Understanding: Dhrith is built for India’s real speech patterns — where languages mix freely. Whether it’s Hindi-English code-switching or dialectal variation across states, Dhrith understands and adapts to how people actually speak.
  3. Emotion + Intention = Understanding: Dhrith’s unique ability to detect emotional tone adds a new layer of meaning. It enables AI systems not only to recognize intent but to interpret how the speaker feels — empowering emotionally intelligent analytics, call summarization, and responsive voice interfaces.

Real-World Impact

  1. Customer Experience: Brands can analyze not just what customers say, but how they say it — enabling emotion-based satisfaction scoring and more empathetic engagement.
  2. Conversational AI: Virtual assistants become more natural and emotionally responsive, leading to smoother, more human-like interactions.
  3. Media and Education: Accurate, time-aligned multilingual transcriptions enhance accessibility and understanding across languages and audiences.
  4. Healthcare and Mental Wellness: Emotion-rich transcripts can support therapy and patient understanding, helping detect behavioral trends — while upholding privacy and trust.
  5. Research & Insights: Organizations can derive deeper meaning from human communication, unlocking the emotional layer of speech data.

The Road Ahead

Our ongoing research is focused on:

  1. Expanding Dhrith’s emotional intelligence, with a richer understanding of tone, sentiment, and prosody
  2. Adding more Indian languages, including Tamil, Telugu, Bengali, Marathi, and Malayalam, each with native code-mixing support
  3. Advancing real-time emotional ASR for interactive conversational platforms

And soon, we’ll open public APIs and developer access, allowing partners, startups, and enterprises to integrate Dhrith into their products and workflows.