Torbjørn Karl Svendsen

About

For a complete CV, please use the link above ("CV")

Torbjørn Svendsen (1955) is an emeritus Professor at the Department of Electronic Systems. Professor Svendsen holds a MScEE, and a PhD both from the NTNU. He is an ISCA Fellow and IEEE Life Senior Member.

Fields of interest and present research activities

My research interests have from the outset in 1979 been speech signal processing. The first period was focused on source coding, i.e. speech compression, which was also the subject of my doctoral thesis. From the mid 80’s the research interests have been mainly on automatic speech recognition, but also areas like spoken dialogue systems and speech synthesis have been included in my research. Speech analysis methods and lexical modelling, e.g. pronunciation modelling have been two central areas. Realizing that current approaches to speech recognition seem to be nearing a saturation point in terms of performance, a major recent activity has been to investigate new paradigms for speech recognition, aiming to integrate phonetic and linguistic knowledge in a statistical framework based on detection of (language universal) phonetic features. Lately, the challenges of reliable recognition of children's speech and transcription of conversational, accented and dialectal speech have been central in my research.

Work experience

NTNU (1979-1981 Research assistant, 1983-1984 doctoral fellowship, 1988-1995 Associate professor, 1995-present Professor), Director NTNU Digital (2015-2021)
SINTEF (1981-1987, Research scientist)
Research visits at AT&T Bell Labs, Murray Hill, NJ (1986-1987, 1990); Griffith University, Brisbane, Australia (1996-97); AT&T Labs, Florham Park, NJ (2000); Queensland University of Technology, Brisbane, Australia (2002-03); Computer Science and Artificial Intelligence Lab, Massachusetts Institute of Technology, Cambridge, MA (2013); Delft University of Technology (2022); Kore University of Enna, Italy (2023)

Professional merits

Peer review and professional evaluation work:

Reviewer for international journals like IEEE Transactions (Communications; Signal Processing; Audio, Speech and Language Processing; Multimedia); EURASIP Journal on Applied Signal Processing, Signal, Image and Video Processing; and Speech Communication, and various conferences and workshops on speech and signal processing.
Member of Speech Communication journal Editorial Board
Reviewer for EU's Language Engineering program and the Information Society Research Programme of the Academy of Finland. Project reviews for the Norwegian, Australian, Swiss, Dutch, Belgian and South African Research Councils
Opponent/member of examination boards for 26 doctoral theses

Membership in academic and professional committees

Various appointments at the national level, e.g. in the Research Council of Norway, incl. grant committee member for the IKTPLUSS program, program board chair for the VERDIKT program, and in the Norwegian Language Council.
Member of advisory board, Norwegian Language Bank (“Språkbanken”)
Member of Technical committees, Eurospeech2001 and Interspeech2012, and organizing committee of Eurospeech2001.
Life Senior Member, IEEE
Member, Signal Processing Society Speech Technical Committee (1998-2001)
Elected member, Norwegian Academy of Technological Sciences
ISCA Fellow
Board of International Speech Communication Association (ISCA) (Member 2015-2017, Vice President 2017-2021, Board Secretary 2021-2023)

Other professional merits

Project manager, "Atomic Units for Language Universal Speech" (current), "Spoken dialog systems for telephony"; "Speech interfaces and reasoning systems"; "Norwegian corpus for language technology"; “Voice centric user interfaces for location based services”; “Tools for realistic speech synthesis in”; “Spoken Information Retrieval by Knowledge Utilization in Statistical Speech Processing”; “Rundkast – A transcribed broadcast news for applications in language technology”(past projects).
Vice chair, COST action 278; WG chair COST actions 232 and 249; Advisory Scientific Board member, EU project ACORNS; Board member, Nordic Graduate School of Language Technology (former actions and activities)
Previous NTNU appointments: Department Head, Department of Telecommunications; Vice Dean, Faculty of Electrical Engineering and Telecommunications; member of several NTNU committees
19 PhD students graduated (3 as co-supervisor). Currently supervising 5 PhD students.
~100 Master degree students graduated
>100 papers in international journals and conferences

Research

Publications

2026

Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn; Salvi, Giampiero. (2026) Segmentation-Free Goodness of Pronunciation. IEEE Transactions on Audio, Speech and Language Processing
Academic article
Parsons, Phoebe; Salvi, Giampiero; Svendsen, Torbjørn; Kvale, Knut. (2026) On Dialects and Speech Technology. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis

2025

Parsons, Phoebe Luree Turner; Bremnes, Heming Strømholt; Kvale, Knut; Svendsen, Torbjørn; Salvi, Giampiero. (2025) Effects of Prosodic Information on Dialect Classification Using Whisper Features.
Academic chapter
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn. (2025) Improving Phone Recognition through Informed Initialization and Path-Aligned CTC Loss.
Academic chapter
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn; Salvi, Giampiero. (2025) Child speech assessment through large language model speech synthesis: Preliminary results.
Academic chapter
Dymbe, Simen; Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Salvi, Giampiero. (2025) Using Cross-Attention for Conversational ASR over the Telephone.
Academic chapter
Rugayan, Janine Lizbeth Cabrera; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2025) Optimizing ASR Models with Semantic Information.
Academic chapter
Parsons, Phoebe Luree Turner; Solberg, Per Erik; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2025) Adding Metadata to Existing Parliamentary Speech Corpus.
Academic chapter
Parsons, Phoebe Luree Turner; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2025) Match ‘em: Multi-Tiered Alignment for Error Analysis in ASR.
Academic chapter

2024

Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A Framework for Phoneme-Level Pronunciation Assessment Using CTC. Interspeech
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2024) Towards Better Recognition of Spontaneous Children's Speech: Speaker-Clustering Fine-Tuning of Whisper. Machine Learning for Signal Processing
Academic article
Quatra, Moreno La; Turco, Maria Francesca; Svendsen, Torbjørn Karl; Salvi, Giampiero; Orozco-Arroyave, Juan Rafael; Siniscalchi, Sabato Marco. (2024) Exploiting Foundation Models and Speech Enhancement for Parkinson’s Disease Detection from Speech in Real-World Operative Conditions. Interspeech
Academic article
Kynych, Frantisek; Cerva, Petr; Zdansky, Jindrich; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A lightweight approach to real-time speaker diarization: from audio toward audio-visual data streams. EURASIP Journal on Audio, Speech, and Music Processing
Academic article
Olstad, Anne Marte Haug; Smolander, Anna; Strömbergsson, Sofia; Ylinen, Sari; Lehtonen, Minna; Kurimo, Mikko; Getman, Yaroslav; Grósz, Tamás; Cao, Xinwei; Svendsen, Torbjørn Karl. (2024) Collecting Linguistic Resources for Assessing Children’s Pronunciation of Nordic Languages. Proceedings of LREC
Academic article

2023

Solberg, Per Erik; Ortiz Cabello, Pablo; Parsons, Phoebe; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) Improving Generalization of Norwegian ASR with Limited Linguistic Resources.
Academic chapter
Parsons, Phoebe; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) A character-based analysis of impacts of dialects on end-to-end Norwegian ASR.
Academic chapter
Getman, Yaroslav; Phan, Nhan; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Singh, Mittul; Grosz, Tamas; Kurimo, Mikko; Salvi, Giampiero; Svendsen, Torbjørn Karl; Strombergsson, Sofia. (2023) Developing an AI-Assisted Low-Resource Spoken Language Learning App for Children. IEEE Access
Academic article
Rugayan, Janine Lizbeth Cabrera; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation. Interspeech (USB)
Academic article
Gelderblom, Femke Berre; Tronstad, Tron Vedul; Svendsen, Torbjørn Karl; Myrvoll, Tor Andre. (2023) On the Predictive Power of Objective Intelligibility Metrics for the Subjective Performance of Deep Complex Convolutional Recurrent Speech Enhancement Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Using Modified Adult Speech as Data Augmentation for Child Speech Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) An Analysis of Goodness of Pronunciation for Child Speech. Interspeech
Academic article
Gelderblom, Femke Berre; Myrvoll, Tor Andre; Svendsen, Torbjørn Karl. (2023) Evaluating Performance Metrics for Deep Neural Network-based Speech Enhancement Systems. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis

2022

Kvale, Knut; Gulla, Jon Atle; Adde, Line; Solberg, Per Erik; Svendsen, Torbjørn Karl; Moshagen, Sjur Nørstebø; Wettre, Jonas Engestøl. (2022) Taleteknologi og kunstig intelligens. Teknologirådet
Research report
Rugayan, Janine Lizbeth Cabrera; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2022) Semantically Meaningful Metrics for Norwegian ASR Systems. Interspeech (USB)
Academic article
Getman, Yaroslav; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Grósz, Tamás; Kurimo, Mikko; Salvi, Giampiero; Svendsen, Torbjørn Karl; Strömbergsson, Sofia. (2022) wav2vec2-based Speech Rating System for Children with Speech Sound Disorder. Interspeech (USB)
Academic article

2021

Sabzi Shahrebabaki, Abdolreza; Salvi, Giampiero; Svendsen, Torbjørn Karl; Siniscalchi, Sabato Marco. (2021) Acoustic-to-Articulatory Mapping With Joint Optimization of Deep Speech Enhancement and Articulatory Inversion Models. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) Raw Speech-to-Articulatory Inversion by Temporal Filtering and Decimation. Interspeech
Academic article
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Johnsen, Magne Hallstein; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) A Two-Stage Deep Modeling Approach to Articulatory Inversion.
Academic chapter
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2021) A DNN Based Speech Enhancement Approach to Noise Robust Acoustic-to-Articulatory Inversion.
Academic chapter

2020

Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn. (2020) Transfer learning of articulatory information through phone information. Interspeech (USB)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2020) Sequence-to-sequence articulatory inversion through time convolution of sub-band frequency signals. Interspeech (USB)
Academic article

2019

Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Marco, Siniscalchi Sabato; Svendsen, Torbjørn Karl. (2019) A Phonetic-Level Analysis of Different Input Features for Articulatory Inversion. Interspeech (USB)
Academic article
Imran, Ali Shariq; Haflan, Vetle; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) Evaluating Acoustic Feature Maps in 2D-CNN for Speaker Identification.
Academic chapter
Imran, Ali Shariq; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Study on the Performance Evaluation of Machine Learning Models for Phoneme Classification.
Academic chapter
Imran, Ali Shariq; Kastrati, Zenun; Svendsen, Torbjørn Karl; Kurti, Arianit. (2019) Text-Independent Speaker ID for Automatic Video Lecture Classification Using Deep Learning.
Academic chapter
Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Comparative Study of Deep Learning Techniques on Frame-Level Speech Data Classification. Circuits, systems, and signal processing
Academic article

2018

Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2018) Acoustic Feature Comparison for Different Speaking Rates.
Academic chapter

2015

Næss, Arild Brandrud; Svendsen, Torbjørn Karl; Livescu, Karen. (2015) Nearest Neighbor Frame Classification for Articulatory Speech Recognition. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis
Svendsen, Torbjørn Karl; Hamar, Jarle Bauck. (2015) Combining NdHMM and Phonetic Feature Detection for Speech Recognition.
Academic chapter

2014

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2014) An artificial neural network approach to automatic speech processing. Neurocomputing
Academic article
Soufifar, Mehdi; Svendsen, Torbjørn; Burget, Lukas. (2014) Subspace Modeling of Discrete Features for Language Recognition. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis

2013

Hamar, Jarle Bauck; Doddipatla, Rama Sanand; Svendsen, Torbjørn; Sreenivas, Thippur. (2013) Non-Negative Durational HMM.
Academic chapter
Doddipatla, Rama Sanand; Svendsen, Torbjørn. (2013) Synthetic Speaker Models Using VTLN to Improve the Performance of Children in Mismatched Speaker Conditions for ASR. Interspeech (USB)
Academic article

2012

Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2012) Universal attribute characterization of spoken languages for automatic spoken language recognition. Computer Speech and Language
Academic article
Siniscalchi, Sabato Marco; Lyu, DC; Svendsen, Torbjørn; Lee, CH. (2012) Experiments on Cross-Language Attribute Detection and Phone Recognition With Minimal Target-Specific Training Data. IEEE Transactions on Audio, Speech, and Language Processing
Academic article

2011

Adde, Line; Svendsen, Torbjørn. (2011) Pronunciation Variation Modeling of Non-Natie Proper Names by Discriminative Tree Search. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2011) A Bottom-Up Stepwise Knowledge-Integration Approach to Large Vocabulary Continuous Speech Recognition Using Weighted Finite State Machines. Interspeech
Academic article
Soufifar, Mehdi; Kockmann, Marcel; Burget, Lukas; Plchot, Oldrich; Glembek, Ondrej; Svendsen, Torbjørn. (2011) iVector Approach to Phonotactic Language Recognition. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2011) Frequency-Warped and Stabilized Time-Varying Cepstral Coefficients. Interspeech
Academic article

2010

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Sorbello, Filippo; Lee, Chin-Hui. (2010) Experimental Studies on Continuous Speech Recognition Using Neural Architectures with ‘Adaptive’ Hidden Activation Functions. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Adde, Line; Reveil, Bert; Martens, Jean-Pierre; Svendsen, Torbjørn. (2010) A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-Native Proper Names. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2010) Intra-Frame Variability As a Predictor of Frame Classifiability. Interspeech
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2010) Exploiting Context-Dependency and Acoustic Resolution of Universal Speech Attribute Models in Spoken Language Recognition. Interspeech
Academic article
Adde, Line; Svendsen, Torbjørn. (2010) NameDat: A Database of English Proper Names Spoken by Native Norwegians.
Academic chapter

2009

Mertens, Timo Pascal; Schneider, Daniel; Næss, Arild Brandrud; Svendsen, Torbjørn. (2009) Lexicon Adaptation for Subword Speech Recognition.
Academic chapter
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) A Phonetic Feature Based Lattice Rescoring Approach to LVCSR. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) Exploring Universal Attribute Characterization of Spoken Languages for Spoken Language Recognition. Interspeech
Academic article

2008

Amdal, Ingunn; Strand, Ole Morten; Almberg, Jørn; Svendsen, Torbjørn. (2008) RUNDKAST: An Annotated Norwegian Broadcast News Speech Corpus.
Academic chapter
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; lee, chin-hui. (2008) A Penalized Logistic Regression Approach to Detection Based Phone Classification. Interspeech
Academic article

2007

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2007) Towards Bottom-Up Continuous Phone Recognition.
Academic chapter

2006

Amdal, Ingunn; Svendsen, Torbjørn. (2006) FonDat1: A Speech Synthesis Corpus for Norwegian.
Academic chapter
Amdal, Ingunn; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (2006) Log Likelihood Ratio Based Annotation Verification of a Norwegian Speech Synthesis Database.
Academic chapter

2005

Bjørkan, Ingmund; Svendsen, Torbjørn; Farner, Snorre. (2005) Comparing Spectral Distance Measures for Join Cost Optimization in Concatenative Speech Synthesis. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2005) Distributed ASR Using Speech Coder Data for Efficient Feature Vector Representation. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Bjørkan, Ingmund; Svendsen, Torbjørn. (2005) Comparing Spectral Distance Measures for Join Cost Optmization. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Amdal, Ingunn; Svendsen, Torbjørn. (2005) Unit Selection Synthesis Database Development Using Utterance Verification. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Meen, Dyre; Svendsen, Torbjørn; Natvig, Jon-Emil. (2005) Improving Phone Label Alignment Accuracy by Utilizing Voicing Information.
Academic chapter
Svendsen, Torbjørn; Amdal, Ingunn; Bjørkan, Ingmund; Meen, Dyre; Heggtveit, Per Olav; Natvig, Jon Emil. (2005) FONEMA - Tools for realistic speech synthesis in Norwegian.
Academic chapter
Svendsen, Torbjørn; Egeberg, Andreas; Holter, Trym; Skogstad, Trond. (2005) VOCALS - Voice centric user interfaces for location based services.
Academic chapter

2004

Nordgård, Torbjørn; Svendsen, Torbjørn; Harborg, Erik; Kvale, Knut. (2004) Language Technology Towards 2020.
Academic chapter

2003

Svendsen, Torbjørn. (2003) Speech Technology: Past, Present and Future. Telektronikk
Academic article

2002

Svendsen, Torbjørn. (2002) Roles for Speech And Language Technology in The Information Society.
Academic chapter
Nordgård, Torbjørn; Svendsen, Torbjørn; Natvig, Jon Emil. (2002) Talsmann talesyntese som hjelpemiddel for dyslektikere. Telenor Communication AS
Research report
Nordgård, Torbjørn; Svendsen, Torbjørn; Breivik, Torbjørg. (2002) Samling og tilgjengeleggjering av norske språkteknologiressursar. Norsk språkråd
Research report

2001

Svendsen, Torbjørn. (2001) Nordisk forskningssamarbeid innen språkteknologi. Språknytt
Popular science article

2000

Amdal, Ingunn; Holter, Trym; Svendsen, Torbjørn. (2000) Modellering av uttalevariasjon for automatisk talegjenkjenning. Nordlyd
Academic article

1999

Svendsen, Torbjørn. (1999) Taleteknologi. Språk i Norden
Academic article
Holter, Trym; Svendsen, Torbjørn. (1999) Maximum likelihood modelling of pronunciation variation. Speech Communication
Academic article
Svendsen, Torbjørn; Johnsen, Magne Hallstein; Nordgård, Torbjørn; Hofland, Knut; Hofland, Knut; Ore, Christian Emil; Ore, Christian Emil. (1999) Nasjonalt korpus for språkteknologi - forprosjekt. Norges forskningsråd
Research report

1998

Svendsen, Torbjørn. (1998) Blir norsk gresk for språkteknologien?. Språknytt
Academic article

1995

Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning II. SINTEF DELAB
Research report
Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning for teksting av direktesendte programmer - en studie. SINTEF DELAB
Research report

1994

Svendsen, Torbjørn. (1994) Talebaserte brukergrensesnitt. NORSIGnalet : organ for NORSIG, Norsk forening for signalbehandling
Popular science article

Journal publications

Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn; Salvi, Giampiero. (2026) Segmentation-Free Goodness of Pronunciation. IEEE Transactions on Audio, Speech and Language Processing
Academic article
Svendsen, Torbjørn. (1999) Taleteknologi. Språk i Norden
Academic article
Holter, Trym; Svendsen, Torbjørn. (1999) Maximum likelihood modelling of pronunciation variation. Speech Communication
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2012) Universal attribute characterization of spoken languages for automatic spoken language recognition. Computer Speech and Language
Academic article
Bjørkan, Ingmund; Svendsen, Torbjørn; Farner, Snorre. (2005) Comparing Spectral Distance Measures for Join Cost Optimization in Concatenative Speech Synthesis. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Marco, Siniscalchi Sabato; Svendsen, Torbjørn Karl. (2019) A Phonetic-Level Analysis of Different Input Features for Articulatory Inversion. Interspeech (USB)
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2005) Distributed ASR Using Speech Coder Data for Efficient Feature Vector Representation. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Svendsen, Torbjørn. (2001) Nordisk forskningssamarbeid innen språkteknologi. Språknytt
Popular science article
Sabzi Shahrebabaki, Abdolreza; Salvi, Giampiero; Svendsen, Torbjørn Karl; Siniscalchi, Sabato Marco. (2021) Acoustic-to-Articulatory Mapping With Joint Optimization of Deep Speech Enhancement and Articulatory Inversion Models. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) Raw Speech-to-Articulatory Inversion by Temporal Filtering and Decimation. Interspeech
Academic article
Bjørkan, Ingmund; Svendsen, Torbjørn. (2005) Comparing Spectral Distance Measures for Join Cost Optmization. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2014) An artificial neural network approach to automatic speech processing. Neurocomputing
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A Framework for Phoneme-Level Pronunciation Assessment Using CTC. Interspeech
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) A Phonetic Feature Based Lattice Rescoring Approach to LVCSR. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) Exploring Universal Attribute Characterization of Spoken Languages for Spoken Language Recognition. Interspeech
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2024) Towards Better Recognition of Spontaneous Children's Speech: Speaker-Clustering Fine-Tuning of Whisper. Machine Learning for Signal Processing
Academic article
Quatra, Moreno La; Turco, Maria Francesca; Svendsen, Torbjørn Karl; Salvi, Giampiero; Orozco-Arroyave, Juan Rafael; Siniscalchi, Sabato Marco. (2024) Exploiting Foundation Models and Speech Enhancement for Parkinson’s Disease Detection from Speech in Real-World Operative Conditions. Interspeech
Academic article
Adde, Line; Svendsen, Torbjørn. (2011) Pronunciation Variation Modeling of Non-Natie Proper Names by Discriminative Tree Search. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Getman, Yaroslav; Phan, Nhan; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Singh, Mittul; Grosz, Tamas; Kurimo, Mikko; Salvi, Giampiero; Svendsen, Torbjørn Karl; Strombergsson, Sofia. (2023) Developing an AI-Assisted Low-Resource Spoken Language Learning App for Children. IEEE Access
Academic article
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn. (2020) Transfer learning of articulatory information through phone information. Interspeech (USB)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2020) Sequence-to-sequence articulatory inversion through time convolution of sub-band frequency signals. Interspeech (USB)
Academic article
Rugayan, Janine Lizbeth Cabrera; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2022) Semantically Meaningful Metrics for Norwegian ASR Systems. Interspeech (USB)
Academic article
Rugayan, Janine Lizbeth Cabrera; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation. Interspeech (USB)
Academic article
Siniscalchi, Sabato Marco; Lyu, DC; Svendsen, Torbjørn; Lee, CH. (2012) Experiments on Cross-Language Attribute Detection and Phone Recognition With Minimal Target-Specific Training Data. IEEE Transactions on Audio, Speech, and Language Processing
Academic article
Svendsen, Torbjørn. (1994) Talebaserte brukergrensesnitt. NORSIGnalet : organ for NORSIG, Norsk forening for signalbehandling
Popular science article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Sorbello, Filippo; Lee, Chin-Hui. (2010) Experimental Studies on Continuous Speech Recognition Using Neural Architectures with ‘Adaptive’ Hidden Activation Functions. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Adde, Line; Reveil, Bert; Martens, Jean-Pierre; Svendsen, Torbjørn. (2010) A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-Native Proper Names. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2010) Intra-Frame Variability As a Predictor of Frame Classifiability. Interspeech
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2010) Exploiting Context-Dependency and Acoustic Resolution of Universal Speech Attribute Models in Spoken Language Recognition. Interspeech
Academic article
Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Comparative Study of Deep Learning Techniques on Frame-Level Speech Data Classification. Circuits, systems, and signal processing
Academic article
Amdal, Ingunn; Holter, Trym; Svendsen, Torbjørn. (2000) Modellering av uttalevariasjon for automatisk talegjenkjenning. Nordlyd
Academic article
Gelderblom, Femke Berre; Tronstad, Tron Vedul; Svendsen, Torbjørn Karl; Myrvoll, Tor Andre. (2023) On the Predictive Power of Objective Intelligibility Metrics for the Subjective Performance of Deep Complex Convolutional Recurrent Speech Enhancement Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Getman, Yaroslav; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Grósz, Tamás; Kurimo, Mikko; Salvi, Giampiero; Svendsen, Torbjørn Karl; Strömbergsson, Sofia. (2022) wav2vec2-based Speech Rating System for Children with Speech Sound Disorder. Interspeech (USB)
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Using Modified Adult Speech as Data Augmentation for Child Speech Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) An Analysis of Goodness of Pronunciation for Child Speech. Interspeech
Academic article
Svendsen, Torbjørn. (2003) Speech Technology: Past, Present and Future. Telektronikk
Academic article
Amdal, Ingunn; Svendsen, Torbjørn. (2005) Unit Selection Synthesis Database Development Using Utterance Verification. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Kynych, Frantisek; Cerva, Petr; Zdansky, Jindrich; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A lightweight approach to real-time speaker diarization: from audio toward audio-visual data streams. EURASIP Journal on Audio, Speech, and Music Processing
Academic article
Svendsen, Torbjørn. (1998) Blir norsk gresk for språkteknologien?. Språknytt
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; lee, chin-hui. (2008) A Penalized Logistic Regression Approach to Detection Based Phone Classification. Interspeech
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2011) A Bottom-Up Stepwise Knowledge-Integration Approach to Large Vocabulary Continuous Speech Recognition Using Weighted Finite State Machines. Interspeech
Academic article
Soufifar, Mehdi; Kockmann, Marcel; Burget, Lukas; Plchot, Oldrich; Glembek, Ondrej; Svendsen, Torbjørn. (2011) iVector Approach to Phonotactic Language Recognition. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2011) Frequency-Warped and Stabilized Time-Varying Cepstral Coefficients. Interspeech
Academic article
Olstad, Anne Marte Haug; Smolander, Anna; Strömbergsson, Sofia; Ylinen, Sari; Lehtonen, Minna; Kurimo, Mikko; Getman, Yaroslav; Grósz, Tamás; Cao, Xinwei; Svendsen, Torbjørn Karl. (2024) Collecting Linguistic Resources for Assessing Children’s Pronunciation of Nordic Languages. Proceedings of LREC
Academic article
Doddipatla, Rama Sanand; Svendsen, Torbjørn. (2013) Synthetic Speaker Models Using VTLN to Improve the Performance of Children in Mismatched Speaker Conditions for ASR. Interspeech (USB)
Academic article

Part of book/report

Parsons, Phoebe Luree Turner; Bremnes, Heming Strømholt; Kvale, Knut; Svendsen, Torbjørn; Salvi, Giampiero. (2025) Effects of Prosodic Information on Dialect Classification Using Whisper Features.
Academic chapter
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn. (2025) Improving Phone Recognition through Informed Initialization and Path-Aligned CTC Loss.
Academic chapter
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn; Salvi, Giampiero. (2025) Child speech assessment through large language model speech synthesis: Preliminary results.
Academic chapter
Dymbe, Simen; Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Salvi, Giampiero. (2025) Using Cross-Attention for Conversational ASR over the Telephone.
Academic chapter
Rugayan, Janine Lizbeth Cabrera; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2025) Optimizing ASR Models with Semantic Information.
Academic chapter
Amdal, Ingunn; Svendsen, Torbjørn. (2006) FonDat1: A Speech Synthesis Corpus for Norwegian.
Academic chapter
Hamar, Jarle Bauck; Doddipatla, Rama Sanand; Svendsen, Torbjørn; Sreenivas, Thippur. (2013) Non-Negative Durational HMM.
Academic chapter
Amdal, Ingunn; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (2006) Log Likelihood Ratio Based Annotation Verification of a Norwegian Speech Synthesis Database.
Academic chapter
Mertens, Timo Pascal; Schneider, Daniel; Næss, Arild Brandrud; Svendsen, Torbjørn. (2009) Lexicon Adaptation for Subword Speech Recognition.
Academic chapter
Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2018) Acoustic Feature Comparison for Different Speaking Rates.
Academic chapter
Amdal, Ingunn; Strand, Ole Morten; Almberg, Jørn; Svendsen, Torbjørn. (2008) RUNDKAST: An Annotated Norwegian Broadcast News Speech Corpus.
Academic chapter
Solberg, Per Erik; Ortiz Cabello, Pablo; Parsons, Phoebe; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) Improving Generalization of Norwegian ASR with Limited Linguistic Resources.
Academic chapter
Svendsen, Torbjørn. (2002) Roles for Speech And Language Technology in The Information Society.
Academic chapter
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Johnsen, Magne Hallstein; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) A Two-Stage Deep Modeling Approach to Articulatory Inversion.
Academic chapter
Imran, Ali Shariq; Haflan, Vetle; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) Evaluating Acoustic Feature Maps in 2D-CNN for Speaker Identification.
Academic chapter
Parsons, Phoebe; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) A character-based analysis of impacts of dialects on end-to-end Norwegian ASR.
Academic chapter
Imran, Ali Shariq; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Study on the Performance Evaluation of Machine Learning Models for Phoneme Classification.
Academic chapter
Imran, Ali Shariq; Kastrati, Zenun; Svendsen, Torbjørn Karl; Kurti, Arianit. (2019) Text-Independent Speaker ID for Automatic Video Lecture Classification Using Deep Learning.
Academic chapter
Nordgård, Torbjørn; Svendsen, Torbjørn; Harborg, Erik; Kvale, Knut. (2004) Language Technology Towards 2020.
Academic chapter
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2007) Towards Bottom-Up Continuous Phone Recognition.
Academic chapter
Adde, Line; Svendsen, Torbjørn. (2010) NameDat: A Database of English Proper Names Spoken by Native Norwegians.
Academic chapter
Parsons, Phoebe Luree Turner; Solberg, Per Erik; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2025) Adding Metadata to Existing Parliamentary Speech Corpus.
Academic chapter
Parsons, Phoebe Luree Turner; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2025) Match ‘em: Multi-Tiered Alignment for Error Analysis in ASR.
Academic chapter
Svendsen, Torbjørn Karl; Hamar, Jarle Bauck. (2015) Combining NdHMM and Phonetic Feature Detection for Speech Recognition.
Academic chapter
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2021) A DNN Based Speech Enhancement Approach to Noise Robust Acoustic-to-Articulatory Inversion.
Academic chapter
Meen, Dyre; Svendsen, Torbjørn; Natvig, Jon-Emil. (2005) Improving Phone Label Alignment Accuracy by Utilizing Voicing Information.
Academic chapter
Svendsen, Torbjørn; Amdal, Ingunn; Bjørkan, Ingmund; Meen, Dyre; Heggtveit, Per Olav; Natvig, Jon Emil. (2005) FONEMA - Tools for realistic speech synthesis in Norwegian.
Academic chapter
Svendsen, Torbjørn; Egeberg, Andreas; Holter, Trym; Skogstad, Trond. (2005) VOCALS - Voice centric user interfaces for location based services.
Academic chapter

Report

Kvale, Knut; Gulla, Jon Atle; Adde, Line; Solberg, Per Erik; Svendsen, Torbjørn Karl; Moshagen, Sjur Nørstebø; Wettre, Jonas Engestøl. (2022) Taleteknologi og kunstig intelligens. Teknologirådet
Research report
Nordgård, Torbjørn; Svendsen, Torbjørn; Natvig, Jon Emil. (2002) Talsmann talesyntese som hjelpemiddel for dyslektikere. Telenor Communication AS
Research report
Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning II. SINTEF DELAB
Research report
Nordgård, Torbjørn; Svendsen, Torbjørn; Breivik, Torbjørg. (2002) Samling og tilgjengeleggjering av norske språkteknologiressursar. Norsk språkråd
Research report
Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning for teksting av direktesendte programmer - en studie. SINTEF DELAB
Research report
Svendsen, Torbjørn; Johnsen, Magne Hallstein; Nordgård, Torbjørn; Hofland, Knut; Hofland, Knut; Ore, Christian Emil; Ore, Christian Emil. (1999) Nasjonalt korpus for språkteknologi - forprosjekt. Norges forskningsråd
Research report

Student thesis or dissertation

Parsons, Phoebe; Salvi, Giampiero; Svendsen, Torbjørn; Kvale, Knut. (2026) On Dialects and Speech Technology. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis
Næss, Arild Brandrud; Svendsen, Torbjørn Karl; Livescu, Karen. (2015) Nearest Neighbor Frame Classification for Articulatory Speech Recognition. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis
Soufifar, Mehdi; Svendsen, Torbjørn; Burget, Lukas. (2014) Subspace Modeling of Discrete Features for Language Recognition. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis
Gelderblom, Femke Berre; Myrvoll, Tor Andre; Svendsen, Torbjørn Karl. (2023) Evaluating Performance Metrics for Deep Neural Network-based Speech Enhancement Systems. Norges teknisk-naturvitenskapelige universitet
Doctoral thesis

Outreach