Interspeech 2024 – Apple Machine Learning Research

Apple is sponsoring the 25th annual Interspeech conference, in Kos, Greece, September 1 to 5. Interspeech focuses on research surrounding the science and technology of spoken language processing. Below is the schedule of Apple-sponsored workshops and events at Interspeech 2024.

Schedule

Stop by the Apple booth in the Kipriotis Hotels & Conference Center, Floor 1, Booth #4, from 10:30 – 19:00 on Monday, September 2; 09:30 – 18:00 on Tuesday, September 3, and Wednesday, September 4; and 10:30 – 16:00 on Thursday, September 5 (all times GMT+3).

Saturday, August 31

Wednesday, September 4

Thursday, September 5

ORAL
ESPnet-SPK: Full Pipeline Speaker Verification Toolkit with Multiple Reproducible Recipes, Self-Supervised Front-Ends, and Off-the-Shelf Models
11:00 – 11:20 GMT+3, Iasso
Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zak Aldeneh, Takuya Higuchi, Barry Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe

POSTER
Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection
13:30 – 15:30 GMT+3, Poster Area 2A
Shruti Palaskar, Oggi Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed Tewfik

Accepted Papers

Can You Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features?

Zak Aldeneh, Takuya Higuchi, Jee-weon Jung, Skyler Seto, Tatiana Likhomanenko, Stephen Shum, Ahmed Hussen Abdelaziz, Shinji Watanabe

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness

Satyam Kumar, Sai Srujana Buddi, Oggy Sarawgi, Vineet Garg, Shivesh Ranjan, Oggi Rudovic, Ahmed Hussen Abdelaziz, Saurabh Adya

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

Michael Han, Zhihong Lei, Mingbin Xu, Xingyu Na, Zhen Huang

ESPnet-SPK: Full Pipeline Speaker Verification Toolkit with Multiple Reproducible Recipes, Self-Supervised Front-Ends, and Off-the-Shelf Models

Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zak Aldeneh, Takuya Higuchi, Barry Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

Shruti Palaskar, Oggi Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed Tewfik

Novel-view Acoustic Synthesis from 3D Reconstructed Rooms

Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag Ranjan, Oncel Tuzel, Miguel Sarabia del Castillo, Rick Chang

Positional Description for Numerical Normalization

Deepanshu Gupta, Javier Latorre Martinez

RepCNN: Micro-sized, Mighty Models for Wakeword Detection

Arnav Kundu, Prateeth Nayak, Priyanka Padmanabhan, Devang Naik

Transformer-based Model for ASR N-Best Rescoring and Rewriting

Edwin Kang, Christophe Van Gysel, Man-Hung Siu

Acknowledgements

Arnav Kundu, Ilya Oparin, Javier Latorre Martinez, Lyan Verwimp, Markus Nussbaum-Thom, Mirko Hannemann, Thiago Fraga da Silva, Tuomo Raitio, and Tatiana Likhomanenko are reviewers for Interspeech.

Source link

Interspeech 2024 – Apple Machine Learning Research

Schedule

Saturday, August 31

Wednesday, September 4

Thursday, September 5

Accepted Papers

Acknowledgements

Leave a Reply Cancel reply

About

Categories

Interspeech 2024 – Apple Machine Learning Research

Schedule

Saturday, August 31

Wednesday, September 4

Thursday, September 5

Accepted Papers

Acknowledgements

Related posts

Redefining Single-Channel Speech Enhancement: The xLSTM-SENet Approach

Efficient Blockchain State Management with Quick Merkle Database (QMDB)

Enhancing Language Model Performance and Diversity Through Multiagent Fine-Tuning

Leave a Reply Cancel reply

About

Categories