Publications
International Conferences (Peer-Reviewed)
Kazuki Yamauchi, Wataru Nakata, Yuki Saito, and Hiroshi Saruwatari
Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis
Audio Imagination: NeurIPS 2024 Workshop on AI-Driven Speech, Music, and Sound Generation, Dec. 2024. (Accepted)Kazuki Yamauchi, Yuki Saito, and Hiroshi Saruwatari
Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT
IEEE Spoken Language Technology Workshop (IEEE SLT), Dec. 2024. (Accepted)
[arXiv] [demo]Kazuki Yamauchi, Yusuke Ijima, and Yuki Saito
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-Supervised Learning Models
IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE ICASSP), Apr. 2024. [Poster presentation]
[arXiv] [demo] [poster]
Domestic Conferences
山内 一輝, 中田 亘, 齋藤 佑樹, 猿渡 洋
離散音声トークン生成によるテキスト音声合成のための音声主観評価値予測に基づくdecoding戦略
情報処理学会研究報告, Vol. 2024-SLP-152, No. 14, 2024年6月. [音学シンポジウム, ポスター発表]
🎉 音学シンポジウム 優秀発表賞 [link]
[pdf] [poster]山内 一輝, 井島 勇祐, 齋藤 佑樹
StyleCap: 音声および言語の自己教師あり学習モデルに基づく音声の発話スタイルに関するキャプション生成
日本音響学会 2024年春季研究発表会 講演論文集, 3-2-14, pp. 843–846, 2024年3月. [日本音響学会, 口頭発表]
🎉 日本音響学会 学生優秀発表賞 [link]
[pdf] [slide]山内 一輝, 齋藤 佑樹, 猿渡 洋
VQ-VAEに基づく解釈可能なアクセント潜在変数を用いた多方言音声合成
電子情報通信学会研究報告, SP2023-80, Vol. 123, No. 403, pp.220–225, 2024年3月. [音声・音響・信号処理ワークショップ, ポスター発表]
🎉 音声研究会 学生ポスター賞 [link]
[pdf] [poster]織田 悠希, 山内 一輝, 齋藤 佑樹, 猿渡 洋
クラウドソーシングで収集した方言アクセントラベルに基づく End-to-End 日本語音声合成の方言適応
電子情報通信学会研究報告, Vol. 123, No. 403, 2024年3月. [音声・音響・信号処理ワークショップ, ショートオーラル]山内 一輝, 齋藤 佑樹, 猿渡 洋
アクセント潜在変数の予測と制御が可能なTTSモデルによる方言音声合成の検討
日本音響学会 2023年秋季研究発表会 講演論文集, 2-Q-30, pp. 1255–1256, 2023年9月. [日本音響学会, ポスター発表]
[pdf] [poster]
Preprint
- Wataru Nakata*, Kazuki Yamauchi*, Dong Yang, Hiroaki Hyodo, and Yuki Saito (*Equal contribution)
UTDUSS: UTokyo-SaruLab System for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge
Technical Report for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge, Mar. 2024.
🎉 Ranked 1st in TTS (Acoustic+Vocoder) track [link]
[arXiv] [code]