Publications
Invited Articles
- Yuki Saito, Wataru Nakata, Kazuki Yamauchi, and Joonyong Park
Speech synthesis based on large pretrained models
Journal of Acoustical Society of Japan, Vol. 81, No. 10, Oct. 2025.
Journal Paper (Peer-Reviewed)
- Kentaro Seki, Nobutaka Ito, Kazuki Yamauchi, Yuki Okamoto, Kouei Yamaoka, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
Language-queried target speech extraction using para-linguistic and non-linguistic prompts
Acoustical Science and Technology, Vol. xx, No. xx, pp. xxx–xxx, xxx. 2025. (Accepted)
International Conferences (Peer-Reviewed)
Kazuki Yamauchi, Wataru Nakata, Yuki Saito, and Hiroshi Saruwatari
Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis
Audio Imagination: NeurIPS 2024 Workshop on AI-Driven Speech, Music, and Sound Generation, Dec. 2024. [Poster presentation]
[paper] [demo] [poster]Kazuki Yamauchi, Yuki Saito, and Hiroshi Saruwatari
Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT
IEEE Spoken Language Technology Workshop (IEEE SLT), Dec. 2024. [Poster presentation]
[arXiv] [demo] [poster]Kazuki Yamauchi, Yusuke Ijima, and Yuki Saito
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-Supervised Learning Models
IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE ICASSP), Apr. 2024. [Poster presentation]
🎉 IEEE Signal Processsing Society Japan Student Conference Paper Award [link]
[arXiv] [demo] [poster]
International Conferences (Abstract-Reviewed)
Kazuki Yamauchi, Yuki Saito, and Hiroshi Saruwatari
Speech Synthesis with Perceptual Rating-Guided Parallel Iterative Decoding
ASA/ASJ Joint Fall 2025 Annual Meeting, Dec. 2025. [Poster presentation]Wataru Nakata*, Kazuki Yamauchi*, Dong Yang, Hiroaki Hyodo, and Yuki Saito (*Equal contribution)
UTDUSS: UTokyo-SaruLab System for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge
IEEE SLT 2024 Recent Breakthrough Results Session, Dec. 2024. [Poster presentation]
Technical Report for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge, Mar. 2024.
🎉 Ranked 1st in TTS (Acoustic + Vocoder) track [link]
[arXiv] [code] [poster]
Domestic Conferences
中田 亘, 山内 一輝, 関 健太郎, 齋藤 佑樹, 猿渡 洋, 中村 友彦, 坂東 宜昭, 深山 覚
BigGSE:自己教師ありモデル特徴量空間でのFlow matchingに基づく生成的音声強調
日本音響学会 2025年秋季研究発表会, 2-1-5, pp. 1189–1192, 2025年9月. [日本音響学会, 口頭発表]関 健太郎, 伊藤 信貴, 山内 一輝, 岡本 悠希, 山岡 洸瑛, 齋藤 佑樹, 高道 慎之介, 猿渡 洋
パラ言語・非言語情報の記述文をクエリとした目的音声抽出
日本音響学会 2025年秋季研究発表会, 1-R-19, pp. 291–294, 2025年9月. [日本音響学会, ポスター発表]川松 亮太, 濱田 誉輝, 山内 一輝, 齋藤 佑樹, 猿渡 洋
絵文字を活用した新たな音声感情ラベルアノテーションの実施と分析
YANS2025, no paper, 2025年9月. [YANS, ポスター発表]有田 諒子, 中田 亘, 山内 一輝, 関 健太郎, 楊 棟, 齋藤 佑樹, 猿渡 洋
離散音声トークンを活用した歌声合成システムの開発に向けた音響モデルと特徴量の検討
情報処理学会研究報告, Vol. 2025-SLP-156, No. 85, 2025年6月. [音学シンポジウム, ポスター発表]山内 一輝, 中田 亘, 齋藤 佑樹, 猿渡 洋
離散音声トークン生成に基づく感情合成音声のための多目的知覚評価値を活用したdecoding戦略
情報処理学会研究報告, Vol. 2025-SLP-155, No. 16, 2025年3月. [音声・音響・信号処理ワークショップ, 口頭発表]濱田 誉輝, 齋藤 佑樹, 中田 亘, 山内 一輝, 関 健太郎, 岡本 悠希, 猿渡 洋
ペルソナ説明文を利用した合成音声の話者性制御手法の検討
日本音響学会 2025年春季研究発表会 講演論文集, 1-R-21, 2025年3月. [日本音響学会, ポスター発表]山内 一輝, 中田 亘, 齋藤 佑樹, 猿渡 洋
離散音声トークン生成によるテキスト音声合成のための音声主観評価値予測に基づくdecoding戦略
情報処理学会研究報告, Vol. 2024-SLP-152, No. 14, 2024年6月. [音学シンポジウム, ポスター発表]
🎉 音学シンポジウム 優秀発表賞 [link]
[pdf] [poster]山内 一輝, 井島 勇祐, 齋藤 佑樹
StyleCap: 音声および言語の自己教師あり学習モデルに基づく音声の発話スタイルに関するキャプション生成
日本音響学会 2024年春季研究発表会 講演論文集, 3-2-14, pp. 843–846, 2024年3月. [日本音響学会, 口頭発表]
🎉 日本音響学会 学生優秀発表賞 [link]
[pdf] [slide]山内 一輝, 齋藤 佑樹, 猿渡 洋
VQ-VAEに基づく解釈可能なアクセント潜在変数を用いた多方言音声合成
電子情報通信学会研究報告, SP2023-80, Vol. 123, No. 403, pp.220–225, 2024年3月. [音声・音響・信号処理ワークショップ, ポスター発表]
🎉 音声研究会 学生ポスター賞 [link]
[pdf] [poster]織田 悠希, 山内 一輝, 齋藤 佑樹, 猿渡 洋
クラウドソーシングで収集した方言アクセントラベルに基づく End-to-End 日本語音声合成の方言適応
電子情報通信学会研究報告, Vol. 123, No. 403, 2024年3月. [音声・音響・信号処理ワークショップ, ショートオーラル]山内 一輝, 齋藤 佑樹, 猿渡 洋
アクセント潜在変数の予測と制御が可能なTTSモデルによる方言音声合成の検討
日本音響学会 2023年秋季研究発表会 講演論文集, 2-Q-30, pp. 1255–1256, 2023年9月. [日本音響学会, ポスター発表]
[pdf] [poster]