Publications

Invited Articles

Yuki Saito, Wataru Nakata, Kazuki Yamauchi, and Joonyong Park
Speech synthesis based on large pretrained models
Journal of Acoustical Society of Japan, Vol. 81, No. 10, Oct. 2025.

Journal Paper (Peer-Reviewed)

Kentaro Seki, Nobutaka Ito, Kazuki Yamauchi, Yuki Okamoto, Kouei Yamaoka, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
Language-queried target speech extraction using para-linguistic and non-linguistic prompts
Acoustical Science and Technology, Vol. 46, No. 6, pp. 671–675, Nov. 2025.

International Conferences (Peer-Reviewed)

Kazuki Yamauchi, Masato Murata, Shogo Seki
Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens
IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE ICASSP), May 2026. (Accepted)
[arXiv]
Kazuki Yamauchi, Wataru Nakata, Yuki Saito, and Hiroshi Saruwatari
Decoding Strategy with Perceptual Rating Prediction for Language Model-Based Text-to-Speech Synthesis
Audio Imagination: NeurIPS 2024 Workshop on AI-Driven Speech, Music, and Sound Generation, Dec. 2024. [Poster presentation]
[paper] [demo] [poster]
Kazuki Yamauchi, Yuki Saito, and Hiroshi Saruwatari
Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT
IEEE Spoken Language Technology Workshop (IEEE SLT), Dec. 2024. [Poster presentation]
[arXiv] [demo] [poster]
Kazuki Yamauchi, Yusuke Ijima, and Yuki Saito
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-Supervised Learning Models
IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE ICASSP), Apr. 2024. [Poster presentation]
🎉 IEEE Signal Processsing Society Japan Student Conference Paper Award [link]
[arXiv] [demo] [poster]

International Conferences (Abstract-Reviewed)

Kazuki Yamauchi, Yuki Saito, and Hiroshi Saruwatari
Speech Synthesis with Perceptual Rating-Guided Parallel Iterative Decoding
ASA/ASJ Joint Fall 2025 Annual Meeting, Dec. 2025. [Poster presentation]
[poster]
Wataru Nakata*, Kazuki Yamauchi*, Dong Yang, Hiroaki Hyodo, and Yuki Saito (*Equal contribution)
UTDUSS: UTokyo-SaruLab System for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge
IEEE SLT 2024 Recent Breakthrough Results Session, Dec. 2024. [Poster presentation]
Technical Report for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge, Mar. 2024.
🎉 Ranked 1st in TTS (Acoustic + Vocoder) track [link]
[arXiv] [code] [poster]

Domestic Conferences

山内一輝, 中田亘, 齋藤佑樹, 猿渡洋
ReDialTTS-JP: 音声復元したIn-the-Wild方言音声を用いた日本語多方言音声合成
日本音響学会 2026年春季研究発表会, 1-5-1, pp. xxxx–xxxx, 2026年3月. [日本音響学会, 口頭発表]
山内一輝, 村田雅人, 関翔悟
離散トークンベースの生成的音声強調の信頼度スコアに基づく出力フィルタリング
日本音響学会 2026年春季研究発表会, 1-5-2, pp. xxxx–xxxx, 2026年3月. [日本音響学会, 口頭発表]
川松亮太, 濱田誉輝, 山内一輝, 齋藤佑樹, 猿渡洋
音声コーパスへの絵文字アノテーションとそれを活用した感情音声合成手法の検討
電子情報通信学会研究報告, SP2026-xx, Vol. xxx, No. 43, pp. xxxx–xxxx, 2026年3月. [音声・音響・信号処理ワークショップ, ポスター発表]
中田亘, 山内一輝, 関健太郎, 齋藤佑樹, 猿渡洋, 中村友彦, 坂東宜昭, 深山覚
BigGSE：自己教師ありモデル特徴量空間でのFlow matchingに基づく生成的音声強調
日本音響学会 2025年秋季研究発表会, 2-1-5, pp. 1189–1192, 2025年9月. [日本音響学会, 口頭発表]
関健太郎, 伊藤信貴, 山内一輝, 岡本悠希, 山岡洸瑛, 齋藤佑樹, 高道慎之介, 猿渡洋
パラ言語・非言語情報の記述文をクエリとした目的音声抽出
日本音響学会 2025年秋季研究発表会, 1-R-19, pp. 291–294, 2025年9月. [日本音響学会, ポスター発表]
川松亮太, 濱田誉輝, 山内一輝, 齋藤佑樹, 猿渡洋
絵文字を活用した新たな音声感情ラベルアノテーションの実施と分析
YANS2025, no paper, 2025年9月. [YANS, ポスター発表]
有田諒子, 中田亘, 山内一輝, 関健太郎, 楊棟, 齋藤佑樹, 猿渡洋
離散音声トークンを活用した歌声合成システムの開発に向けた音響モデルと特徴量の検討
情報処理学会研究報告, Vol. 2025-SLP-156, No. 85, 2025年6月. [音学シンポジウム, ポスター発表]
山内一輝, 中田亘, 齋藤佑樹, 猿渡洋
離散音声トークン生成に基づく感情合成音声のための多目的知覚評価値を活用したdecoding戦略
情報処理学会研究報告, Vol. 2025-SLP-155, No. 16, 2025年3月. [音声・音響・信号処理ワークショップ, 口頭発表]
🎉 2025年度 SLP研究会企業賞 (LINEヤフー賞) [link]
[pdf] [slide]
濱田誉輝, 齋藤佑樹, 中田亘, 山内一輝, 関健太郎, 岡本悠希, 猿渡洋
ペルソナ説明文を利用した合成音声の話者性制御手法の検討
日本音響学会 2025年春季研究発表会講演論文集, 1-R-21, 2025年3月. [日本音響学会, ポスター発表]
山内一輝, 中田亘, 齋藤佑樹, 猿渡洋
離散音声トークン生成によるテキスト音声合成のための音声主観評価値予測に基づくdecoding戦略
情報処理学会研究報告, Vol. 2024-SLP-152, No. 14, 2024年6月. [音学シンポジウム, ポスター発表]
🎉 音学シンポジウム優秀発表賞 [link]
[pdf] [poster]
山内一輝, 井島勇祐, 齋藤佑樹
StyleCap: 音声および言語の自己教師あり学習モデルに基づく音声の発話スタイルに関するキャプション生成
日本音響学会 2024年春季研究発表会講演論文集, 3-2-14, pp. 843–846, 2024年3月. [日本音響学会, 口頭発表]
🎉 日本音響学会学生優秀発表賞 [link]
[pdf] [slide]
山内一輝, 齋藤佑樹, 猿渡洋
VQ-VAEに基づく解釈可能なアクセント潜在変数を用いた多方言音声合成
電子情報通信学会研究報告, SP2023-80, Vol. 123, No. 52, pp.220–225, 2024年3月. [音声・音響・信号処理ワークショップ, ポスター発表]
🎉 音声研究会学生ポスター賞 [link]
[pdf] [poster]
織田悠希, 山内一輝, 齋藤佑樹, 猿渡洋
クラウドソーシングで収集した方言アクセントラベルに基づく End-to-End 日本語音声合成の方言適応
No. 22, 2024年3月. [音声・音響・信号処理ワークショップ, ショートオーラル]
山内一輝, 齋藤佑樹, 猿渡洋
アクセント潜在変数の予測と制御が可能なTTSモデルによる方言音声合成の検討
日本音響学会 2023年秋季研究発表会講演論文集, 2-Q-30, pp. 1255–1256, 2023年9月. [日本音響学会, ポスター発表]
[pdf] [poster]

Kazuki Yamauchi

Publications

Invited Articles

Journal Paper (Peer-Reviewed)

International Conferences (Peer-Reviewed)

International Conferences (Abstract-Reviewed)

Domestic Conferences