Cross-Dialect Text-To-Speech in Pitch-Accent Language
Incorporating Multi-Dialect Phoneme-Level BERT

Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
The University of Tokyo, Japan.

1. Samples of synthetic speech

We present speech samples synthesised using the following models:

Speech samples synthesised by inputting texts sampled from transcriptions in CPJD-Osaka[3] into each model are shown in the table below. The target speakers for intra-dialect TTS (ID-TTS) and cross-dialect TTS (CD-TTS) were defined as for the JMD[4] Osaka-dialect speaker and the JSUT[5] Japanese standard speaker, respectively. Note that the target dialect for the ALV predictor is Osaka-dialect. Reference speech sampled from the CPJD-Osaka are also shown (REF in the table).

ID-TTS: Synthesis of Osaka-dialect speech by Osaka-dialect speaker

FS2
FS2-AP
FS2-AP-Scratch
FS2-AP-W/O
FS2-REF
FS2-REF-F0
REF

CD-TTS: Synthesis of Osaka-dialect speech by Tokyo-dialect speaker

FS2
FS2-AP
FS2-AP-Scratch
FS2-AP-W/O
FS2-REF
FS2-REF-F0
REF

2. Samples of LLM-based dialect translation

We present text samples translated into Osaka-dialect using Swallow 13B. Original sentences written in standard Japanese are sampled from ReazonSpeech corpus.

Original sentence written in standard Japanese Sentence translated into Osaka-dialect
本当だって思えばいいって事ですよね? ほんまやと思えばええんちゃうか?
北日本では大雪となるおそれもありますので、今のうちに備えをしておいてください。 北日本では大雪になるかもしれへんから、今のうちに備えといた方がええで。
人間にしかできないことはなんなのか考えてみるといいね。 人間にしかできひんことはなんなのか考えてみたらええね。
それでもうひたすらそれを着々とやってるっていう、そういう前提で考えるべきだと思います。 それでもうひたすらそれを着々とやってるっていう、そういう前提で考えるべきやと思う。
多くの相撲ファンは同じ気持ちかもしれないですね。 多くの相撲ファンは同じ気持ちかもしれへんね。
出火当時女性は家にいたとみられますが現在連絡がとれていないということです。 出火当時女性は家におったみたいやけど、現在連絡がとれへんみたいやで。
今日は風船で遊びます! 今日は風船で遊ぶで!
あの時僕はもうお金もないですし、一張羅の時計ですよ。 あの時僕はもうお金もないし、一張羅の時計やねん。
とことん遊ぶって大事ですね。 とことん遊ぶって大事やな。
あっそう、便秘の女性にもすごくいいと思います。 あっそうや、便秘の女性にもめっちゃええと思うで。

References