Spaces:

Pendrokar
/

xVASynth-TTS

Running on CPU Upgrade

App Files Files Community

Pendrokar commited on Mar 9

Commit

74e078c

•

1 Parent(s): 9230f47

import gr_client

Browse files

Files changed (2) hide show

app.py +105 -513
gr_client.py +257 -250

app.py CHANGED Viewed

@@ -1,16 +1,14 @@
 import os
 import sys
-import time
 import requests
 import json
-from subprocess import Popen, PIPE
-import threading
 from huggingface_hub import HfApi
-import gradio as gr
 # start xVASynth service (no HTTP)
 import resources.app.no_server as xvaserver
 # model
 hf_model_name = "Pendrokar/xvapitch_nvidia"
 model_repo = HfApi()
@@ -19,117 +17,9 @@ latest_commit_sha = commits[0].commit_id
 hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
 models_path = hf_cache_models_path
-# ordered from most emotional and respects pauses to ones that do the least
-voice_models = [
-	("👨‍🦳 #6671", "ccby_nvidia_hifi_6671_M"),
-	("👱‍♀️ 🇬🇧 #92", "ccby_nvidia_hifi_92_F"),
-	("🧔 #6670", "ccby_nvidia_hifi_6670_M"),
-	("Male #9017", "ccby_nvidia_hifi_9017_M"),
-	("Male #6097", "ccby_nvidia_hifi_6097_M"),
-	("👩‍🦱 #12787", "ccby_nvidia_hifi_12787_F"),
-	("👵 #11614", "ccby_nv_hifi_11614_F"),
-	("Female #8051", "ccby_nvidia_hifi_8051_F"),
-	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
-	("Female #9136", "ccby_nvidia_hifi_9136_F"),
-]
 current_voice_model = None
 base_speaker_emb = ''
-# order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
-languages = [
-	("🇺🇸 EN", "en"),
-	("🇩🇪 DE", "de"),
-	("🇪🇸 ES", "es"),
-	("🇮🇹 IT", "it"),
-	("🇳🇱 NL", "nl"),
-	("🇧🇷 PT", "pt"),
-	("🇵🇱 PL", "pl"),
-	("🇷🇴 RO", "ro"),
-	("🇸🇪 SV", "sv"),
-	("🇩🇰 DA", "da"),
-	("🇫🇮 FI", "fi"),
-	("🇭🇺 HU", "hu"),
-	("🇬🇷 EL", "el"),
-	("🇫🇷 FR", "fr"),
-	("🇷🇺 RU", "ru"),
-	("🇺🇦 UA", "uk"),
-	("🇹🇷 TR", "tr"),
-	("🇸🇦 AR", "ar"),
-	("🇮🇳 HI", "hi"),
-	("🇯🇵 JP", "jp"),
-	("🇰🇷 KO", "ko"),
-	("🇨🇳 ZH", "zh"),
-	("🇻🇳 VI", "vi"),
-	("🇻🇦 LA", "la"),
-	("🇳🇬 YO", "yo"),
-	("Swahili", "sw"),
-	("Hausa", "ha"),
-	("Wolof", "wo"),
-]
-# Translated from English by DeepMind's Gemini Pro
-default_text = {
-	"ar": "هذا هو صوتي.",
-	"da": "Sådan lyder min stemme.",
-	"de": "So klingt meine Stimme.",
-	"el": "Έτσι ακούγεται η φωνή μου.",
-	"en": "This is what my voice sounds like.",
-	"es": "Así suena mi voz.",
-	"fi": "Näin ääneni kuulostaa.",
-	"fr": "Voici à quoi ressemble ma voix.",
-	"ha": "Wannan ne muryata ke.",
-	"hi": "यह मेरी आवाज़ कैसी लगती है।",
-	"hu": "Így hangzik a hangom.",
-	"it": "Così suona la mia voce.",
-	"jp": "これが私の声です。",
-	"ko": "여기 제 목소리가 어떤지 들어보세요.",
-	"la": "Haec est vox mea sonans.",
-	"nl": "Dit is hoe mijn stem klinkt.",
-	"pl": "Tak brzmi mój głos.",
-	"pt": "É assim que minha voz soa.",
-	"ro": "Așa sună vocea mea.",
-	"ru": "Вот как звучит мой голос.",
-	"sv": "Såhär låter min röst.",
-	"sw": "Baba, yetu, yetu, uliye. Mbinguni, yetu, yetu. Amiiinaa!!", #civ4
-	"tr": "Benim sesimin sesi böyle.",
-	"uk": "Ось як звучить мій голос.",
-	"vi": "Đây là giọng nói của tôi.",
-	"wo": "Ndox li neen xewnaal ma.",
-	"yo": "Ìyí ni ohùn mi ńlá.",
-	"zh": "这是我的声音。",
-}
-def run_xvaserver():
-	# start the process without waiting for a response
-	print('Running xVAServer subprocess...\n')
-	xvaserver = Popen(['python', f'{os.path.dirname(os.path.abspath(__file__))}/resources/app/server.py'], stdout=PIPE, stderr=PIPE, cwd=f'{os.path.dirname(os.path.abspath(__file__))}/resources/app/')
-	# Wait for a moment to ensure the server starts up
-	time.sleep(10)
-	# Check if the server is running
-	if xvaserver.poll() is not None:
-		print("Web server failed to start.")
-		sys.exit(0)
-	# contact local xVASynth server
-	print('Attempting to connect to xVASynth...')
-	try:
-		response = requests.get('http://0.0.0.0:8008')
-		response.raise_for_status()  # If the response contains an HTTP error status code, raise an exception
-	except requests.exceptions.RequestException as err:
-		print('Failed to connect!')
-		return
-	print('xVAServer running on port 8008')
-	# load default model
-	load_model("ccby_nvidia_hifi_6671_M")
-	# Wait for the process to exit
-	xvaserver.wait()
 def load_model(voice_model_name):
 	model_path =  models_path + voice_model_name
@@ -160,413 +50,115 @@ def load_model(voice_model_name):
 	return embs
-def predict(
-	input_text,
-	voice,
-	lang,
-	pacing,
-	pitch,
-	energy,
-	anger,
-	happy,
-	sad,
-	surprise,
-	use_deepmoji
-):
-	# grab only the first 1000 characters
-	input_text = input_text[:1000]
-	# load voice model if not the current model
-	if (current_voice_model != voice):
-		base_speaker_emb = load_model(voice)
-	model_type = 'xVAPitch'
-	pace = pacing if pacing else 1.0
-	save_path = '/tmp/xvapitch_audio_sample.wav'
-	language = lang
-	use_sr = 0
-	use_cleanup = 0
-	pluginsContext = {}
-	pluginsContext["mantella_settings"] = {
-		"emAngry": (anger if anger > 0 else 0),
-		"emHappy": (happy if happy > 0 else 0),
-		"emSad": (sad if sad > 0 else 0),
-		"emSurprise": (surprise if surprise > 0 else 0),
-		"run_model": use_deepmoji
-	}
-	data = {
-		'pluginsContext': json.dumps(pluginsContext),
-		'modelType': model_type,
-		# pad with whitespaces as a workaround to avoid cutoffs
-		'sequence': input_text.center(len(input_text) + 2, ' '),
-		'pace': pace,
-		'outfile': save_path,
-		'vocoder': 'n/a',
-		'base_lang': language,
-		'base_emb': base_speaker_emb,
-		'useSR': use_sr,
-		'useCleanup': use_cleanup,
-	}
-	print('Synthesizing...')
-	try:
-		json_data = xvaserver.synthesize(data)
-		# response = requests.post('http://0.0.0.0:8008/synthesize', json=data, timeout=60)
-		# response.raise_for_status()  # If the response contains an HTTP error status code, raise an exception
-		# json_data = json.loads(response.text)
-	except requests.exceptions.RequestException as err:
-		print('FAILED to synthesize: {err}')
-		save_path = ''
-		response = {'text': '{"message": "Failed"}'}
-		json_data = {
-			'arpabet': ['Failed'],
-			'durations': [0],
-			'em_anger': anger,
-			'em_happy': happy,
-			'em_sad': sad,
-			'em_surprise': surprise,
 		}
-	# print('server.log contents:')
-	# with open('resources/app/server.log', 'r') as f:
-	# 	print(f.read())
-	arpabet_html = '<h6>ARPAbet & Phoneme lengths</h6>'
-	arpabet_symbols = json_data['arpabet'].split('|')
-	utter_time = 0
-	for symb_i in range(len(json_data['durations'])):
-		# skip PAD symbol
-		if (arpabet_symbols[symb_i] == '<PAD>'):
-			continue
-		length = float(json_data['durations'][symb_i])
-		arpa_length = str(round(length/2, 1))
-		arpabet_html += '<strong\
-			class="arpabet"\
-			style="padding: 0 '\
-			+ str(arpa_length)\
-			+'em"'\
-			+f" title=\"{utter_time} + {length}\""\
-			+'>'\
-			+ arpabet_symbols[symb_i]\
-			+ '</strong> '
-		utter_time += round(length, 1)
-	return [
-		save_path,
-		arpabet_html,
-		round(json_data['em_angry'][0], 2),
-		round(json_data['em_happy'][0], 2),
-		round(json_data['em_sad'][0], 2),
-		round(json_data['em_surprise'][0], 2),
-		json_data
-	]
-input_textbox = gr.Textbox(
-	label="Input Text",
-	value="This is what my voice sounds like.",
-	info="Also accepts ARPAbet symbols placed within {} brackets.",
-	lines=1,
-	max_lines=5,
-	autofocus=True
-)
-pacing_slider = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Duration")
-pitch_slider = gr.Slider(0, 1.0, value=0.5, step=0.05, label="Pitch", visible=False)
-energy_slider = gr.Slider(0.1, 1.0, value=1.0, step=0.05, label="Energy", visible=False)
-anger_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😠 Anger", info="Tread lightly beyond 0.9")
-happy_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😃 Happiness", info="Tread lightly beyond 0.7")
-sad_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😭 Sadness", info="Duration increased when beyond 0.2")
-surprise_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😮 Surprise", info="Does not play well with Happiness with either being beyond 0.3")
-voice_radio = gr.Radio(
-	voice_models,
-	value="ccby_nvidia_hifi_6671_M",
-	label="Voice",
-	info="NVIDIA HIFI CC-BY-4.0 xVAPitch voice model"
-)
-def set_default_text(lang, deepmoji_checked):
-	# DeepMoji only works on English Text
-	# checkbox_enabled = True
-	# if lang != 'en':
-	# 	checkbox_enabled = False
-	if lang == 'en':
-		checkbox_enabled = gr.Checkbox(
-			label="Use DeepMoji",
-			info="Auto adjust emotional values",
-			value=deepmoji_checked,
-			interactive=True
-		)
-	else:
-		checkbox_enabled = gr.Checkbox(
-			label="Use DeepMoji",
-			info="Works only with English!",
-			value=False,
-			interactive=False
-		)
-	return default_text[lang], checkbox_enabled  # Return the modified textbox (important for Blocks)
-en_examples = [
-	"This is what my voice sounds like.",
-	"If there is anything else you need, feel free to ask.",
-	"Amazing! Could you do that again?",
-	"Why, I would be more than happy to help you!",
-	"That was unexpected.",
-	"How dare you! . You have no right.",
-	"Ahh, well, you see. There is more to it.",
-	"I can't believe she is gone.",
-	"Stay out of my way!!!",
-	# ARPAbet example
-	"This { IH1 Z } { W AH1 T } { M AY1 } { V OY1 S } { S AW1 N D Z } like.",
-]
-def set_example_as_input(example_text):
-	return example_text
-def reset_em_sliders(
-	deepmoji_enabled,
-	anger,
-	happy,
-	sad,
-	surprise
-):
-	if (deepmoji_enabled):
-		return (0, 0, 0, 0)
-	else:
-		return (
-			anger,
-			happy,
-			sad,
-			surprise
-		)
-def set_default_audio(voice_id):
-	return models_path + voice_id + '.wav'
-def toggle_deepmoji(
-	checked,
-	anger,
-	happy,
-	sad,
-	surprise
-):
-	if checked:
-		return (0, 0, 0, 0)
-	else:
-		return (
-			anger,
-			happy,
-			sad,
-			surprise
-		)
-language_radio = gr.Radio(
-	languages,
-	value="en",
-	label="Language",
-	info="Will be more monotone and have an English accent. Tested mostly by a native Briton."
-)
-_DESCRIPTION = '''
-<div>
-<a style="display:inline-block;" href="https://github.com/DanRuta/xVA-Synth"><img src='https://img.shields.io/github/stars/DanRuta/xVA-Synth?style=social'/></a>
-<a style="display:inline-block;" href="https://www.nexusmods.com/skyrimspecialedition/mods/44184"><img src='https://img.shields.io/badge/Endorsements-3.3k-blue?logo=nexusmods'/></a>
-<a style="display:inline-block; margin-left: .5em" href="https://discord.gg/nv7c6E2TzV"><img src='https://img.shields.io/discord/794590496202293278.svg?label=&logo=discord&logoColor=ffffff&color=7389D8&labelColor=6A7EC2'/></a>
-<span style="display: inline-block;margin-left: .5em;vertical-align: top;"><a href="https://huggingface.co/spaces/Pendrokar/xVASynth?duplicate=true" style="" target="_blank"><img style="margin-bottom: 0em;display: inline;" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a> for a personal CPU-run one</span>
-</div>
-'''
-with gr.Blocks(css=".arpabet {display: inline-block; background-color: gray; border-radius: 5px; font-size: 120%; margin: 0.1em 0}") as demo:
-	gr.Markdown("# xVASynth TTS")
-	gr.HTML(label="description", value=_DESCRIPTION)
-	with gr.Row():  # Main row for inputs and language selection
-		with gr.Column():  # Input column
-			input_textbox = gr.Textbox(
-				label="Input Text",
-				value="This is what my voice sounds like.",
-				info="Also accepts ARPAbet symbols placed within {} brackets.",
-				lines=1,
-				max_lines=5,
-				autofocus=True
-			)
-			language_radio = gr.Radio(
-				languages,
-				value="en",
-				label="Language",
-				info="Will be more monotone and have an English accent. Tested mostly by a native Briton."
-			)
-			with gr.Row():
-				with gr.Column():
-					en_examples_dropdown = gr.Dropdown(
-						en_examples,
-						value=en_examples[0],
-						label="Example dropdown",
-						show_label=False,
-						info="English Examples",
-						visible=(language_radio.value == 'en')
-					)
-				with gr.Column():
-					pacing_slider = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Duration")
-		with gr.Column():  # Control column
-			voice_radio = gr.Radio(
-				voice_models,
-				value="ccby_nvidia_hifi_6671_M",
-				label="Voice",
-				info="NVIDIA HIFI CC-BY-4.0 xVAPitch voice model"
-			)
-			pitch_slider = gr.Slider(0, 1.0, value=0.5, step=0.05, label="Pitch", visible=False)
-			energy_slider = gr.Slider(0.1, 1.0, value=1.0, step=0.05, label="Energy", visible=False)
-			with gr.Row():  # Main row for inputs and language selection
-				with gr.Column():  # Input column
-					anger_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😠 Anger", info="Tread lightly beyond 0.9")
-					sad_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😭 Sadness", info="Duration increased when beyond 0.2")
-				with gr.Column():  # Input column
-					happy_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😃 Happiness", info="Tread lightly beyond 0.7")
-					surprise_slider = gr.Slider(0, 1.0, value=0, step=0.05, label="😮 Surprise", info="Can oversaturate Happiness")
-			deepmoji_checkbox = gr.Checkbox(label="Use DeepMoji", info="Auto adjust emotional values", value=True)
-	# Event handling using click
-	btn = gr.Button("Generate", variant="primary")
-	with gr.Row():  # Main row for inputs and language selection
-		with gr.Column():  # Input column
-			output_wav = gr.Audio(
-				label="22kHz audio output (autoplay enabled)",
-				type="filepath",
-				editable=False,
-				autoplay=True
-			)
-		with gr.Column():  # Input column
-			output_arpabet = gr.HTML(label="ARPAbet")
-	btn.click(
-		fn=predict,
-		inputs=[
-			input_textbox,
-			voice_radio,
-			language_radio,
-			pacing_slider,
-			pitch_slider,
-			energy_slider,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider,
-			deepmoji_checkbox
-		],
-		outputs=[
-			output_wav,
-			output_arpabet,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider,
-			# xVAServer response
-			gr.Textbox(visible=False)
-		]
-	)
-	input_textbox.submit(
-		fn=predict,
-		inputs=[
-			input_textbox,
-			voice_radio,
-			language_radio,
-			pacing_slider,
-			pitch_slider,
-			energy_slider,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider,
-			deepmoji_checkbox
-		],
-		outputs=[
-			output_wav,
-			output_arpabet,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider,
-			# xVAServer response
-			gr.Textbox(visible=False)
-		]
-	)
-	language_radio.change(
-		set_default_text,
-		inputs=[language_radio, deepmoji_checkbox],
-		outputs=[input_textbox, deepmoji_checkbox]
-	)
-	en_examples_dropdown.change(
-		set_example_as_input,
-		inputs=[en_examples_dropdown],
-		outputs=[input_textbox]
-	)
-	deepmoji_checkbox.change(
-		toggle_deepmoji,
-		inputs=[
-			deepmoji_checkbox,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		outputs=[
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		]
-	)
-	input_textbox.change(
-		reset_em_sliders,
-		inputs=[
-			deepmoji_checkbox,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		outputs=[
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		]
-	)
-	voice_radio.change(
-		reset_em_sliders,
-		inputs=[
-			deepmoji_checkbox,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		outputs=[
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
 		]
-	)
-	voice_radio.change(
-		set_default_audio,
-		inputs=voice_radio,
-		outputs=output_wav
-	)
 if __name__ == "__main__":
 	print('running custom Gradio interface')
-	demo.launch()

 import os
 import sys
 import requests
 import json
 from huggingface_hub import HfApi
 # start xVASynth service (no HTTP)
 import resources.app.no_server as xvaserver
+from gr_client import BlocksDemo
 # model
 hf_model_name = "Pendrokar/xvapitch_nvidia"
 model_repo = HfApi()
 hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
 models_path = hf_cache_models_path
 current_voice_model = None
 base_speaker_emb = ''
 def load_model(voice_model_name):
 	model_path =  models_path + voice_model_name
 	return embs
+class LocalBlocksDemo(BlocksDemo):
+	def predict(
+		self,
+		input_text,
+		voice,
+		lang,
+		pacing,
+		pitch,
+		energy,
+		anger,
+		happy,
+		sad,
+		surprise,
+		use_deepmoji
+	):
+		# grab only the first 1000 characters
+		input_text = input_text[:1000]
+		# load voice model if not the current model
+		if (current_voice_model != voice):
+			base_speaker_emb = load_model(voice)
+		model_type = 'xVAPitch'
+		pace = pacing if pacing else 1.0
+		save_path = '/tmp/xvapitch_audio_sample.wav'
+		language = lang
+		use_sr = 0
+		use_cleanup = 0
+		pluginsContext = {}
+		pluginsContext["mantella_settings"] = {
+			"emAngry": (anger if anger > 0 else 0),
+			"emHappy": (happy if happy > 0 else 0),
+			"emSad": (sad if sad > 0 else 0),
+			"emSurprise": (surprise if surprise > 0 else 0),
+			"run_model": use_deepmoji
 		}
+		data = {
+			'pluginsContext': json.dumps(pluginsContext),
+			'modelType': model_type,
+			# pad with whitespaces as a workaround to avoid cutoffs
+			'sequence': input_text.center(len(input_text) + 2, ' '),
+			'pace': pace,
+			'outfile': save_path,
+			'vocoder': 'n/a',
+			'base_lang': language,
+			'base_emb': base_speaker_emb,
+			'useSR': use_sr,
+			'useCleanup': use_cleanup,
+		}
+		print('Synthesizing...')
+		try:
+			json_data = xvaserver.synthesize(data)
+			# response = requests.post('http://0.0.0.0:8008/synthesize', json=data, timeout=60)
+			# response.raise_for_status()  # If the response contains an HTTP error status code, raise an exception
+			# json_data = json.loads(response.text)
+		except requests.exceptions.RequestException as err:
+			print('FAILED to synthesize: {err}')
+			save_path = ''
+			response = {'text': '{"message": "Failed"}'}
+			json_data = {
+				'arpabet': ['Failed'],
+				'durations': [0],
+				'em_anger': anger,
+				'em_happy': happy,
+				'em_sad': sad,
+				'em_surprise': surprise,
+			}
+		# print('server.log contents:')
+		# with open('resources/app/server.log', 'r') as f:
+		# 	print(f.read())
+		arpabet_html = '<h6>ARPAbet & Phoneme lengths</h6>'
+		arpabet_symbols = json_data['arpabet'].split('|')
+		utter_time = 0
+		for symb_i in range(len(json_data['durations'])):
+			# skip PAD symbol
+			if (arpabet_symbols[symb_i] == '<PAD>'):
+				continue
+			length = float(json_data['durations'][symb_i])
+			arpa_length = str(round(length/2, 1))
+			arpabet_html += '<strong\
+				class="arpabet"\
+				style="padding: 0 '\
+				+ str(arpa_length)\
+				+'em"'\
+				+f" title=\"{utter_time} + {length}\""\
+				+'>'\
+				+ arpabet_symbols[symb_i]\
+				+ '</strong> '
+			utter_time += round(length, 1)
+		return [
+			save_path,
+			arpabet_html,
+			round(json_data['em_angry'][0], 2),
+			round(json_data['em_happy'][0], 2),
+			round(json_data['em_sad'][0], 2),
+			round(json_data['em_surprise'][0], 2),
+			json_data
 		]
 if __name__ == "__main__":
 	print('running custom Gradio interface')
+	demo = LocalBlocksDemo()
+	demo.block.launch()

gr_client.py CHANGED Viewed

@@ -1,9 +1,5 @@
 import os
-import sys
-import time
-import requests
 import json
-from huggingface_hub import hf_hub_download
 import gradio as gr
 from gradio_client import Client
@@ -21,7 +17,6 @@ voice_models_more = [
 	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
 	("Female #9136", "ccby_nvidia_hifi_9136_F"),
 ]
-current_voice_model = None
 # order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
 languages = [
@@ -89,71 +84,6 @@ default_text = {
 	"zh": "这是我的声音。",
 }
-def predict(
-	input_text,
-	voice,
-	lang,
-	pacing,
-	pitch,
-	energy,
-	anger,
-	happy,
-	sad,
-	surprise,
-	deepmoji_checked
-):
-	wav_path, arpabet_html, angry, happy, sad, surprise, response = client.predict(
-		input_text,	# str  in 'Input Text' Textbox component
-		voice,	# Literal['ccby_nvidia_hifi_6670_M', 'ccby_nv_hifi_11614_F', 'ccby_nvidia_hifi_11697_F', 'ccby_nvidia_hifi_12787_F', 'ccby_nvidia_hifi_6097_M', 'ccby_nvidia_hifi_6671_M', 'ccby_nvidia_hifi_8051_F', 'ccby_nvidia_hifi_9017_M', 'ccby_nvidia_hifi_9136_F', 'ccby_nvidia_hifi_92_F']  in 'Voice' Radio component
-		lang,	# Literal['en', 'de', 'es', 'it', 'fr', 'ru', 'tr', 'la', 'ro', 'da', 'vi', 'ha', 'nl', 'zh', 'ar', 'uk', 'hi', 'ko', 'pl', 'sw', 'fi', 'hu', 'pt', 'yo', 'sv', 'el', 'wo', 'jp']  in 'Language' Radio component
-		pacing,	# float (numeric value between 0.5 and 2.0) in 'Duration' Slider component
-		pitch,	# float (numeric value between 0 and 1.0) in 'Pitch' Slider component
-		energy,	# float (numeric value between 0.1 and 1.0) in 'Energy' Slider component
-		anger,	# float (numeric value between 0 and 1.0) in '😠 Anger' Slider component
-		happy,	# float (numeric value between 0 and 1.0) in '😃 Happiness' Slider component
-		sad,	# float (numeric value between 0 and 1.0) in '😭 Sadness' Slider component
-		surprise,	# float (numeric value between 0 and 1.0) in '😮 Surprise' Slider component
-		deepmoji_checked, # bool
-		api_name="/predict"
-	)
-	json_data = json.loads(response.replace("'", '"'))
-	arpabet_html = '<h6>ARPAbet & Durations</h6>'
-	arpabet_html += '<table style="margin: 0 var(--size-2)"><tbody><tr>'
-	arpabet_nopad = json_data['arpabet'].split('|PAD|')
-	arpabet_symbols = json_data['arpabet'].split('|')
-	wpad_len = len(arpabet_symbols)
-	nopad_len = len(arpabet_nopad)
-	total_dur_length = 0
-	for symb_i in range(wpad_len):
-		if (arpabet_symbols[symb_i] == '<PAD>'):
-			continue
-		total_dur_length += float(json_data['durations'][symb_i])
-	for symb_i in range(wpad_len):
-		if (arpabet_symbols[symb_i] == '<PAD>'):
-			continue
-		arpabet_length = float(json_data['durations'][symb_i])
-		cell_width = round(arpabet_length / total_dur_length * 100, 2)
-		arpabet_html += '<td class="arpabet" style="width: '\
-			+ str(cell_width)\
-			+'%">'\
-			+ arpabet_symbols[symb_i]\
-			+ '</td> '
-	arpabet_html += '<tr></tbody></table>'
-	return [
-		wav_path,
-		arpabet_html,
-		round(json_data['em_angry'][0], 2),
-		round(json_data['em_happy'][0], 2),
-		round(json_data['em_sad'][0], 2),
-		round(json_data['em_surprise'][0], 2)
-	]
 # Component defaults
 input_textbox_init = {
 	'label': "Input Text",
@@ -232,7 +162,7 @@ deepmoji_checkbox_init = {
 }
 def more_lang_options(lang):
-	print('more_lang_options')
 	if lang != 'more':
 		return lang
@@ -241,10 +171,14 @@ def more_lang_options(lang):
 	return gr.Radio(**radio_init)
 def set_default_text(lang, deepmoji_checked):
-	print('set_default_text')
 	if lang == 'more':
-		return default_text['en'], deepmoji_checked
-		# return gr.Textbox(**input_textbox_init), deepmoji_checked
 	# DeepMoji only works on English Text
 	checkbox_init = {**deepmoji_checkbox_init}
@@ -257,9 +191,9 @@ def set_default_text(lang, deepmoji_checked):
 		# checkbox_init['info'] = "Works only with English!",
 		# checkbox_init['value'] = False,
 		# checkbox_init['interactive'] = False
-	# checkbox_enabled = gr.Checkbox(**checkbox_init)
-	return default_text[lang], deepmoji_checked
 # examples component
 en_examples = [
@@ -285,11 +219,11 @@ en_examples_dropdown_init = {
 }
 def set_example_as_input(example_text):
-	print('set_example_as_input')
 	return example_text
 def toggle_example_dropdown(lang):
-	print('toggle_example_dropdown')
 	dropdown_init = {**en_examples_dropdown_init}
 	if lang == 'en':
 		dropdown_init['visible'] = True
@@ -299,7 +233,7 @@ def toggle_example_dropdown(lang):
 	return gr.Dropdown(**dropdown_init)
 def more_voice_options(voice):
-	print('more_voice_options')
 	if voice != 'more':
 		return voice
@@ -314,7 +248,7 @@ def reset_em_sliders(
 	sad,
 	surprise
 ):
-	print('reset_em_sliders')
 	if (deepmoji_enabled):
 		return (0, 0, 0, 0)
 	else:
@@ -332,7 +266,7 @@ def toggle_deepmoji(
 	sad,
 	surprise
 ):
-	print('toggle_deepmoji')
 	if checked:
 		return (0, 0, 0, 0)
 	else:
@@ -348,190 +282,263 @@ language_radio_init = {
 	'choices': [*languages, *[(f'+{len(languages_more)}', 'more')]],
 	'value': "en",
 	'label': "Language",
-	'info': "Will be more monotone and have an English accent. Tested mostly by a native Briton."
 }
 _DESCRIPTION = '''
 <div>
 <a style="display:inline-block;" href="https://github.com/DanRuta/xVA-Synth"><img src='https://img.shields.io/github/stars/DanRuta/xVA-Synth?style=social'/></a>
-<a style="display:inline-block;" href="https://www.nexusmods.com/skyrimspecialedition/mods/44184"><img src='https://img.shields.io/badge/Endorsements-3.3k-blue?logo=nexusmods'/></a>
 <a style="display:inline-block; margin-left: .5em" href="https://discord.gg/nv7c6E2TzV"><img src='https://img.shields.io/discord/794590496202293278.svg?label=&logo=discord&logoColor=ffffff&color=7389D8&labelColor=6A7EC2'/></a>
 <span style="display: inline-block;margin-left: .5em;vertical-align: top;"><a href="https://huggingface.co/spaces/Pendrokar/xVASynth?duplicate=true" style="" target="_blank"><img style="margin-bottom: 0em;display: inline;" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a> for a personal CPU-run one</span>
 </div>
 '''
-with gr.Blocks(css=".arpabet {background-color: gray; border-radius: 5px; font-size: 120%; padding: 0 0.1em; margin: 0 0.1em; text-align: center}") as demo:
-	gr.Markdown("# xVASynth TTS")
-	gr.HTML(label="description", value=_DESCRIPTION)
-	with gr.Row():  # Main row for inputs and language selection
-		with gr.Column():  # Input column
-			input_textbox = gr.Textbox(**input_textbox_init)
-			language_radio = gr.Radio(**language_radio_init)
-			with gr.Row():
-				with gr.Column():
-					en_examples_dropdown = gr.Dropdown(**en_examples_dropdown_init)
-				with gr.Column():
-					pacing_slider = gr.Slider(**pacing_slider_init)
-		with gr.Column():  # Control column
-			voice_radio = gr.Radio(**voice_radio_init)
-			pitch_slider = gr.Slider(**pitch_slider_init)
-			energy_slider = gr.Slider(**energy_slider_init)
 			with gr.Row():  # Main row for inputs and language selection
 				with gr.Column():  # Input column
-					anger_slider = gr.Slider(**anger_slider_init)
-					sad_slider = gr.Slider(**sad_slider_init)
-				with gr.Column():  # Input column
-					happy_slider = gr.Slider(**happy_slider_init)
-					surprise_slider = gr.Slider(**surprise_slider_init)
-			deepmoji_checkbox = gr.Checkbox(label="Use DeepMoji", info="Auto adjust emotional values", value=True)
-	# Event handling using click
-	btn = gr.Button("Generate", variant="primary")
-	# with gr.Row():  # Main row for inputs and language selection
-	# 	with gr.Column():  # Input column
-	output_wav = gr.Audio(
-		label="22kHz audio output",
-		type="filepath",
-		editable=False,
-		autoplay=True
-	)
-		# with gr.Column():  # Input column
-	output_arpabet = gr.HTML(label="ARPAbet")
-	btn.click(
-		fn=predict,
-		inputs=[
-			input_textbox,
-			voice_radio,
-			language_radio,
-			pacing_slider,
-			pitch_slider,
-			energy_slider,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider,
-			deepmoji_checkbox
-		],
-		outputs=[
-			output_wav,
-			output_arpabet,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
 		]
-	)
-	# more languages option
-	language_radio.change(
-		more_lang_options,
-		inputs=language_radio,
-		outputs=language_radio,
-		trigger_mode='once',
-		show_progress='hidden',
-	)
-	# more voices option
-	voice_radio.change(
-		more_voice_options,
-		inputs=voice_radio,
-		outputs=voice_radio,
-		trigger_mode='once',
-		show_progress='hidden',
-		queue=False,
-	)
-	# set default text
-	language_radio.change(
-		set_default_text,
-		inputs=[language_radio, deepmoji_checkbox],
-		outputs=[input_textbox, deepmoji_checkbox],
-		show_progress='hidden',
-		queue=False,
-	)
-	# toggle en examples
-	language_radio.change(
-		toggle_example_dropdown,
-		inputs=language_radio,
-		outputs=en_examples_dropdown,
-		show_progress='hidden',
-		queue=False,
-	)
-	en_examples_dropdown.change(
-		set_example_as_input,
-		inputs=[en_examples_dropdown],
-		outputs=[input_textbox],
-		show_progress='hidden',
-		queue=False,
-	)
-	deepmoji_checkbox.change(
-		toggle_deepmoji,
-		inputs=[
-			deepmoji_checkbox,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		outputs=[
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		show_progress='hidden',
-		queue=False,
-	)
-	input_textbox.change(
-		reset_em_sliders,
-		inputs=[
-			deepmoji_checkbox,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		outputs=[
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		show_progress='hidden',
-		queue=False,
-	)
-	voice_radio.change(
-		reset_em_sliders,
-		inputs=[
-			deepmoji_checkbox,
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		outputs=[
-			anger_slider,
-			happy_slider,
-			sad_slider,
-			surprise_slider
-		],
-		show_progress='hidden',
-		queue=False,
-	)
 if __name__ == "__main__":
 	print('running Gradio interface')
-	# gradio_app.launch()
 	client = Client("Pendrokar/xVASynth")
-	demo.launch()

 import os
 import json
 import gradio as gr
 from gradio_client import Client
 	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
 	("Female #9136", "ccby_nvidia_hifi_9136_F"),
 ]
 # order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
 languages = [
 	"zh": "这是我的声音。",
 }
 # Component defaults
 input_textbox_init = {
 	'label': "Input Text",
 }
 def more_lang_options(lang):
+	# print('more_lang_options')
 	if lang != 'more':
 		return lang
 	return gr.Radio(**radio_init)
 def set_default_text(lang, deepmoji_checked):
+	# print('set_default_text')
+	textbox_init = {**input_textbox_init}
 	if lang == 'more':
+		textbox_init['value'] = default_text['en']
+		# return default_text['en'], deepmoji_checked
+		return gr.Textbox(**textbox_init), deepmoji_checked
+	textbox_init['value'] = default_text[lang]
 	# DeepMoji only works on English Text
 	checkbox_init = {**deepmoji_checkbox_init}
 		# checkbox_init['info'] = "Works only with English!",
 		# checkbox_init['value'] = False,
 		# checkbox_init['interactive'] = False
+	# gr.Checkbox(**checkbox_init)
+	return gr.Textbox(**textbox_init), deepmoji_checked
 # examples component
 en_examples = [
 }
 def set_example_as_input(example_text):
+	# print('set_example_as_input')
 	return example_text
 def toggle_example_dropdown(lang):
+	# print('toggle_example_dropdown')
 	dropdown_init = {**en_examples_dropdown_init}
 	if lang == 'en':
 		dropdown_init['visible'] = True
 	return gr.Dropdown(**dropdown_init)
 def more_voice_options(voice):
+	# print('more_voice_options')
 	if voice != 'more':
 		return voice
 	sad,
 	surprise
 ):
+	# print('reset_em_sliders')
 	if (deepmoji_enabled):
 		return (0, 0, 0, 0)
 	else:
 	sad,
 	surprise
 ):
+	# print('toggle_deepmoji')
 	if checked:
 		return (0, 0, 0, 0)
 	else:
 	'choices': [*languages, *[(f'+{len(languages_more)}', 'more')]],
 	'value': "en",
 	'label': "Language",
+	'info': "Will be more monotone and have an English accent."
 }
 _DESCRIPTION = '''
 <div>
 <a style="display:inline-block;" href="https://github.com/DanRuta/xVA-Synth"><img src='https://img.shields.io/github/stars/DanRuta/xVA-Synth?style=social'/></a>
+<a style="display:inline-block;" href="https://www.nexusmods.com/skyrimspecialedition/mods/44184"><img src='https://img.shields.io/badge/Endorsements-3.4k-blue?logo=nexusmods'/></a>
 <a style="display:inline-block; margin-left: .5em" href="https://discord.gg/nv7c6E2TzV"><img src='https://img.shields.io/discord/794590496202293278.svg?label=&logo=discord&logoColor=ffffff&color=7389D8&labelColor=6A7EC2'/></a>
 <span style="display: inline-block;margin-left: .5em;vertical-align: top;"><a href="https://huggingface.co/spaces/Pendrokar/xVASynth?duplicate=true" style="" target="_blank"><img style="margin-bottom: 0em;display: inline;" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a> for a personal CPU-run one</span>
 </div>
 '''
+class BlocksDemo:
+	def __init__(self):
+		with gr.Blocks(css=".arpabet {background-color: gray; border-radius: 5px; font-size: 120%; padding: 0 0.1em; margin: 0 0.1em; text-align: center}") as demo:
+			gr.Markdown("# xVASynth TTS")
+			gr.HTML(label="description", value=_DESCRIPTION)
 			with gr.Row():  # Main row for inputs and language selection
 				with gr.Column():  # Input column
+					input_textbox = gr.Textbox(**input_textbox_init)
+					language_radio = gr.Radio(**language_radio_init)
+					# remove autofocus
+					input_textbox_init['autofocus'] = False
+					with gr.Row():
+						with gr.Column():
+							en_examples_dropdown = gr.Dropdown(**en_examples_dropdown_init)
+						with gr.Column():
+							pacing_slider = gr.Slider(**pacing_slider_init)
+				with gr.Column():  # Control column
+					voice_radio = gr.Radio(**voice_radio_init)
+					pitch_slider = gr.Slider(**pitch_slider_init)
+					energy_slider = gr.Slider(**energy_slider_init)
+					with gr.Row():  # Main row for inputs and language selection
+						with gr.Column():  # Input column
+							anger_slider = gr.Slider(**anger_slider_init)
+							sad_slider = gr.Slider(**sad_slider_init)
+						with gr.Column():  # Input column
+							happy_slider = gr.Slider(**happy_slider_init)
+							surprise_slider = gr.Slider(**surprise_slider_init)
+					deepmoji_checkbox = gr.Checkbox(**deepmoji_checkbox_init)
+			# Event handling using click
+			btn = gr.Button("Generate", variant="primary")
+			# with gr.Row():  # Main row for inputs and language selection
+			# 	with gr.Column():  # Input column
+			output_wav = gr.Audio(
+				label="22kHz audio output",
+				type="filepath",
+				editable=False,
+				autoplay=True
+			)
+				# with gr.Column():  # Input column
+			output_arpabet = gr.HTML(label="ARPAbet")
+			btn.click(
+				fn=self.predict,
+				inputs=[
+					input_textbox,
+					voice_radio,
+					language_radio,
+					pacing_slider,
+					pitch_slider,
+					energy_slider,
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider,
+					deepmoji_checkbox
+				],
+				outputs=[
+					output_wav,
+					output_arpabet,
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				]
+			)
+			# more languages option
+			language_radio.change(
+				more_lang_options,
+				inputs=language_radio,
+				outputs=language_radio,
+				trigger_mode='once',
+				show_progress='hidden',
+			)
+			# more voices option
+			voice_radio.change(
+				more_voice_options,
+				inputs=voice_radio,
+				outputs=voice_radio,
+				trigger_mode='once',
+				show_progress='hidden',
+				queue=False,
+			)
+			# set default text
+			language_radio.change(
+				set_default_text,
+				inputs=[language_radio, deepmoji_checkbox],
+				outputs=[input_textbox, deepmoji_checkbox],
+				show_progress='hidden',
+				queue=False,
+			)
+			# toggle en examples
+			language_radio.change(
+				toggle_example_dropdown,
+				inputs=language_radio,
+				outputs=en_examples_dropdown,
+				show_progress='hidden',
+				queue=False,
+			)
+			en_examples_dropdown.change(
+				set_example_as_input,
+				inputs=[en_examples_dropdown],
+				outputs=[input_textbox],
+				show_progress='hidden',
+				queue=False,
+			)
+			deepmoji_checkbox.change(
+				toggle_deepmoji,
+				inputs=[
+					deepmoji_checkbox,
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				],
+				outputs=[
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				],
+				show_progress='hidden',
+				queue=False,
+			)
+			input_textbox.change(
+				reset_em_sliders,
+				inputs=[
+					deepmoji_checkbox,
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				],
+				outputs=[
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				],
+				show_progress='hidden',
+				queue=False,
+			)
+			voice_radio.change(
+				reset_em_sliders,
+				inputs=[
+					deepmoji_checkbox,
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				],
+				outputs=[
+					anger_slider,
+					happy_slider,
+					sad_slider,
+					surprise_slider
+				],
+				show_progress='hidden',
+				queue=False,
+			)
+		self.block = demo
+	def predict(
+		self,
+		input_text,
+		voice,
+		lang,
+		pacing,
+		pitch,
+		energy,
+		anger,
+		happy,
+		sad,
+		surprise,
+		deepmoji_checked
+	):
+		wav_path, arpabet_html, angry, happy, sad, surprise, response = client.predict(
+			input_text,	# str  in 'Input Text' Textbox component
+			voice,	# Literal['ccby_nvidia_hifi_6670_M', 'ccby_nv_hifi_11614_F', 'ccby_nvidia_hifi_11697_F', 'ccby_nvidia_hifi_12787_F', 'ccby_nvidia_hifi_6097_M', 'ccby_nvidia_hifi_6671_M', 'ccby_nvidia_hifi_8051_F', 'ccby_nvidia_hifi_9017_M', 'ccby_nvidia_hifi_9136_F', 'ccby_nvidia_hifi_92_F']  in 'Voice' Radio component
+			lang,	# Literal['en', 'de', 'es', 'it', 'fr', 'ru', 'tr', 'la', 'ro', 'da', 'vi', 'ha', 'nl', 'zh', 'ar', 'uk', 'hi', 'ko', 'pl', 'sw', 'fi', 'hu', 'pt', 'yo', 'sv', 'el', 'wo', 'jp']  in 'Language' Radio component
+			pacing,	# float (numeric value between 0.5 and 2.0) in 'Duration' Slider component
+			pitch,	# float (numeric value between 0 and 1.0) in 'Pitch' Slider component
+			energy,	# float (numeric value between 0.1 and 1.0) in 'Energy' Slider component
+			anger,	# float (numeric value between 0 and 1.0) in '😠 Anger' Slider component
+			happy,	# float (numeric value between 0 and 1.0) in '😃 Happiness' Slider component
+			sad,	# float (numeric value between 0 and 1.0) in '😭 Sadness' Slider component
+			surprise,	# float (numeric value between 0 and 1.0) in '😮 Surprise' Slider component
+			deepmoji_checked, # bool
+			api_name="/predict"
+		)
+		json_data = json.loads(response.replace("'", '"'))
+		arpabet_html = '<h6>ARPAbet & Durations</h6>'
+		arpabet_html += '<table style="margin: 0 var(--size-2)"><tbody><tr>'
+		arpabet_nopad = json_data['arpabet'].split('|PAD|')
+		arpabet_symbols = json_data['arpabet'].split('|')
+		wpad_len = len(arpabet_symbols)
+		nopad_len = len(arpabet_nopad)
+		total_dur_length = 0
+		for symb_i in range(wpad_len):
+			if (arpabet_symbols[symb_i] == '<PAD>'):
+				continue
+			total_dur_length += float(json_data['durations'][symb_i])
+		for symb_i in range(wpad_len):
+			if (arpabet_symbols[symb_i] == '<PAD>'):
+				continue
+			arpabet_length = float(json_data['durations'][symb_i])
+			cell_width = round(arpabet_length / total_dur_length * 100, 2)
+			arpabet_html += '<td class="arpabet" style="width: '\
+				+ str(cell_width)\
+				+'%">'\
+				+ arpabet_symbols[symb_i]\
+				+ '</td> '
+		arpabet_html += '<tr></tbody></table>'
+		return [
+			wav_path,
+			arpabet_html,
+			round(json_data['em_angry'][0], 2),
+			round(json_data['em_happy'][0], 2),
+			round(json_data['em_sad'][0], 2),
+			round(json_data['em_surprise'][0], 2)
 		]
 if __name__ == "__main__":
 	print('running Gradio interface')
 	client = Client("Pendrokar/xVASynth")
+	demo = BlocksDemo()
+	demo.block.launch()