Текстовый ввод - неудобство нейросетей, а не их плюс
Популярность ChatGPT и других подобных узконишевых продуктов мешает многим понять, что в большинстве случаев не нужен текстовый ввод, а тем более голосовой.
Во многих случаях выбор по меню или с помощью диалоговых окон гораздо удобнее.
Например, совершенно очевидно, что гораздо удобнее вручную разместить персонажей картины в нужных местах, а также настроить точный вид каждого из них, чем надеяться на нейросеть. Тогда задник (в 2d-варианте) или 3d-фон можно будет выбирать отдельно от людей и при этом появится возможность посмотреть предварительный вид картинки. Это позволит получить именно задуманную композицию, а не случайно вышедший бред.