Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 548 140 191
Stable Diffusion технотред #17 /tech/ Аноним 26/05/24 Вск 19:29:25 758561 1
.png 1212Кб, 3510x2910
3510x2910
.png 507Кб, 2546x1822
2546x1822
.png 297Кб, 1853x624
1853x624
.png 272Кб, 1280x490
1280x490
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются

Предыдущий тред: >>639060 (OP)

➤ Софт для обучения

https://github.com/kohya-ss/sd-scripts
Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах.
Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss

➤ GUI-обёртки для sd-scripts

https://github.com/bmaltais/kohya_ss
https://github.com/derrian-distro/LoRA_Easy_Training_Scripts
https://github.com/anon-1337/LoRA-train-GUI

➤ Обучение SDXL

https://2ch-ai.gitgud.site/wiki/tech/sdxl/

➤ Гайды по обучению

Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.

LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам:
https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов
https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA
https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)

LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге:
https://github.com/KohakuBlueleaf/LyCORIS

Подробнее про алгоритмы в вики https://2ch-ai.gitgud.site/wiki/tech/lycoris/

Dreambooth – для SD 1.5 обучение доступно начиная с 16 GB VRAM. Ни одна из потребительских карт не осилит тренировку будки для SDXL. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://rentry.co/lycoris-and-lora-from-dreambooth (англ.)
https://github.com/nitrosocke/dreambooth-training-guide (англ.)

Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet:
https://rentry.org/textard (англ.)

➤ Тренировка YOLO-моделей для ADetailer:
YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.

Подробнее в вики: https://2ch-ai.gitgud.site/wiki/tech/yolo/

Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.

➤ Гугл колабы

﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA: https://colab.research.google.com/github/hollowstrawberry/kohya-colab/blob/main/Lora_Trainer.ipynb

➤ Полезное

Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.)

Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)

Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
https://rentry.org/2ch_nai_guide#апскейл
https://rentry.org/UpscaleByControl

Коллекция лор от анонов: https://rentry.org/2chAI_LoRA

Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdgoldmine
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/badhands/makesomefuckingporn
https://rentry.org/ponyxl_loras_n_stuff

➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией

https://2ch-ai.gitgud.site/wiki/tech/legacy/

➤ Прошлые треды

https://2ch-ai.gitgud.site/wiki/tech/old_threads/

Шапка: https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/
Аноним 27/05/24 Пнд 18:18:18 760095 2
Наконец выяснил, как миксовать SDXL с PonyXL.

Авторы мерджей применяют технику мерджа "DARE", чтобы соединять максимально непохожие модели одной архитектуры. Я сделал мердж comradexl, ponymagine, anythingxl и использовал его как прекурсор для дальнейшего мерджа, теперь идет как по маслу. Но фоны все равно мыльные. Интересно, встанет ли всё это поверх Pony7.
Аноним 27/05/24 Пнд 19:12:48 760180 3
>>760095
>Pony7
До нее же еще далеко
Аноним 27/05/24 Пнд 22:14:08 760638 4
>>754712 →
>>753076 →
На, сравнивай, хоть обгенерься.

https://huggingface.co/spaces/VikramSingh178/Kandinsky-3

Это кривой жопой обученное говно никому, кроме сбера не нужно.
Сколько они его пилили? Года полтора? За это время СД эволюционировал за счет энтузиастов анмимешников до вполне удобного и рабочего инструмента. Без бабла, без "команды продукта".
Аноним 27/05/24 Пнд 22:50:32 760730 5
Аноним 27/05/24 Пнд 23:36:43 760817 6
>>760730
Ща погуглил и оказывается, есть ComfyUI нода для Dare, вроде ничего сложного.
Аноним 28/05/24 Втр 11:53:53 761165 7
>>760817
Нихуя не понял как пользоваться
Аноним 28/05/24 Втр 12:22:58 761180 8
>>761165
а хотя нет вроде понял, но лучше бы чтобы воркфлоу >>760095 свой скинул для примера
Аноним 28/05/24 Втр 20:22:01 761654 9
>>760095
Там еще дейр мержер лор есть, ток у меня он не работает лол ругается на разные дименшоны.
А вообще конкретно по дейру че за че там отвечает? Реально гайд бы.
Аноним 29/05/24 Срд 01:22:51 762235 10
Habib-Bad-Gamma.jpg 107Кб, 1200x803
1200x803
Habib-Reinhard.jpg 103Кб, 1200x803
1200x803
tonemap0.png 874Кб, 1122x624
1122x624
tonemap1.png 890Кб, 1122x624
1122x624
>>758561 (OP)
Какой способ тренировки лор может найти эти мелкие отлчия между 2-мя практически одинаковыми картинками?
Перефразирую:
Как тренировать лору чтобы во время обучения сравнивались только пары пикч между собой? Например пик1 сравнивался только с пик2, а пик3 только с пик4 и т.д.
Аноним 29/05/24 Срд 01:47:55 762285 11
Untitled(1).jpg 111Кб, 702x682
702x682
Block merge это мощный инструмент контроля над юнетами от разных SDXL моделей...
С ним я смогу добавить к этой новой модели https://civitai.com/models/480956/anime-reality-interweaving?modelVersionId=534884 верхний слой от фотореалистичной модели, чтобы сделать фон еще реалистичнее, и нижний слой от маня-чекпойнта - чтобы стиль персонажа был более выразительным.

Чем выше, тем больше воздействует на композицию целиком, не трогая детали. Чем ниже - тем больше меняет детали, не трогая общую композицию. Middle - это про поверхности, их материалы и текстуры. (В первой версии OrangeMix автор плавно заменил миддл у NovelAI, взяв реалистичную модель с голыми японками).

Значение 1 означает - полностью оставить первую подключенную модель, 0 - полностью сделать из второй. Из моего опыта, верхние 3-5 слоёв в input влияют в основном на детали фона и освещение, 6-7 сильнее всего влияют на фон и могут его сломать. Если заменить только input_blocks 0 - то поменяются некоторые детали фона, одежда персонажа и её цвет, а персонаж останется прежним. С середины middle начинает влиять на текстуру кожи и структуру волос (но не расположение прядей). В низу middle начинает менять позу (точнее, конечности - включая принципы их расположения) и всю анатомию. В output меняет лицо, а в последнем output_blocks 11 серьезно меняет даже такие детали, как пряди волос. Есть и отдельная нода для мерджа клипов. CLIP из PonyXL ухудшает фон, но в теории может улучшить понимание Booru-концептов.

Есть вариант прибегать к пресетам (поставив в комфи ноду с пресетами), про них показано здесь https://civitai.com/articles/2370/model-merging-management-how-to-merge-stable-diffusion-models-to-fit-your-style
Аноним 29/05/24 Срд 07:54:34 762573 12
>>762235
> Перефразирую:
> Как тренировать лору чтобы во время обучения сравнивались только пары пикч между собой? Например пик1 сравнивался только с пик2, а пик3 только с пик4 и т.д.
Разделить по концептам с уникальными стартовыми токенами?

>>762285
Ты путешественник во времени? Как там в 2022?

> Block merge это мощный инструмент
дерьма
Аноним 29/05/24 Срд 12:17:02 762784 13
>>762235
Стандартный, просто теги разные поставь у обычной и тонмапленной картинки, и оно само различит. Точнее попробует различить - у него не бесконечная способность к генерализации. Главное выставь как можно больше тегов для абсолютно всего что есть на пикчах помимо твоей разницы, включая предметы, оттенки, действия и т.п. И подбери пикчи так, чтобы они были максимально непохожими друг на друга, и отличались только тонмаппингом. Иначе он будет клепать похожее на твои пикчи.

Но вообще лоры для этого недостаточно мне кажется, надо файнтюнить полноценно, хотя бы на 10к+ пикч. Тем более что тонмаппинг кривую можно налепить автоматически.

>практически одинаковыми картинками
Это для тебя почти одинаковыми. А у шоггота собственные критерии похожести.

Но вообще, нахуя тебе тонмаппинг кривую зашивать в нейронку? Ебанутая идея изначально, как по мне. Это же чисто автоматическая операция.
Аноним 29/05/24 Срд 12:20:34 762790 14
>>762235
>Например пик1 сравнивался только с пик2, а пик3 только с пик4 и т.д.
Теги пик1: интерьер, вестибюль, балкон, диван, камин, домашняя обстановка, столик
Теги пик2: интерьер, вестибюль, балкон, диван, камин, домашняя обстановка, столик, пиздатый тонмаппинг

И он автоматически выводит разницу при обучении. Но надо овердохуя тегов для всего остального, чтобы он смог тщательно отделить тонмаппинг от всего остального. И овердохуя пар, чтобы не сошёлся на каком-то паразитном признаке.
Аноним 29/05/24 Срд 12:43:01 762837 15
>>762235
Утерянные знания https://rentry.co/Copier_LoRA вот это попробуй
>>762285
Интересные наблюдения, анонче, пробовал уже лучшее таким образом из разных аутизмов там для аниме анатомии вытаскивать например из моделей?
Аноним 29/05/24 Срд 13:02:33 762862 16
>>762285
Анон, это всё так не работает. Твои наблюдения не обобщаются, обычно одни отвечают за низкие частоты, другие за высокие, но не всегда, и обычно затрагивают совершенно несвязанные вещи. Протестировать вручную это невозможно, слишком большой объём.

По этой же причине невозможно было управлять FreeU, т.к. это шаманство. По этой же причине любые интуитивные ковыряния в отдельных весах или слоях или блоках - хуйня из коня.
Аноним 29/05/24 Срд 16:46:21 763093 17
>>762837
>Утерянные знания
Интересное решение, кстати.

Еще, помню, были какие-то штуки для тренировки лор-слайдеров, основанные именно на парных картинках, а не регулировке весов, когда все делается без картинок вообще.
Аноним 29/05/24 Срд 23:14:14 763563 18
Аноним 30/05/24 Чтв 00:22:10 763678 19
>>763563
RAM колабовского gpu не хватает для трейна XL
Аноним 30/05/24 Чтв 10:16:28 764038 20
>>763678
Я xl не юзаю, на 1.5 хватает и ладно
Аноним 30/05/24 Чтв 18:23:00 764562 21
Comfy-UI-00029.png 1117Кб, 1024x1024
1024x1024
Comfy-UI-00030.png 1178Кб, 1024x1024
1024x1024
Comfy-UI-00033.png 1064Кб, 1024x1024
1024x1024
Dare с включенным attention - годнота, вот сэмплы 50/50 мерджа AutismMix с Helloworld. Надо экспериментировать, хочу сделать анимэ мердж со стилем как в цифровой живописи китайцев из Artstation. (чтобы не как в Pony 6 - а хорошую разностороннюю XL модель как Unstable, которая возьмет из пони только анатомию и концепты чуть-чуть). Видел где-то костыль для инжекта нойза в чекпойнты, он может помочь чтоб делать фон без мыла.
Аноним 31/05/24 Птн 11:08:28 765406 22
>>764562
Ты отдаешь себе отчет в том, что занят проектом лепки из говна по мотивам лепнины, созданной альтернативно разумными индивидуумами ииз пластилина на уроке трудотерапии?
Аноним 31/05/24 Птн 15:46:21 765622 23
>>765406
это почему у тебя так от пони печет?
Аноним 31/05/24 Птн 16:23:18 765648 24
Вопрос к знающим. Если веса Vpred модели можно присобачить к обычной, то как присобачить веса модели offset noise? Так же через train difference?
Аноним 01/06/24 Суб 02:44:28 766174 25
>>765648
о живой полторашечник
плюсуешь офсет нойз лору к модели в нужном весе, трейн дифренсишь к изначальной полученную модель
на сдхл если интересно такой же эффект + полное управление динамическим диапазоном и цветами через мердж с CosXL, на пони не работает есличе
Аноним 01/06/24 Суб 03:26:33 766190 26
>>763563
Надо бы тогда в шапке сменить на этот, раз он работает >>758561 (OP)
Аноним 01/06/24 Суб 03:29:09 766193 27
>>763678
А сколько там? С чекпоинтингом в фп8 и в 8 гигов умещать умудряются с XL
Аноним 01/06/24 Суб 05:46:41 766260 28
>>766174
У меня не лоры, а обычные модели. Т.е. по сути, так же все как и с лорой? Я просто лоры никогда не мерджил с моделями, считаю это извращением.
Аноним 01/06/24 Суб 12:31:04 766351 29
>>766260
>У меня не лоры, а обычные модели.
непонял, что за модели?
>Т.е. по сути, так же все как и с лорой?
да
>Я просто лоры никогда не мерджил с моделями, считаю это извращением.
ну и зря, это же просто замена весов в модельке на нужные, ничего криминального
Аноним 01/06/24 Суб 14:03:54 766435 30
>>766351
>непонял, что за модели?
https://huggingface.co/lodestones/furryrock-model-safetensors/tree/main Шерстяные, тащемта. Хочу попробовать с них вытянуть впред, офсет нойз и в душе не ебу что за terminal-snr и minsnr-zsnr-vpred-ema - последнее что-то на колдунском, гугл молчит. Но если это можно вытянуть из модели и проверить, то хорошо. Ещё бы знать как правильно, потому что с СуперМерджером я на "вы" и никогда им не пользовался.

>ну и зря, это же просто замена весов в модельке на нужные, ничего криминального
Допустим.
Аноним 01/06/24 Суб 14:08:17 766445 31
>>766435
Чел, это пердолинг loss при тренировке, что ты там из чекпоинта собрался тянуть, шиз?
Аноним 01/06/24 Суб 15:07:42 766534 32
>>766445
Тредом ранее говорили, что vpred можно через трейнДиф перетянуть от одной модели к другой. >>766174 то же самое говорит, но на примере лор. Плюс как бы я ясно выразился, что с мерджем я плохо знаком, поэтому и спрашиваю можно ли подобные особенности с одной модели перетянуть на другую. С чего ты взял, что я прям 100% уверен что это можно сделать?
Аноним 01/06/24 Суб 15:10:16 766537 33
>>766445
>это пердолинг loss при тренировке
А поподробнее, где об этом можно почитать?
Аноним # OP 02/06/24 Вск 00:54:16 767068 34
>>763563
>>766190
Заменил в шаблоне и попросил модератора обновить ОП-пост чтобы пару месяцев до ката не ждать.
Аноним 02/06/24 Вск 03:45:06 767199 35
Аноны, не знаю где ещё спросить, итт самый свет науки в области нейросетей сидит.
Нужен софт, который убирает цензуру "мазайку" с хентайных пиков и работает в гугл колабе.
1) DeepCreamPy не работает больше в колабе, разраб написал что проебал сурсы, то что есть не пашет и как пофиксить в интернете инструкций нет.
2) hentai-ai тоже не работает, пытается установить opencv устанавливает его час и потом хуй.
3) DeepMosaics это ваше маниме не понимает.

А больше ничего и не гуглится.
Как быть?
Аноним 02/06/24 Вск 10:01:13 767320 36
>>767199
Купить видеокарту и демозаить локально.
Аноним 02/06/24 Вск 15:13:27 767563 37
Интересная тема, однако.

Исследователи из Техасского университета в Остине разработали инновационную схему обучения моделей на сильно поврежденных изображениях, метод получил название Ambient Diffusion

Последнее время то и дело возникают судебные иски — художники жалуются на незаконное использование их изображений.
И Ambient Diffusion как раз позволяет ИИ-моделям не копировать изображения, а скажем «черпать вдохновение» из них.

В ходе исследования команда исследователей обучила модель Stable Diffusion XL на наборе данных из 3 000 изображений знаменитостей. Изначально было замечено, что модели, обученные на чистых данных, откровенно копируют учебные примеры.

Однако когда обучающие данные были испорчены — случайным образом маскировалось до 90% пикселей, — модель все равно выдавала высококачественные уникальные изображения.

Статья : https://www.ifml.institute/node/450
Любителям шатат формулы: https://arxiv.org/pdf/2305.19256

Получается, что аксиома "Говно на входе - говно на выходе" пошатнулась? Надо попробовать на испорченном сете протренить лорку.
Аноним 02/06/24 Вск 16:18:48 767628 38
>>767563
Это в говне моченые - ученые.
1. Учили на уже обученной модели (даже ванильная от ОА - уже обучена)
2. Открыли для себя сильные токены базовой модели. Даже если в качестве сета использовать ргб-шум, но учить на сильный токен, "man" например, то мужики все равно будут получаться. Откровение, блядь!
3. Попробуй на объект или стиль подсунуть "90% пикселей говна" на уникальный токен - получишь месиво из говна от Лоры.

Пиздец, конечно, позорище, техасцам.
Аноним 03/06/24 Пнд 10:49:22 768430 39
>>767199
Просто заюзай impaint со стейбл дифужна, только чекпоинт (на цивит.аи) предварительно найди под стиль твоей картинки. И даже так можно получить вполне приемлемый результат в 70% случаев, ну в остальных 30 что-то фото шепом придется поправлять руками.
Аноним 03/06/24 Пнд 10:58:19 768441 40
>>767563
> аксиома "Говно на входе - говно на выходе" пошатнулась
С чего бы вдруг? Там же loss считается из испорченных пикч. Если модель знает как выглядят испорченные пики, то всё будет как обычно, просто меньше информации будет из пика идти. Условно, части ебала он будет запоминать, а общая композиция сломана и он будет её игнорить, т.к. там рандом.
Аноним 04/06/24 Втр 06:27:48 769550 41
>>758561 (OP)
Добавьте инфу о сайтах по типу цивитай в которых есть возможность бесплатно тренировать.
Аноним 05/06/24 Срд 18:29:47 771626 42
Парни, такой вопрос, позволяет ли control net менять позу без изменения персонажа? Чтобы не добавлялись и не терялись мелкие детали, уебищно тени не скакали туда сюда, и можно ли довести уровень двух изображений с изменённой позой (с условным запрокидывание руки) до такого уровня чтобы из двух картинок можно было красивую анимацию сделать бесшовную?
Аноним 06/06/24 Чтв 05:55:05 772252 43
Аноним 06/06/24 Чтв 16:19:08 772872 44
image.png 2362Кб, 1295x1087
1295x1087
>>772252
как же заебали эти недоблогеры с кликбейным говном изо всех щелей.
Аноним 06/06/24 Чтв 18:50:32 773138 45
>>772872
Да этот то чел нормальный.
Доступно объясняет, ссылки, все на месте.
Разве что актива у него нет последнее время.
Аноним 07/06/24 Птн 13:05:53 774020 46
технаряны, нубярский вопрос.

Есть модель на HF (ванильная SDXL файнтюненая методом SPO экперимента ради, но дающая очень хороши результаты по сравнению с оригом).
Она выложена как я понимаю в формате diffusors. Как ее сконвертить в savetensors для использования в гуях? Локально, коллаб, сам HF - пофиг.
Гугление этого вопроса зациклило меня рекурсивно, GPT несет дичь, Сlaude делает вид, что не понимает.

Репа: https://huggingface.co/SPO-Diffusion-Models/SPO-SDXL_4k-p_10ep/tree/main
Аноним 07/06/24 Птн 19:04:08 774548 47
16470070165600.mp4 88Кб, 640x640, 00:00:02
640x640
>>760095
Ну нахуя вбрасывать если не собираешься объяснять, сука?
Аноним 08/06/24 Суб 09:22:28 775217 48
>>774020
Не знаю насчёт конвертации, но пара гуёв вроде бы поддерживают формат diffusers. Лапша с кастомными нодами и СД некст.
Аноним 08/06/24 Суб 10:26:56 775269 49
image.png 93Кб, 1795x957
1795x957
>>758561 (OP)
Собираюсь тренировать лору в civitai объясните пожалуста как работает bucketing? Он просто кропает пикчу до ближайшего рабочего разрешения например если пикча с соотношением сторон 17:9, то он кропает только до 16:9 или на все популярные соотношения сторон т.е. из 17: кропает до 9:16, 16:9, 1:1, 2:3, 3:2, 4:5 и т.д.?
Будет ли bucketing растягивать разрешение изначальной пикчи с 512х512 до выставленного 1024x1024? Хочу что бы более менее широкий спектр разрешений поддерживала лора.
Аноним 08/06/24 Суб 10:29:57 775273 50
> т.е. из 17: кропает до 9:16
* т.е. из 17:9 кропает до 9:16
-быстрофикс
Аноним 08/06/24 Суб 14:34:49 775608 51
>>775217
пасиб, анон, но я уже залез в консольную трясину.
Решение прям совсем гдето-то рядом, но пока не хватает знаний понять какого хуя state_model_dict ловит ошибку без описания.
Если уж совсем мозг сломаю - пойду в Комфи
Аноним 08/06/24 Суб 14:42:24 775623 52
>>775269
>Будет ли bucketing растягивать разрешение изначальной пикчи с 512х512
Для этого есть опция Don’t upscale bucket resolution

>как работает bucketing?
Buckets contain images with different aspect ratios than 1:1. Using bucketing, you don't need to crop your training data to 1:1 aspect ratios. Instead, you just throw the variously sized images at the script. It doesn't "randomly" resize images. It looks at them all and calculates appropriate buckets for them, that fit within your dictated resolution frame, then resizes them all and sets up the schedule for them.

The scheduling is the key part of the bucket script that makes it work. Batches have to be from all the aspect ratio so 1 batch can only train on 1 bucket at a time. So if you have a batch size of 10, and buckets have 2 images, 5 images, and 9 images in them, none of those bucket sizes fills a full 10 batch right? So the system will automatically do smaller batches and gradient accumulation them together to built an effective batch of 10.

In the case where you're already using gradient accumulation , it'll adjust the batch sizes accordingly. So by using bucketing, you're giving the script it's own dynamic control over batch size and gradient size, with your settings as a general target to aim for. If you have gradient accumulation turned off, then it'll fill the entire batch of 10 with one bucket's images. so if the current batch is working on the bucket with only 2 images, it'll do each of those 5x on that batch. Recommend you use gradient accumulation as this can lead to over representation of the training data.

None of this is "random". It is all very calculated and plotted across a very precise training schedule.

Cropping images to 1:1 ratios is still a super valid training approach too. Not everyone uses bucketing. I like it because i like rectangles better than squares and the models trained with buckets produce better rectangular images.
Аноним 09/06/24 Вск 00:37:30 776373 53
>>760095
Веса слишком разнородные, хоть как извращайся, ничего кроме поломанного лоботомита не сделать. В теории, можно сделать гомункула, которого потом дообучить, и это будет быстрее и качественнее чем делать с чистой sdxl.
>>762790
Двачую этого и остальных.
>>764562
Мертвичина как и ожидалось.
>>767199
Полностью готового софта нет. С помощью SD и аниме модели можно снимать цензуру инпеинтом, но придется вручную выделять область. Можешь воспользоваться yolo, там наверняка уже есть готовые для нужной области, или сам обучи, и уже из ее результата делай маску и посылай запросом по api. Или собери систему в комфи, такое более чем возможно, его же вроде на коллабе не банили, не?
>>767563
> что аксиома "Говно на входе - говно на выходе" пошатнулась?
На вход всеравно подавались "хорошие" картинки, просто "ученые" просто сделали аугументацию, которую модель понимает. А насчет изначального копирования - ужасно подобраны параметры обучения, такого нет если делать нормально.
>>774020
У кохи есть скрипт для конверсии форматов https://github.com/kohya-ss/sd-scripts/blob/main/tools/convert_diffusers20_original_sd.py и еще рядом смотри
>>775269
> Он просто кропает пикчу до ближайшего рабочего разрешения
Сначала кропает до ближайшего соотношения сторон, потом ресайзит до заданного разрешения.
>>775623
> Для этого есть опция Don’t upscale bucket resolution
Двачую, вот только делать так не стоит, в смысле что использовать 512 пикчи для обучения. Если нет возможности достать хайрез - берешь хороший dat апскейлер и прогоняешь картинки через него, чтобы превышали 1 мегапиксель. И их уже добавляешь в датасет, эффект будет гораздо лучше чем от тренировки лоурезами.
Аноним 09/06/24 Вск 09:12:30 776636 54
>>776373
>У кохи есть скрипт для конверсии форматов
Спасибо тебе, анон! Это, похоже именно то, что нужно! Сейчас кофейку бахну и погружусь.

>вот только делать так не стоит, в смысле что использовать 512 пикчи для обучения
При трене на персонажа вообще бакеты отключаю, несколько десятков пикч руками подготовить (почистить, проапскейлить которые де дотягивают, протегать) аообще не проблема - занимает 15-20 минут. Зато на выходе качество субъекта горазло лучше.
Для больших стилевых датасетов, вероятно, полезно.
Аноним 09/06/24 Вск 11:39:21 776726 55
>>776636
> При трене на персонажа вообще бакеты отключаю
А зачем? Честно, даже не интересовался что будет без них, просто кроп+рейсайз пикчи до квадрата/указанного в параметрах разрешения? Это может негативно повлиять на возможности генерации в других соотношений сторон, увы с лорами всякие байасы тоже любит хватать.
Включение бакетов не отменяет ручную подготовку, просто тренировка будет в разных ar.
Аноним 09/06/24 Вск 16:30:36 777026 56
>>776726
>А зачем?
Потому что для вручную подготовленного сета они не нужны. Их задача - рассортировать по размеру изображения из сета.

https://github.com/bmaltais/kohya_ss/wiki/LoRA-training-parameters#enable-buckets

If your training images are all the same size, you can turn this option off, but leaving it on has no effect. (с) оттуда же

>что будет без них
если сет разного размера пикч и бакеты отключить - то неподходящие по размеру будут апскейлиться или даунскейлится до aspect ratio. Например, если базовый размер составляет 512x512 (соотношение сторон 1), а размер изображения - 1536x1024 (соотношение сторон 1,5), изображение будет уменьшено до 768x512 (соотношение сторон остается 1,5). (c) тоже из ссылки выше
Аноним 10/06/24 Пнд 02:54:53 777682 57
>>777026
> для вручную подготовленного сета
Имеешь ввиду еще и вручную кропнутного до квадратов разрешения тренировки?

Какая-то ерунда надомозговая написана, пусть и самим мейнтейнером.
> If your training images are all the same size
Случай простой и понятный, тут ок.
> будут апскейлиться или даунскейлится до aspect ratio. Например, если базовый размер составляет 512x512 (соотношение сторон 1), а размер изображения - 1536x1024 (соотношение сторон 1,5), изображение будет уменьшено до 768x512 (соотношение сторон остается 1,5).
И мы имеем как раз пикчи разного размера, которые не могут трениться вместе, где логика?

Там вообще есть 2 момента, первое - необходимо иметь тензоры одной и той же длины в батче, второе - соотношения сторон пикч могут быть разные и нужно подогнать их под единое количество пикселей, чтобы оно соответствовало заданному размеру для тренировки. Баккеты обеспечивали и то и другое, что будет без них если датасет типичный смешанный?
Аноним 10/06/24 Пнд 10:16:00 777848 58
>>777682
>Имеешь ввиду еще и вручную кропнутного до квадратов разрешения тренировки?
Я бы сказал не кропнутого, а приведенного к размерам 1024х1024 в соотношении 1:1. Потому что зачастую это не только кроп, когда пикчи больше, но и небольшой апсейл при необходимости, косметическая очистка от ненужных деталей, коррекция цвета, дешарп\деблюр в некоторых случаях.

>Какая-то ерунда надомозговая написана, пусть и самим мейнтейнером.
Так это же Kohya, все ок. Там исторически пиздец в логике неизбежен, скрипты пишет японец, а GUI и мануал к ним - bmaltais

> что будет без них если датасет типичный смешанный?
Не проверял, но как мне кажется, просто на выходе хуйня получится.
Аноним 10/06/24 Пнд 12:41:28 777932 59
>>777848
Использование исключительно квадратов чревато, без необходимости лучше не стоит.
> коррекция цвета, дешарп\деблюр в некоторых случаях
Можно примеры? Интересно в каких случаях и как такое делается.
> Так это же Kohya, все ок.
Не, это же вроде автор гуйни пишет. Чтобы Кохя написал описание и туториал - это хз даже что должно произойти.
Аноним 10/06/24 Пнд 19:25:48 778646 60
>>777932
>Интересно в каких случаях и как такое делается.
Ебался я недели 2 с тренировкой на одну мадам. Все перепробовал, даже сервак под тренировку на сутки взял, думал может у меня с компом беда.
При любом раскладе мадам на готовой лоре получалась (лицо) немного фиолетовым, близко вроде норм, а немного подальше отодвинуться - прям неестественно.
И только после того как отцветокорил сет первая же тренировка с стандартными(для меня) настройками - все стало заебись.
С тех пор - еще и на цвет чекаю сет.

Блюр помогает убрать ненужное за контуром головы, когда открывать ФШ и вырезать фон лень.
Шарпом тоже часто пользуюсь - им хорошо доводить черты лица на расфокусированных фотках из инета, когда датасет и так кислый.

>Не, это же вроде автор гуйни пишет
В том то и дело, скриплы прилит один, а ГУЙ и туториал - другой, и, судя по всему они меду собой вообще не общаются, то есть как гуеписец понял - так и написал, отсюда недоумение у пользователей.

>Использование исключительно квадратов чревато, без необходимости лучше не стоит.
Почему? всегда только 1:1 1024х1024 , кроме первых 2-3 трейнов, полет отличный
Аноним 10/06/24 Пнд 22:13:49 778929 61
1565643014466.png 555Кб, 1092x508
1092x508
>>778646
> Ебался я недели 2 с тренировкой на одну мадам.
Неправильно ты, дядя Федор, диффузию тренишь. Нужно чтобы компьютер неделями напрягался а не ты сам.

По поводу сути описанной проблемы вроде понятно, а можешь датасет показать? Интересно что там могло дать подобный эффект. Или хотябы опиши датасет (количество, содержимое) и дай свои предположения от чего могло быть.
Сам могу дать анимублядский пример - художник bartolomeobari на всех пикчах ограниченный диапазон, смещение гаммы и прочее, офк все это тоже усваивается. Можно починить нормализацией пикч.
> Блюр помогает убрать ненужное за контуром головы, когда открывать ФШ и вырезать фон лень.
Насколько потом модель может четкий не-заблюренный фон делать? И для чего вырезать фон, там что-то нехорошее?
> судя по всему они меду собой вообще не общаются
Общаются, он чуть ли не основную репу sd-scripts содержит. Просто год назад написал на отъебись, и с тех пор висит.
> Почему?
Могут ухудшиться генерации в соотношениях сторон не 1к1, особенно в определенных ракурсах/позах и т.д.
Аноним 11/06/24 Втр 06:14:31 779431 62
Аноним 11/06/24 Втр 22:34:23 780778 63
>>778929
>неделями напрягался а не ты сам
Ага, а вдруг он (компьютер) выгорит от перенапряга, тогда придется неиллюзорно мне напрячься, чтобы его в рехаб отправить и замену купить. 210к степов, конечно, мое почтение целеустремленности научить модель.
>а можешь датасет показать?
Могу, только его очень поискать надо, попробую завтра в выходной как раз же.
>могло дать подобный эффект
Моя теория - фотограф на постобработке не просто поигрался ползунками в Лайтруме, а жестко и решительно накинул LUT.
>Можно починить нормализацией пикч
Про графику тоже слышал, что годно помогает, а вот про реализм - не знаю, надо почитать, спасибо за наводку!

>Насколько потом модель может четкий не-заблюренный фон делать? И для чего вырезать фон, там что-то нехорошее?
Вообще не влияет, пробовал и с блюром и без, главное - на подблюренных пикчах в датасете более конкретно прокапитонить, описав только сабжа и ничего более.
Блюрить - не столько вырезать что-то нехорошее, сколько исключить фоновые объекты с пикчи, при тренировке, например, на пикче, где сабж стоит на фоне елок, велоятность получить потом от лоры генерацию с деревом выше, чем если эту сраную елку подблюрить чтобы явно очертания не считывались. Лучше конечно совсем вырезать фон, но. как я говорил выше иногда лениво, проще кистьб помазюкать.

>Могут ухудшиться генерации в соотношениях сторон не 1к1, особенно в определенных ракурсах/позах и т.д.
Хм, не замечал, надо практически проверить, интересная тема.
Аноним 12/06/24 Срд 11:00:51 781200 64
>>780778
>Лучше конечно совсем вырезать фон
Рукалицо...
Лучше этот фон протэгать. Когда у тебя эта елка в кэпшонах - модель ее поймет (потому что уже знает), и будет вызывать только по запросу. Ну или случайно, что тоже лечится - негативным запросом или прописыванием определенного фона в промпте.
Если у тебя на заднике будет мазня, которую ты даже как "blury background" или "bokeh" в файле не запишешь - эта мазня у тебя с другими токенами ассоциироваться начнет, в том числе и с тем основным, на который ты тренируешь.
Аноним 12/06/24 Срд 16:06:43 781618 65
Gradio - 🤯 Taki[...].mp4 375Кб, 1448x720, 00:00:08
1448x720
Ля, крутая штука. Которая изменение первого кадра распространяет на всё видео. Для "изменения" одежды самое то

Даже если всё окажется не так радужно, то благодаря изменений в цвете можно создать стабильную видео маску и пустить в animatediff inpainting

К сожалению весов и кода пока нет. Буду терпеть когда выложат

https://i2vedit.github.io/index.html
Аноним 13/06/24 Чтв 17:36:53 784268 66
>>780778
> Ага, а вдруг он (компьютер) выгорит от перенапряга
Значит туда и дорога, хули.
> мое почтение целеустремленности научить модель.
Ее палкой вообще бить надо чтобы хоть что-то нормально запоминала.
> главное - на подблюренных пикчах в датасете более конкретно прокапитонить
Так ты опиши задник, правильно тебе говорят. А тут дополнительно заставляешь модель запоминать что задников несуществует или там одно мыло, захочешь что-то сложное запромтить и досвидули.
Аноним 14/06/24 Птн 15:20:51 785962 67
DALL·E 2024-06-[...].webp 179Кб, 1024x1024
1024x1024
Это >>717919 → я. Зашел поблагодарить анона/анонов, которые тогда мне помогали делать лору под пони. Тогда сразу не отписал, потом всё руки не доходили что-то. В итоге получилось все более менее неплохо. Думаю я выжал практически всё что можно было сделать при моём датасете (60). На 48 эпохе генерирует неплохо, эталонные изображение вообще практически идеально, есть проблемы с деталями, думаю эт оследствие того что лора впитала не только персонажа, но и стиль. Может если сделать лору под 1.5, а потом нагенерить в других стилях, чтобы добить датасет, получилось бы лучше. Также, в отличие от 1.5, судя по гридам, лора стабильно работает только в очень узком диапазоне эпох
ии силе лоры. Вообще, пони конечно кривые спецефичные. Короче буду заниматься дальше как время подосвободится. Присмотрел пару авторов, думаю сделать лору под них, благо тут уже проблем с датасетом не будет. Но что там сейас по мете? Я так понял народ ждет сд3 и новых поней? Читал пост автора поней, он и сам сидит и ждет новый сд, там какие-то траблы с правилами комерческого использования. Говорит мол что чет стабилити мудаковато общаются.
Аноним 14/06/24 Птн 20:18:12 786302 68
>>785962
> Я так понял народ ждет сд3 и новых поней?
SD3 мертворождённая и пони не будет на ней. Следующая пони на XL, а потом на пиксарте или какой-то другой китайской сетке.
Аноним 14/06/24 Птн 23:53:18 786585 69
>>786302
>Я так понял народ ждет сд3 и новых поней?
На не будет, автор нытик-омежка, который никак не может прочитать 3 абзаца на 2-х страницах сайта SAI и ссытся от того, "что ему непонятно как лицензироваться"
Rundiffusion - залицензировались и пилят файнтюн для сервиса
Леонардо - залиуензировалось
Мелкие онлыйн-помойки уже добавили в свои списки SD3
Pirate diffusion просто положили хуй на лицензирование (как неожиданнно) и высрали анонс что к 1 июля ждите pirate edition

А это ничтожество третий день бегает между реддитом, цивитаем и форчаном, ноя что ему непонятно и он так не может.
Сегодня аж на японский свой высер перевел на циве.
Аноним 15/06/24 Суб 00:16:52 786625 70
>>786585
> никак не может прочитать 3 абзаца
А что там читать? Там не опенсорс лицензия, а коммерческую ему никто не продаст из принципа.
> непонятно
Там лицензирование в виде "звоните нам". А на том конце провода ссутся с пони.
> бегает
Не понятно только почему у SD-шизиков так пригорает от того факта, что он не будет дальше тренить на SD. Наоборот же хорошо, не будем больше жрать SAI-кал с поломанными архитектурами. Автор гуя для кохи уже сказал что SD3 кал для тренировки и надо просто считать это говно провалом как SD 2.0, а лицензия вообще большинство тюнов отсеит сразу. У кохи, кста, уже готова поддержка Сигмы.

Забавнее всего наблюдать как SAI изворачивается и опять пытается напиздеть что-то. Сегодня у них уже официальная методичка подъехала, что SD3-Medium это ранняя бета и вы не так поняли, хотя только вчера Ликон рассказывал что это лучшая модель и у вас руки кривые. А ещё вскрылось со слов SAI опять же что медиум тренили с нуля по-быстрому за два последних месяца с дико порезанным датасетом и в сырости виноваты нетерпеливые юзеры, а оригинальная 8В через API вообще другая модель и её даже не собирались релизить.
Аноним 15/06/24 Суб 00:57:49 786712 71
image.png 30Кб, 774x242
774x242
image.png 25Кб, 544x317
544x317
>>786625
>Забавнее всего наблюдать как SAI изворачивается и опять пытается напиздеть что-то. Сегодня у них уже официальная методичка подъехала, что SD3-Medium это ранняя бета и вы не так поняли, хотя только вчера Ликон рассказывал что это лучшая модель и у вас руки кривые. А ещё вскрылось со слов SAI опять же что медиум тренили с нуля по-быстрому за два последних месяца с дико порезанным датасетом и в сырости виноваты нетерпеливые юзеры, а оригинальная 8В через API вообще другая модель и её даже не собирались релизить.

Уже новую завезли - все охуенно, все так и должно быть. Но если что - это CLIP, оттуда Рутковские лезут.
Это Эмад высрал в Х (пикрил):
https://x.com/EMostaque/status/1801686921967436056
https://twitter.com/EMostaque/status/1571634871084236801


>Там лицензирование в виде "звоните нам". А на том конце провода ссутся с пони.
Нихуя, 20$ и иди пили, пока у тебя 1 лям пользователей в месяц онлайн не набрерется или годовой оборот не дойдет до 1 млн $, вот тогда ЗВОНИТЕ ЭМАДУ.

>а коммерческую ему никто не продаст из принципа.
С хуяли не продаст? Ну ебаный в рот, у него пару косарей на Cоула местного нет? Все на пропердоливание score_9 ушло?

>Не понятно только почему у SD-шизиков так пригорает от того факта, что он не будет дальше тренить на SD
Потому что, посмотри на циву, 95% моделей\лор\пикч - 2-2.5D мультипликация. Аудитория у него такая, что поделать.

>Автор гуя для кохи уже сказал что SD3 кал для тренировки и надо просто считать это говно провалом как SD 2.0, а лицензия вообще большинство тюнов отсеит сразу. У кохи, кста, уже готова поддержка Сигмы.
Вот это отлично, альтернатива и конкуренция - всегда заебись для нас.

>что SD3 кал для тренировки
лол это потому что опубликованные в диффузерсах скрипты нихуя не работают, там в ишшуисах пожар выше крыши.
НО! вот тут : https://github.com/bghira/SimpleTuner/ обещает мало того что Лоры для сд3, но и главное : файтюн модели на 3090.
Хуй с ними с лорами, а вот представь, если каждый начнет себе пилить свою XL? Это же заебись.

Лично по мне, я понями никогда не пользовался, они мне нахуй не уперлись, к СД3 уже придрочился по сеттингу и промтам, если людей не генерить лол. Но,уверен, анатомия, позы - это первое что начнут тюнить.
В результате получится охуенный сетап: что-то в XL, что-то в Сигме, что-то в Далли, что-то в CД3 делать. Это же просто инструменты, и то что их несколько - это хорошо.

Меня чисто нытье понибати и его паствы бесит, везде блядь они, везде.
Аноним 15/06/24 Суб 01:04:43 786718 72
кот моргает.mp4 863Кб, 720x720, 00:00:01
720x720
image.png 73Кб, 1170x653
1170x653
Подскажите пожалуйста как проверить орфографические ошибки в датасете (captions).
Аноним 15/06/24 Суб 01:06:55 786719 73
>>786718
тхт открывай хромом, если правописание англ включено подсветит или сам себе в телегу кидай в чем сомневаешься, там тоже работает.
Ты руками что ли бил?
Аноним 15/06/24 Суб 02:13:57 786768 74
>>786719
>тхт открывай хромом
Там ~100 штук, я охуею каждый файл проверять.
>Ты руками что ли бил?
Да. Clip interrogator разочаровал.
Аноним 15/06/24 Суб 02:31:46 786793 75
>>786768
Ок, я нашел способ. Нужно просто в DatasetHelpers подсчитать частоту тэгов и скопировать этот текст в программу с проверкой правописания, например хром как подсказал анон.
Аноним 15/06/24 Суб 06:56:01 786922 76
Аноним 15/06/24 Суб 07:39:54 786936 77
1579186105153.png 685Кб, 1710x536
1710x536
>>786712
> Эмад
А он тут при чём? Он уже почти никакого отношения к происходящему не имеет. Официальная позиция представителей SAI пикрилейтед, они переобуваются каждый день.
> 20$ и иди пили
Там ограничение на количество генераций с модели, лол. Ещё раз - лицензия не опенсорс, ты хоть усрись, но будешь башлять SAI даже без коммерческого использования. Под такими условиями никто не будет делать крупные файнтюны.
> это потому что опубликованные в диффузерсах скрипты нихуя не работают
Тот чел пояснял что концепты на SD3 тренируются очень плохо, даже очень простые, поэтому тренить лоры как с XL на 50 пиках не выйдет.
Аноним 15/06/24 Суб 10:15:18 787036 78
Напомните, что там надо скопировать, чтоб все настройки с одной копии ВебУЯ на другую перенести.
Аноним 16/06/24 Вск 08:27:12 788551 79
Аноним 19/06/24 Срд 15:50:57 792585 80
16069409639930.jpg 178Кб, 960x640
960x640
как можно загрузить картинку в уже открытый и настроенный автоматик1111 в инпеинт?

я хочу следующее:
- нажимаю кнопку в блендере
- вьюпорт захватывается, сохраняется в папку
- картинка автоматически подхватывается и загружается в img2img inpaint
- я делаю инпеинт с нужным мне результатом и сохраняю пик на диск
- нажимаю кнопку в блендере, получаю на экране текстуру-стенсиль

меня интересует выделенное жирным, остальное я знаю как сделать
Аноним 19/06/24 Срд 15:56:13 792592 81
>>792585
Тебе так трудно картинку вручную вставить? Тут либо костылять либо костылять. В первом случае править автоматик, чтобы он сканил твою папку и подгружал файл, во втором случае какой-нибудь грисманки, чтобы он делал то же самое, но со стороны браузера (Насколько я помню там такие апи есть, а если нет - то только автоматик). Если я правильно понял что ты хочешь.
Аноним 19/06/24 Срд 17:36:59 792664 82
stencil.png 376Кб, 712x712
712x712
>>792592
одну картинку вставить несложно. но в процессе работы это делается сотни, тысячи раз, зачастую буквально на 1 мазок кистью нужно инпеинт сделать. и на эту дрочь уходит половина времени
Аноним 20/06/24 Чтв 00:09:30 793010 83
inpaintinput.png 1027Кб, 1024x1024
1024x1024
>>792585
короче, все этапы кроме самого нужного реализовал

узнал про API: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/API

и даже получилось послать корректный POST запрос и сгенерить картиночку прямо из блендера, получив результат в виде пнгшки закодированной в респонсе. да вот мне не нужен бэкэнд автоматика. мне нужен фронтенд на соседнем монике, чтобы я в нем менял модели, лоры, перерисовывал маски, перегенерировал всё по сто раз и т.д. там быстрее всего работается

есть в том API что-то для управления фронтендом? менять вкладки в интерфейсе, загружать картинки и т.д. или таких вещей в принципе не бывает в API?
Аноним 20/06/24 Чтв 00:17:15 793011 84
>>793010
Сделать на комфи с захватом картинки из блендера - нет?
Аноним 20/06/24 Чтв 00:53:40 793023 85
>>793011
как этот >>792585 процесс будет происходить в случае с комфи?
Аноним 20/06/24 Чтв 01:34:21 793033 86
>>793023
>- нажимаю кнопку в блендере
>- вьюпорт захватывается, сохраняется в папку
>- картинка автоматически подхватывается и загружается в img2img inpaint
>- я делаю инпеинт с нужным мне результатом и сохраняю пик на диск

Специальные ноды.
Будет окно для захвата картинки из блендера, из него картинка идет в ноду, в ней можно нарисовать или загрузить маску. Потом все вместе с маской идет в сэмплер, выхлоп сохраняется через ноду в нужное место

>- нажимаю кнопку в блендере, получаю на экране текстуру-стенсиль
А это руками

Хотя есть просто отдельные ноды для текстурированния
Аноним 20/06/24 Чтв 01:38:37 793034 87
image.png 1342Кб, 1393x1193
1393x1193
>>792585
буквально - три слова в строке поиска ютуба:
blender+statble+diffusion

На любой вкус:
- и с Автоматиком и с Комфи
- и для созлания анимации
- и через хитропридуманные костыли
- и на русском и на английском
Аноним 20/06/24 Чтв 02:39:29 793048 88
>>793033
спасибо, попробую
Аноним 20/06/24 Чтв 11:52:03 793169 89
Аноним 21/06/24 Птн 09:47:30 794633 90
Thief 2.jpg 318Кб, 1920x1080
1920x1080
Аноним 22/06/24 Суб 02:43:02 795523 91
>>794633
Не погано. Вот бы можно было позу с картинки в риг переносить.
Аноним 23/06/24 Вск 15:26:11 797302 92
image.png 74Кб, 979x512
979x512
Запрашиваю тактическую помощь, как это говно даунгрейднуть?
Аноним 23/06/24 Вск 15:42:02 797330 93
>>797302
Я хз почему, но это вылечилось удалением файла ui-config, запуском каломатика, который успешно запустился, после чего я закинул обратно файл и всё заработало без ошибок. ЧЗХ с каломатиком?
Аноним 23/06/24 Вск 20:32:57 797769 94
image.png 10Кб, 183x465
183x465
>>797302
я через junction вытащил модели наружу, и теперь перенакатываю вебуй начисто вместо апгрейда
когда у приложения в одной папке насрано файлами json, yaml, toml, понимаешь, что лучше перестраховаться

./models
./embeddings
./extensions/sd-webui-controlnet/annotator/downloads

только с outputs не прокатило, не подгружает картинки из junction

>>797330
наверное ПО теперь ошибочно считает, что зависимость стоит правильной версии
Аноним 24/06/24 Пнд 02:44:55 798267 95
Объясните нубу, как правильно обновлять что-то с гита, если он выдает такой текст:
>Please commit your changes or stash them before you switch branches.
Хочу на дев-ветку автоматика переключиться, и он мне список файлов выдает, в которых я сам явно ничего не менял.
Если reset hard сделать - вроде бы полетят и все настройки, а этого бы не хотелось.
Аноним 24/06/24 Пнд 03:27:29 798307 96
image.png 8Кб, 457x201
457x201
Оно так и должно медленно идти? Треню sdxl лору на 4060ti 16gb.
Аноним 24/06/24 Пнд 03:30:38 798315 97
>>798307
Да. СДХЛ лоры тренируются намного медленнее сравнительно с полторашками.
Плюс у тебя еще и шагов овердохрена, столько обычно не нужно.
Аноним 24/06/24 Пнд 03:37:08 798319 98
>>798315
Я в целом только вкатываюсь в тренировку лор. Такое количество шагов подобрал исходя из гайда в шапке.
От 8000 до 12000 для стилей. чек
От 400 до 600 итераций на эпоху. У меня всего 81 изображение. Как раз, чтобы было 8к шагов, сделал 10 повторений на 10 эпох на 81 картинку.
Аноним 24/06/24 Пнд 03:41:27 798323 99
>>798319
>От 8000 до 12000 для стилей.
Ужас какой. Где там вообще такое написано? Чем можно тренировать настолько долго?
Я когда своими старыми настройками тренировал - у меня стиль начинал ухватываться уже на 800-м шаге, и на 1600 закреплялся полностью.
Аноним 24/06/24 Пнд 03:46:19 798326 100
Аноним 24/06/24 Пнд 04:22:15 798342 101
>>798326
Ну там буквально на строчку ниже другое значение для XL написано, но вообще странная скорость, ты сколько батч поставил? Есть чекпоинтинг?
>>798323
> Я когда своими старыми настройками тренировал - у меня стиль начинал ухватываться уже на 800-м шаге, и на 1600 закреплялся полностью.
А что именно тренил и с каким батчем? Те цифры были выведены эксперементальным путём для бородатого наи, учитывая остальные дампенеры и не учитывая деления на батч
Аноним 24/06/24 Пнд 04:25:46 798343 102
>>798342
Батч сайз 1, потому что все 16гб заняты, если верить афтербернеру.
>чекпоинтинг
Что?
Аноним 24/06/24 Пнд 04:32:49 798344 103
>>798343
> Батч сайз 1, потому что все 16гб заняты, если верить афтербернеру.
У тебя полезло всё в системную память, ХЛ без --gradient_checkpointing жрёт слишком много, а более простой вариант кстати расписан https://rentry.org/2chAI_hard_LoRA_guide#easy-way-xl с готовыми конфигами
Аноним 24/06/24 Пнд 05:55:28 798348 104
00008-461144241.png 1747Кб, 1024x1024
1024x1024
00020-1534323969.png 1756Кб, 1024x1024
1024x1024
00021-3413425925.png 1800Кб, 1024x1024
1024x1024
00022-1288829572.png 1650Кб, 1024x1024
1024x1024
Получаются абсолютно рандомные, взорванные генерации, но иногда получается что-то похожее на космические пейзажи. Позже попробую еще, возможно сперва набью руку на полторашке.

Всем спасибо.
Аноним 24/06/24 Пнд 06:26:16 798359 105
>>798348
Это с тем конфигом так? Если да, то интересно глянуть на датасет и пример генерации с метадатой, чтобы понять причину
Аноним 24/06/24 Пнд 07:52:32 798368 106
>>797769
Я думаю надо так же сделать. у меня гуй отказывается реагировать если F5 не нажать после запуска. Видимо пора.
Аноним 24/06/24 Пнд 11:39:37 798501 107
>>798342
Стили и концепты в основном.
Адам, косинус, батч 2. Конфиг как раз времен "бородатого НАИ", работает на поне практически без изменений, только памяти больше жрет, и в три раза дольше тренирует.
Аноним 24/06/24 Пнд 14:49:26 798692 108
>>798267
https://stackoverflow.com/questions/4157189/how-to-git-pull-while-ignoring-local-changes
Просто забекапь настройки.
>>798307
В целом да, чекни чтобы видеокарта была загружена а не простаивала.
>>798319
> От 8000 до 12000 для стилей. чек
Это борщ, только если делаешь большую лору на десяток стилей, и шаги в отрыве от батчсайза малоинформативны.
>>798348
Пони? Она настолько убита гейпами что с наскоку подобное не сделать.
Аноним 24/06/24 Пнд 16:23:17 798783 109
image.png 1756Кб, 1706x904
1706x904
>>798359
Нет, тот конфиг не ставил. Датасет пикрил, там все картинки такие.
кэтбокс даже с впном не открывается
>>798692
Не просто пони, а аутизм.

Наверное дело в том, что я через анимешный микс поней делаю лору с датасетом из реалистичных картинок. При этом пытаюсь научить концепту, который поням вообще не известен.
Аноним 24/06/24 Пнд 16:46:25 798803 110
>>798783
> Не просто пони, а аутизм.
Еще хуже, оно более переломанное с точки зрения модели, работать в диапазоне задач это не мешает, но тренить на таком - плохое решение.
Капшнинг у них какой? Обычная XL или анимушные модели не-пони без проблем такому обучатся если будут нормально протеганы.
Аноним 24/06/24 Пнд 21:15:52 799129 111
>>798501
А какие остальные настройки? Просто я точно помню что в 512 разрешении там и не нужно было столько тренить
>>798783
> Нет, тот конфиг не ставил. Датасет пикрил, там все картинки такие.
Лол, ты конечно нашёл высокохудожественный чекпоинт чтобы такое тренить, пони кумерский в первую очередь, так ты ещё и на аутизме тренил, что вдвойне плохо, для такого может какой то анимейджин бы лучше подошёл или даже вообще что нибудь дедовское
> кэтбокс даже с впном не открывается
Ну любой другой сайт/способ передать картинку с метадатой
> Не просто пони, а аутизм.
Тренить с аутизма стоит только в одном единственном случае, когда юзаешь только его и хочешь во что бы то ни стало вжарить какой нибудь стилевый датасет и чтобы он проявлялся вообще всегда с первого взгляда, на каждом промпте, перебивая даже саму модель. Но это такое себе занятие, которое сломает анатомию аутизма практически гарантированно
Аноним 24/06/24 Пнд 21:21:26 799148 112
>>798307
Посмотри в диспетчере задач, если памяти жрёт больше чем выделенная память видимокарты, то часть уходит в оперативку и получаешь дикие тормоза - тогда уменьшай батчсайз или включай градиент чекпоинт.
Аноним 24/06/24 Пнд 21:27:47 799177 113
>>798692
>Просто забекапь настройки.
Что-нибудь забуду, и потом придется заново настраивать...
Хотелось бы, чтоб он этот ресет как пулл делал - т.е. игнорируя те файлы, которые трогать не надо с точки зрения обновлений.

>>799129
>А какие остальные настройки?

mixed_precision = "fp16"
max_data_loader_n_workers = 1
persistent_data_loader_workers = true
max_token_length = 225
prior_loss_weight = 1.0
sdxl = true
xformers = true
cache_latents = true
max_train_epochs = 8
gradient_checkpointing = true

resolution = [ 1024, 1024,]
batch_size = 2

network_dim = 32
network_alpha = 16.0
min_timestep = 0
max_timestep = 1000

optimizer_type = "AdamW8bit"
lr_scheduler = "cosine"
learning_rate = 0.0002
max_grad_norm = 1.0
unet_lr = 0.0002
text_encoder_lr = 0.0001

enable_bucket = true
min_bucket_reso = 512
max_bucket_reso = 2048
bucket_reso_steps = 64
bucket_no_upscale = true

weight_decay = "0.1"
betas = "0.9,0.99"

Как-то так, вроде ничего важного не забыл.
Разве что эпохи вместо шагов указаны, но я там все настраиваю так, чтоб полная тренировка на 2000-2400 шагов получалась. Хотя могу взять и 4, и 6 эпоху вместо финальной 8-й, если вижу, что там получше получилось.
Датасеты обычно крупные, от 100 картинок.
Аноним 24/06/24 Пнд 21:52:11 799237 114
>>799177
> sdxl = true
Да не, я про конфиг для наи имел ввиду, для хл то база, сам ведь почти таким же пользуюсь
Аноним 24/06/24 Пнд 21:54:21 799241 115
>>799237
> наи
Кто вообще полторахой пользуется в 2024?
Аноним 24/06/24 Пнд 22:00:45 799247 116
>>799237
А, ну так он такой же, за исключением этого флага и размера бакетов/картинок. Там либо 512, либо 768, если память позволяет.
Я ж говорил, что конфиг времен НАИ, в нем только это и поменялось, считай.
Аноним 27/06/24 Чтв 15:53:41 802213 117
кто-то тренил в каггле sdxl лоры?
такое ощущение что те кто хочет обучать лоры уже имеют карточки для этого, а нищукам просто похуй и используют онлайн слоп-генераторы
Аноним 28/06/24 Птн 00:42:26 802815 118
>>802213
Хватит срать этим по тредам. Иди трейни на Civitai с мультиакка
Аноним 28/06/24 Птн 01:06:52 802847 119
image.png 55Кб, 882x722
882x722
>>758561 (OP)
Как в AD внедрить контролнет?
Список моделей не открывается
Аноним 28/06/24 Птн 11:50:36 803051 120
>>802847
Не использовать AD для таких задач, а переключиться на и2и во вкладку ипнэинта.
Аноним 28/06/24 Птн 17:29:58 803389 121
>>803051
>ипнэинт
Зачем ручками работать там, где можно автоматизировать?

По крайней мере, я хочу протестить эту тему
Аноним 29/06/24 Суб 05:31:15 804289 122
>>803389
Затем, что творчество.
Аноним 30/06/24 Вск 01:21:29 805242 123
пиздец, вроде как 32гб vram, но есть нюанс, то что эти 32гб разделены на две видяхи
пытался обучать дефолтным скриптом кохи, и нихуя не получалось выше 1 батч сайза поставить с градиентом
видимо скрипт хуево параллелит нагрузку или модель sdxl большая слишком для таких задач
Аноним 30/06/24 Вск 01:41:31 805258 124
чел, ты видюхи хоть выбирал или просто на похуй запустил
Аноним 30/06/24 Вск 09:11:33 805373 125
>>805258
>выбирал
я просто скрипт кохи запустил и все
с --multi-gpu эта хуйня выдаёт оом
без него не выдаёт, но при этом хавает память с 2 видях
Аноним 30/06/24 Вск 13:24:06 805544 126
>>805242
> но есть нюанс
Это неебаться какой нюанс, в теоретической теории можно обойтись FSDP но на консумерских видюхах с кохой это, считай без шансов.
В гайдах в шапке есть настройки для лоры, они позволяют ужаться до 12гб для минимального обучения без серьезных импактов на качество. В 16 гигов будет влезать некоторый батч сайз. Вторая видюха будет просто ускорять обучение в 2 раза (если подключена по нормальной шине, меньше если всратая) но никак не прибавит тебе возможностей по памяти.
Можешь накатить dev ветку и использовать fused оптимайзер, адам8бит в них отсутствует, так что единственный полезный будет adafactor. Это прилично снизит требования к врам. Можешь обмазаться дипспидом, если не будет компилироваться - пропиши в энвах пути до либ новидео, но для него потребуется дохуя рам.
Если хочешь больше эффективный батчсайз - накати pr на добавление фьюзед оптимайзеров, там дополнительно есть функция, которая позволяет делать накопление градиента на фьюзед оптимайзерах и не тратить приличный кусок врам на это.
> видимо скрипт хуево параллелит нагрузку
Он отлично ее параллелит, объединение врам в сделку не входит никогда, если только явно не раскидывать части модели по разным девайсам.

Да, мультигпу и все это актуально для прыщей или wsl, удачи собрать все нужные либы под окнами.
Аноним 30/06/24 Вск 15:40:20 805629 127
image 146Кб, 1595x893
1595x893
Выгнали с sd треда сюда, с таким вопросом

Юзаю такие настройки. Ставлю end_percent на canny повыше и получается мазня, а щас не соответствует референсу. Что крутить?
Аноним 30/06/24 Вск 16:14:14 805637 128
1592189825242.png 88Кб, 650x296
650x296
>>805629
Делай плавное понижение веса и гони до самого конца, а не 0.4. И судя по пикрилу ты шиз, тебе только таблетки помогут. Особенно если ты для аниме canny используешь.
Аноним 30/06/24 Вск 16:25:32 805638 129
>>805637
>Делай плавное понижение веса и гони до самого конца, а не 0.4.
Попробую

>И судя по пикрилу ты шиз, тебе только таблетки помогут. Особенно если ты для аниме canny используешь.
Это негативный промпт, как давно где-то скопировал так и юзаю, надо будет поправить. Использую для фотореала. Раньше использовал zoe depth, но оно тоже попердоливает цвета если большие веса и end_percent дать
Аноним 30/06/24 Вск 20:04:42 805932 130
>>805629
> 1016
> sdxl
Уже с этим проебався, кратности 64 следует придерживаться.
> Ставлю end_percent на canny повыше и получается мазня
Препроцессор как работает и в каком разрешении? Канни в принципе не стоит держать на силе 1 с полном циклом, ибо она слишком агрессивная и "пиксель перфект". Используй лайн арт или аналоги, их можешь сколько угодно жарить. Как тебе сказали используй спадающую силу под конец. Проверь совместима ли вообще эта модель с чекпоинтом что используешь.
Ну и за трешанину в промте двачую.
Аноним 30/06/24 Вск 20:50:56 805964 131
image.png 2Кб, 256x50
256x50
Сап обновил кохины скрипты, там теперь торч 2.1.2. Где брать норм куду, чтобы ему вбросить? Старый вброс не подходит по именам файлов. Че он ее сам не вбрасывает, заебал, с каждым апдейтом скорость падает на 20%
Аноним 30/06/24 Вск 20:52:46 805967 132
>>805964
Какие именно скрипты, какую куду, какой вброс? Распиши подробнее, ничего не понятно.
Аноним 30/06/24 Вск 20:59:01 805969 133
>>797769
>с outputs не прокатило
В настройках есть папки куда сейвить выхлопы
Аноним 30/06/24 Вск 21:04:31 805977 134
>>805967
Раньше советовалось скачивать свежий cudnn (11 или 12, не помню от чего зависит) и вбрасывать dll-ки в site-packages/torch-x.x.x/lib/, с заменой файлов. Это ускоряло мне тренинг с 1.7-1.8 до 2+ итсов.
Щас торч другой версии и куда там тоже другая, и это выдает на 1.6 итсов. Прошлый свежий cudnn туда не подходит. Вот я и спрашиваю где его правильно брать, ну или послать все нах и сделать даунгрейд.
Кто может посоветовать, тот и так в курсе этой ебатории.
Аноним 30/06/24 Вск 21:26:29 805995 135
>>805977
Это было оче давно и уже неправда. Делаешь
> pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121
> pip install xformers==0.0.23.post1
Потом реквайрменты и довольно урчишь. Про ту херь забудь как страшный сон.
Аноним 30/06/24 Вск 21:28:49 806000 136
>>805995
Попробую, спасибо. /cu121 это как раз для 12 куды сборка?
Аноним 30/06/24 Вск 21:29:27 806002 137
Аноним 30/06/24 Вск 22:34:52 806071 138
image.png 29Кб, 613x270
613x270
Нашел в итоге сам подходящие куднны. Проверил разные варианты на 300 итерациях (первый тест был холодный, но не думаю что здесь это важно).
Как видим, ку118 + свежая куда все еще тащит. Разница небольшая, но это из-за тупой реализации счетчика и малого колва шагов на тест. Через 1000 шагов оно сойдется к большему значению.
Если седня на ку118+8.9.7 выдаст около 2 итса, то меня устроит. Если не выдаст, то отпишу в тред.

Для ясности
1: оригинал, свежая копия кохи без модификаций, на 3000 шагах дает 1.6х итсов
2: как 1 + в site-packages/torch/lib закинуты дллки отсюда: https://developer.nvidia.com/rdp/cudnn-archive -> Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 11.x
3: как 1 + рецепт >>805995 анона
4: как 3 + в site-packages/torch/lib закинуты дллки отсюда: https://developer.nvidia.com/rdp/cudnn-archive -> Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x

>>805995
Если кто будет существующий инсталл править:
> pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121
Это работает само по себе
> pip install xformers==0.0.23.post1
Это работает только после pip uninstall xfromers, иначе пип считает, что +cu188 и так стоит, и не ставит версию без +cu118, которая на самом деле +cu121, но опубликованная без суффикса. ебанутее нет создания чем питонист блять
Аноним 30/06/24 Вск 22:38:46 806074 139
>>806071
У тебя там GTX 1660 что ли?
Аноним 30/06/24 Вск 22:42:37 806076 140
>>806074
а что должно быть?

у меня
>[1:54:30<50:43, 3.30s/it, avr_loss=0.0372]
на двух теслах т4 для sdxl лоры

мимо нищук на каггле
Аноним 30/06/24 Вск 22:45:56 806078 141
>>806074
Итсы зависят от параметров тренинга, у разных анонов они разные. Важны только относительные значения.

>>806071
>xfromers, иначе пип считает, что +cu188 и так стоит
>xformers, иначе пип считает, что +cu118 и так стоит
самофикс
Аноним 30/06/24 Вск 23:03:17 806096 142
>>806071
Что за видеокарта и система?
Просто ставишь версию для куды121 и забываешь, твой скрин это подтверждает. В фоне браузер чуть поскроль и будет аналогичного масштаба эффект.
> Это работает само по себе
Не всегда и не везде.
> Это работает только после pip uninstall xfromers
Чивоблять? У тебя там васян-обертка поверх кохи, или ставишь сразу рекварментсы в надежде что правильный торч скачается?
Нужно делать именно в таком порядке на свежем вэнве, а не ломать совместимость или качать неправильные версии на уже засранном.
> ебанутее нет создания чем питонист блять
Сам создаешь проблемы, а богоподобный пип всеравно их исправляет, подсовывая все совместимое.
Аноним 30/06/24 Вск 23:31:49 806154 143
image.png 3Кб, 611x25
611x25
>>806096
Винда, 4070ти.
>Чивоблять? У тебя там васян-обертка поверх кохи, или ставишь сразу рекварментсы в надежде что правильный торч скачается?
Дефолтная коха после setup.bat (пункты install + download cuda).
>Нужно делать именно в таком порядке на свежем вэнве, а не ломать совместимость или качать неправильные версии на уже засранном.
Я знаю что делаю тащемта. Итсы берутся из торча и куды. Что там вокруг валяется и каких версий - никакого значения для процесса тренинга не имеет, т.к. это просто клей для овермайнд методов, зашитых в торчекуде.
По итогу заменены 4 пакета, торч, вижен, аудио, хформерсы.
>богоподобный пип всеравно их исправляет
Да, а потом "WARNING xfromers not loaded 118 vs 121". А если ставишь без версии, то качает торч 2.3.0.
Че ты так трясешься с этого, фанбой что-ли? У питонистов вечно проблемы на ровном месте. Я щас добью вопрос и поделюсь результатом и рецептом, какие бы ни были. Не на риторике, а на фактах.

---
Вариант cu118+свежий куднн на 3к шагов показал 1.89 (пик), против 1.6 стока.
Я щас проверю полный трен cu121 стока, ок, мне не жалко.
Аноним 30/06/24 Вск 23:42:29 806175 144
>>806154
> Дефолтная коха после setup.bat
Это уже гуйня, дефолтная коха - https://github.com/kohya-ss/sd-scripts
В принципе с ней можешь просто нажать сетап, оно все само сделает. А готовый вэнв шатать с кучей взаимных зависимостей такое себе.
> Итсы берутся из торча и куды.
Расскажи это кохаку с поломанными версиями ликориса. А так в новом торче оно заведомо все быстрое.
> Я знаю что делаю тащемта
> Да, а потом "WARNING xfromers not loaded 118 vs 121"
Ну вот видишь. Важен порядок установки и конкретный синтаксис с указанными версиями, а не свободная интерпретация. По дефолту качается ластовая с 2.3 торчем, да, но коха на ней не сработает. Под 2.1.2 именно версия 0.0.23.post1 если полистать репу то там написано.
> Че ты так трясешься с этого
Чел, пока что трясешься только ты, бездумно тыкаешься а потом жалуешься, пытаясь повторять историческую херь, на которую даже те кто ее пропагандировал уже забили. И судя по надписям у тебя там мешанина из версий, которая такой эффект и дает.
Аноним 01/07/24 Пнд 03:31:05 806263 145
image.png 51Кб, 772x375
772x375
>>806175
Я протестил все варианты, только в этот раз включил версию драйвера. Твой, с абсолютно новым венвом, тоже протетсил.

В итоге:
- Без вброса свежих дллок cu118 тренит на 1.6-1.7 итсах
- Ты прав, в полном тренинге cu121 со вбросом и без вброса (1.86) несильно отличается от cu118+вброс (1.89). Видимо в cu121 просто по дефолту свежий куднн.
- При драйвере 551.52 cu121 достиг 1.94 итсов, а cu118 - 1.97 итсов
Новый драйвер я сдуру поставил, забыв что он нерфит тренинг.

Вывод:
- Ставишь 551.52
- Вбрасываешь дллки если сидишь на cu118 (ссылка выше)
- Сидеть на cu121 большого смысла нет

>Это уже гуйня
Да похер, пикрил

>Важен порядок установки и конкретный синтаксис с указанными
Ладно.жпг

>бездумно тыкаешься а потом жалуешься, пытаясь повторять историческую херь, на которую даже те кто ее пропагандировал уже забили
Если посмотреть выше, то я вроде как пришел к успеху. Правда я сам от него же и ушел, поставив ебучий новый драйвер и не записав в прошлый раз ссылку на хороший куднн. Зато обновил тесты, хуле, может кому пригодится.
Аноним 01/07/24 Пнд 12:25:17 806444 146
>>805932
>Уже с этим проебався, кратности 64 следует придерживаться.
Тут мимо, я InstantID еще предварительно использую, а там если 1024 ставить лютые ватермарки хуярит, поэтому только 1016

>Ну и за трешанину в промте двачую.
Промт уже поправил
Аноним 01/07/24 Пнд 13:11:48 806466 147
>>806263
Возможно, автор гуйни что-то там навертел в своем автоустановщике что он по дефолту ставит старые версии, от того и такой эффект. Это же у него раньше была опция прямо в инсталляторе "подкинуть библиотеки".
В твоем случае отличия в скорости могут быть еще из-за разных xformers, которые под шинду скомпилированы через одно место.
Собранный торч самодостаточен, и новая версия уже заведомо содержит последние библиотеки, то что надо было что-то подкидывать - костыль старых времен.
> - Сидеть на cu121 большого смысла нет
Наоборот, он дает полный перфоманс без странных манипуляций. Бонусом, если захочешь накатить новые пры и подобное - все будет работать без внезапных приколов. Разница что ты углядел - едва измерима, время записи на диск больше эффекта даст.
>>806444
А здесь не ставит потому что края изображения идут по бороде, странно что оно без артефактов как-то декодится, возможно помогает тайлинг. Ну если работает то и норм.
Аноним 01/07/24 Пнд 14:17:47 806510 148
>>758561 (OP)
Какова может быть причина пережарки? После 31 эпоха начало появляться мыло+контраст. По-спекулируйте пожалуйста. Настройки (civitai трейнер):

"resolution": 768,
"targetSteps": 2475,
"numRepeats": 5,
"maxTrainEpochs": 45,
"trainBatchSize": 6,

"unetLR": 0.00001,
"textEncoderLR": 0.00001,
"lrScheduler": "linear",
"networkDim": 128,
"networkAlpha": 64,
"noiseOffset": 0.1,
"lrSchedulerNumCycles": 3
"minSnrGamma": 5,

"optimizerType": "AdamW8Bit",
"flipAugmentation": false,

"loraType": "lora",
"clipSkip": 1,
"enableBucket": true,
"keepTokens": 0,
"shuffleCaption": true,
Аноним 01/07/24 Пнд 14:58:28 806538 149
>>806510
> "maxTrainEpochs": 45,
Пиздос.
Аноним 01/07/24 Пнд 15:26:20 806563 150
>>806510
> "numRepeats": 5,
> "maxTrainEpochs": 45,
Оче много если только там не датасет из десятка пикч. Но такой сам по себе может являться проблемой если не прибегать ко всякой черной магии.
> "unetLR": 0.00001,
> "textEncoderLR": 0.00001,
Но лр при этом относительно низкий для остальных параметров. Показывай в чем выражается твоя пережарка.
Аноним 01/07/24 Пнд 18:08:42 806645 151
No LORA.jpg 1603Кб, 3520x960
3520x960
31 epoch.jpg 1565Кб, 3520x960
3520x960
49.jpg 1454Кб, 3520x960
3520x960
>>806563
Там на самом деле 49 эпохов. 66 пикч. Tренировал стиль. Хотя вижу уже даже на 31 эпохе уже волосы слипаются и странных шарп на краях.
1 без лоры
2 31 эпох
3 49 эпох
Аноним 01/07/24 Пнд 18:18:10 806663 152
>>806645
Что получить пытаешься вообще? Показывай датасет, что в нем и как сделаны капшны.
Наблюдаемое может быть следствием и слишком низкого лр, и хуевого датасета, и много чего еще, но это не пережарка в классическом понимании.
Выстави нормальный LR, например раз в 5-10 больше для таких параметров, эпохи можешь смело в 2-3 раза снижать, шедулер можешь оставить, но лучше косинус воткнуть.
Аноним 02/07/24 Втр 11:22:20 807222 153
civit.mp4 19734Кб, 1920x1080, 00:00:20
1920x1080
>>806663
>Наблюдаемое может быть следствием и слишком низкого лр,
Спасибо, не знал что даже это может иметь негативные последствия.
Видео рил была предыдущая попытка, тот же датасет, те же настройки кроме noise offset, его я поднял с 0.1 до 0.12, но другой чекпоинт. Уже на 7 эпохе какая-то пережарка пошла по этому я и боялся выставлять высокий LR.
>не пережарка в классическом понимании
Не дожарка?

>эпохи можешь смело в 2-3 раза снижать
Да выставил максимальные эпохи чтобы базз за просто так не уходил.

>Показывай датасет
Не хочу диванонится, т.к. если лора получится хорошей то залью её на циви.

капшн1:
orange eyes, looking at viewer, fixing her glasses, big breasts, cleavage, black leather skirt, red lips, red tail, red choker, red gloves, from above, secretary outfit, red background, red light, photorealistic, realistic, имя художника на англюсике, glasses, solo, sfw

капшн2:
ada wong from resident evil, solo, nude, asian, nipples, breasts, brown eyes, belly button, pubes, red bikini, black choker, bob haircut, black hair, standing, holding guns, thick thighs, looking at viewer, low angle, indoors, realistic, by имя художника на англюсике, dominant
Аноним 02/07/24 Втр 22:37:37 807625 154
>>807222
> кроме noise offset
Вот его лучше вообще убери. Если в чекпоинте уже есть, или применяется другая лора с ним - поломается капитально.
Ты только на циве семплинг в процессе обучения смотрел? То же самое только с хайрезфиксом хотябы попробуй, и гридом по разным эпохам как раз. Артефакты такие могут и из датасета лезть, и из-за косячного vae при кодировке, множество причин в общем. Еще, как вариант, снизить лр текстового энкодера не более трети-половины от лр юнета.
> ыставил максимальные эпохи чтобы базз за просто так не уходил
Тут просто нюанс в том как работает косинус, на максимальных эпохах он будет медленно снижаться и долго жарить в начале. Косинус с рестартами тогда уже поставь или лучше annealing чтобы один период приходился на сколько эпох.
Капшны нормальные если просто по тексту оценивать.
Аноним 03/07/24 Срд 11:22:14 807966 155
я правильно понимаю что альфа в параметрах обучения это тупо константный множитель и a=r/2 это тупо каргокульт?
если дотрейнить лору с альфой 1 одним шажком с параметрами альфа например 32 - она станет эквивалентом лоры которая обучалась с самого начала на альфа=32?
Аноним 03/07/24 Срд 12:20:39 807985 156
>>807966
> если дотрейнить лору с альфой 1 одним шажком с параметрами альфа например 32 - она станет эквивалентом лоры которая обучалась с самого начала на альфа=32?
сам спросил, сам потестил по-разному - не станет, но отличия от исходной всё меняют генерацию даже на одном шаге с околонулевым лр
Аноним 03/07/24 Срд 14:19:14 808040 157
>>807966
> альфа в параметрах обучения это тупо константный множитель и a=r/2 это тупо каргокульт?
В целом да
> если дотрейнить лору с альфой 1 одним шажком с параметрами альфа например 32 - она станет эквивалентом лоры которая обучалась с самого начала на альфа=32?
Абсолютно нет. Но если тренить с кратно большим лр - будет нечто похожее, офк там оптимайзер свои коррективы вносит и конечный результат может отличаться.
>>807985
> меняют генерацию
Даже слабое шатание весов лоры может заметно менять воспроизведение сидов. В интеграле работа при этом не изменится.
Аноним 03/07/24 Срд 23:10:55 808587 158
IyfPOOMrLx.jpg 459Кб, 1918x2614
1918x2614
>>807625
>Вот его лучше вообще убери. Если в чекпоинте уже есть, или применяется другая лора с ним - поломается капитально.
Ясно.
>Ты только на циве семплинг в процессе обучения смотрел?
Циви использую потому что больше нигде нет бесплатного тренинга лоры.
>То же самое только с хайрезфиксом хотябы попробуй, и гридом по разным эпохам как раз.
Ты имеешь ввиду сейчас посмотреть есть ли артефакты при генерации i2i?
>Еще, как вариант, снизить лр текстового энкодера не более трети-половины от лр юнета.
Попробую.
>annealing
Такого в циви нет.
Аноним 04/07/24 Чтв 18:15:17 809247 159
Есть фото референс. Задача сгенерить свое по этому референсу с максимальной детализацией. Что использовать?
Аноним 04/07/24 Чтв 18:23:50 809249 160
>>809247
да буквально что угодно, можешь тупо имг ту имг, можешь инпейнтом, можешь контролнет канни/глубины/карты нормалей, можешь референс, можешь лору натрейнить, если ебало очень кривое - можешь даже лору со свёрткой
Аноним 05/07/24 Птн 08:49:25 809693 161
Ананасы, насколько актуален этот https://rentry.org/2chAI_hard_LoRA_guide
гайд? И как мне тренировать персонажа: хочу лору по девке из непопулярной вн, и поэтому всё, что у меня есть —это ~20 цг из игры, все с голландским кадром или другими персонажами (если замазывать в фотошопе, картину обрезать ровно по героиню, и убирать даже пересекающую её чужую руку?), одна нормальная цг в полнорост, куча спрайтов (все от одного художника, разница в стиле есть, но слабая), и десяток-другой скетчей и ещё несколько фанартов, где визуальное совпадение в деталях отсутствует/у персонажа неканоничная одежда/одежды нет.
Аноним 05/07/24 Птн 08:50:40 809696 162
>>809693
>куча спрайтов
Куча скетчей, самофикс

Хотя и спрайты (с разными лицами) тоже есть, их не стоит пихать ведь, а то он научится на ~100 эмоциях при одной позе ещё
Аноним 05/07/24 Птн 12:23:19 809775 163
Нужно расширить фотографию. Закидываю в img2img + outpainting mk2 скрипт или через inpaint и сверху, дорисовывает нормально, снизу, где сцена сложнее лепит хуйню вообще не в тему к основному изображению. Накидайте правильных настроек
Аноним 05/07/24 Птн 13:25:11 809800 164
>>809693
Лучше в датасете оставить лишь эту твою тян, убрав остальное в фш, либо сделав маски и тренировать с ними.
Когда артов мало, можно даже сделать примерно так - сделать хоть какую то лору и нагенерить в разных стилях, поправив генерации, чтобы чар был консистентным, тем самым пополнив датасет и тренить снова.
Ну и ещё, когда все арты в одном стиле, то можно сначала натренить этот стиль, вмерджить в модель, или использовать соответствующий флаг в сд-скриптс, вторая тренировка с таким стилем поверх уже его не будет впитывать, но будет впитывать уникальные характеристики чара, так например с койкацу можно сделать тем же, надеюсь мысль понятна. Правда лучше набрать для такого стиля картинок не связанных с чаром, чтобы вторая тренировка проходила правильно.
Аноним 05/07/24 Птн 17:22:08 809918 165
>>809800
Фоны тоже убирать?
Аноним 05/07/24 Птн 17:51:54 809927 166
>>809693
Накропай чара откуда можно, убрав лишнее и отзеркаль пикчи для их размножения. Апскейли дат ганом чтобы превышали 1 мегапиксель. Хорошо протегай чара, как его имя, так и одежду. Совсем упарываться фанатизмом с очисткой не стоит, как и убирать фона. Дутчангл должен быть в капшнах есть он есть на пикче.
Это разбавляешь исходными артами где есть и окружение, и другие персонажи и прочее, главное чтобы все было хорошо описано. Из этого уже может получиться нормальный датасет для лоры на чара. Если уж совсем плохо будет - нагенери с имеющейся лорой, черрипикни удачные и добавь их в датасет.
Аноним 05/07/24 Птн 18:09:25 809942 167
>>809918
Можешь попробовать, так чар может в итоге точнее натренится с маскед лоссом
Аноним 05/07/24 Птн 18:36:23 809955 168
>>809942
Что такое маскед лосс и маски вообще?
Аноним 05/07/24 Птн 18:47:04 809957 169
>>809955
В гайде как раз и расписано с примером
Аноним 07/07/24 Вск 14:07:32 811166 170
>>758561 (OP)
Первый вопрос:
Имеет ли смысл обучать ЛОРы для всех версий SD сразу?
Я надолго отвратился от SDXL, когда все говорили, что оттуда выкинули очень много картинок на обучении. Но я открываю сайт civitai и вижу как много лор выходит именно (и только) под SDXL.

А ведь уже какой SD 3 появился.
---------------------------------------
Второй вопрос: собираю новый комп. Хочу взять 4090 именно для обучения лор/генерации картинок. Так как 24 GB VRAM. Иначе бы взял 4070/4080 (где 16).
В принципе, могу себе позволить переплатить, если это имеет смысл. Имеет ли смысл переплачивать разницу между 4080 и 4090?
Аноним 07/07/24 Вск 18:13:53 811353 171
>>811166
> Имеет ли смысл переплачивать разницу между 4080 и 4090?
Имеет
Аноним 07/07/24 Вск 18:53:46 811381 172
1943751.jpg 23Кб, 239x250
239x250
Пытаюсь повторить эту фотку (по позе) но выходит полная хуета, нейронка никак не может свести ноги вместе

Набрал такие теги
1 girl, legs up, holding legs, straightened legs, legs together, hamstrings, calves, thighs, hips, socks, feets, ass, short hair, red hair
Аноним 07/07/24 Вск 21:16:51 811472 173
>>811166
> Имеет ли смысл обучать ЛОРы для всех версий SD сразу?
Странные вопросы задаешь, по что планируешь юзать под то и обучай.
> Имеет ли смысл переплачивать разницу между 4080 и 4090?
Абсолютно. Можешь подождать пол годика анонса блеквеллов.
>>811381
Насколько существенно чтобы именно за носок держалась?
Аноним 07/07/24 Вск 21:32:21 811482 174
>>811472
> анонса
не, я комп этим летом хочу.
Аноним 07/07/24 Вск 21:36:25 811487 175
>>811472
>Насколько существенно чтобы именно за носок держалас
В целом, главное чтобы были подняты вверх ноги, показывая заднюю поверхность бедра и чтобы девушка именно сидела, а не лежала
Аноним 07/07/24 Вск 22:07:33 811512 176
>>811381
Наверное самое реалистичное - это тренить Лора. Ну или ждать SD6, или когда там нейронки начнут такие сложные позы понимать
Аноним 07/07/24 Вск 22:13:04 811515 177
>>811482
Тогда покупай, единственная альтернатива для ии - риг на бу 3090 что такое себе.
>>811487
Анимублядское - легко.
Аноним 07/07/24 Вск 22:46:46 811534 178
>>811166
Гоняю 4080. Для SDXL вполне хватает, но для чего-то большего уже маловато 16GB. Если есть возможность - бери 4090, не пожалеешь, оно того стоит.
Аноним 08/07/24 Пнд 01:56:01 811654 179
>>811515
Раз легко то не сложно будет рассказать как именно
Аноним 08/07/24 Пнд 09:49:50 811827 180
Автоматик запилил textual inversion для sd3

https://github.com/AUTOMATIC1111/stable-diffusion-webui/pull/16164

Интересно, если sai ломали анатомию и цензурили с помощью просто подмены значения токенов, типа naked=barby, то уже этого будет достаточно для обхода
Аноним 08/07/24 Пнд 10:03:07 811834 181
>>811827
> sai ломали анатомию и цензурили с помощью просто подмены значения токенов
Нет, там датасет был подчищеный.
Аноним 09/07/24 Втр 00:35:37 812287 182
>>811827
И чего оно, вкратце, сможет делать? Для нуба, если?
Аноним 09/07/24 Втр 10:02:02 812419 183
>>812287
Оно позволяет создать токен для концепта, который уже есть в моделей, но для которого нет слов, чтобы описать
Аноним 12/07/24 Птн 00:20:48 814537 184
КАК ЖЕ ЗАЕБАЛО ЭТО "Code: coming soon". Вот это периодически проверяю, и код все ещё coming soon >>781618 ДА КАКОГО ХРЕНА? Уже больше месяца. У вас этот код вообще был? В чем вообще причина, и вообще смысл делать доклад о том, чего еще нет, и хрен когда появится

Главное в начале накидать смайликов 🤯🎉🚀, запостить по всем каналам, а потом нихера не делать
Аноним 12/07/24 Птн 00:31:37 814551 185
1000170510.jpg 24Кб, 500x500
500x500
>>814537
Месяц назад - это я увидел этот проект. Сама новость вышла вообще 26 мая
Аноним 14/07/24 Вск 03:10:00 815991 186
Аноним 14/07/24 Вск 13:06:22 816125 187
>>811654
Берешь что-нибудь хорошее на основе pony и без задней мысли промтишь. Некоторая сложность будет с тем чтобы спина была высоко, но возможно.
>>815991
Фуллы чего, видосов этого мемного инфоциганина который всех заебал?
Если ты про пресеты - там включены все оптимизации из возможных и используется батчсайз 1, что априори херь, и скорость ниже плинтуса. Главное - full bf16, fused backward pass изначально 8-битного оптимайзера, или еще дипспид на 3м стейдже. То же самое можно сделать и на кохе.
Если серьезно, какой-то более менее реальный кейс файнтюна сдхл можно оформить на 24 гигах: без те очень шустро и с нормальным батчсайзом, fused adafactor или даже адамв8 и fused groups, с те - уже дипспид на втором стейдже. Его добавление ощутимо замедляет все, хз как там братишки получали даже ускорение, но на всех машинах только негативный эффект, где гпу простаивает часть времени пока проц превозмогает, обсчитывая оптимайзер.
Аноним 14/07/24 Вск 15:11:52 816174 188
>>816125
А пак регулярок где скочять? Меня больше это интересует.
Аноним 15/07/24 Пнд 14:20:08 816913 189
>>816174
Ссылка на патреон, для них достаточно просто залогиниться, бесплатные.
Но там просто рандом генерации на голой XL примитивных промтов типа "портрет мужчины/женщины", можешь их и сам наделать. Эффект от их использования тоже под вопросом честно говоря.
Аноним 15/07/24 Пнд 22:32:05 817287 190
>>816913
>Ссылка на патреон, для них достаточно просто залогиниться, бесплатные.
У меня бабки требует
Аноним 16/07/24 Втр 03:39:48 817437 191
>>815991
Лол, опять этот турецкий мл специалист, 15 картинок с будкой и регами это конечно сильно, ну и "найс 6гб лора брух" на выходе бтв.
Интересно, в 1трейнере есть такой же баг как в сд-скриптс, когда после определённого количества картинок в датасете выделяется на несколько гигов больше врам
>>816174
Сделай моделью просто, с которой тренить будешь, это старый метод, если уж хочется ебаться с таким, лучше что то поновее по типу DPO
Аноним 16/07/24 Втр 09:13:37 817504 192
>>817437
>Сделай моделью просто, с которой тренить будешь
лень пиздос
Аноним 16/07/24 Втр 09:15:38 817506 193
>>817437
>если уж хочется ебаться с таким, лучше что то поновее по типу DPO
типа наделать регулярок с моделью под дпо? или че ты имел в виду
Аноним 16/07/24 Втр 14:50:28 817630 194
>>817287
Сгенерируй сам на ванильной sdxl или той модели что хочешь обучать, это буквально то же самое что там. Желательно смочь в разнообразие, охват и отсутствие явных байасов, но учитывай что на регулярки тоже расходуются итерации и это замедлит тренировку. Хз правда чего хочешь достигнуть, положительного эффекта от них в реальных применениях крайне мало.
>>817437
> найс 6гб лора брух
90+% всего что представлено на циве, увы.
> после определённого количества картинок в датасете выделяется на несколько гигов больше врам
Что за баг такой? Разницы при десятке пикч и миллионах не замечено, только метадату дольше грузит.
Аноним 16/07/24 Втр 15:12:51 817642 195
>>817506
> типа наделать регулярок с моделью под дпо? или че ты имел в виду
Я имел ввиду что регулярки во многих старых гайдах, которые были актуальны в долоровую эпоху предлагают делать их моделью, с которой ты тренируешь, с промптом, который в кэпшене конкретной пикчи, и даже с таким же сидом, конкретно про dpo датасет не подскажу, сам не знаю и не пробовал, вот только недавно у кохьи какой то коммит появился https://github.com/kohya-ss/sd-scripts/pull/1427 а так в целом всем похуй было, как обычно
>>817630
В какой то из версий был, может и до сих пор есть. Попробуй лору с 25, 50, 100, 150 картинками без gradient checkpointing с хл, понями если точно, с 25 выделялось что то по типу 16, со 150 уже 20-22 или как то так. До сих пор ещё есть баг с повторами на нескольких папках, он вообще рандомно возникает и некоторые лоры на мультихудожников поэтому не работают с некоторыми из них, несмотря на то что они были в датасете и единственное что сработает, ну заместо копания хули там не так, просто скопировать столько раз в одну папку всё, сколько нужно, лол
Аноним 16/07/24 Втр 21:20:11 817994 196
>>817630
> Хз правда чего хочешь достигнуть
Да мне надо уместить файнтюн полноценный в 12 гигов просто, т.к. на одном форумчике челик ликорисы крутые делает. Примерный гайд это
а) чем больше датасет тем лучше
б) файнтюнится модель на этом датасете с настроечками которые заботливо выложены
в) экстрагируется ликорис кохъёй
Аноним 16/07/24 Втр 23:17:41 818105 197
>>817642
Мдэ, странная херня. Кстати с градиент чекпоинтингом полное потребление наступает не сразу а спустя несколько шагов, если смотреть по мониторингу. Хз с чем это связано.
>>817994
Можешь рассказать что именно хочешь сделать?
> а) чем больше датасет тем лучше
Depends, если какой-то стиль то сильно много не имеет смысла. Да и даже если на масштабную тренировку замахиваться, качество стоит выше количества.
> с настроечками которые заботливо выложены
Можешь скинуть что за настройки?
> в) экстрагируется ликорис кохъёй
Извлеченный ликорис всегда слабее модели. Нормально получиться только если вжаривать юнет большим лром на малом батчсайзе, тогда из пережаренного чекпоинта экстракт будет как-то работать. Также, извлеченная лора/ликорис часто дает косяки типа поломок пальцев и т.д., тогда как при тренировке сразу лоры со спадающим лром огрехов будет меньше.

Это просто наблюдения, от того чтобы попробовать не отговариваю. И доставь, пожалуйста, сорс где так делаются ликорисы.

Чтобы влезло в 12 гигов, тебе нужны следующие параметры:
> --train_text_encoder --lr_scheduler="constant_with_warmup" --optimizer_type="adafactor" --train_batch_size=1 --xformers --full_fp16 --mixed_precision="fp16" --optimizer_args "scale_parameter=False" "relative_step=False" "warmup_init=False" --fused_backward_pass
Работает в dev ветке кохи. Аккселерейт настраивать на mixed precision: None. Можешь еще сменить fp16 на bf16, но ни к чему хорошему это не приведет. Также освободи всю видеопамять и по возможности переключись на встройку, там оно вообще по верхней границе пойдет.
Аноним 17/07/24 Срд 00:08:55 818144 198
>>817994
Анон выше прав, с будкой могут быть другие результаты и это экстрактить, особенно в низкие ранги, будет геморно, если не вжаривать до упора, натренить в отдельную лору что то простое обычно лучше
Аноним 17/07/24 Срд 10:43:00 818454 199
>>818105
>Можешь скинуть что за настройки?
Ну вот под сдохлю, попозже скину под пдхл
https://rentry.co/q2qcfhp9
Аноним 17/07/24 Срд 12:55:57 818577 200
>>818454
Булджадь, ну там реально во-первых треш с бф16 для файнтюна (ничего страшного если скачаны тру фп32 веса, точно не будет работать на пони) и ультрапрожарка с оче оче большим лром, который как-то пригоден для бс 70+.
Если сделано чисто под дальнейший экстракт - может быть, но когерентность и мелкие вещи типа пальцев скорее всего умрут.
Спасибо, скинь результаты если попробуешь.
Аноним 17/07/24 Срд 16:06:04 818874 201
Аноним 17/07/24 Срд 20:33:45 819144 202
Подскажите чем можно сделать раскадровку видео. Чтоб можно было потянуть кадры для обучения лоры.
Аноним 17/07/24 Срд 20:38:52 819153 203
Аноним 17/07/24 Срд 20:40:19 819155 204
Аноним 18/07/24 Чтв 00:55:49 819383 205
Под автоматик есть какое-нибудь расширение или способ чтоб на первых шагах генерации делать отдаление зума? Или как оно правильно называется, хз, а то заебало, все пикчи как будто обрезанные выходят. Расширение готовой картинки - не то, надо чтобы именно на этапе композиции работало.
Аноним 19/07/24 Птн 01:55:31 820385 206
какие основные профиты использования controlnet вместе с img2img?
Аноним 19/07/24 Птн 05:57:25 820543 207
>>820385
Зависит от контролнета.
Для меня самый полезный - использовать для работы за пределами когерентного разрешения модели.
Апскейл сделать, или просто и2и на высоких разрешениях погонять ради интересных вариантов с высокой детализацией.
Аноним 22/07/24 Пнд 15:35:31 823640 208
Такой вопрос.. Какое количество картинок является потолком для лоры?
Пока 300 картинок для 128dim выглядит норм, но можно ли положить 1000 скажем в 256dim?
Аноним 22/07/24 Пнд 16:39:40 823682 209
>>823640
можно сколько угодно картинок уместить в любую размерность
Аноним 22/07/24 Пнд 17:02:53 823705 210
>>823682
Получается если я решу тонны паков косплейщиц залить в датасет, то увеличится только время тренировки, а лора будет норм?
Аноним 22/07/24 Пнд 17:36:20 823733 211
>>823640
Можно повышать датасет с любым рангом, там нет прямой зависимости. Однако, если хочешь добавлять много разнообразных данных - нужен будет большой дим.
>>823705
> то увеличится только время тренировки
По-хорошему потребуется еще поменять гиперпараметры чтобы не получить оверфит. Насчет норм - зависит от того что хочешь получить, многие стили на малом количестве пикч получаются лучше чем если тащить все, качество преобладает над количеством. Если хочешь добавить чего-то нового то лучше когда много, но качество и правильный теггинг всеравно первичны.
Аноним 22/07/24 Пнд 17:37:22 823736 212
>>823705
> лора будет норм?
если соответсвенно уменьшишь лр/альфу, отфильтруешь, навалишь капшонов, забалансишь..
Аноним 22/07/24 Пнд 18:04:50 823745 213
>>823733
Ну с достаточным весом и запеканием понятно.
Я хочу сделать лору на косплейные фотосеты, для максимальной похожести. Пока я пришел к тому, что просто возьму лучшие косплеи на персов, которые мне интересны и все запихаю в одну лору с разметкой тегами.

>>823736
Даа, с этим нет проблем, меня волновало именно количество.
Аноним 22/07/24 Пнд 18:10:35 823752 214
>>823745
А какая базовая модель? Если у тебя там весьма большой и хороший датасет то можешь попробовать и файнтюном, может получиться лучше. Но с лорой тоже будет ок, только лучше тогда с конв слоями ликорис или из новых какой-нибудь вариант.
Аноним 22/07/24 Пнд 18:32:22 823765 215
>>823752
Я хочу попробовать пони и пониреализм. На них тонны лор с аниме персами и они понимают, как из них сделать фото. Но им недостаточно фотореализма.

Обычные фотореализм SDXL начинает корежить от аниме лор. Может быть стоит попробовать и на них сделать, но пока я не представляю, как это будет выглядеть.

> большой и хороший датасет
Незнаю насколько он хороший, но большим он точно будет. Пока собираю и думаю как это все тренировать.
>файнтюном
Это выглядит сложнее и намного дольше. Я хотел попробовать тренить лору на цивитаи, но если не прокатит, то придется локально.
Аноним 22/07/24 Пнд 20:19:39 823875 216
>>823765
> Незнаю насколько он хороший
В твоем случае нужны разнообразные девушки, фото, рендеры, игорь, и прочее что хочешь, можно все вместе. Главное чтобы они были разными - расы, телосложение, одежда/отсутствие, позы, близко-далеко. Картинки должны быть качественными без лишних артефактов, мусора, с разрешением от мегапикселя. Если хочешь задники - нужно хотябы10% пикч (больше - лучше) с хорошими четкими фонами а не мылом. И главное - хороший теггинг буру-подобным форматом или натуртекстом где объекты будут описываться понятными именами схожими с тегами а не графоманией.
> Это выглядит сложнее и намного дольше.
Да, потому сначала лучше большой лорой.
Аноним 22/07/24 Пнд 20:32:04 823888 217
Аноним 26/07/24 Птн 14:11:40 828331 218
Есть лора имплементирующая постоянную Фейгенбаума на веса при инференсе? Или как это можно обучить, типа как обучают лоры CM акселераторы.
Аноним 01/08/24 Чтв 12:08:41 836412 219
image.png 199Кб, 1200x1001
1200x1001
Вот теперь заебись, сразу всё понятно
Аноним 04/08/24 Вск 20:56:56 841840 220
Какие теги надо использовать при обучении пони лоры из e621 или буровские?
Аноним 04/08/24 Вск 23:23:16 842024 221
>>841840
буровские наверное. они же считаются каноном для 2d art
Аноним 06/08/24 Втр 16:43:48 843838 222
Бамп
Аноним 09/08/24 Птн 09:36:29 846984 223
Вопрос к знающим. На цивите полно авторов, которые раньше выкладывали модели 1,5 и после выхода SDXL они как-то переносили стиль своих моделей с полторахи на сдохлю. Вопрос: как это можно сделать? Заранее благодарю.
Аноним 09/08/24 Птн 11:17:44 847019 224
>>846984
Ретрейном/файнтюном с существующего датасета.
Тренировкой лоры и мерджем с моделью.

Т.е. никакой "магии" с переносом кусков модели между архитектурами там не было.
Аноним 09/08/24 Птн 11:41:38 847026 225
>>847019
Ну да, твой ответ верен, но только в отношении тренированных моделей.
Я забыл уточнить, что вопрос касался так называемых сборок-солянок мерджей, у которых за этот счет был свой стиль, при этом никаких датасетов и файнтюнов не было.
Как в этом случае делается перенос стиля? У меня кроме как варианта "сделать 1к артов на полторахе, сделать из него датасет, натренить на нем сдохлю" идей больше нет.
Аноним 09/08/24 Птн 11:54:04 847032 226
>>847026
Там поверх всей солянки может быть одна стилелора, вот и ответ, некоторые их и с 1.5 тренили. Или на новой базе появились аналоги компонентов их мерджей, потому получилось сделать нечто похожее.
Скинешь примеров моделей что нашел?
Аноним 09/08/24 Птн 12:03:05 847039 227
>>847026
Да, как анон выше написал, скорее всего появлялись полноценные файнтюн-модели от тех же авторов, и потом их уже миксовали между собой, как с полторахой и было.

Нагенерить картинок, сделать лору, и потом вжарить ее в модель - тоже можно.
А иногда генерить самому вообще не обязательно, можно с цивита накачать картинок, ибо там их тысячи, потом только отбирай качественные, да тренируй.
Аноним 09/08/24 Птн 13:06:13 847074 228
>>847032
>>847039
Да я скорее хотел стиль своей модели перетащить, примеры чужих моделей вспоминать будет тяжело. Я просто подметил, что некоторые авторы мерджей типа выпускали сдохлю версию своего стиля, и я хотел понять как они это сделали. Похоже что единственный вариант, это просто тупая генерация артов на полторахе и файнтюн сдохли.
Аноним 09/08/24 Птн 17:56:12 847431 229
image.png 1485Кб, 1920x696
1920x696
image.png 1817Кб, 1920x860
1920x860
00014-4208894236.png 903Кб, 1024x1024
1024x1024
00031-2297078797.png 1017Кб, 1024x1024
1024x1024
>Топ 5 лора для SDXL и Pony.
>Датасет - квадраты.
Bucketing переоценен?
Аноним 09/08/24 Птн 22:09:36 847750 230
>>847074
> стиль своей модели перетащить
Правильно - разобрать его на составляющие и собрать в новой архитекруты. Весьма вероятно что там что-то дефолтное.
Рабочая страта - трень лору по генерациям, может получиться всрато и с кучей побочек, может нормально.
>>847431
Запрыгни на поезд хайпа одним из первых и набери стату пока не поймут что кормишь говном с лопаты. Потом обезьяны будут колоться но жрать кактус, не смея помыслить что популярное может быть шмурдяком.
Вообще, это даже выглядит ужасно.
Аноним 10/08/24 Суб 00:48:04 847981 231
>>847431
С-с-сука, так вот почему у меня по краям картинки артефакты с размазыванием иногда проявляются!
Поубивал бы!
Аноним 10/08/24 Суб 13:22:42 848368 232
изображение.png 246Кб, 1685x1230
1685x1230
изображение.png 241Кб, 1728x1262
1728x1262
>>758561 (OP)
Анончики, помогите нубу. Я посмотрел на ютубе "Coding Stable Diffusion from scratch in PyTorch" где чувак за 5 часов набирает код stable diffusion, с объяснением всех команд.

https://www.youtube.com/watch?v=ZBKpAp_6TGI

Я скачал его код, запускаю на своем Lenovo Legion 5 с карточкой 3060. Там есть возможность запустить на CPU или GPU. На CPU картинка генерируется около 8 минут, на GPU почему-то даже дольше, 11 минут. Как так, в чем может быть дело?

Запускаю Jupyter Notebook из VS Code из WSL. Поначалу оно не работало на GPU (крашилось) - применил фикс, описанный вот тут: https://discuss.pytorch.org/t/jupyter-kernel-dies-when-using-cuda-wsl-2-ubuntu/169546

Первый скрин - загрузка проца при генерации на CPU, второй скрин - загрузка GPU при генерации на GPU.

Собственно вопрос, как вообще работа на GPU может быть медленнее, чем на CPU? GPU же должен быть быстрее. Что я делаю не так?
Аноним 10/08/24 Суб 15:59:53 848581 233
>>848368
Превышаешь доступную быструю память, вон в shared полезло
Аноним 11/08/24 Вск 08:47:54 849503 234
image.png 6Кб, 889x127
889x127
Кто-нибудь знает, можно ли как-то расширить ADetailer больше чем на два слота? искал в настройках, не нашел. Буду благодарен.
Аноним 11/08/24 Вск 09:27:42 849513 235
Screenshot 2024[...].png 32Кб, 297x853
297x853
Screenshot 2024[...].png 77Кб, 1635x556
1635x556
>>849503
В настройках, очевидно. У меня по умолчанию 4 было, хз почему у тебя две вкладки.
Аноним 11/08/24 Вск 10:03:12 849535 236
show.png 2Кб, 256x50
256x50
>>849513
Спасибо большое.
Аноним 14/08/24 Срд 21:07:10 854627 237
Аноним 16/08/24 Птн 09:15:37 856425 238
image.png 66Кб, 979x512
979x512
я тут столкнулся с тем, что консоль срет ошибкой, но всё работает. Я хз, на что это влияет, может тут есть знающие джентльмены? Буду благодарен.
Аноним 16/08/24 Птн 10:29:32 856454 239
>>856425
У тебя какое-то расширение промпт фильтр отвалилось, созданное человеком, никогда не пользующимся img2img. Ничего страшного
Аноним 16/08/24 Птн 11:07:46 856490 240
Аноним 23/08/24 Птн 18:17:26 864020 241
вопрос не тривиальный, но, в SD3 есть модели со встроенным T5 а есть без, так вот вопрос, можно ли с модели со встроенным этот т5 отрезать чтобы места меньше занимала, или он туда наглухо вшивается?
Аноним 31/08/24 Суб 21:50:37 872356 242
Короче, мне нужно обучить персонажа.
У меня есть аниме из 90х. Там дикий grain.
У меня есть около 30-40 артов разных размеров. Арты — лучше в качестве чем скрины.

В принципе, я уже сваял две версии. Обе хороши. Но я сейчас сижу-размышляю над улучшением.
Я задал следующую плашку текста в чатгпт и клод:
-----------------------
Программа kohya_ss. Я хочу обучить свою LoRA. Оригинальный базовый checkpoint является SDXL.

Обязательно ли приводить все изображения в одно соотношение, например все в 300x200 + 600x400?
Обязательно ли приводить все изображения ровно в один resolution?
-----------------------
ИИ не смогли ответить единообразно, мнутся, по-соевому отвечают хуйню.

Допустим я делаю enable buckets, дальше что? У меня одна иллюстрация 1488x914, другая иллюстрация 600x1378 и так далее. То есть иллюстрации — разные по резолюшенам.

Допустим, 1000x500, там персонаж на всю картинку. Голова персонажа наверху, она не попадает в средний квадрат 500x500, можно так оставить?
Аноним 01/09/24 Вск 00:40:52 872459 243
>>872356
> базовый checkpoint является SDXL
Ванильная sdxl?
> Обязательно ли приводить все изображения в одно соотношение, например все в 300x200 + 600x400?
Нет и разрешение должно быть не менее 1 мегапикселя а не эти шакалы. Кохьевский трейнер сам ресайзнет и по бакетам схожие соотношения сторон раскидает если стоит.
> enable buckets
> Голова персонажа наверху, она не попадает в средний квадрат 500x500, можно так оставить?
Не занимайся ерундой, подобным образом кропать с больших артов куски нужно немного чаще чем никогда.
01/09/24 Вск 00:47:26 872467 244
>>872459
> Ванильная sdxl?
Аутизм пони. Но я возможно буду использовать просто Пони на следующих тестах.
> не менее 1 мегапикселя
да это пример
> схожие соотношения сторон
а если у меня вообще от перса только арты и нет аниме. например, это рейму хакурей игнорируем, что у неё есть аниме, и у неё только арты?
В том смысле, что у артов разные соотношения сторон и разные разрешения.
Аноним 01/09/24 Вск 00:53:32 872479 245
>>872467
> просто Пони
Только ванули, не стоит тренить на шизомиксах.
> от перса только арты и нет аниме
Что значит только арты, рисунки в реалистичном стиле? Тогда весьма вероятен байас на стиль, но может будет не так плохо.
> В том смысле, что у артов разные соотношения сторон и разные разрешения.
Вут? Бакеты для того и созданы чтобы сгруппировать пикчи по размерам и обеспечить тренировку без ошибок с разными соотношениями сторон.
Аноним 01/09/24 Вск 02:03:48 872539 246
>>872479
> Что значит только арты
только арты из данбурятника. нет скриншотов аниме
> с разными соотношениями сторон
ты не понял. Смотри. Допустим у меня картинки
- 480x500
- 482x500
- 484x500
- 486x500
- 488x500
- 490x500
- 492x500
и так далее ну то есть все композиции (пермутации) разрешений — почти уникальны. и бакетов будет сотня
Аноним 01/09/24 Вск 02:07:38 872542 247
>>872539
> нет скриншотов аниме
Нужны только в случае отсутствия достаточного количества пикч, или если хочешь скринкап-стиль.
> бакетов будет сотня
Не будет, там в параметрах задается шаг бакетов, по дефолту для XL 64пикселя. В данном случае их всех сначала ресайзнет по короткой стороне до 448 а потом по длинной кропнет (если говорить упрощенно) и они подойдут в единый.
Аноним 01/09/24 Вск 04:41:20 872570 248
>>872542
> кропнет
а если там какаие-то полезные вещи на этом кончике?

я правильно понимаю, что enable buckets включать стоит?

и тогда ещё два вопроса:
1. допустим, я по приколу сделаю картинки двух разрешений 1024x512 и 512x1024. И с одним тегом персонажа "sado taro" обучу совершенно разных персов. Допустим, в 1024x512 будет лежать Микаса Аккерман, а в 512x1024 — Рейму Хакурей. Чему обучится лора? в лендскейпе будет рисовать микасу, а в портрете - рейму? или во всех картинках будет реймо-микаса?
2. остальным не ответил, мне ответил :з спасибо :з почему?
Аноним 01/09/24 Вск 04:59:47 872572 249
image.png 1785Кб, 768x1024
768x1024
00080-3861681143.jpg 394Кб, 1152x1536
1152x1536
кто-нибудь для flux тренит лоры? есть ли ещё какие фичи для ускорения на 12 гб видеопамяти? 100 шагов = 15 минут, на 4070ti. из-за того что видеопамяти немного не хватает, приходится юзать split-режим, гоняющий две половины модели из VRAM в системную память и обратно
Аноним 01/09/24 Вск 05:03:08 872573 250
BraveSoul (27).png 313Кб, 640x480
640x480
BraveSoul (27).png 4018Кб, 1920x1440
1920x1440
Ranobe (4).jpg 224Кб, 800x1200
800x1200
Ranobe (4).png 1253Кб, 800x1200
800x1200
>>872570
>а если там какаие-то полезные вещи на этом кончике?
Значит, не такие уж они полезные.
>я правильно понимаю, что enable buckets включать стоит?
Да. Апскейл встроенный только не включай.
>И с одним тегом персонажа "sado taro" обучу совершенно разных персов.
И сломаешь нейронке мозги. Не надо так.

>>872356
>У меня есть аниме из 90х. Там дикий grain.
Ну так сделай апскейл каким-нибудь DATом, который грейн и артефакты заглаживает.
Пикрилы - пример. Не помню только, чем точно апскейлил.
Либо Nomos8kDAT, либо SSDIRDAT, либо Real_SSDIR_DAT_GAN.
Что-то из последних двух, скорее, номос так не заглаживает.
Покрути третью картинку в экстре, пока четвертая не получится.

Мимоанон.
Аноним 01/09/24 Вск 05:38:52 872576 251
>>872573
Раскопал метаданные.
Таки это был 4xReal_SSDIR_DAT_GAN
На вторую пару делал х2 апскейл и потом обратно в ФШ уменьшал до исходного.
Первую пару просто апскейлил, ибо исходники шибко мелкие.
Аноним 01/09/24 Вск 13:05:50 872720 252
>>872570
> а если там какаие-то полезные вещи на этом кончике?
Тогда особенный, раз на твоих пикчах 1% (о котором в среднем рапортует кохя) самой периферийной площади пикчи являются важными и информативными.
> enable buckets
К нему дополнительно можно --min_bucket_reso=256 --max_bucket_reso=3072 --bucket_no_upscale, последний особенно важен. Шаг лучше не трогать, пусть стоит по умолчанию.
> с одним тегом персонажа "sado taro"
Не стоит этой шизой заниматься, пикчи должны быть нормально протеганы.
> в лендскейпе будет рисовать микасу, а в портрете - рейму?
Чисто в теории, подобный байас действительно можно получить. Но для нейронки будет важнее позиция в кадре (близко-далеко и подобное) и содерживое, т.к. соотношение сторон как-то реализуется только в том что именно на пикче (наличие задников по бокам и т.п.).
>>872572
> на 12 гб видеопамяти
К большому сожалению только смена карты. Это уже невероятнейшая груда костылей, тренить на карте, которая даже для инфиренса не пригодна в стоке. Можно базу в 4 бита или каком-нибудь кванте (пока нет в тренерах но могут сделать позже), но будет еще больше импакт на качество.
>>872573
> сделай апскейл каким-нибудь DATом
Двачую
Аноним 01/09/24 Вск 20:58:37 873237 253
>>872570
> а если там какаие-то полезные вещи на этом кончике?
у кохи есть параметр, который позволяет показать в картинках че он там накропал(заодно понять как идут бакеты) если у тебя большой датасет можешь закинуть только твои особенные пикчи и почекать
если действительно обрежет, можешь зарезать другую сторону до победного))
ну или добавить фотошопной заливкой или аутпаинтом
Аноним 01/09/24 Вск 23:03:46 873356 254
>>873237
> у кохи есть параметр, который позволяет показать в картинках че он там накропал
кхммммм! фича пипец полезная. спс.
В гуи kohya_ss не сможешь вспомнить где это включается?
Аноним 02/09/24 Пнд 01:37:06 873501 255
>>873356
в гуи есть строчка для доп параметров, сам параметр уже не помню как называется, вроде 'test' чего-то там
Аноним 02/09/24 Пнд 23:21:20 874798 256
Сап.
Помогите дауну.
Седел я, значит, генерировал свою хуиту, никому не мешал, но у меня при апскейле выдало, наверно платиновую хуиту:
OutOfMemoryError: CUDA out of memory. Tried to allocate 14.55 GiB. GPU 0 has a total capacty of 16.00 GiB of which 0 bytes is free. Of the allocated memory 21.90 GiB is allocated by PyTorch, and 291.51 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation.

При том, буквально ничего не менял. вообще нихуя.
Что это может быть хотя-бы примерно?
Аноним 02/09/24 Пнд 23:22:12 874802 257
>>874798
Седел. Ёбаный стыд.
Сидел.
fix.
Аноним 03/09/24 Втр 01:46:20 874959 258
>>874798
Модель из памяти какая-нибудь не выгрузилась. Контролнет тот же. Или стим чутка отожрал, и не хватило.
Если на пустом месте - просто делай перезапуск консоли вебуя не закрывая вкладку браузера и жми кнопку еще раз.
Аноним 03/09/24 Втр 01:52:01 874964 259
>>874959
Не помогло.
Самое хуёвое - я буквально ничего не менял, блядь. Вообще.
После того как дрова обновил - один проход сделал. И всё.
Опять в ошибку.
Может так видеокарта дохнет?
Аноним 03/09/24 Втр 02:15:38 874984 260
>>874964
Кажется помогло. Это идиотизм, но помогло удаления части моделей. Я не знаю почему.
Просто работает.
Аноним 03/09/24 Втр 02:35:11 874993 261
>>874984
Отбой. Информация не достоверна. Продолжаю поиск.
В целом я нащупал слона в комнате.
Аноним 08/09/24 Вск 18:04:49 880674 262
Как работает тренировка с Masked loss, промт должен быть для области внутри маски или как для обычной картинки?
Аноним 12/09/24 Чтв 15:01:29 884068 263
8112.jpg 372Кб, 1920x2294
1920x2294
465Richbitchpla[...].jpg 4387Кб, 1763x2201
1763x2201
Нужно ли указывать размер груди для SFW пикч (соски не видны) ? Для тренировки стиля.
Аноним 12/09/24 Чтв 18:34:18 884189 264
>>880674
Экспериментов с таким не видел, но где то в доках у кохьи читал что надо тегать как для обычной
>>884068
Да
Аноним 12/09/24 Чтв 22:10:07 884616 265
tmph9t9crqa.png 93Кб, 640x480
640x480
Я правильно понимаю что настройки обучения судя по графику неправильные?
Аноним 13/09/24 Птн 12:26:37 885203 266
>>880674
У тебя есть маска, которая показывает по каким областям будет считаться лосс, промт нужно писать для них.
>>884616
Нет, тут нет ничего криминального. Но диагностика по вот такому лоссу никакой инфы не даст, кроме случаев когда там совсем поломка.
Аноним 15/09/24 Вск 12:05:30 887376 267
00450-1312824386.png 1756Кб, 1024x1024
1024x1024
00447-3221220892.png 1791Кб, 1024x1024
1024x1024
00440-1526167409.png 1820Кб, 1024x1024
1024x1024
есть один промт, который генерирует стилизованные ландшафты
- слабый и ненадежный. выдает 10% нужного, 90% брака
- дубовый. никак не реагирует на слова для детализации, увеличение весов токенам просто увеличивает процент брака

как закрепить нужный стиль, и при этом сделать его более податливым?
Аноним 15/09/24 Вск 20:24:08 887921 268
Чёт хз куда писать, сюда вроде более-менее подходяще:

Не вижу треда про цифровые аватары. Как сгенерить, чтобы на ютабах своим ебалом не светить?
Аноним 15/09/24 Вск 21:41:49 887968 269
>>887921
генерировать лив2д или 3д силами sd и подобного никак, максимум можно выйти в слайдшоу пнг по маске бесплатных моделек, в теории можно научить ллмку описательному языку под 3д, типо как в знаменитом высере "моченые заставили нейронку сделать двигатель и вышла рабочая нех" и потом натянуть текстурку
Аноним 15/09/24 Вск 22:24:59 887997 270
>>887376
Насобирай датасет, в котором у тебя будет набор подобных ланшафтов и он будет качественно и подробно описан, обучи на этом лору.
>>887921
Частично двачую предыдущего оратора, можешь нагенерировать ассетов которые потом натянешь на бесплатные готовые l2d.
Аноним 16/09/24 Пнд 02:09:45 888258 271
Делитесь, сколько вам дал TensorRT
Аноним 16/09/24 Пнд 11:19:16 888435 272
>>887921
Генеришь пикчу, натягиваешь на анимационную модель из нужного софта.
Сюда же все выражения лица и альты.

Чисто нейронкой такое не сделать, по факту ты только труд рисоваки способен ей заменить, и то придется самому руками дохера допиливать, если качества хочется.
Аноним 17/09/24 Втр 09:26:12 889553 273
Зачем при генерации определенного человека добавляют кучу изображений класса людей в тренировку?
Аноним 19/09/24 Чтв 11:49:35 891550 274
Аноны, такой вопрос, в схеме img2img у сдхл, куда пихается имага источник?
У Unet есть два входа - промптовый и имаговый, те что на схеме в оп-посте справа и сверху соответственно.
Условно говоря она как-то конкатится с latent space или подается вместо промпта?
Аноним 19/09/24 Чтв 13:22:47 891626 275
>>891550
> Аноны, такой вопрос, в схеме img2img у сдхл, куда пихается имага источник?
Это старая схема ещё с релиза хл модели, никто в итоге рефайнером не пользуется, это что то вроде хуёвого способа придумать хайрезфикс вторым проходом, а картинка/шум по определенному алгоритму пихается в самом начале, если ты про генерацию
> Условно говоря она как-то конкатится с latent space или подается вместо промпта?
Схема в этом плане не очень подробная, но насколько я помню это соединение происходит в cross-attention слоях, чтобы загайдить юнет что рисовать
Аноним 20/09/24 Птн 13:35:11 892791 276
Аноны, подскажите по обучению лор, пожалуйста. Гайды я прочел и вроде как понял, но есть нюанс. Мне нужно скопировать определенный стиль с далле, мне нравится, как он имитирует рисунки углем. В сд я подобных стилей не нашел (может, искал плохо), мало того, что подменяет уголь карандашом, так еще и рисует на уровне третьеклассницы. Поэтому я решил натренировать лору на этих самых угольных набросках из далле - нагенерировать разнообразных годных картинок под свои запросы и использовать их как основу.
Как мне тегировать датасет? Те же принципы сохраняются, то есть сначала ключ, а потом обычное описание того, что на картинке?
Аноним 21/09/24 Суб 09:04:42 893710 277
>>892791
Можно и без ключа. Тоже будет работать.
Можно вместо ключа использовать какой-нибудь близкий токен стиля из оригинальной модели, типа monochrome или sketch, и его дотренировать.
Главное чтоб на картинке все остальное протэгано было.
Аноним 21/09/24 Суб 19:44:28 894261 278
Кто шарит в ML архитектурах? Проверьте тейки https://www.reddit.com/r/StableDiffusion/comments/1fl46sk/omnigen_a_stunning_new_research_paper_and/

В пейпере Omnigen говорят, будто их модель - это всего лишь LLM, с подключенным (натрейненным для нее) VAE от SDXL. А на реддите заявляют, что это mind-blowing прорыв! Оказывается, каждая LLM уже обладает визуальной памятью, - у нее лишь нет "органов чувств" чтобы воспроизвести изображение!
Аноним 22/09/24 Вск 03:45:17 894765 279
>>894261
Конечно нет, это просто неверная интерпретация. Посмотри на устройство диффузионных моделей и сравни их с ллм, посмотри размер латента и посчитай количество токенов чтобы получить то же самое, да еще не сбиться во время генерации.
Но ллм и прочее там точно применяется, также как в новых "умных" моделях используется т5 для создания кондишнов в комбинации с клипами. Возможно добавили более эффективные механизмы взаимодействия и петлю обратной связи, но там точно не тот топорный подход.
Аноним 23/09/24 Пнд 15:09:13 896109 280
lineartNI.jpg 62Кб, 512x640
512x640
o15.png 619Кб, 512x640
512x640
Открыл для себя SDCPP, наслаждаюсь генерацией в один клик по батнику. Ну и доставляет что лишних 20 ГБ под питон не нужны, и оперативы жрет в районе 3 ГБ. Но вскрылся подводный камень, оно не умеет гонять препроцессоры контролнета на вводные картинки, кроме встроенного canny. Есть какой-то достать прогнанную через препроцессор картинку для скармливания контролнету без установки тяжеловесного гуя? В онлайне например? Ебучий дезго умеет в контролнет, но картинку после препроцессора показывать отказывается.

Еще вопрос, а аналога SDCPP для кохи нет? Лишние пара гигов для обучения лор или дримбуса очень сгодились бы.
Аноним 26/09/24 Чтв 18:21:00 899279 281
>>894261
Почитал оригинальную статью, а там всё в лучших традициях современного ML.
Большая часть это обзор cherry-picked результатов. Техническое описание занимает одну страницу из 23 и сопровождается одной картинкой.
Так вот VAE они как раз не обучали, он был заморожен во время обучения. Обучали трансформер, который "инициализировали весами Phi-3". Никаких деталей касательно этого трансформера нет. Сделали "другой механизм внимания".
Что именно они сделали, понять нет никакой возможности, но от исходной llm там мало что осталось.
Аноним 27/09/24 Птн 17:58:50 899871 282
>>896109
Ну камон, 20 гб в 2к24 - это же мелочь
Аноним 27/09/24 Птн 18:05:40 899880 283
>>899279
Я уже 5 месяцев жду код по красивой статье, который позволяет в первом кадре видео сделать изменения, и он распространит их на все видео. Очень красивая статья, жаль что код и веса coming soon с мая по сей день
Аноним 27/09/24 Птн 20:39:41 900025 284
А подскажете как вникнуть в обучение лор/дримбута (XL/Pony/Flux) не на уровне нубика? Сразу уточню: научные статьи я не потяну, только видосики, да картинки, но с технической информацией и программированием справлюсь легко. Половина топа цивита это челики, срущие сотнями-тысячами лора знаменитостей, которые без их лора и то лучше промптятся чем с ней. Я не знаю, их в глаза ебут, походу. Так вот, гайды попадаются в основном как раз от таких челиков. А есть гайды от адекватных людей с опытом? Пожалуйста, подкиньте. Чтобы досконально понять влияние количества эпох/шагов, как лучше трекать прогресс, и про всякие другие непопулярные штуки вроде masked loss. Сам я только пару раз дримбуты ещё во времена 1.5 делал, и не очень успешные лора. Теперь появился свой комп, осваиваю заново.
Аноним 28/09/24 Суб 02:56:36 900282 285
>>900025
В шапке 2 гайда, в них основные вещи наглядно разжеваны.
> влияние количества эпох/шагов
Рассматривать это все нужно в совокупности в с лром, шедулером, оптимайзером, параметрами тренировки, датасетом и т.д. И вопрос твой уровня "объясните мне как работает процессор компьютера", для нормального объяснения нужно в общем понимать/ощущать как тренятся модели и диффузия в частности.
Но для начала - хватит типичных примеров, тут все дело в том что тренировка лоры "на персонажа"/концепт или нечто подобное - это натягивание совы на глобус, которое переворачивает весь юнет и те для того чтобы он делал нужное. Это не обязательно плохо, просто здесь свои явления, иногда идущие вразрез с рекомендациями для полноценного обучения, потому просто посмотри типичную практику и попробуй варьировать сам. Иногда "неправильные" подходы дают желаемый результат, есть вообще экстримальные техники типа вжарки на 1-2 пикчах с частичной заморозкой и т.п.
Или задавай конкретные вопросы.
> штуки вроде masked loss
Берешь и юзаешь, лосс будет считаться только с того что в маске, что не затронуто - "игнорируется".
Аноним 28/09/24 Суб 11:14:00 900373 286
Поясните 2 вопроса. В дримбусе нужно вводить концепт - а если мне нужно тренировать чекпоинт целиком, не добавляя конецпты, просто оставить поле концепта пустым, и тогда влияет на все сразу? Что дают регуляризационные изображения, кто-то пишет что они вообще не нужны.
Аноним 30/09/24 Пнд 21:56:06 903298 287
Есть ли какая-нибудь модель типа полторахи, базовым размером, скажем 256 на 256, чтобы на ней можно было практиковаться в лорах, крупномасштабным файнтюне на 3060 не особо страдая?
Смотрю, есть какие-то дистилляты с 1.4, порезанные размером не сильно, но они на 512, мне столько не надо. И какие вообще особенности обучения дистиллятов, особенно тех, что на мало шагов обучены? Их надо обучать полноценными шагами, и они будет постепенно терять способность работать в мало шагов?
Аноним 01/10/24 Втр 20:17:40 904260 288
>>903298
На 256 только sd 1.1 и то она в 512 может лучше
Аноним 02/10/24 Срд 01:58:26 904689 289
>>900373
> если мне нужно тренировать чекпоинт целиком, не добавляя конецпты, просто оставить поле концепта пустым
Используй скрипт для файнтюна. Если будешь тренить без концептов то это оно и получится.
> они вообще не нужны
Это так, исключения почти невероятны.
>>903298
Используй обычную полтораху. Там проблема не столько в разрешении сколько в размере модели, а что-то меньше SD 1.5 при этом чтобы хорошо работало даже не припоминаю.
> какие вообще особенности обучения дистиллятов, особенно тех, что на мало шагов обучены
То что тренить иж - плохая идея. Это не тот дистиллят где из большой модели делают мелкую, здесь задушены связи, производящие лишние вариации что снижают сходимость. Они будут хуевее трениться и к тому же
> постепенно терять способность работать в мало шагов

Если хочешь заняться тренировкой - ищи видимокарту, хотябы 3090.
Аноним 14/10/24 Пнд 09:07:59 917701 290
Как enable buckets работает и на что влияет? Переустановил версию pytorch и прочих штук, запустил тренировку лоры на ленивом старом датасете 512х512, и удивился, что занялось всего 10гб врама при тех же 1024,1024 max resolution. До этого тренировки сжирали значительно больше памяти на тех же настройках, но других датасетах, почему так? Что в основном влияет на потребление памяти?
Аноним 15/10/24 Втр 03:48:36 918566 291
Кто-нибудь лору на больших датасетах тренировал?
Типа, у меня тысяча пикчей. Стиль+концепт.
Какие там настройки оптимальные для поня поставить?
Обычно тренирую на
>dim 16 alpha 8
>AdamW8bit
>Cosine
>UNet 0.0002
>TE 0.0001
На сетах средних размеров нормально получается, 1600-1800 шагов до хорошего насыщения, а тут даже хз. Сет не слишком однородный, но урезать дальше его никак.
Аноним 15/10/24 Втр 18:35:46 918936 292
>>918566
Это не большой датасет, можешь оставить дефолтные параметры. От ранга зависит усвояемость, для чего-то сложного и разнообразного стоит ставить больше.
Аноним 16/10/24 Срд 20:57:57 920046 293
>>918566
Обучил только что на 2500 пикчах, в 2 эпохи, на самых дефолтных настройках. Разницы не ощутил, но как будто надо больше степов. Да и это был не стиль, а просто фотосеты одного человека, на похуе без капшенов и чистки датасета, только скриптом откропал до размеров ближайщих к 1 мегапикселю. Если сильно не отходить от ракурсов, эмоций и стиля оригинала, то получается почти то же, за исключением качества.
Аноним 17/10/24 Чтв 14:45:21 920904 294
videoframe11653[...].jpg 163Кб, 600x630
600x630
Почему у NAI SD1.5 анатомия рук/писюнов в разы хуже чем у рандомных фурри-бомжей тренирующих у себя в гараже? При том писюны в NAI даже с пердолингом ЛОР еле как хуево работают, а у фурри сразу и коробки и high angle и low angle любой вид работает. недавно узнал что SD1.5 фурри могут людей генерировать
Anime le bad?
Аноним 17/10/24 Чтв 16:31:41 921033 295
>>920904
Потому что ни NAI (первая, по крайней мере), ни тем более SD, не были рассчитаны на кумеров.
Соответственно, писюнов в датасете почти не было только то, что случайно пролезло, и тренировки не хватило.
Бомжи в гараже тренировали как раз писюны, в ущерб всему остальному.

NAI, кстати, уже в бета-фурри модели вполне могла самые разные пиписьки рисовать но эту модель не слили.
И было это... Давно. Задолго до релиза SDXL.
Аноним 18/10/24 Птн 09:12:35 921943 296
Есть такие вопросы по kohya_ss : 1) можно ли в kohya_ss изменить разрешение сэмплов при тренировке? 2) обучать модель лучше на базовой SDXL у меня sdXL_v10VAEFix или можно на natvis10 например? 3) Чем Learning rate отличается от Unet learning rate?
Аноним 18/10/24 Птн 10:44:49 921983 297
>>921943
Обучать на том, на чём использоваться будет. Хоть лора хоть может и будет работать на других моделях, но хуже. За исключением натвис2, наверное. Модель говна. Но я начал на ней обучать, уже для чистоты эксперимента дообучу на ней пачку лор, потом буду сравнивать. Некоторые переобученные лоры с неё круто работают на pornworks. Слышал, что если надо, чтобы лора работала на большем количестве моделей - обучай на джаггернауте.
Аноним 18/10/24 Птн 11:08:58 922002 298
>>921983
я обучал на sdxl а лора ещё лучше работала на джагернауте. а можно ли потом лору дообучить на другой модели?
Аноним 18/10/24 Птн 11:19:53 922010 299
>>922002
Дообучить с другой моделью не пробовал, но интерфейс вроде позволяет такое сделать.
Ниже опишу свой опыт, не говорю, что это хороший вариант, не пользуюсь им постоянно, да и почти всегда лучше с первой попытки обучить на нормальном датасете, НО: я пытался дообучать лору (без сохраненного стейта, по файлу лоры). Оно как бы работает, каких-то артефактов не заметно. Дримбуты именно так и обучал - сначала на общем датасете, потом последние 500-1000 степов на лучших фото.
Аноним 18/10/24 Птн 11:48:17 922049 300
>>922010
Я только дообучением и могу продолжить тренировку т.к. при выборе сохранять стейт для продолжения и выбора папки получаю такую ошибку:
E:\\!!!Models\\17_10_2024\\model\\pytorch_model.bin
файл pytorch_model.bin он не находит и он почему то не создается или не ту папку добавляю.
Аноним 19/10/24 Суб 02:12:53 922870 301
>>921943
> можно ли в kohya_ss изменить разрешение сэмплов при тренировке?
Да (нет). Ты можешь задать целевое разрешение и пикчи будут раскиданы на бакеты с разным соотношением сторон. Однако, если у тебя там лоурезы то их апскейл будет математическими алгоритмами с артефактами в результате, в таких случаях стоит ставить bucket_no_upscale или предварительно апать датом.
> обучать модель лучше на базовой SDXL
Если планируешь катать на каком-то мердже то лучше обучай на "базовой" для него модели (например для аутизма обучать на чистом пони). Если там какой-то глубокий файнтюн то можно сразу на нем.
> Чем Learning rate отличается от Unet learning rate?
Разные параметры что передаются в оптимайзер. В пролежнях, например, автор-шиз не хочет мерджнуть готовое решение для многокомпонентных моделей и, емнип, там роляет только основной LR. Также, если не указаны лр компонентов то они будут приравнены основному. Просто ставь их одинаковыми а для те меньше.
>>922002
> можно ли потом лору дообучить на другой модели
Никто не запретит но это плохая идея.
>>922049
> и он почему то не создается
> !!!
Есть некоторая вероятность что дело в этом. Но причин может быть множество, давай полностью ошибку.
Аноним 19/10/24 Суб 05:22:10 922927 302
Какой смысл ломать текст-энкодер, вжаривая в него тег из рандома, не несущий никакой семантики, не лучше ли обучать эмбеддинг вместе с лорой не трогая энкодер?
Аноним 19/10/24 Суб 22:48:34 923758 303
>>922927
Так и не понял, сказал ли ты странную глупость или наоборот интересную и недооцененную идею. Можешь развить, добавив пояснений?
Аноним 19/10/24 Суб 23:29:15 923795 304
>>923758
Ну так, я тоже хочу узнать, придумал ли я какую-то глупость, или нет, лол.
Типа, при трене лоры, выбираем случайный бессмысленный тег, чтобы ее триггернуть. Этот тег текст-энкодер не знает, и никак не может его интерпретировать, может быть как-то в общий пул векторов его подмешивает, но в целом никакой семантики или визуальной идеи энкодер в него добавлять не должен.
Энкодер потом включается в цепочку обучения, чтобы подсосать уже существующие визуальные признаки, нужные для обучения лоры, в этот рандомный тег. Но это обучение очень сильно отличается от того, как обучают сам энкодер изначально, и отличается в худшую сторону. Энкодер будет забывать семантику, обобщение, и больше будет становиться тем, что похоже на обычные эмбеддинги.
Так почему бы не учать их сразу? Туда можно и больший ЛР вжарить, и не ломать энкодер вообще.
Это довольно очевидная идея, ее кто-то уже должен был попробовать.
Аноним 19/10/24 Суб 23:36:24 923803 305
image.png 12Кб, 326x303
326x303
image.png 66Кб, 1081x805
1081x805
image.png 48Кб, 320x320
320x320
Обучаю уже которую лору человека, постоянно подобный график лосса, 3-4к степов. Почему так? Какие подводные? Мнение? В чем он не прав? Как исправить или что это значит? Не похоже на идеальные графики.
Аноним 20/10/24 Вск 20:38:19 924485 306
>>923803
график этот имеет смысл только для ллмок, откуда этот каргокульт и пошел, для картинкосеток если дельта меньше двух порядков - похуй, по ощущениям у тебя немного задран лр или мало шагов, но смотреть всё равно имеет смысл только на результат
Аноним 20/10/24 Вск 23:51:54 924657 307
>>923795
В целом, процесс обучения модели действительно как раз предполагает то что в энкодер "добавляются" новые теги, сочетание с которыми дает нужный эффект, а юнет изменяется чтобы эти вещи воспроизводить.
При тренировке эмбединга буквально идет подбор последовательности токенов на входе те, без изменения весов юнета или энкодеров, т.е. говоря проще - подбирается суперпромт в векторном пространстве, который бы давал что-то близкое к нужному результату.
Натренить сначала эмбединг а потом тренить только юнет с его использованием - можно, однако сложно сказать окажется ли это лучше чем полноценная тренировка те. Клип обрабатывает сочетания тегов в промте, а так там будет присутствовать какое-то странное сочетание что даст неведомую реакцию с остальным промтом, может как органично в него вписываться, так и наоборот все попутать и поломаеть. С другой стороны - да, не трогая те не сможешь его поломать, хотя это идет прежде всего от не оптимальной тренировки. Большой лр для юнета тут не нужен, хватит обычного.

Попробуй, эта идея как минимум интересная. Сначала обучить эмбединг, потом в тренере кохи поправить __getitem__ и get_input_ids в классе датасета, чтобы он добавлял твой эмбед, и просто как обычно тренируй лору с выключенной тренировкой ТЕ.
>>923803
Потому что train loss может показывать погоду на марсе и больше привязан к амплитуде лра, из-за чего будет чуточку спадать в конце. Был бы validation loss то по тому уже можно было бы как-то ориентироваться, и то в кейсе генерации пикч подобрать правильный валидационный датасет для оценки а потом правильно посчитать "точность" будет не самой простой задачей.
> Как исправить или что это значит?
Забить, или ковырять имплементации валидационного лосса.
Аноним 21/10/24 Пнд 01:19:21 924706 308
обучаю в кохе лору 1024 а она мне семплы каждые 25 шагов генерит но они почему-то 512, можно ли их сделать 1024? в настройках обучения не нашел
Аноним 21/10/24 Пнд 03:56:53 924760 309
image (10).png 51Кб, 320x320
320x320
>>923803
По идее, ты видишь вот такой срез, а не весь график.
И хоть ты пихаешь в модель новые данные, она уже базово хорошо умеет их денойзить, и треня дает только направление этого денойза, что на фоне шума лосса не будет заметно. Вот если попробовать скормить модели что-то совсем отличное от привычной ей графики, какую-нибудь другую модальность, с другим спектральным распределением, тогда наверное обучение будет хорошо видно по лоссу. Хотя опять же хорошо видно будет только начало, когда модель глобально плохо приспособлена к задаче.

>>924657
>сначала эмбединг а потом тренить только юнет с его использованием
Не-не, суть именно в том чтобы обучать все одновременно. Ты же не обучаешь сначала энкодер, а потом модель.
>сложно сказать окажется ли это лучше чем полноценная тренировка те
Ну вот, имхо, не существует никакой "полноценной" тренировки, кроме той, когда сам клип обучают с нуля. Как только его пытаются обучать через юнет, это его ломает, и делает из него просто словарь эмбедингов, которые вызываются по триггеру.
Моя теория, что если вообще каждый новый тег привязать к эмбедингу, и не обучать энкодер, это будет эквивалентно обычному обучению с энкодером, только он не сломается. Потом точно так же их подключать в промте, как если бы это были теги. Ну и так можно дойти до того чтобы вообще выкинуть энкодер нахуй, а то хули, в понях его максимальное понимание семантики ",цвет -> объект," или даже скорее ",это-все-один-объект,". Атеншн юнета наверное и то умнее, на большом датасете и сам научится в это, если не уже.
Аноним 21/10/24 Пнд 04:35:39 924765 310
>>924760
> суть именно в том чтобы обучать все одновременно
Хуясе ебать, с таким номером только в цирке выступать лол. Но, вообще попробовать то можно, сначала проход по юнету, потом проход по всей совокупности с задачей оптимизации эмбедингов.
Тема то интересная, за пару вечеров неспешно отладить и обучить несколько вариантов.
> не существует никакой "полноценной" тренировки, кроме той, когда сам клип обучают с нуля
Любое обучение является ею, дело в нюансах работы и реализациях.
> делает из него просто словарь эмбедингов, которые вызываются по триггеру
Здесь подходит заезженный пример с cowboy shot, если не убивать специально то энкодер не теряет возможностей в семантике и понимания текста. Другое дело что лора сама по себе специфичный способ менять веса, и 99.9% лор имеют невероятно однообразный датасет, что накладывает свой отпечаток.
> если вообще каждый новый тег привязать к эмбедингу, и не обучать энкодер, это будет эквивалентно обычному обучению с энкодером, только он не сломается
Как раз подобный подход и превратит конечную модель в словарь чего-то. Ты подбираешь нужный отклик не обязательно на нормальной реакции энкодера а вообще на каких-то невероятных заскоках, сочетаниях или шуме, и на этот неравномерный сигнал пытаешься натягивать юнет, получая кучу побочек. Какая там будет семантика в таких комбинациях эмбедингов и как они будут работать в совокупности тебе врядли кто-то скажет.
> чтобы вообще выкинуть энкодер нахуй
Ну типа в dit можно пихать любые кондишны, хоть голые токены. Вот только обучать с ними просто так получается как-то неоче, можешь попробовать. И какой-то "суперсемантики" в клипе и не было, он довольно ограничен бай дизайн.
Аноним 21/10/24 Пнд 08:28:23 924797 311
может кто в курсе, если датасет размечаю надо указывать что по факту или как это выглядит на конкретном фото? пример у девушки зеленые глаза а на фото они серые
Аноним 21/10/24 Пнд 08:34:38 924800 312
>>923803
Литералли зыс >>924760
> По идее, ты видишь вот такой срез, а не весь график.
> И хоть ты пихаешь в модель новые данные, она уже базово хорошо умеет их денойзить, и треня дает только направление этого денойза, что на фоне шума лосса не будет заметно. Вот если попробовать скормить модели что-то совсем отличное от привычной ей графики, какую-нибудь другую модальность, с другим спектральным распределением, тогда наверное обучение будет хорошо видно по лоссу. Хотя опять же хорошо видно будет только начало, когда модель глобально плохо приспособлена к задаче.
Попробуй задать новый таргет модели и увидишь такой график, например в v-prediction конвертнуть, результат тебя не порадует, потому что это делается не за время тренировки лоры, и не лорой уж точно.
>>924760
> Моя теория, что если вообще каждый новый тег привязать к эмбедингу, и не обучать энкодер, это будет эквивалентно обычному обучению с энкодером, только он не сломается. Потом точно так же их подключать в промте, как если бы это были теги.
Это pivotal tuning называется, пробовал подобные лоры, вообще не впечатлили, даже юнет онли были лучше.
>>924797
Тегай что видишь, если на пикче серые, то и пиши серые
Аноним 21/10/24 Пнд 11:10:34 924896 313
>>924706
В Advanced - Samples есть поле промпта и там же описано, что можно добавить --width 1024 (или -w не помню) и --steps 15.
У тебя 24гб? У меня в 16 не влезает трейн на 1024.
Аноним 21/10/24 Пнд 14:23:08 925042 314
>>924896
у меня GPU 12gb/ RAM 12gb и трейнит, но очень медленно 22 ит/с, очень скоро память раздобуду для компа, должно быть 24gb
Аноним 21/10/24 Пнд 15:13:28 925116 315
>>925042
Может 22с/ит? Ты удивляешь больше и больше. Я пытаюсь понять, может я неправильно завожу трейн.
Аноним 21/10/24 Пнд 15:35:26 925161 316
>>925116
а xformers включён? у меня в принципе неплохо тренит, но хочется чтобы ещё больше похоже было, только вот на ночь зависает комп, думаю из-за памяти.
Аноним 21/10/24 Пнд 15:36:02 925163 317
>>925116
>Может 22с/ит
да 22 секунды итерация
Аноним 21/10/24 Пнд 20:15:32 925556 318
>>925163
попробовал на SD base 1.5 потренить такой же датасет но уже в 512 и 8gb GPU только используя при batch size = 4, RAM всего 1gb. Результат при тех же параметрах намного лучше в самом начале чем при тренинге на civitai. Потом сравню с SDXL тренировкой
Аноним 21/10/24 Пнд 20:24:21 925571 319
>>925556
и скорость 1,18сек/ит
Аноним 22/10/24 Втр 18:23:04 926603 320
пробую обучать лору на flux, сделал датасет из 600 картинок, хорошего качества, все отсортировал, протегал. вроде бы все отлично, но практически не обучается концепту, ставил от 10-20 эпох (примерно от 14к до 28к шагов, batch_size = 1 или 2). lr 1-e4 unet 4-e4, по дефолту. пробовал играть значениями выше - loss просто улетает вверх. (выше похоже брать не вариант). пробовал увеличивать dim с 2 по 32, альфа была или равна или ниже в два раза.
по идее результат в целом не сильно менялся, играл с тем, что задавал меньше эпох, от 4-6. после обучения вообще разницы с оригиналом минимальна.
тут или датасет концепт сложный или просто я чего-то не понимаю. есть у меня датасет с аниме стилем из меньше 100 картинок, ему на дефолтных настройках хорошо учится лора.
около недели потратил на тесты, в чем проблема - непонятно.
Аноним 22/10/24 Втр 21:41:51 926971 321
>>926603
Не подскажу, но интересно, а на xl при этом норм?
Алсо, может с лорой всё норм, и нужно в фордже выбрать fp16 lora.
Аноним 22/10/24 Втр 22:17:31 927024 322
>>926971
на xl получше обучается. но общий результат там в целом хуже, так как детализация хромает.
сейчас обучил с более низким lr, 4к шагов. результаты стали гораздо лучше. с прошлыми проходами в 20 эпох, чтобы получить нормальную генерацию приходилось выкручивать DCFG больше 10, сейчас на 3.5 хорошие результаты, получается была прожарка. концепт оно более менее теперь понимает, но сами детали (фон) не до конца. буду еще тренировать.
Аноним 22/10/24 Втр 23:05:29 927077 323
>>927024
На чем обучаешь, что так свободно на флаксе тренишь тысячи шагов? Я пока ещё не тестил, но даже хл на 4060 16гб по ~1.3ит/с
Аноним 22/10/24 Втр 23:38:28 927108 324
>>927077
одна 4090. один проход обучения 10-20 эпох - 10-13 часов. с adamw в 1 батч и gradient checkpointing влезает ровно в 20gb. отсюда и невозможность быстро взглянуть на результаты настроек.
Аноним 23/10/24 Срд 09:31:24 927441 325
какой lr ставить при тренировке sd 1.5? при 0.0004 кажется переобучение происходит
Аноним 23/10/24 Срд 16:23:59 928017 326
>>927441
>AdamW8bit
>Cosine
>UNet 0.0002
>TE 0.0001
Аноним 23/10/24 Срд 16:27:11 928026 327
>>928017
а DIM и Alpha какой оставить?
Аноним 23/10/24 Срд 16:32:39 928040 328
>>928026
Уже и не помню. И конфигов тренировки с полторахи своих не сохранилось.
Для 1.5 вроде 128/64 норм были?

Сделай тестовую тренировку, посмотри на размер файла. Если лора ~144 МБ или меньше - значит, всё норм. Если больше - понижай DIM. Альфа либо половина DIM, либо 1. Я обычно половину ставил.

В Аниме-треде вроде должны до сих пор инструкции в закрепе висеть, там много разных способов описано.
Аноним 24/10/24 Чтв 09:06:59 929230 329
>>928040
попробовал потренить на подобных настройках, обучение идёт хорошо но чем больше шагов тем стабильнее при генерации изображения из датасета, выдает по сути датасет, может из-за того что на маленькой лоре SD 512 установил DIM 128? DIM я так понимаю это размер латентного пространства
Аноним 24/10/24 Чтв 16:03:53 929680 330
image.png 13Кб, 316x288
316x288
Что делать если запекается лоурез жпг стайл при трейне на фото человека. Хайрез пикч меньшая часть в датасете, большинство рескейл с 512х-768x до мегапикселя, лучше взять негде. Лицо обучилось божественно, с разных углов, на разных эмоциях, всё охуенно, но шакалы подсирают. Иногда проскакивают хайрезные результаты на некоторых промптах, но простого токена на мастерписю не нахожу.
Мои предположения, уточните так ли это и какие есть другие методы: это фиксится добавление регуляризирующих пикч? Что это за пикчи должны тогда быть, а то я видел дауны тупо кривое аи говно юзают в этом пункте. Или же нужно настроить так, чтобы после первого дипа сильно понижался lr? Или может отловить хайрезные генерации и добавить их в датасет? Звучит как хуевая идея. XL lora, 896,896.
Аноним 24/10/24 Чтв 17:35:44 929790 331
>>929230
Ну так оно довольно быстро насыщается с такими настройками.
1400-2200 шагов.
Самое быстрое, что помню, было вообще в районе 900.

Но чтоб прям картинки из датасета выдавало - не сталкивался.
Хотя у меня маленьких сетов не было, от 80-100 картинок, и до 200-250.
Аноним 24/10/24 Чтв 17:38:39 929794 332
>>929680
Это фиксится хорошим апскейлером, затирающим жипег-артефакты. Пробуй разные.
Можешь в ФШ шум попытаться убирать.

Второй вариант - завысить число повторений на хорошей части датасета по сравнению с низкокачественной.
Аноним 24/10/24 Чтв 19:13:55 929974 333
>>929794
>Второй вариант - завысить число повторений на хорошей части датасета по сравнению с низкокачественной
Интересная идея.
А что в случае, когда будет только лоурез, но цель обучить персонажа на пони, без шакального стиля?
Аноним 24/10/24 Чтв 19:55:09 930074 334
>>929230
> DIM я так понимаю это размер латентного пространства
Вообще нет, это размер матриц лоры по малой стороне. 128 норм, часто даже избыточно для чего-то типичного.
Если используется bf16 то альфу можешь любую ставить с корректировкой лр, или без нее если идет адаптивный оптимайзер.
>>929680
Убери жпег шакалов из датасета, или протегай их жпег шакалами если есть не-шакальные пикчи. Берешь дат нейроапскейлер и проходишься им по лоурезным пикчам. Аналогично, есть даты для удаления жпег артефактов без апскейла, только проверь как они работают сначала. Генерации можешь добавить, но только хорошие и разнообразные.
Аноним 24/10/24 Чтв 20:48:42 930154 335
Original.jpg 36Кб, 564x790
564x790
4xSSDIRDAT.png 2745Кб, 1408x1968
1408x1968
4xRealSSDIRDATG[...].png 2720Кб, 1408x1968
1408x1968
4xNomos8kDAT.png 2863Кб, 1408x1968
1408x1968
>>930074
>Берешь дат нейроапскейлер и проходишься им по лоурезным пикчам.
Тут еще надо учитывать, что не все ДАТы убирают артефакты.
Некоторым на них начхать.
А некоторые могут загладить все настолько, что лучше уж с артефактами.
Аноним 24/10/24 Чтв 20:59:08 930169 336
>>930154
Абсолютно. Если погрудиться в пучины openmodeldb то там вообще можно найти апскейлеры, которые не чинят артефакты как заявлено, а наоборот их добавляют.
Аноним 24/10/24 Чтв 21:37:35 930217 337
>>929230
в общем сделал измения dim 128 > 32, alpha 64 > 16, датасет увеличил по с 50 > 65 фото и он теперь разного разрешения bucket train, lr 0.0001, text encoder 5e-05, повторов 40 > 20, эпох 20, 512х512, результат кардинально лучше, почти что хотел
Аноним 25/10/24 Птн 00:14:37 930439 338
>>930074
>нейроапскейлер и проходишься им по лоурезным пикчам
И получается неузнаваемое говно. Даже ресторфейс на 0.15 делает из пикчу убогое месиво, что говорит про апскейлеры общего назначения.
Аноним 25/10/24 Птн 01:44:33 930535 339
>>930439
Бредишь и показываешь свою некомпетентность.
Аноним 25/10/24 Птн 03:33:26 930579 340
>>930439
>И получается неузнаваемое говно.
>Картинки-примеры буквально двумя постами выше.
Ага.
Аноним 25/10/24 Птн 15:27:35 930933 341
image.png 1683Кб, 1408x1972
1408x1972
image.png 2213Кб, 1408x1972
1408x1972
image.png 2231Кб, 1408x1972
1408x1972
>>930535
>>930579
Ну если ты в глаза долбишься, то вот тебе зум твоей хуиты. Если ты и так не увидишь, что получилось неузнаваемое месиво, то тут уже ничего не поможет - ты говноед и лоры у тебя наверняка такие же как и у топов цивита, которые массово клепают говно наихудшего качества. Для какой-то неживой хуйни может и норм решение, но точно не для ебальников.
Аноним 25/10/24 Птн 17:32:56 931068 342
>>930933
Ебать ты дурачина, конечно.

При рескейле этой картинки до тренировочного разрешения ХЛ-модели, лицо кропнется до зоны в 200х250 пикселов.
Модель из этого практически ничего не вытянет, как ты ни крутись - слишком мало данных.
Целью было избавиться от артефактов, чтоб они не засирали собою датасет - от них избавились.

А детали лица тренируются на нормальных пикчах, с, внезапно, лицом. Крупным планом. И даже если они тоже подзасраны артефактами, то после апскейла получится, как минимум, неплохо. Банально потому, что данных для восстановления больше.
Аноним 25/10/24 Птн 17:48:45 931076 343
>>930933
Ты специально кропнул какой-то мелкий кусок, который после ресайза до разрешения тренировки нейронка не увидит никогда. На более крупных что будут видны все будет хорошо и красиво. Во-вторых, оба пика лучше чем первый заартефаченый в хламину.
Оно всегда так бывает когда сначала бросаешь громкие заявления а потом пытаешься выкручиваться в попытках их оправдать. Описанная методика является наиболее подходящей и эффективной, а те самые "топы цывита", которых ты пытаешься приплести для дерейла, как раз или ресайзят бикубиком, или вообще оставляют как есть, заодно добавив кривых полос, достраивая до квадрата.
О том что ты не в теме очевидно уже по
> Даже ресторфейс на 0.15 делает из пикчу убогое месиво
но раз ввязался - расскажи как по-твоему надо делать.
Аноним 25/10/24 Птн 18:22:37 931125 344
>>931068
>>931076
Ну ресайзните как хотите, и сравните. Хоть потом еще раз увеличьте, чтобы разглядели. Выглядит еще более убого. Будет трен на артефакты апскейла.
>какой-то мелкий кусок
Ебать. Самый основной кусок кропнул, который при трейне нужен в клоузапе быть в датасете, чтобы потом было что адетайлером генерить.
>какой-то кусок
Аноним 25/10/24 Птн 19:11:11 931178 345
>>931076
>заодно добавив кривых полос, достраивая до квадрата.
Как же я их ненавижу. Уф.
Из-за таких "умников" нейронка по краям картинки артефачить начинает, пытаясь как-то интерпретировать эту мазню, которую они туда добавили, либо рамки всякие ненужные строит.
Аноним 25/10/24 Птн 19:32:58 931194 346
>>931125
Изображение при тренировке будет представлено в 1 мегапикселе, если не задано иное (а иное тренить не имеет смысла). Вещи которые ты пытаешься из пальца высосать не будут заметны при этом, это совсем радикальный случай. А если нужны клозапы лица - изначально берется нормальное изображение а не делать попытки апскейла в 10 раз, как ты пытаешься представить.
Все еще жду вариантов как делать "правильно".
Аноним 25/10/24 Птн 20:53:30 931249 347
image.png 478Кб, 599x671
599x671
>>931194
>изначально берется нормальное изображение
>just buy a house
Вопрос был про то как тренить лицо человека, если кропы лица есть только в ~256х256. А вы предлагаете обучить на косых апскейлах. Я потом когда-то попробую, конечно, только не тупым апскейлом, а sd апскейлом с первичной мыльной лорой, но звучит как дичь.
>Все еще жду вариантов как делать "правильно".
>Жду
Нет, я
Аноним 25/10/24 Птн 21:29:31 931311 348
>>931249
Если модель смогла на ебучих шакалах нормально обучиться то на апскейлах будет лучше и без артефактов. Если у тебя кропы лица в 256х256 - выкидывай их нахуй и обучай на пикче без кропа. Или делай менее агрессивный кроп чтобы после получалось адекватное разрешение, к которому применим апскейл.
> just buy a house
Да, чтобы обучать нейронку нужно иметь датасет надлежащего качества. Уже тролинг тупостью пошел, если все знаешь - вперед собирать грабли.
Аноним 26/10/24 Суб 00:28:50 931466 349
Аноны, буквально вот сегодня наконец-то вкатился в sd и тут же встал вопрос.
А как научить промту прокачивать английский? Полистал примеры моделей, общий принцип понял. А как разобраться в синтаксисе? Кроме, обычных словосочетаний бывает что-то в скобках, плюс числа 0.7, 1.0 и тд.
Можно ли сгенерировать изображение 1 в 1 как в примерах моделей?
Аноним 26/10/24 Суб 02:20:33 931500 350
>>931249
>Вопрос был про то как тренить лицо человека, если кропы лица есть только в ~256х256
Не тренить последние шаги? Тренить по разложению фурье без высоких частот (если такой метод существует)?
Аноним 26/10/24 Суб 17:53:33 932004 351
>>931466
>А как разобраться в синтаксисе?
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features
>Можно ли сгенерировать
Можно. Если метаданные есть в картинке, все дополнительные инструменты, и автор картинки не гонял ее в И2И, а получал чистой генерацией.
Аноним 28/10/24 Пнд 22:34:46 934281 352
Аноним 30/10/24 Срд 04:48:47 935616 353
>>921033
Я думал над твоим постом.
Но тогда бы у хассана и других SD1.5 порно моделей анатомия была бы лучше, однако до сих пор она до уровня фуррей так и не дошла. Хотя гомо чекпоинты не проверял. Даже у портретов пальцы сломаны до сих пор.
Легкое изменение камеры тут же ломает анатомию.
Аноним 30/10/24 Срд 09:09:05 935657 354
пальцы.jpg 18Кб, 135x135
135x135
>>935616
>анатомия была бы лучше
Поздние модели вполне себе нормально с анатомией работали. С позами - фигово, нужно было чуть ли не каждую отдельную тренировать (что фурри и делали вообщем-то), но в целом улучшение было значительное.

>Даже у портретов пальцы сломаны до сих пор.
Пальцы сломаны и на хл, и на понях. Везде.
Слишком комплексный объект, со слишком малым процентом занимаемой площади на картинке. Вот у тебя, допустим, upper body, Джоконда. С руками, довольно крупным планом. Ужимаем ее до тренировочного разрешения в 512 пикселей, добавляем артефактов... И что нейронке из того квадрата в 135х135, в который пальцы ужались, для обучения вытягивать?
Отсюда - низкая эффективность обучения и нестабильность результата.
Когда жесты промптишь, особенно крупным планом и особенно с дополнительной тренировкой - получается лучше.
Аноним 30/10/24 Срд 13:26:39 935815 355
>>935657
Тренировочного разрешение в 512 уже нигде не встретить. Но зато изображения конвертируются в латенты с разрешением по стороне в 8 раз ниже и другим числом каналов. Что там останется после перегонки и сколько субпикселей на один палец - вот где собака зарыта. В случае 16-канального латента все уже хорошо.
> но в целом улучшение было значительное
Да все просто - нужно было нормально тренить а не плодить инцесты. С 1.5 сложно из-за тупого энкодера и в мелочах из-за своего размера будет часто ошибаться, но анатомия в разных позах и частях тела там возможна.
Аноним 30/10/24 Срд 15:10:37 935871 356
Аноны, поясните что такое ipadapter и t2i-adapter
Сейчас пытаюсь гуглить, разобраться и одни противоречия
Аноним 30/10/24 Срд 18:53:26 936012 357
>>935815
>Тренировочного разрешение в 512 уже нигде не встретить.
Там контекст обсуждения был про 1.5 модели.
Так то понятно, что когда новые модели на 1024 тренишь - оно лучше получается. Но процент брака все равно большой.
Аноним 30/10/24 Срд 20:21:53 936090 358
>>935657
>Отсюда - низкая эффективность обучения и нестабильность результата.
Криворучки-обучальщики разве еще не додумались докидывать в датасет кропы ебал, рук, ног, пезд, меток поней, под тегом aDetailer + тип объекта? Ну или хотя бы отдельную хорошую жирную лору на него сделать?
Аноним 30/10/24 Срд 20:50:52 936114 359
>>936090
>Криворучки-обучальщики
Сделай сам, залей на цивит, собирай профит.
Делов-то, ведь это так просто!
Спойлер: нет, ничерта у тебя не получится.
Аноним 30/10/24 Срд 21:24:01 936155 360
Сним23ок.JPG 79Кб, 1407x640
1407x640
У чувака, который рассказывает на ютубе про ip adapter во вкладке img-img можно вставить картинку вот сюда, в контролнет.

А у меня картинка вставляется только в первой вкладке, тоесть в text-img, а тут некуда её вставлять. И как это починить?
Аноним 30/10/24 Срд 21:30:50 936169 361
изображение.png 12Кб, 257x34
257x34
>>936155
Прочитай, что написано на картинке, как говорится.
Сюда тыкаешь, возможность ввода отдельных картинок появится.
Аноним 30/10/24 Срд 21:48:01 936193 362
Аноним 31/10/24 Чтв 00:02:03 936331 363
>>935657
В фурри SD1.5/пони/СДХЛ хотя бы можно "поймать" правильные пальцы при ролле или ролле в hiresfix, в то время как в других СД1.5 моделях на 10-30 роллах все еще сломанные можешь получить я уже настолько охуевал что хотел в фотошопе зафранкенштенить пикчу из разных роллов, а в итоге полностью забил. Но чекпойнты без стилей которые не реагируют на by artist, особо не пробовал, т.к. желтый фотореализм не нравится.
Аноним 31/10/24 Чтв 00:35:36 936387 364
>>936331
Это все чистый рандом.
Буквально несколько дней назад назад заленился поню дать вручную базовый контур, как рука на хорошей генерации должна выглядеть, решил хайрезфиксом по пальцам поролить.
Посмотреть, сколько займет.
200+ круток суммарно получилось на две ладони.
Тут все еще очень плохо.
Может сразу плюс-минус хорошо нарисовать. Может упереться и не работать вообще.
Аноним 31/10/24 Чтв 01:17:25 936423 365
>>923803
>Не похоже на идеальные графики.

Вкину еще интересную инфу, на тему графиков и визуализации.
https://www.youtube.com/watch?v=5ltoWvHMwFY
https://t.me/GradientWitnesses
Чел рассказывает про "по настоящему информативные графики", он уже выложил свою библиотеку для визуализаций, вот она https://gitverse.ru/kraidiky/in_sight
Но он занимается только мелкими сетями, надеюсь, кто-то захочет применить это к нашим нейронкам.
Аноним 31/10/24 Чтв 01:45:38 936440 366
>>935871
> t2i-adapter
Альтернативное решение контролнету работающее чуть иначе, но реализующее аналогичный функционал.
> ipadapter
Модель контролнета (на самом деле самостоятельная но смысл тот же) что позволяет вытаскивать стиль и некоторые атрибуты из референсного изображения. Аналог рефенс-контролнета но работает точнее.
>>936012
> Там контекст обсуждения был про 1.5 модели.
Так 1.5 стоит хотябы в 768 тренить, иначе все будет грустновато.
>>936090
С этого начинали еще в 2022 году, приводило лишь к уродским артефактам и стремным неестественно детализированным пальцам если вдруг они появлялись близко.
Делать это можно но оче оче аккуратно и плавно, а при наличии большого датасета оно само там есть. Разрешение тренировки первично.
>>936387
> 200+ круток суммарно получилось на две ладони.
Какой-то оче сложный кейс или что-то не так делаешь. Даже для ванильной пони это много, в большинстве современных моделях руки сразу хорошие или имеют легкоисправимые косяки.
>>936423
> кто-то захочет применить это к нашим нейронкам
Все эти методики основаны на результатах вализации модели. В отличии от простых сетей, которые выдают конкретный ответ (или ллм, где можно проводить анализ вероятностей логитсов на набор "правильных" ответов), оценивать ее в генерации пикч - так еще задача. Только какие-то попытки оценить характер денойза зашумленной картинки в сторону референса и то вообще не точный. Потому все попытки реализации валидлосса или также малоинформативны, или пригодны только для жетских концепт-лор, которые заставляют модель делать идентичные картинки с небольшими отличиями.
Аноним 31/10/24 Чтв 03:12:48 936493 367
>>936440
>или имеют легкоисправимые косяки.
Во-во. Поправить я их мог за 5 минут.
Но решил покрутить рулетку.
Зря.
Аноним 31/10/24 Чтв 04:28:44 936508 368
ui-script.jpg 275Кб, 1364x1444
1364x1444
wait.png 6Кб, 136x128
136x128
floppy.png 13Кб, 160x160
160x160
>>758561 (OP)
Выкладываю кастомный UI для исполнения t2i на смартфоне (в Pydroid, на Kivy).
https://rentry.co/t2i_kivy_ui/edit
Для отображения иконок нужно также сохранить приложенные png картинки 2 и 3 в папку "python/assets" в памяти телефона (для ПК - в папку "assets" там же, где находится .py файл).

Элементы UI расположены так, чтобы быстро набирать текст и сразу убирать экранную клавиатуру, просматривая и сохраняя нужные пикчи. Negative prompt убран вбок, чтобы не мешался. Предусмотрен полноэкранный просмотр с быстрым сохранением.
GPU не требуется, в скрипте подключен онлайн API с Anything v5 (в нем доступны и другие модели SD1.5, я выбрал эту по дефолту). Так же туда можно подключить локальную генерацию с компа, Stable Horde, любое другое облако, спейс на HF и т.д.
Аноним 01/11/24 Птн 20:28:00 937778 369
>>936440
>С этого начинали еще в 2022 году, приводило лишь к уродским артефактам и стремным неестественно детализированным пальцам если вдруг они появлялись близко.
>Делать это можно но оче оче аккуратно и плавно, а при наличии большого датасета оно само там есть. Разрешение тренировки первично.
А если со спецтегами, чтобы оно только внутри адетейлера триггерилось? Или делать отдельную лору на основе базовой модели, если будет сильно говнить.
Аноним 08/11/24 Птн 05:30:50 943032 370
update.jpg 106Кб, 1350x686
1350x686
>>936508
Новая версия
https://rentry.co/t2i_kivy_ui_v2
- Теперь при клике на кнопку запоминает промпт, для следующего запуска, записывая в файлах в папке settings (она там же, где assets)
- Вместо встроенного API теперь поддержка комфи (workflow.json в settings), нужно только добавить URL и название модели
- Оптимизированное пространство (для смартфона)
- Можно добавить любой кастомный фон (хотя его будет почти не видно)

В планах - добавить звуки для разных событий, и фоновую музыку.
Аноним 08/11/24 Птн 05:34:34 943033 371
>>943032
(для индентации строк нужно копировать из edit.)