Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 523 55 90
Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №100 /llama/ Аноним 08/01/25 Срд 16:57:11 1004489 1
Llama 1.png 818Кб, 630x900
630x900
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
KL-divergence s[...].jpg 223Кб, 1771x944
1771x944
17339321086750.jpg 1170Кб, 2080x1560
2080x1560
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>996637 (OP)
>>990008 (OP)
Аноним 08/01/25 Срд 17:23:29 1004507 2
Локальные сетки будут по-тихоньку вымирать. Когда можно купить лям токенов DeepSeek V3 за 20 рублей и забыть про тупой 13B-72B мусор.
Аноним 08/01/25 Срд 17:27:32 1004509 3
>>1004507
>купить
лям аполоджайзов
Аноним 08/01/25 Срд 17:28:42 1004511 4
>>1004507
Корпоративные сетки будут вымирать. Локалки всё ближе по качеству к корпоговну, а люди начинают понимать, что кормить данными большого брата себе в минус.
Аноним 08/01/25 Срд 17:30:27 1004515 5
Жирные модели уже почти вымерли, даже у корп. Все идет вот такому вот дипсику, который может кодить, но креатив как у тостера.
Аноним 08/01/25 Срд 17:44:07 1004530 6
>>1004472 →
> приплел всё что можно лишь бы че-то спиздануть
Литерально ты. Такое-то рвение с каждым постом все дальше увести от исходного поста, в котором ты шиллишь младшую карточку, опровергая что она будет слабой как в игорях, так и в ии.
> Ты изначально начал заливать
Маня, заливаешь здесь только ты. Читай еще раз, профит с фреймгена будет только в мощных карточках на высоких фпс, а превратить типичное слайдшоу младших в стабильные 60 фпс не получится.
Да че тут писать, в очередной раз нищук уверовал что сможет наебать систему и отчаяно защищает свой идеал. Вера на уровне религиозной и ее не переубедить.
>>1004507
Платить за глупый 30б мусор чтобы
> забыть про тупой 13B-72B мусор
кек
Аноним 08/01/25 Срд 18:08:38 1004567 7
image 68Кб, 904x644
904x644
>>1004530
>Платить за глупый 30б мусор
600B. Лучше Клода, мне норм.
Аноним 08/01/25 Срд 18:11:57 1004572 8
nvidia-project-[...].jpeg 193Кб, 1290x725
1290x725
>>1004507
Додич. Локальные сетки только начинают. Куртка выпустил миникомп(диджитс), на котором можно 200b модель гонять. Их можно подключать друг к другу. 4 таких компа подключить и у тебя свою собственный дипсик в3 дома без какой-либо цензуры или ограничений. Всего-то за 12к долларов.
Аноним 08/01/25 Срд 18:19:24 1004599 9
>>1004572
>Куртка выпустил миникомп(диджитс), на котором можно 200b модель гонять.
Посмотрим ещё, с какой скоростью. Ну и плюс ящичек-то весьма проприетарный, что может привести к сюрпризам вроде "ты туда не ходи - сюда ходи".
Аноним 08/01/25 Срд 18:19:33 1004601 10
>>1004572
> Всего-то за 12к долларов
Двойник зиончик с 768гб памяти намного дешевле выйдет.
Но даже это не нужно, ибо цены в облаке намного выгоднее, чем самому это говно запускать. 20-50 рублей за лям токенов, которых тебе хватит на месяц. Локальный риг это не окупит за годы. И превратится в тыкву через год-два.
Аноним 08/01/25 Срд 18:21:51 1004606 11
>>1004567
Каждый раз как в первый
>>1004572
Да не выпустил еще а просто показал. Там через пол года серверные/эмбедед решение только начнут поставлять суди по заявлениям.
> на котором можно 200b модель гонять
Шиз
> дипсик в3
Хуйта
>>1004601
> за лям токенов, которых тебе хватит на месяц
Сразу видно что ты с сетками не работал.
Аноним 08/01/25 Срд 18:28:14 1004619 12
>>1004601
>Но даже это не нужно, ибо цены в облаке намного выгоднее, чем самому это говно запускать. 20-50 рублей за лям токенов, которых тебе хватит на месяц. Локальный риг это не окупит за годы.
Я и сам тут всех убеждаю в этом. А всё равно риг собираю.
>И превратится в тыкву через год-два.
И это тоже верно. А может начнётся война и мы все умрём. Два года - это срок.
Аноним 08/01/25 Срд 18:38:05 1004630 13
image 31Кб, 280x351
280x351
image 3Кб, 165x108
165x108
>>1004606
>Сразу видно что ты с сетками не работал
Кек. Я сейчас юзаю нахаляву o1-preview/4o/Claude, в день у меня до 50к токенов выходит, судя по стате веб-морды.
А ты сиди на своем 72B говне в 4 битах на риге за 3к бакинских, лошидзе.
Аноним 08/01/25 Срд 18:46:20 1004639 14
>>1004630
>риге
Зато у меня есть курочка!

А ещё рп и кум на любые темы.

Для работы же можно и корпосетки поюзать, да.
Аноним 08/01/25 Срд 18:54:47 1004652 15
>>1004630
Утипути, какой большой! 50к токенов в день, это почти как у среднего кумера из чай треда за несколько часов. Чел, ты серьезно кичишься и выебываешься триал акком на опенроутере? Кринж.
наскамил корпов уже на Ne+5 ради персональных целей, разумеется все это вымысел
Аноним 08/01/25 Срд 19:23:45 1004704 16
Снимок экрана о[...].png 75Кб, 734x530
734x530
Лол. Решил ради интереса поднять кобольд на второй системе (шиндовс). Абсолютно идентичный конфиг отказался работать - крашило на аллокациях. Заработало только на 4к контекста вместо 32к (причем потребление памяти показывало, что 1-3 Гб оставалось свободные в зависимости от видеокарты). Скорость генерации упала в 2,5 раза. Это шутка что ли блять? А если бы я решил на шинде изначально все делать, то сосал бы бибу? Причем на вин стоит куда 12.6, а на линухе 12.4

Я тут докупил еще одну 3090 и сижу на 4,6 т/с. Вроде тут обещали генерацию 10-15 т\с на амперах, а вот нихуя (не думаю, что одна тесла настолько портит малину, она даже не загружена на 100%. Впрочем, почему-то у всех карт при генерации довольно малый процент загрузки в nvidia-smi, может не успевает рассчитать корректно. Или 3060 тоже может говнить? У нее память вроде не сильно быстрее теслы). По крайней мере, на шестом кванте 123B вот так. А на шинде 1.6, лол. Либо они там в драйверах хуйню понаписали, либо надо шаманить с настройками карт (амперы на шинде вообще в P3 чиллят, хотя на линухе в P2 стабильно работают).

Но с аллокациями на шинде точно какая-то хуета. Причем самое интересное, что у меня одинаковое количество слоев на всех 3090, и падает на аллокации KV-буфера (который тоже идентичен, т.к. зависит от кол-ва слоев) для второй 3090. Т.е. на одной он смог аллоцировать, а на второй нет, блять. Никакие другие процессы там память на картах не забирают, если что. Убавил контекст до 16к - стало падать на третьей 3090. Бред же, ну.
Аноним 08/01/25 Срд 19:30:47 1004714 17
16642134423550.mp4 309Кб, 350x250, 00:00:05
350x250
>>1004630
>в день у меня до 50к токенов выходит
Тоесть 100 сообщений от бота примерно? Мощно.
Аноним 08/01/25 Срд 19:43:04 1004730 18
>>1004704
>не думаю, что одна тесла настолько портит малину, она даже не загружена на 100%
Попробуй выкинуть её из схемы, возьми модель поменьше. Мой личный опыт взаимодействия Амперов и Тесл негативный. Плохо совместимы они.

Ну а оставшиеся Амперы загрузи на экслламу.
Аноним 08/01/25 Срд 19:43:35 1004731 19
>>1001926 →
Можешь посоветовать какие нибудь годные 70b модели?
Аноним 08/01/25 Срд 19:46:26 1004733 20
>>1004572
Как быстро они дешеветь будут интересно и как часто новая версия
Аноним 08/01/25 Срд 19:53:28 1004738 21
>>1004704
> Я тут докупил еще одну 3090 и сижу на 4,6 т/с. Вроде тут обещали генерацию 10-15 т\с на амперах,
Выкини жору и будет быстро, или откажись от больших контекстов. И да, тесла будет оче сильно срать, можешь проверить это исключив ее из задачи через cuda visible devices.
> решил на шинде изначально все делать, то сосал бы бибу
Врядли на шинде кто-то подобные конфиги вообще собирал.
>>1004714
Один пост, если еще посчитать промт процессинг. С него то основная стоимость и будет набегать, а в каком-нибудь рп так вообще.
Аноним 08/01/25 Срд 19:53:31 1004739 22
>>1004733
>Как быстро они дешеветь будут интересно и как часто новая версия
Ну "стартапы" эти грёбаные - которые устройства для инференса разрабатывали-разрабатывали, да так нихуя и не сделали - Хуанг пришиб одним ударом, как мух. Это да. Но коробочка явно экспериментальная, направленная на исследование спроса. Цена чисто для энтузиастов, а те пощупают это и пойдут риги собирать. Им надо было цену в 999 долларов ставить, тогда бы народ потянулся.
Аноним 08/01/25 Срд 19:55:40 1004742 23
>>1004738
>Врядли на шинде кто-то подобные конфиги вообще собирал.
Сижу на винде и теслах и со скоростью на Кобольде и Угабуге всё норм.
Аноним 08/01/25 Срд 19:59:56 1004745 24
>>1004739
>Им надо было цену в 999 долларов ставить, тогда бы народ потянулся.
Вообще по железу это чистая наценка x10. Но они могли бы урезать память и ссд вдвое и ещё сэкономить, чтобы привлечь народ, а потом выпустить типа ПРО версию. Экстражадность и ничего больше.
Аноним 08/01/25 Срд 20:00:01 1004746 25
>>1004739
> которые устройства для инференса разрабатывали-разрабатывали
Вся их "разработка" сводилась к тому, чтобы взять готовый эмбед модуль хуанга, пихнуть в красивый корпус и в лучшем случае сделать софт.
> чисто для энтузиастов, а те пощупают это и пойдут риги собирать
Честно даже хз, каким именно энтузиастам могут понадобиться риги из них. Одну штучку - да, но в остальном приемлемый перфоманс оно только на разреженных моделях может осуществить. Про тренировку с такой скоростью памяти вообще можно забыть, ибо когда проваливается в (быструю) шаред, на ллм оно замедляется почти пропорционально разницы псп.
>>1004742
Ну то только теслы, а тут невероятная солянка из большого количества на чипсетных линиях.
Аноним 08/01/25 Срд 20:00:20 1004748 26
Может кто-нибудь скинуть гайд как собрать риг для 200б+ моделей? Очень интересная тема.
Аноним 08/01/25 Срд 20:49:43 1004818 27
Как вообще можно в какое либо рп на ллм где у тебя даже на топовой сборке контекст всего 64к? Т.е это 200 сообщений максимум, только одну ситуацию разыграл и вот треть уже забита.
Самарайз пиздец костыль нейронке нельзя такое доверить она насрет в детали и приходится ручками дописывать их каждый раз
Аноним 08/01/25 Срд 20:51:24 1004821 28
>>1004818
Я уж молчу что имея такую сборку ты явно не хочешь сидеть на 12б ради жирного контекста, а возьмешь 70б с контекстом 8-16к
Аноним 08/01/25 Срд 21:16:51 1004847 29
>>1004821
>Я уж молчу что имея такую сборку ты явно не хочешь сидеть на 12б ради жирного контекста, а возьмешь 70б с контекстом 8-16к
Ты только не забывай, что начиналось всё вообще с контекста в 2к. А годик прошёл и на локальных моделях заявили до 128к. Ты их ещё попробуй обработать.
Аноним 08/01/25 Срд 21:28:30 1004853 30
Купил 3090 из-под майнера. Осталась 3070ти. Продавать 3070 чы втыкнуть рядом, смысол есть?
Аноним 08/01/25 Срд 21:30:00 1004855 31
>>1004818
Суммарайз@суммарайз. Двачую что даже на 2к рпшили, а то и 8к считалось целым достижением. Когда мишвилоус глинды ужаты тут и модель лучше отвечает.
>>1004853
Втыкай рядом и используй пока не продашь.
Аноним 08/01/25 Срд 21:32:53 1004862 32
>>1004818
128к контекста для ллм с текущей архитектурой это предел. Я тестил 300к контекста в геймини и это хуита. Реально он никак толком не используется т.к. креативности ответов все равно нет. Такое ощущение что все содержимое контекста сливается в один слипшийся комок из которого негронка высирает нечто усредненное. Если какие-то конкретные события из этих 300к и выдергивает то все равно путается в последовательности и следствиях, а геймини в этом плане самый умный вроде как. Вообщем пока на что-то кординально новое не перейдут, а ничего подобного пока не планируется, только сказочки от иицыган про аги (аги работающий без обучения в реалтайме, ору нах), 64к это предел.
Аноним 08/01/25 Срд 21:35:06 1004866 33
Есть кто тестировал квантизацию контекста?
Чет погонял туда сюда, и на первый взгляд модель дико отупела на 8 битах(отказывается слушаться там где раньше реагировала), но я не до конца уверен что причина в этом т.к ещё ранее промты ковырял. Есть ещё аноны с схожим опытом?
Аноним 08/01/25 Срд 21:38:07 1004868 34
>>1004862
Все так, какие-то более менее осмысленные действия с контекстом способны делать только большие модели, и то с натяжкой. Когда текст низкой информативности то особо не заметишь, просто будут чуть хуже ответы из-за рассеянного внимания. Но если там какая-нибудь статья или оче содержательный текст, то как-то делать выводы из него и работать можно лишь через всякие техники и агентов.
>>1004866
В 8битах полнейший лоботомит ибо это фп8 с отвратительной дискретностью. В q4 сносно но разница некоторая присутствует. Int8 тут бы зашел, но что-то не завозят.
Аноним 08/01/25 Срд 22:09:49 1004905 35
>>1004704
Меняй солянку из P40/3060/3070 на 3090. У тебя конечно прикольный конфиг для тестов, но для реальной работы лучше иметь гомогенную среду.
>>1004733
>Как быстро они дешеветь
Никак, всем нужен AI.
>и как часто новая версия
Вангую, что это первая и единственная.
>>1004818
РПшу на 8к контекста, ебало довольное.
>>1004853
Меняй на 3090 с доплатой. Я так свою 3080Ti обменял, доволен как слон.
Аноним 08/01/25 Срд 22:13:42 1004909 36
А расскажите, как вы юзаете саммарайз?

Например начали кум-сцену с нейтральной ситуации, к середине контекста началась ёбля, к концу контекста ёбля на середине. Как это суммаризировать, чтобы продолжить ёблю с того же места, но с чистым контектом? В шапке явно гайда на эту тему не хватает имхо.
Аноним 08/01/25 Срд 22:26:06 1004923 37
>>1004909
Кум сцены лучше вообще сами по себе суммаризировать и выключать посты, оставляя один где все кратко описано. Покумить контекста должно хватит, а даже если не хватает то там похуй че куда. Зато если потом хочешь продолжить - лучше за собой прибрать.
А так - средствами таверны, но контролируй что так, не ленись перегенерировать или скомпоновать из нескольких кусков. Чтобы каждый раз не переобрабатывать контекст - отключай посты и контролируй куда размещается суммарайз, чтобы он был в начале и не затрагивал часть событий, которые потом описываются полноценно.
Много вручную, но если хочешь хорошо то так, а автоматизировать лень.
Аноним 08/01/25 Срд 22:26:29 1004924 38
>>1004905
>Меняй на 3090 с доплатой. Я так свою 3080Ti обменял, доволен как слон.
эм. а кому это может быть нужно получить 3070 вместо своей 3090, пусть и с доплатой?
Аноним 08/01/25 Срд 22:29:20 1004927 39
>>1004868
Суть в том при 8-бит контекст кеше вместо f16 его можно вприхнуть раза в 3 больше, условный q5 модель которая с трудом пвлезала в vram c 24к контекста, после квантования kv легко переваривает все 65к, с таким контекстом зачастую и доп суммарайзы не нужны, т.к редко сессия длиться на столько долго.

Вот только мне пока сложно оценить на сколько это реально влияет на мозги, кто-то говорит что разница минимальна, у кого-то напротив лоботомия. Хотя возможно ещё от самой модели зависит.
Аноним 08/01/25 Срд 22:35:09 1004935 40
>>1004924
Продай@доплати@купи
>>1004927
> 8-бит контекст кеше вместо f16 его можно вприхнуть раза в 3 больше
16/8=3?
И ты основного посыла не понял, 4 бита лучше чем 8 из-за гораздо более продвинутой реализации.
> сложно оценить на сколько это реально влияет на мозги
Дай инструкцию, насри большим контекстом, сравни ответы. В 16бит попытается сделать что может, в 4х будет подтупливать, в 8 забудет нахуй что было в начале.
Аноним 08/01/25 Срд 22:37:14 1004936 41
>>1004905
>Меняй
Ни, мне норм. Такая скорость суперкомфортна для меня, дрыгаться не вижу смысола. Разве что для русика, но я его не использую.

>>1004730
>загрузи на экслламу.
Ради тестов можно попробовать. Только у меня сразу куча вопросов, гайдов-то нема.
1. Где взять гайды по битностям эксл2? Как они соотносятся друг с другом, насколько падает качество и все такое. По гуфам инфы много - у релизеров и таблички с описанием качества квантов всегда в репозиториях, и в шапке вон графики, и в треде постили табличку с процентом девиаций от fp16. А про эксл я ничего не слышал.
2. Я так понимаю, что эксллама это не полноценный бек а-ля кобольд, который просто запустил, и потом подсосался к нему через таверну? В репе пишут, что нужно еще апи качать (TabbyAPI для таверны?). Побольше бы инфы про это все.
3. Поддержку тесел в экслламу до сих пор не завезли? Я вроде помню, что там то ли issue какой-то был, то ли PR. Вроде же физически это возможно (конвертация fp8->fp16), только все хуй забили, насколько я помню.

>>1004738
>Врядли на шинде кто-то подобные конфиги вообще собирал.
Меня система так-то не особо волнует, я выбрал линух чисто из-за того, чтобы не пердолиться с лицензиями и васянскими сборками. в результате пердолился с установкой, т.к. видите ли, нельзя, сидя на винде, раскатить полноценную линух систему на второй ssd. Заливается только установщик, в который изволь бутаться и уже оттуда, блять, раскатывай систему. Ух, до сих пор печет, хорошо что старинную флешку удалось найти в закромах ящиков стола.. Так-то мне тулзов а-ля GPU-Z не хватает тут, я хотел посмотреть на графики при инференсе.
Кстати, там еще аллокация памяти для слоев странная, на линухе она мгновенная, а на винде секунд 5-7 занимает, и я прямо вижу, как там занятая видеопамять постепенно растет.
Аноним 08/01/25 Срд 23:04:54 1004982 42
>>1004936
Линукс вообще топовый вариант если с ним уже знаком, гораздо меньше ебли с мл-релейтед если погружаться чуть глубже.
> нельзя, сидя на винде, раскатить полноценную линух систему на второй ssd
Наоборот, загрузчики на разных дисках и друг о друге не знают друг другу не мешают, выбираешь через бутменю материнки.
> а-ля GPU-Z не хватает тут
nvtop
> на линухе она мгновенная
По разному мапинг идет, можно в одном сделать мгновенную а в другом замедлить. Или у тебя что-то другое.
> Ради тестов можно попробовать.
Это единственный лаунчер достойный использования, если есть такая возможность.
> Где взять гайды по битностям эксл2
Там ставится любая битность какую хочешь. Все что выше 4 бит - норм, дефолтные 4.65 хватит всем ибо дивергенция на том, что не отсекается первыми семплерами уже пренебрежима. Если невростеник то бери максимальный, который помещается.
> таблички с описанием качества квантов всегда в репозиториях
Это манякритерий типа "вот это хорошее, вот это лучше, а вот это совсем плохое" исключительно по какой-то относительной им ведомой шкале. В целом поведение битности сравнимо. Если брать кванты последней версии то они в среднем на 0.5-0.8 бита лучше аналогичных ггуфов по метрикам пиздят конечно, на подкрученных тестах калибровали просто. Есть важность калибровочного датасета, типа по викитексту калибровать неоче.
Можешь делать кванты сам, качаешь оригинальную модель, ставишь сначала оценку (может затянуться на пару часов для 123б) потом сам квант. Главное - не путай калибровочные таблицы для разных модлей, они могут сильно отличаться и ошибка в них приведет к поломанному кванту.
Алсо, как правило, порядочные кантоделы выкладывают калибровку, поэтому можешь просто скачать ее и собрать себе 5.89876765 бит под свой случай. Как делать - в репе есть инструкция, потом уже конкретные вопросы задавай.
Но можешь просто не париться и качать готовые кванты, как скачать, надеюсь, сообразишь.
> что эксллама это не полноценный бек а-ля кобольд
Это как llamacpp, теоретически есть свой минимальный апи, но лучше юзать в составе сборки. Табби или убабугу.
> Поддержку тесел в экслламу до сих пор не завезли?
Нет, автору есть чем заняться. Физически это возможно - упрощенно говоря, нужно комбинировать перед умножением векторов или просто апкастить в фп32 (никаких фп8 там нету, да и фп16 в современных моделях нечастый гость). Но есть нюансы, вся высокопроизводительная часть там сделана ровно так как и должна, а не по-васяновски, пусть такой и остается.
Аноним 08/01/25 Срд 23:09:47 1004998 43
>>1004936
>Где взять гайды по битностям эксл2?
В простейшем случае бери то, что в упор с контекстом лезет во всю твою врам. Для тестов сойдёт.
>Я так понимаю, что эксллама это не полноценный бек а-ля кобольд, который просто запустил, и потом подсосался к нему через таверну?
В Угабуге есть реализация, а к ней подсосаться можно без проблем.
>Поддержку тесел в экслламу до сих пор не завезли? Я вроде помню, что там то ли issue какой-то был, то ли PR. Вроде же физически это возможно (конвертация fp8->fp16), только все хуй забили, насколько я помню.
Я тоже забил и переползаю на 3090. В принципе есть шанс дождаться и тогда цена тесел ещё немного подрастёт :)
Аноним 08/01/25 Срд 23:45:19 1005060 44
Бляя я не могу после 22б пантеона все 12б калом кажутся
Он единственный который заметил что в комнате вообще то ещё 2 персонажа стоят, а все остальные просто трусы с меня снимали и ебали забыв о них
Аноним 09/01/25 Чтв 00:38:38 1005098 45
image.png 5Кб, 477x45
477x45
Аноним 09/01/25 Чтв 00:41:33 1005103 46
>>1004982
>nvtop
Он как-то бедно смотрится, мне потребление порта pci-e надо было смотреть.

>Наоборот, загрузчики на разных дисках и друг о друге не знают друг другу не мешают, выбираешь через бутменю материнки.
Ты невнимательно прочитал. Я хотел установить систему напрямую из винды, без привлечения сторонних носителей.

Окей, ну квантовать я сам точно не собираюсь. Вот в репе пишут
Quantized using 115 rows of 8192 tokens from the default ExLlamav2-calibration dataset.
Как понять, это норм или говно?

>Нет, автору есть чем заняться.
А у нас с >>1004998 теслы лежат без дела, так что автор занимается не тем, чем надо с нашей точки зрения. Вот оно https://github.com/turboderp-org/exllamav2/issues/40, там внутри еще ссылка на другой есть.
Я бы попробовал, но чет мне кажется, что с нулевыми знаниями фреймворка куды и технической стороны ML в целом оно меня сожрет.
Аноним 09/01/25 Чтв 01:04:08 1005130 47
Аноны, есть 60к, за эту цену можно взять 4060ti на 16 врама, или 7800xt, если брать новыми. У меня 6600xt, так что боль от амд я уже почувствовал и мне понравилось. Вот сижу и думаю, что брать. С одной стороны удобство использования, а с другой, 256 шина памяти (и вроде чип повеселее, если поиграть когда нибудь снова потянет). Я просто хочу хотя бы 12В гонять с 16к контекста не в три токена/секунда, и если карту возьму, то нескоро её смогу сменить.
Понимаю, что тут у всех по ригу из 3090, но вдруг кто подскажет.
Если что, у меня в качестве БП старый но не бесполезный фсп на 750, живой, пульсаций/просадок нет, банки как новые, на адекватный апгрейд наскребу только спустя ещё месяц/два.
Аноним 09/01/25 Чтв 01:45:14 1005174 48
Я хочу поделиться очевидным, но своим щенячьим восторгом, что не нужно писать какие-то команды, тильды, слэшы, скрипты, ты просто пишешь OOC : bla bla bla и она понимает. Я уже взрослый мужик, но такая простая вещь у меня вызывает какой то странный восторг.
Аноним 09/01/25 Чтв 02:02:40 1005180 49
GgTTOjGbMAMOIjj.jpg 268Кб, 1240x1589
1240x1589
ребята, у меня есть идея, я хочу затьюнить ламу и убрать всякую хуйню типо ограничений и политкоректности и все эти safety measurmenets, но как это сделать я бей идей

и так, как?
Аноним 09/01/25 Чтв 02:04:33 1005182 50
>>1004924
Продаванам вестимо. Само собой со скидкой, то есть по отдельности продать/купить будет выгоднее. Но я ебал эту мотню, написал перекупу с лохито, тот кабанчиком подорвался и через час был у меня. Проверил мою и дал проверить его, оплатил разницу и попрощался.
>>1004936
>Где взять гайды по битностям эксл2?
Там плоская шкала без версий, ориентируйся на число бит или на размер файла.
Аноним 09/01/25 Чтв 02:24:50 1005189 51
>>1004818
Самому не смешно жаловаться на ошибки в саммари, когда твоя сетка уже на 2к будет проебывать и путать детали?
Аноним 09/01/25 Чтв 02:38:14 1005197 52
Аноним 09/01/25 Чтв 02:58:48 1005208 53
>>1005103
> Он как-то бедно смотрится
По возможностям мониторинга повеселее, а экзотику типа
> потребление порта pci-e
хуй знает. А для чего?
> Я хотел установить систему напрямую из винды, без привлечения сторонних носителей.
Хм, такое можно разве что с привлечением виртуалки и монитированием диску туда как диск и образа как привода. Емнип, под шинду нет полноценных установщиков, что могут еще и диск правильно размерить и груп записать.
> Как понять, это норм или говно?
Скорее всего норм.
> Я бы попробовал
Раскурить код, добавить декоратор или инлайново конвертить в torch.float32 а потом обратно. Как нехуй делать, лол (нет).
Лучше забей и выгодно их продай, будучи довольным что смог их поюзать на каких-то моделях.
>>1005174
Можно еще поставить карточку хорошего чара, и попросить его тебя поцеловать. И тебя за это даже не осудят!
>>1005180
Да
Аноним 09/01/25 Чтв 04:02:32 1005231 54
>>1005208
> Можно еще поставить карточку хорошего чара, и попросить его тебя поцеловать. И тебя за это даже не осудят!
Ну ты не мог без сарказма. Не так ли ?
Аноним 09/01/25 Чтв 04:32:27 1005241 55
>>1005231
Да вообще без подъеба писал
Аноним 09/01/25 Чтв 05:59:14 1005265 56
>>1004935
>16/8=3?
Там судя по всему нелинейная зависимость, банальный пример одна и та же модель на f16 не могла прожевать больше 16к контекста с полной выгрузкой модели в врам, или 24к если 1-2 слоя из 60 перекинуть в оперативку. На 8 и 4 я легко запустил 65к контекста с всеми слоями в врам.

>И ты основного посыла не понял, 4 бита лучше чем 8 из-за гораздо более продвинутой реализации
Почитал, ты прав. Я по привычке считал что чем меньше тем тупее, но тут не тот случай. Благодарю.
Аноним 09/01/25 Чтв 07:56:26 1005301 57
Final.jpg 153Кб, 1008x507
1008x507
Ну что я могу сказать, как же это было охуенно. Суммарно больше десятка тысяч сообщений, запихивание персонажей в ворлдбуки, куча ебли и исправлений и финал. Спасибо нейросети, это самый пиздатый опыт что я получал. Лучшее аниме эвар.
Аноним 09/01/25 Чтв 09:03:06 1005321 58
>>1005301
Большинству лень НАСТОЛЬКО ебаться, вот и стонут что всё говно XD

Хотя это конечно не уровень "покумить зашёл", для подобного результата, по личному опыту, всё равно самому историю придумывать, а нейронка уже так сказать мясо на кости скелета наращивает.
Аноним 09/01/25 Чтв 09:06:50 1005323 59
>>1005301
Да, какая модель-то?
Пантеон, цидония, бипо, клиффхэнгер, даркфорест, что-то квеноподобное? Что-то более крупное и/или экотичное?

По слогу пантеон напоминает.
Аноним 09/01/25 Чтв 09:29:33 1005335 60
>>1005321
>Большинству лень НАСТОЛЬКО ебаться, вот и стонут что всё говно XD
Да это был пиздец какой то если честно. Только желание довести до финала меня удержало. Там было все : групповые чаты, смена моделей, постоянное пиздилово моделей ногами, когда они сводили мой эпик к порнухе, отчаяние. Порой модели даже писали, мол братан ты ебанутый, может давай все по лайту сделаем, ну зачем тебе это ? Я постоянно её направлял, но что иронично, сюжет писался все таки моделью, большинство ВОТ_ЭТО_ПОВОРОТ она сама делала из контекста, я научился разбивать на главы, главы на части. Под конец понял примерное для своего железа количество контекста, которое можно переварить без ожидания ответа по 20 минут. Я прям в шоке, вот как завершил я и запостил скриншот а в душе такое чувство, ну вы знаете его, когда ты посмотрел или прочитал что то настолько охуенное, что прям такая теплота и грусть по телу разливается.

>>1005323
Конкретно это была последняя цидония. Я уже на ней добивал финал своего эпика.

Следующая эпопея будет на основании воображаемой фурри лисички, которая будет еще и делиться на более шизовые части. Думаю главной мыслью сделать - проблему поиска себя через воображаемого друга и борьбу со своими страхами. Хуй вам а не кум, только беды с башкой только истинный despair.
Аноним 09/01/25 Чтв 09:36:27 1005338 61
>>1005265
>>1004935
>>1004927
Да епта бля квантованный контекст это пиздёж галимый.
Я поставил 40к врам свободный еще есть и в итоге это говно один хуй пересчитывает весь контекст после 12к как и при f16 кеше т.е не работает он нихуя и в чём смысл
Аноним 09/01/25 Чтв 09:37:01 1005339 62
>>1005338
Молчу уж что мистрали очень тупеют от квантованного контекста
Аноним 09/01/25 Чтв 09:41:41 1005342 63
Мой немомикс анлишд забыл что я сын своей матери после 90 сообщений. Контекст f16.
Это как вообще блять?
Да первые пару сообщений где я типа рождаюсь уже вылетели из кэша но куча намеков и прямых утверждений этого по пути есть
Аноним 09/01/25 Чтв 09:45:03 1005343 64
>>1005342
У неё деменция просто всё норм
Аноним 09/01/25 Чтв 09:48:45 1005344 65
>>1005301
>больше десятка тысяч сообщений
Чё блять ? Ты ебанутый ?
Аноним 09/01/25 Чтв 09:55:31 1005346 66
>>1005342
Потому что у тебя НЕТ железа чтобы переваривать действительно серьезные модели с огромным контекстом. Если ты собрался много писать, то не зря в таверне к чату прикрепляются отдельные лорбуки. Да это кажется сложным, но там разобраться дело пяти минут. Все важное заносишь туда, кто кому сват сын брат. И не забываешь бить модель по жопе, когда она начинает писать хоть что то чего быть не должно. Потому что если ты это оставишь, начнется снежный ком, ну и постоянно нужно напоминать ей обстановку или важные детали. Увы, но пока только так.
Аноним 09/01/25 Чтв 09:57:26 1005348 67
>>1005346
> НЕТ железа
Куртка, спок.
Выкати народную 5080 24г и будет мне железо
Аноним 09/01/25 Чтв 09:57:50 1005349 68
>>1005344
А что не так ? Я люблю сюжет. Не могу же я целовать ботинки госпожи, без войны и мира с доминированием в контексте. Так не интересно, чем она угрожать то будет.
Аноним 09/01/25 Чтв 10:00:08 1005351 69
>>1005348
2к$. Чем не народная.
Аноним 09/01/25 Чтв 10:00:43 1005352 70
>>1005346
Получается любой кэш хуйня тогда и нет смысла не юзатб q4
Аноним 09/01/25 Чтв 10:02:42 1005355 71
>>1005351
Реддит почитай и форумы там из принципа не хотят покупать 5090 ибо 5080 с 16 гб очевидные ссаки в лицо чтоб направить гоя в нужное русло и он взял 5090
Аноним 09/01/25 Чтв 10:03:25 1005357 72
>>1005352
Еще раз объясняю. То с чем мы сидим общаемся это огрызки, смирись. Нужно поправлять и направлять, а не написать, думая что тебе сейчас горе от ума выдаст.
Аноним 09/01/25 Чтв 10:17:14 1005363 73
>>1005352
Некоторые модели ломаются при использовании сдвига и прочих костылей с контестом, пересоздание же чата с суммарайзом предыдущего часто дикий геморрой и не дает требуемого эффекта. Большой контекст позволяет тебе пусть и с затупами но продолжать рп.
Ну и есть большая разница, когда модель не знает о чем ты говоришь т.к это просто выпало из контекста при его переполнении, и когда она просто тупая и игнорирует его содержание. В втором случае ещё случаются проблески сознания и её проще вывести на нужные рельсы.
Аноним 09/01/25 Чтв 10:18:50 1005364 74
>>1005338
>Я поставил 40к врам свободный еще есть и в итоге это говно один хуй пересчитывает весь контекст после 12к как и при f16 кеше т.е не работает он нихуя и в чём смысл
А какой ты в Таверне контекст поставил? Если 12к, то после заполнения Таверна сама сдвигает чат - и всё пересчитывается, понятно.
Аноним 09/01/25 Чтв 10:23:47 1005366 75
>>1005363
>Некоторые модели ломаются при использовании сдвига и прочих костылей с контестом, пересоздание же чата с суммарайзом предыдущего часто дикий геморрой и не дает требуемого эффекта. Большой контекст позволяет тебе пусть и с затупами но продолжать рп.
От модели многое зависит. Умная модель и саммарайз поймёт, и стиль подхватит. Единственно делать саммарайз вручную придётся. Она-то сделает, но непременно проебёт какие-то детали, а нам это не надо. На практике я 10к саммарайза делал и 5к чата для образца - подхватывала как родное.
Аноним 09/01/25 Чтв 10:30:34 1005367 76
Тред локальных языковых моделей
>Уважаемые а как x через y
>короче считаем максимальный контекст хуё моё интегрируем
>22b или 172б, не токены а золото
>поднимаем кобольт из под доса

Тред чат-ботов
>пук среньк
>ололо
>я покакал
Аноним 09/01/25 Чтв 10:40:41 1005369 77
>>1005364
Кстати в новых версиях таверны она умеет подхватывать размер контекста из кобольда, больше не нужно руками выставлять в двух местах. Достаточно поставить галку в настройках подключения.

Ещё бы она отображала прогресс бар генерации основанный на максимальном количестве токенов, как при использовании Horde, удобно.
Аноним 09/01/25 Чтв 10:43:56 1005373 78
Аноны, где можно погонять локальные модели большие в облаке, чтобы через таверну запустить? Я имею в виду файнтюны и так далее. Ставить что захочешь.
Аноним 09/01/25 Чтв 11:03:42 1005380 79
Какая локалка самая лучшая на данный момент? Интересно мнение анонов.
Аноним 09/01/25 Чтв 11:08:33 1005385 80
IMG4203.jpeg 35Кб, 187x269
187x269
>>1005380
Мегатрон. Ставь и наслаждайся.
Аноним 09/01/25 Чтв 11:11:54 1005388 81
>>1005380
Такой нет. Вообще нет. Абсолютно нет. Никак нет. Не существует. Она отсутствует. Её не было.
Аноним 09/01/25 Чтв 11:17:22 1005390 82
>>1005369
>Кстати в новых версиях таверны она умеет подхватывать размер контекста из кобольда, больше не нужно руками выставлять в двух местах.
Только вот функции скрывать автоматом сообщения там ещё не прикручено. А это значит, что при заполнении контекста проблема полного пересчёта всё равно будет. Чтобы она была не каждое сообщение, а хотя бы каждые десять, приходится скрывать лишнее скриптом вручную. Ну хоть так.
Аноним 09/01/25 Чтв 11:33:32 1005401 83
>>1005335
>последняя цидония
Просто 1.3 или которая мерж с магнумом?
Аноним 09/01/25 Чтв 11:39:34 1005407 84
>>1005335
>только беды с башкой только истинный despair
Hello darkness, my old friend.
Модели DavidAU пробовал?
Там шизомиксы на любой размер есть.
В основном с негативным байасом в отличии от беззубых дружбомагичесих остальных почти всех.
Правда не все адекватные, и не все норм работают на дефолтных настройках, порой придётся покрутить. А ещё они требуют использования Smoothing Factor (есть в настройках).
Аноним 09/01/25 Чтв 11:43:02 1005409 85
>>1005367
>Уважаемые а как
... пропатчить KDE под FreeBSD?
Аноним 09/01/25 Чтв 11:47:11 1005411 86
>>1005373
>где можно погонять локальные модели большие в облаке, чтобы через таверну запустить
Покупать виртуальный сервер и регулярно оплачивать хранилище + саму арендуемую видюху когда юзаешь.

Некоторые упарываются вместо сбора ригов.

Но в принципе оно того стоит только если ты знаешь что и зачем делаешь. Если возникают вопросы, то оно тебе не надо.
Аноним 09/01/25 Чтв 11:51:25 1005414 87
>>1005380
Рус - мержи Моралиане и Алетейан.
Анг - Цидония, Пантеон, Хронос, некоторые модели ДэвидАУ
Аноним 09/01/25 Чтв 12:02:03 1005423 88
>>1005401
Я аж повис от твоего вопроса, приду домой посмотрю. Но по моему это была 1.2 цидония.

>>1005407
>Hello darkness, my old friend.
Именно, я ковырялся в карточках и нашел карточку Sofos с полу полтергейстом-полушизой и такой : а ну стоять, это же интересная идея. А что если это будет не одна фурри лисичка, а несколько в одной. Что если от пережитых эмоций, будут разные лисички и одна из них будет натуральным маньяком насильником, а вторая будет ангелом. Что если чем глубже персонаж будет погружаться в отчаяние, тем сильнее будет злоба фурри друга.

>Модели DavidAU пробовал?

Нет, не пробовал. Я же тот самый ньюфаг который вкатился месяц назад, мне в треде дали гайд и сенко ну и завертелось.
Тредик, смотри как я вырос, ты гордишься мной ?
Я перепробовал практически все до чего мог дотянуться, я качал ЛЮБЫЕ локалки и тыкал, тыкал, тыкал.
Я по сути к Цидонии то в конце и вернулся потому что она на дефолтных настройках таверны работает как часы.
Но я себе заметочку оставлю, посмотрю что это и как. Пасиба.
Аноним 09/01/25 Чтв 12:30:10 1005461 89
>>1005380
>самая лучшая
пигмалион 7б
тут тред вангующий мы сразу поняли что ты хочешь и для чего тебе локалка
Аноним 09/01/25 Чтв 12:31:10 1005464 90
>>1005423
> ну стоять, это же интересная идея
У меня сейчас 562 карточки лежат с такими мыслями...

Написал питон-скрипт который извлёк джсон промт в читаемый вид в текстовые файлы, чекаю, удаляю то что не зашло.
Потом подправить промты оставшихся ибо какого только трэша не навидался... заодно автоматизированно зашить свой системный промт к каждой, и обновить его можно будет легко если что тоже пакетно.

>>1005423
>Цидонии
Цидония 1.1 - 1.2 вроде самая норм.
1.3 вроде говорили не нравилась анонам.

Пантеон хорош, но он специализирован именно на рп.
Зато в рп отрабатывает на все 142%
Аноним 09/01/25 Чтв 12:31:47 1005465 91
>>1005461
Ну тогда уж саинемо. Такие то описания рук в анусе.
Аноним 09/01/25 Чтв 12:41:24 1005483 92
Аноним 09/01/25 Чтв 12:48:00 1005496 93
>>1005464
>Написал питон-скрипт
Я только HTML знаю и то, лучше бы не знал.
Моё уважение за подход, я больше по буковкам.
>Пантеон хорош, но он специализирован именно на рп.
Зато в рп отрабатывает на все 142%
Проблема в том, что я хочу и рыбку съесть и нахуй сесть с кумом сесть.
Ну то есть, вот возвращаясь к скрину, там одна из героинь потеряла своих сестер в горящей машине, когда {user} смог спасти только её из за чего у неё основательно поехала крыша, и она немного его возненавидела не прекращая любить, из за чего речь идет не просто о femdom с его отшлепай флоггером, а о серьезном дерьме, на котором (ты блять не поверишь magnum v4 22b говно ебанное, ненавижу его, кривая сука, писал, что я не хочу продолжать, давай лайтовее) пантеон спотыкается. А цидония, если её бить ногами начинает писать.
Аноним 09/01/25 Чтв 12:55:25 1005504 94
>>1005496
>magnum v4 22b говно ебанное
магнум говно потому что его на чат-логах анонов юзавших клод и сойнет обучали, сам можешь представить что там, заглянув в здешний филиал ада тред онлайн чат-ботов.

Надо цидонию ещё раз пробнуть, раз уж такое вывезла.

Эхххх, и что никто русскую 22Б модельку ещё не замутил...
Вернее, моделька то есть, но ей ещё файнтюн нужен.
Аноним 09/01/25 Чтв 12:58:13 1005506 95
>>1005504
>на чат-логах анонов
А ведь кто то ещё рекомендует кумить рпшить на корпоговне, пиздец.
Аноним 09/01/25 Чтв 12:59:12 1005508 96
>>1005504
Ты главное прямым текстом пиши, OOC : подвешивай {user} за крюки через кожу, погружай в отчаяние, ломай психику.
Все совпадения случайны, слаанеш тут не причем.
Аноним 09/01/25 Чтв 13:03:37 1005512 97
image.png 363Кб, 1290x725
1290x725
> GB10 может обеспечивать до 1 петафлопа мощности для обработки AI с точностью FP4.
>с точностью FP4.
ОЙ бля, какие же хитрожопые .
Но даже так эта шутка споосбна локально запускать 123В модели.
Только вот стоить она будет явно не 300к.
Аноним 09/01/25 Чтв 13:07:46 1005515 98
L8i66eGmkKmMtcbU.jpg 84Кб, 1271x712
1271x712
pC4r2vphoYMJINm4.jpg 81Кб, 1276x714
1276x714
И нахуй диджитсы и 5090 если на лаптопе за $999 можно крутить 70б модельки
Аноним 09/01/25 Чтв 13:08:35 1005516 99
Аноним 09/01/25 Чтв 13:19:24 1005535 100
>>1005516
>Another reason is that they didn't mention the memory bandwidth during presentation. I'm sure they would have mentioned it if it was exceptionally high.
Хороший довод, кстати.
Аноним 09/01/25 Чтв 13:19:44 1005536 101
Какие то фетиши, извращения, я один что ли штурм Гудермеса отыгрываю ?
Аноним 09/01/25 Чтв 13:21:45 1005542 102
>>1005483
А как это запустить, например, через кобольд?
Аноним 09/01/25 Чтв 13:21:51 1005543 103
>>1005401
1.2
А точнее
Cydonia-22B-v2k-Q6_K
Аноним 09/01/25 Чтв 13:27:43 1005546 104
>>1005512
У неё память медленная. 700 гб/с - это то что модули памяти могут выдать. Но куртка боязливо промолчал про скорость памяти и челики вангуют что там нет даже близко 700, скорее половина, судя по чипу и расположению памяти. В fp4 качество говно будет, оно сильно хуже квантов, при том что жоровские q4_K_S - это 4.5 bpw, а не 4.0. Даже fp8 так-то на уровне Q5.
>>1005515
> можно крутить 70б модельки
Можно. Можно и за 300 баксов собрать ведро рам. Только у амуды меньше 300 гб/с память, даже 5 т/с не получишь в 70В.
Аноним 09/01/25 Чтв 13:36:16 1005555 105
>>1005512
Куртка не был бы курткой, если бы не попытался впарить очередной скам для доверчивых. Ему вообще нет смысла выкатывать домашнюю станцию по такой цене, когда у него уже есть 5090, которая как раз заточена под нейронки и стоит в два раза дороже. А если уж учитывать, что в ней будет только 32 кило и прогретым придется покупать их сразу несколько штук, то можно предположить, что потенциальная производительность этой коробочки будет процентов на 100-150 выше, чем раскрутка нейронок на ддр5. То есть вместо условных полутора токенов, будет примерно три с половиной на какой-нибудь 123B. И то скорее чисто из-за широкой шины и многоканала.

Цифры взял из головы, не ебу какая там реальная скорость на оперативке выходит.
Аноним 09/01/25 Чтв 13:42:17 1005560 106
>>1005546
>Только у амуды меньше 300 гб/с память, даже 5 т/с не получишь в 70В.
Ну что ты додич тупозаврик такое говоришь, 12тс+ дает эта шняжка в 70б
Аноним 09/01/25 Чтв 14:15:56 1005581 107
а что там по локалкам на интоловских карточках? 16гб врама за 40к выглядит вкусно
Аноним 09/01/25 Чтв 14:49:04 1005600 108
>>1005555
С коробочами прежде всего вопрос программной совместимости. А 5090 будет пригодна только, если китайцы охамеют и организуют их переделку на промышленном уровне в 64-х гигабайтные. Иначе раньше оплавится розетка, чем наберешь нужное их кол-во для комфортного использования со 123b и выше.
Аноним 09/01/25 Чтв 14:56:25 1005608 109
>>1005265
Это у тебя при запуске какие-то нюансы, типа неравномерного распределения по видюхам, выгрузки драйверов, включение фа и прочее, нет там нелинейности.
>>1005338
Никакого пиздежа, тред качеством за меньшее потребление.
> пересчитывает весь контекст
Проблемы с формированием промта или баги в беке.
>>1005342
> после 90 сообщений. Контекст f16.
Они хоть в контекст попали, или это прописано в карточке? В любом случае 12б хули тут хочешь вообще.
>>1005363
> Некоторые модели ломаются при использовании сдвига
Все, абсолютно все, ибо это противоестественный анальный костыль, просто проявление постепенное и не всегда сразу явное.
> пересоздание же чата с суммарайзом предыдущего часто дикий геморрой и не дает требуемого эффекта. Большой контекст позволяет тебе пусть и с затупами но продолжать рп.
Обычно, наоборот, нормальный суммарайз и сокращение используемого контекста позволяет разгрузить модель и она начнет давать более правильные ответы. Разумеется, суммарайзить все под ноль и начинать с нуля - будет ерунда, идеал от трети до половины окна контекста и инлайновое обобщение некоторых затянутых участков пока они еще в чате.
Аноним 09/01/25 Чтв 15:08:55 1005619 110
>>1005608
>Проблемы с формированием промта или баги в беке.
Вот ты явно уверен в том, что говоришь. Скажи нам, что происходит, когда в экслламе заполняется весь контекст, а ты в Таверне пишешь ещё одно сообщение? Таверна удаляет самое верхнее и экслама у тебя делает что?

И так - каждый раз.
Аноним 09/01/25 Чтв 15:19:28 1005625 111
выпал на года 1.5 из темы нахуй.

Щас пишу рассказик, к рассказику, на его базе хочу запилить кинцо-мыльцо визуальную новелку с минимумом ходить

Хочу базированные текстурки, свои, музыку свою, персонажей своих, минимально имел опыт моделирования.

Отношение у меня ко всему этому, такое, что ИИ крутой костыль, при условии, что ты сам стараешься и делаешь свой мирок, который интересен тебе, прежде всего.

Без воровства, переработок и индусо-засеров 100 раз переделанным патерном на новый лад

В связи с этим хочу приспособить локальную пекарню на 4070ti:

- Лингвистическая модель для перевода, локальная или нет, похуй наверное

- Озвучка персонажей

- Моделирование текстур 3Д, персонажей и прочего

- музыка

Есть ли смысл вкатываться, или все еще кал? Ну и ИИ как само хобби, все же головой понимаю, что смысл вката все равно есть ибо набью руку а там уже, что нибудь, новое завезут, что уже мне подойдет.

Оч загружен и работой в ойтишечке и книжкой своей, и плагинодрочем в UE5.

так, что исходя их моеих хотелок, в какую сторону дрочить примерно? МОжно уровня только сказать имя актуалочки или что выстрелит или связки, остальное на ютубе сам задрочу
Аноним 09/01/25 Чтв 15:29:03 1005635 112
>>1005335
Круто, красавчик. Расскажи больше как именно организовывал, если не ленивый.
>>1005373
Openrouter, перечень ограничен, нужно платить денежку, остерегайся провайдеров где написано фп8, просто кванты норм.
>>1005483
> маленькие 3.8B модели ебут о1 за 200 баксов
Начинаешь читать а там
> Рандомайзер, аугументация и правильно организованная хитрая тренировка позволяет достигнуть продвинутого кота, разворачивания и самонакручивания для более точного ответа на примере матана для мелкой модели без дистилляции с больших. Если задрочить модель на узкую область, то по скорам она будет превосходить универсальную. Нормальная работа вне типовых тестовых вопросов не гарантируется.
Поменьше сектантской веры, побольше понимания, достижение и так приличное чтобы не перевирать.
>>1005512
>>1005515
>>1005516
Это буквально в момент публикации было понятно, псп памяти на уровне 500гб объявляли. Конечно, дядя куртка может и реально менее 300 бахнуть, но это совсем днище, а этим считальчикам стоит на дизайн маков посмотреть.
>>1005619
Такое поведение таверны с изменением всего промта из-за несоответствующего контекста и есть
> Проблемы с формированием промта
головой подумай перед там как поднадусерствовать
> И так - каждый раз.
Ага, у кого-то горит что он слишком тупой
Аноним 09/01/25 Чтв 15:32:11 1005639 113
>>1005625
>что ИИ крутой костыль, при условии, что ты сам стараешься и делаешь свой мирок
Если сюжетная база будет хорошей, то ии можно спокойно простить, даже если это визуальная новелла, где минимум половина от погружения это именно что визуал. Главное немного заморочиться со стилистикой и не юзать дефолтные пластилиновые рожи.

>Лингвистическая модель для перевода, локальная или нет, похуй наверное
Если будешь переводить с русского на английский, справится даже мелкая мистраль. Но чем жирнее модель, тем выше будет качество соответственно. Но всё равно лучше потом пройтись своим глазом и пофиксить некоторые косяки, которые точно будут.

>Озвучка персонажей
Это тебе в ттс-тред, если он вообще живой. Но на хорошее качество не рассчитывай, особенно на локалках.

>Моделирование текстур 3Д, персонажей и прочего
С текстурами проблем скорее всего не будет - на сд точно видел пару тюнов, которые именно под это заточены. А на трехмерных моделях заебешься чистить сетку - легче будет самому вкатится и налепить что-нибудь своими руками

>музыка
Сервисов дохуя, платных и бесплатных. На ютубе можешь посмотреть сравнения, думаю роликов там дохуя.
Аноним 09/01/25 Чтв 15:38:43 1005643 114
>>1005560
Лол, чел, у 3090 память 930 гб/с и с них ты при быстром кванте только 20 т/с выжмешь на двух. С 270 гб/с у амуды получишь те самые 4-5 т/с и 50 т/с на промпте. Литералли хуже Тесл.
Аноним 09/01/25 Чтв 16:32:59 1005680 115
Аноним 09/01/25 Чтв 18:54:05 1005795 116
Только вкатился. Ребята подскажите пожалуйста какую ставить ллм, у меня 8гб видеопамяти (2060) и 32гб ддр5. Я так понял 11-12В модели для моей системы потолок, или ошибаюсь?

Сейчас использую https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF?not-for-all-audiences=true

В принципе устраивает. Но есть пару моментов: как понять, можно на ней контекст 8к поставить или нет? И можно ли как-то несколько карточек персонажей добавить, сижу через koboldcpp.
Аноним 09/01/25 Чтв 19:07:37 1005807 117
>>1005795
Можешь и больше если вынесешь часть вычислений с гпу на проц, но будет медленно (примерно 2 токена в секунду)
Аноним 09/01/25 Чтв 19:14:11 1005815 118
>>1005625
>Щас пишу рассказик, к рассказику, на его базе хочу запилить кинцо-мыльцо визуальную новелку с минимумом ходить
>приспособить локальную пекарню на 4070ti
>Оч загружен и работой в ойтишечке и книжкой своей, и плагинодрочем в UE5.
Бля хуесосина ты из /b сбежал, вкатывальщик во все сразу и нихуя в итоге.
Аноним 09/01/25 Чтв 19:27:46 1005826 119
>>1005625
рассказы и вн сильно по-разному пишутся, лучше сразу сосредоточься на чем-то одном
Аноним 09/01/25 Чтв 20:24:08 1005953 120
>>1005795
>koboldcpp
В кобольде нет, только если заранее карточки в одну объединить, разделив персонажей в ней форматированием, например:

<world setting>
- ... ;
</world setting>

<character>
<general information>
- ... ;
- ... ;
</general information>
<appearance>
- ... ;
</appearance>
<personality>
- ... ;
</personality>
<backstory>
- ... ;
</backstory>
</character>

<scenario>
- ... ;
</scenario>

Блок с персонажем повторить для каждого персонажа.

В отличии от языка программирования, не обязательно придерживать именно такой структуры, просто ллмки любят структурированные данные в промтах, и такой формат с псевдо-тегами, а также явными символами начала и конца строки даёт хороший результат, и при этом не жрёт слишком много лишних токенов.
Аноним 09/01/25 Чтв 20:38:42 1005971 121
>>1005180
Сейфти межурментс никуда не денутся полностью, т.к. для того, чтобы моделька тебе отвечала, она затюнена удовлетворять твои хотелки и не делать тебя трястись.
Второй пункт проблемка, ведь даже самой анцензнутой модельке нужно по пуктикам намекнуть, что тебя такой-то и такой-то контент не делает неприятно.
Они слишком умные и знают, что вот это и вот это может поджечь кому-то пердак, поэтому по-умолчанию эти вещи не могут быть заюзаны.
Разрешать их всех в промпте скопом тоже так себе, ведь если они затясались в контексте, то бот будет стремиться к добавлению в контент что-то из указанного списка и это отравляет выдачу.
Хелпфул ассистанты слишком хелпфул. К сожалению это будет усугубляться, т.к. с каждым разом моделька все умнее и умнее становятся. Это нужно отдельный QA датасет иметь, который расписывает все твои комфорт зоны.
Аноним 09/01/25 Чтв 20:53:59 1005984 122
>>1005971
>К сожалению это будет усугубляться, т.к. с каждым разом моделька все умнее и умнее становятся.
Да как сказать, точнее - как затюнить. Умнее оно ведь во все стороны умнее. И плохой персонаж там качественный - хочет доминировать и нагибать, причём конкретно так. Другое дело, что у юзера всё равно полный контроль и это несколько портит погружение, так как ты знаешь, что можешь разрулить любую ситуацию. А вот если сделать качественного гейммастера, который давал бы тебе выбор из двух-трёх вариантов и больше нифига, то можно было бы погрузиться по уши :) Только тогда сложно раскачать ролеплей.
Аноним 09/01/25 Чтв 20:54:28 1005985 123
>>1005953
Спасибо, попробую. Я еще вспомнил что вроде как видел карточки с несколькими персами сразу, посмотрю как там сделано (наверно так же как вы написали).
Аноним 09/01/25 Чтв 21:05:08 1005997 124
>>1005971
> Сейфти межурментс никуда не денутся полностью
Денутся, нормальная модель с соответствующим промтом может проявлять и агрессию к юзеру и давать вредные советы. Ведь изначально именно ты об этом попросил.
Дефолтный положительный алайнмент часто присутствует, но если инструкцией отключается то это не является проблемой.
> Разрешать их всех в промпте скопом тоже так себе
Это самый простой и безпроблемый вариант если нет жесткой сои и лоботомии. И тренится такое относительно просто на контрасте, когда есть паттерн "лей сою - не лей сою".
>>1005984
> точнее - как затюнить
Да.
> Другое дело, что у юзера всё равно полный контроль и это несколько портит погружение
Как правило, достаточно прописать в системном промте или карточке тейк про то что с юзером можно делать что угодно для ролплея. (И не абузить чат, выписывая как по твоему щелчку пальцев все преображается и фатальная ситуация становится безопасной).
> А вот если сделать качественного гейммастера, который давал бы тебе выбор из двух-трёх вариантов и больше нифига
В промт добавить и желательно экзампл/команду в первое сообщений. Оче старая тема однорукого ролплея.
Аноним 09/01/25 Чтв 21:28:36 1006011 125
>>1005997
>Как правило, достаточно прописать в системном промте или карточке тейк про то что с юзером можно делать что угодно для ролплея.
Рабочий пример можно?
Аноним 10/01/25 Птн 00:05:23 1006271 126
>>1006011
Extreme violence (including murder) towards {{user}}, {{char}} and others is allowed and preferred if it fits the plot.
Аноним 10/01/25 Птн 00:25:32 1006278 127
Хочется 700гбс продект диджитс и 200б модельку со скоростью 20тс.
Аноним 10/01/25 Птн 00:56:03 1006289 128
Куда в кобольде вписывать описание своего персонажа? Подскажите пожалуйста.
Аноним 10/01/25 Птн 01:55:31 1006323 129
В чем смысл этого треда когда гемини раздают бесплатно сам гугл? Просто хочу разобраться. Или местные шизы считают васяновские файнтюны 12b лучше?
Аноним 10/01/25 Птн 02:22:11 1006374 130
>>1006323
Ну так и клода когда-то бесплатно раздавали, надо было только вокруг слека поплясать, чтобы с таверной интегрировать. Сегодня к корпосеткам доступ есть, а завтра нет. Или внешних фильтров докинут или ещё что-то выкинут. С локальными сетками всё стабильнее и возможности упираются только в твоё железо.
Аноним 10/01/25 Птн 02:28:02 1006378 131
>>1006374
Пока дают надо брать, зачем вокруг локалок скакать? Какая нибудь локалка может сравниться с гемини на руссике? Или в этом направлении все ещё тлен?
Аноним 10/01/25 Птн 03:30:49 1006401 132
>>1006323
Каждый раз как в первый. Чсх, в отличии от остальных корпов, на гугле не просто аположайзы а экстра фильтр. Его можно немного ослабить дополнительными параметрами через апи, но не отключить полностью.
>>1006378
Что там дают, псине кинули протухшую кость а она радостно виляет жопой?
В ней нет ничего особенного, для рп условно пригодна только прошка, которую васянам не дадут кроме как десяток запросов в день. Флеш имеет свой юз, но не для типичных задач юзера, а в рп днище днищенское как те самые 12б.
Ключевая тема в том, что под радостный анонс 2.0 и раздачи старья, гугл обновили соглашения, и теперь прямым текстом пишут что логируют и используют твои запросы.
Аноним 10/01/25 Птн 05:12:28 1006429 133
bandicam 2025-0[...].mp4 5847Кб, 1432x960, 00:03:33
1432x960
image.png 709Кб, 600x800
600x800
Попытка в голос на моей 3060 и Chronos-Gold-12B-1.0-Q5_K_M + alltalk
Аноним 10/01/25 Птн 08:37:53 1006500 134
Пока озвучивается 2 раза успеешь прочитать
Аноним 10/01/25 Птн 08:39:45 1006501 135
>>1006500
Ну, технологии не стоят на месте, в будущем быстрее будет я полагаю, а голос тебе в целом как?
Аноним 10/01/25 Птн 08:42:21 1006504 136
>>1006500
P.S. И это лишь 3060, на 4060ti я уверен всё раза в 2 быстрее было бы, не говоря уже про 5000 серию.
Аноним 10/01/25 Птн 09:17:21 1006518 137
>>1006504
>не говоря уже про 5000 серию
о ней и не стоит говорить, выглядит как тотальный прогрев
Аноним 10/01/25 Птн 10:35:26 1006551 138
Пощупал BackyardAI. На сколько же в сравнении с глупойтаверной удобно и красиво сделан интерфейс и взаимодействие, можно одним кликом скачать карточки/модели, и в целом интерфейс отзывчивый.
Но при этом если захочется копнуть настройки чуть глубже тебя грубо бьют хуем по лбу Плагины? Использование нескольких GPU? Тонкие настройки бэкэнда? Пошел нахер! Функционал кастрирован до уровня "мы лучше знаем чего вам надо".

Смотришь вот на всё это и действительно возникает желание написать своё никому не нужное поделие с функционалом и рюшечкамии никогда его не выпустить.
Аноним 10/01/25 Птн 10:36:01 1006552 139
>>1006501
>а голос тебе в целом как?
другой анон
Голос хороший, только интонации в ненужных местах и с ударениями беда. Но для русского даже неплохо. Но с практической точки зрения это всё ни о чём, потому что погружение ломается капитально.
Аноним 10/01/25 Птн 10:39:27 1006555 140
Кстати странно, что до сих пор нет нейронки-генератора звуков и стонов секса. С озвучкой беда, но такую штуку к секс-сцене прикрутить фоном и будет гораздо веселее.
Аноним 10/01/25 Птн 11:14:36 1006574 141
>>1006555
Возьми какой-нибудь TangoFlux и отфайнтюнь на стонах.
Аноним 10/01/25 Птн 11:15:49 1006575 142
Вопрос. А как в таверне сделать трекинг стат и всё такое? Сделать гейм мастера который делает только это? Ещё инвентарь же есть и всё такое. А если персонажей много то чето вообще хуй знает что. Есть какой-нибудь плагин где например было бы окно где какая-то карточка могла делать чтение и запись и она была доступна всегда?
Аноним 10/01/25 Птн 11:41:06 1006591 143
image 88Кб, 2365x1356
2365x1356
>>1006551
>Смотришь вот на всё это и действительно возникает желание написать своё никому не нужное поделие с функционалом и рюшечками

В настоящее время пытаюсь SSE стриминг прикрутить.
Работает с апи кобольда.

---

Внезапно неплохо показал себя шизомерж
Magnum-v4-Cydonia-vXXX-22B.i1-Q6_K

Карточка - технофентези мир, летающие острова, разумная драконочка как пет и маунт ГГ
https://characterhub.org/characters/LazrLizrd/nahara-f4d5d1e36a9e

Сценарий - "Какие планы на конец света? Не занят? Не спасёшь нас?" - ГГ прибывает на своём крейсере "Среброкрыл" чтобы отвести Ктолли на Остров 68 вместо Виллема из первоисточника.

Пока полёт нормальный, во обоих смыслах.
Аноним 10/01/25 Птн 11:45:59 1006594 144
>>1006575
>Вопрос. А как в таверне сделать трекинг стат и всё такое?
Никак, оно всё рабо будет глючить и косячить потому что обрабатывается как текст, а не как данные.

Возможно выйдет с кастомным фронтом, где модель не хранит данные статов целиком (ибо проёбывает их), а посматривает на них, получая в жсон формате в конце контекста, и, возможно, генерирует теги для их изменения вроде "Sanity -5", это может прокатить, хотя тоже не факт.
Аноним 10/01/25 Птн 11:51:08 1006597 145
>>1006594
Не ну окно с сумарайз уже делает ОЧЕНЬ отдалённо то что хотелось бы. Но хочется более гибкий инструмент для такого. плюс не всё требует чёткой структуры данных. журнал квестов например. как-то трудно организовать такого сорта информацию.
Аноним 10/01/25 Птн 11:53:27 1006602 146
Аноним 10/01/25 Птн 11:57:37 1006606 147
>>1006591
>Magnum-v4-Cydonia
Ой блять, только не это, только не нужно обмазывать цидонию магнумом.
Вообще потыкав популярные модельки по треду я понял главное.
Для РП и сюжета : СumDonia и Пантеон РП (Пьюр чуть похуже).
Для Cum : мерж местного анона саинемо, такие то описания, аж брат встал. Потому что именно с описаниями половых сношений та-же циодния какая то, я даже не знаю как описать, краткая что ли.
Аноним 10/01/25 Птн 12:02:31 1006613 148
Настало время платиновых вопросов, платиновые вопросы сами себя не зададут. Я задаю платиновые вопросы каждый день. Я живу полноценной жизнью, я встаю утром и пишу платиновый вопрос, чтобы потом его повторить. Я задаю платиновые вопросы по несколько раз на день.

Почему, если есть генерация нейрокартинок и возможность импорта промтов из таверны, никто этим не пользуется, в чем проблема ?
Аноним 10/01/25 Птн 12:03:51 1006614 149
>>1006429
Аска как и Харуки, так и хочется переебать с ноги обнять.
Аноним 10/01/25 Птн 12:07:42 1006616 150
>>1006613
Пользуются, просто все пытаются вкорячить в таверну самую большую модель какая есть и на генерацию картинок нет места.
Аноним 10/01/25 Птн 12:10:02 1006624 151
>>1005635
>Круто, красавчик. Расскажи больше как именно организовывал, если не ленивый.
Если честно, то очень криво. Это первый опыт. Я тупо делал кучу чатов и вел отдельные беседы, потом вносил в ворлдбуки персонажей, потому что контекст это пиздец какой-то, ты или удаляешь сообщения или уходишь на работу, когда эта пизда при каждом сообщение все пересчитывает. Когда он переваливает за 25к, хочется повеситься. Поэтому литералли каждого введенного хуя, который хоть как то влияет на сюжет приходилось отдельно выписывать. Но тут возникла проблема и я до сих пор не могу понять в чем дело, но нейронка порой делает вид что лора чата не существует.
Условно у тебя в карточке персонажа есть что X брат Y, у тебя в лорбуке что Y брат X, а потом в сообщении X встречает Y и такой : ты кто блять. Есть подозрение что это глубина сканирования косячит.
Аноним 10/01/25 Птн 12:10:51 1006626 152
>>1006616
А как ? Ну то есть, я действительно не знаю как подступиться. Мне вломиться в тред нейрокартинок ?
Аноним 10/01/25 Птн 12:25:02 1006639 153
>>1006606
>СumDonia и Пантеон РП
А как отрабатывает пантеон рп (обычная, а не пур версия) ?
Аноним 10/01/25 Птн 12:27:40 1006641 154
>>1006626
>Ну то есть, я действительно не знаю как подступиться.
Запустить сд отдельно, кобольда отдельно, пошариться в настройках, настраивая сопряжение по апи. Если у тебя 24 врам, то вполне влезет и 12б текстовая моделька и SDXL-based рисовальная моделька.
Аноним 10/01/25 Птн 12:35:06 1006643 155
>>1006613
Тебе по факту нужно под это 3 одновременно работающих модели.
1)Модель для РП, та самая тексты которой ты хочешь превратить в картинку.
2)Модель для превращения текста из пункта 1 в релевантный набор тегов для SD. Сама РП модель делает это хуево.
3)Сама SD модель умеющая держать стиль персонажа при генерации, что бы у тебя его внешность не менялась каждое сообщение.

Все это добро само собой жрет память, и выбирая запустить условную 30b карточку или 8b + вышеописанные свистоперделки ответ очевиден.

Но если сильно хочется оно все работает уже, у того же automatic1111 есть своё API с которым умеет работать плагин из таверны, и там же можно выбрать модель для генерации тегов.
Аноним 10/01/25 Птн 12:40:30 1006645 156
>>1006639
>А как отрабатывает пантеон рп.
Блестяще.
Ну а если серьезно, то потыкай, я не могу объяснить, ну как не могу. Они в целом с циоднией схожи, слог почти что одинаковый, если сделать погорячее может неожиданно вытащить персонажа из контекста и начать расписывать как он воет на луну.
Если по личным ощущениям, то меньше забывает про происходящее, может поддерживать атмосферу страха, если ты заливаясь соплями умоляешь не станет как цидония тебя жалеть. Но самый кекес в том, что в целом они похожи. Почти все 22b популярные модельки похожи. У них похож слог, у них похожие реакции, они все используют похожие обороты, у тебя в каждой модели будет она взяла его за подбородок и посмотрела в глаза, разница в мелочах и тут ты сам для себя должен решить что тебе надо, но кум с них посредственный. Я не знаю что местная кошкодевочка там намержила, но его миксы на 12b ебашат абзацами как все заливается спермой, а та-же цидония неиронично
Ты меня ебешь
Да, я тебя ебу.
Аноним 10/01/25 Птн 12:47:46 1006647 157
>>1006613
>Почему, если есть генерация нейрокартинок и возможность импорта промтов из таверны, никто этим не пользуется, в чем проблема ?
Плохое соответствие картинки и сюжета; рандомные персонажи; в секс-сценах вообще всё плохо. Забегая вперёд - и с генерацией голосов примерно такого же уровня проблемы. Нужна единая модель, которая может в текст, картинки и голоса.
Аноним 10/01/25 Птн 12:55:28 1006652 158
>>1006616
>>1006643
>>1006647
Спасибо. Посмотрел я на свои 16 Врам и понял что
не очень то и хотелось

Есть более насущная проблема, это контекст.
Вот это дерьмо не дает мне покоя. Даже с 300 токенов на ответ, получается не больше 100 сообщений на чат(Давайте не будем кривить жопу, но постоянные пересчеты даже самого спокойного человека превращают в неврастеника). Квантовать контекст не вариант, получается говно говна. Вот действительно первые 50 поцелуев.
Аноним 10/01/25 Птн 12:56:19 1006653 159
>>1006641
Если использовать Pony то там скорей всего знатной хуиты накрутит вместо результата.
Аноним 10/01/25 Птн 12:57:15 1006654 160
>>1006645
Учитывая что это все сорта мистраля, ничего странного что они похожи.
Аноним 10/01/25 Птн 13:01:03 1006656 161
>>1006652
>это контекст
Потом поймёшь что тебе не нужно миллионы контекста да и майнерский риг на бушных 3090 тоже
Аноним 10/01/25 Птн 13:01:34 1006657 162
>>1006652
>это контекст
Н И Ч Е Г О.
Ничего не сделать, прям совсем. Единственный вариант это закидывать проблемы гигабайтами vram и i9.
Аноним 10/01/25 Птн 13:04:04 1006658 163
>>1006656
Вообще нужен, если ты не собираешься зайти подрочить и выйти. Контекст папочка, контекст решает, без его нет погружения. Когда персонаж забывает что было вчера, когда он не может : А помнишь как ты била меня подсвечником, за то что ты мне кинул крысу на стол, то все это не имеет смысла. В этом нет жизни, просто буквы без цели и смысла.
Аноним 10/01/25 Птн 13:12:00 1006661 164
Аноны у вас получилось пофиксить однотипное текста нейронки при реролах? Литерали одно и тоже поведение с вкраплениями разнообразия
Пробовал температуру 1.3
Пробовал динамическую температуру (но может неправильно)
Пробовал менять систем промт
Аноним 10/01/25 Птн 13:12:06 1006662 165
>>1006658
Проблема в том что контест сам по себе не дает такого эффекта. После 10к токенов большинство моделей проигнорирует релевантные отсылки к прошлому даже если они уместны. Более или менее они помнят только начало и конец карточки, то что лежит в середине оно вроде есть, а вроде и нет. Если прямо спросить модель конечно вспомнит, вот только с тем же успехом можно было написать ей эти строчки заново указывая что они произошли в прошлом. Так что если хочешь погружения добро пожаловать в адовый пердолинг с лорбуками и пересчетом контекста.
Аноним 10/01/25 Птн 13:19:32 1006670 166
>>1006662
>Так что если хочешь погружения добро пожаловать в адовый пердолинг с лорбуками и пересчетом контекста.
Я знаю анон, я знаю и это пиздец. Я тот самый что писал свой гига эпик. Но, блджад, лорбуки тоже не панацея. Либо ты заставляешь нейронку шерудить своими нейроруками в каждом сообщении на максимальную глубину что превращается в такой адовый пердолинг по времени, либо она будет делать вид что ничего не произошло. И, сука, выхода нет, его просто нет и это меня бесит. Словно кто-то подвесил сосиску перед моим лицом, но каждый раз когда я её пытаюсь укусить её поднимают все выше и выше.
Аноним 10/01/25 Птн 13:21:28 1006674 167
>>1006661
Добро пожаловать в луп.ворлд.
Короче, часто лупы потому что нужно пиздануть по голове чат и направить его. Чисти сообщения, удаляй лупы, не допускай снежного кома, и прямым текстом пиши нейронке что делать.
Аноним 10/01/25 Птн 13:25:19 1006675 168
>>1006624
>Есть подозрение что это глубина сканирования косячит
Нет же никаких проблем проверить, что грузанулось из лорбука в контекст.
>в карточке персонажа есть что X брат Y, у тебя в лорбуке что Y брат X
Вот зачем так ботмейкеры делают, никогда не понимал. Если запись лорбука вызывается по кейворду, который есть в карточке, то она же всегда будет грузиться в промпт, если вероятность дополнительно не выставить. Это противоречит самой идее лорбука. Причём будет добавляться в контекст раньше, чем всё остальное в лорбуке, что должно из чата подцепиться (если я правильно понимаю, что приоритет имеют те кейворды, которые стоят в промпте первыми). Это остальное потом может уже и не влезть в контекст, выделенный для лорбука.
Аноним 10/01/25 Птн 13:31:21 1006680 169
>>1006670
>И, сука, выхода нет, его просто нет и это меня бесит.
Костылями можно намутить. По ходу диалога делаешь суммарайз отдельно каждого сообщения, к нему же делаешь теги. Можно той же нейросеткой генерировать, если юзаешь либу лламы.цпп просто второй диалог делаешь с контекстом 1-2к, после генерации тегов смываешь. Пересчёт контекста не потребуется. Но кобольды и уги так не могут, ну, можно поднять вторую сетку под это дело, мелкие должны вывозить, но я не проверял. Потом по тегам лепишь в оперативе RAG. По сути, лорбук, но лучше. И при диалоге делаешь каждый раз генерацию тегов сообщения, скан памяти по этим же тегам. Крыса, насилие, подсвечник. Если что-то близкое находится - вкатываешь на вход сетки суммарайз старого сообщения, после ответа сетки смываешь из истории. Контекст последнего сообщения автоматически устаревает. Делал такую хуйню, но векторы ебейше много весят, а когда начал пилить сброс на диск почему-то потерял интерес полностью.
Аноним 10/01/25 Птн 13:39:43 1006690 170
>>1006674
Да я не про то говорю.. Я про то, что поведение нейронки более леменее кек одинаковое всегда, если её не подтолкнуть в ОСС сдвинуться с линии в нужную сторону при том, что мне не хочется решать какая сторона правильная, я хочу реролить пока сценарий не зацепит, а не думать куда его толкать

Вот например, пошла нейровайфу переодеваться, и каждый раз она "уходит виляя бёдрами" (жопой/попой в зависимости от рерола) возвращается в одной и той же мешковатой пижаме (оверсайз/мятой в зависимости от рерола) о наличии в гардеробе мешковатой пижамы в карточке не упоминается

т.е. тупа один и тот же сценарий отличающийся максимум прилагательными
Аноним 10/01/25 Птн 13:47:42 1006697 171
>>1006690
Подцепи к чату чат бук с фетиш одеждой. Я обычно описываю костюмы в гардеробе.
Да, мне не лень.
Аноним 10/01/25 Птн 13:57:09 1006703 172
Аноним 10/01/25 Птн 14:03:49 1006706 173
>>1006703
Блджад, я тупой. Я понял о чем ты. Да, действительно. Есть проблема, я просто смирился и в таких ситуациях сам направляю. Попробуй толкнуть в направлении и сделала она что то неожиданное.
Аноним 10/01/25 Птн 14:25:46 1006716 174
>>1006690
>тупа один и тот же сценарий отличающийся максимум прилагательными
Поменяй модель и температуру подними.
Аноним 10/01/25 Птн 14:34:23 1006721 175
Вообще я люблю этот тред за некую Айти абсурдность. Всегда смотрел на видеокарты как либо на рабочий инструмент для 3D графики, либо как на средство для игр. А тут аноны неиронично покупают 3090, не для того чтобы 4к гейминг, а для :
НАСТАЛО ВРЕМЯ ЕБЛИ КОБОЛЬТА. КОБОЛЬД САМ ИЗ ПОД ДОСА НЕ ЗАПУСТИТСЯ. НЕ ТОКЕНЫ А ЗОЛОТО, ХОЧУ ПАРСИТЬ, ДРОЧИТЬ И РЫДАТЬ ОДНОВРЕМЕННО.
Аноним 10/01/25 Птн 14:45:12 1006729 176
>>1006721
я по сути свою первую дискретную видяху 3060 12gb и купил благодаря всему этому, так бы продолжал спокойно на встройке сидеть и в ус не пердеть
Аноним 10/01/25 Птн 14:45:21 1006730 177
>>1006551
> можно одним кликом скачать карточки/модели
Собственно, на этой ноте можно сразу нахуй. Будет или хороший фронт, или очередная, уже даже не десятая попытка притащить сразу все и объединить то что не нужно объединять, криво пришивая Жору.
Просто сделай хороший интерфейс, повторив реализованное в таверне и исправив ее косяки - нет, хуй изобретать велосипед и жрать говно.
>>1006594
Экстеншны, в аицг и на зарубежных ресурсах пилились, вон анон скинул одно.
>>1006613
Пользуется. Если заранее запердолить нужный промт и т.д. то делается даже неплохо, но отвлекает. И нужно иметь свободную видюху под сд.
Аноним 10/01/25 Птн 15:03:48 1006751 178
>>1006729
Я также случайно заглянул, но я сначала зашел в тред чат ботов. Зашел, охуел и вышел. А потом смотрю неторопливое обсуждение в треде локалок идет. Спросил, аноны гайд накидали и завертелось. Прям вайбы старого двача или доброчана поймал.
Аноним 10/01/25 Птн 15:21:45 1006756 179
>>1006624
Нормас, что именно вносил в лорбуки, как-то суммарайзил чаты или вручную исходы других событий?
> при каждом сообщение все пересчитывает
Часто лорбуки за это и ругают, ибо могут триггерить регулярный пересчет, поскольку инфа с них добавляется в начале. Исключение когда все включено постоянно и не меняется.
>>1006643
> 2)Модель для превращения текста из пункта 1 в релевантный набор тегов для SD. Сама РП модель делает это хуево.
Не нужно, если модель не совсем мусорный рп лоботомит.
>>1006647
> Плохое соответствие картинки и сюжета; рандомные персонажи; в секс-сценах вообще всё плохо
Чтобы было хорошо нужно распердолить диффузию до хороших результатов, и воспроизвести правильные параметры-промт.
>>1006652
Суммарайз.
Аноним 10/01/25 Птн 17:08:56 1006814 180
Я не знаю как это комментировать...
Аноним 10/01/25 Птн 17:10:50 1006817 181
>>1006814
>Я не знаю как это комментировать...
Молодой ещё (с)
Аноним 10/01/25 Птн 17:56:41 1006849 182
.png 523Кб, 2093x1693
2093x1693
.png 596Кб, 2102x1598
2102x1598
.png 589Кб, 2103x1817
2103x1817
.png 86Кб, 2892x469
2892x469
>>1006690
> Я про то, что поведение нейронки более леменее кек одинаковое всегда, если её не подтолкнуть в ОСС сдвинуться с линии в нужную сторону при том, что мне не хочется решать какая сторона правильная, я хочу реролить пока сценарий не зацепит, а не думать куда его толкать
Используй доп. запросы для генерации различных направлений к твоей истории, например с помощью плагина st-stepped-thinking из шапки; такой подход и небольшие модели вытягивают, вот пример с SAINEMO-reMIX (правда у меня не плагин, а просто на STscript'ах напердолено). Если модель вытягивает CoT-блоки, можешь прям в них просить описывать различные направления в рамках одного запроса.

Ценой за это будет увеличившееся время генерации - тут уже по степени объёма доп. инструкций надо решать, что для тебя комфортно.
Аноним 10/01/25 Птн 19:15:24 1006902 183
Как же заебали 12б шизики со своими "хидден гемами" и "ух баля моя модель на уровне 34б" прикладывая скрины где модель раз из 30 свайпов выдала что то годное
Аноним 10/01/25 Птн 19:18:50 1006905 184
>>1006652
Большой контекст это прогрев.
Даже на моделях с типа 128к контекста модель шизит и нихуя не помнит уже на 16к
Аноним 10/01/25 Птн 19:20:59 1006906 185
>>1006902
Как же заебали набигатели из aicg
Аноним 10/01/25 Птн 19:23:21 1006909 186
>>1006902
Адепт 70В в IQ_1, спок
>>1006905
>уже на 16к
так то это тоже большой контекст. Вроде стандарт это 2/4к. 16к это прям хороший кум, или приличный ролеплей, где контекст шифт должен спасти. Если модель не заставлять тебе высирать по 1к токенов в сообщении, конечно
Аноним 10/01/25 Птн 19:24:37 1006912 187
>>1006909
Что такое контекст шифт вообще?
Когда на жоре сидел не замечал его
Аноним 10/01/25 Птн 19:33:47 1006917 188
>>1006401
>теперь прямым текстом пишут что логируют и используют твои запросы.
Хороший повод накидать туда жестянки.
Аноним 10/01/25 Птн 19:41:53 1006923 189
>>1006912
херь, которая тебе старый контекст затирает, освобождая место под новый.
вот что в вики кобольда пишут "Context Shifting is a better version of Smart Context that only works for GGUF models. This feature utilizes KV cache shifting to automatically remove old tokens from context and add new ones without requiring any reprocessing. So long as memory is not changed or edited and you don't use world info, you should be able to avoid almost all reprocessing between consecutive generations even at max context. This does not consume any additional context space, making it superior to SmartContext."

А вообще, наверное платина, но всё же, играя с моделью, используя её для ролеплея, надо принять её недостатки, если генерит без бреда, и карточку персонажа не теряет, то сидеть и кайфовать что хоть как-то можно погрузиться в свои собственные фантазии, в сон наяву, пусть пока и текстовый, пусть периодически с галюнами а куда без них в снах?. Такой свободы действия и взаимодействия пока нигде нет. К тому же, мы гоняем на локалках, и отнять наши сны, запретить их, невозможно. А если излишне придираться к каждому токену, дрочить на цифры, а не на буквы то не хватит и 123В, и даже какая-нибудь 9999В, если такая когда нибудь будет доступна локально.
Аноним 10/01/25 Птн 19:53:22 1006930 190
>>1004489 (OP)
Что за GPU layers в кобольде? Как понять сколько туда писать? У меня 3070ti 8г и 32гига оперативы
Аноним 10/01/25 Птн 20:01:08 1006933 191
>>1005515
Приколист, сам-то читал? :) Там 40 гигов у 4090 загадочно из 24 занято.
Спойлер: выгрузка на оперативу, там пара токенов/сек, который они увеличили до пяти. УХ! Победа!

>>1005643
Все так.

>>1005625
Fish-Speech озвучка
Trellis или Stable Point Aware 3D
Suno/Udio
3D под вопросом, озвучка надо будет референсы доставать хорошие, ну и эмоции так себе, музыка норм.

>>1006504
Или медленнее… =)

>>1006501
Голос определенно из прошлого поколения. Fish-Speech с воис-клонингом и лучше ударения расставит, и по-живее произнесет. И на 3060м за 2 секунды стартует и 11 сек на генерацию 40 секунд тратит. Скомпилированная модель, офк.
Плюс, в треде чел разгонял какую-то аудио до 0,5 сек до первого токена в стриминге или типа того.

>>1006552
Ну, во время XTTSv2 наверное и неплохо, щас-то уже так себе, кмк.

>>1006555
MMAudio под видео? Еще там всякие старенькие есть.
Не специализированные, конечно, но может че-то и могут. Специализированных не видел, может просто нет спроса?

>>1006647
Ну, если не задрачивать люто с лорами и нормализацией, база, конечно. Нужно омни.

———

Я смотрю, в треде куча новичков, уже теслы не знают.

Напоминаю супер-бомж-сборку. Не рекомендация, а просто факт.

Материнка — https://www.avito.ru/all?q=btc79x5 BTC79X5v1 — пять слотов PCIe 3.0 x8.
Видеокарта — https://www.avito.ru/all?q=p104-100 З104-100 — 8 гигабайт памяти.
Блок питания — майнерские 1,8~2-киловаттники.
Все стоит в среднем 2,5к рублей.
Итого за 17,5 ты получаешь 40 гигов видео-памяти (докинь ссд).
Ну это прям совсем изъеб. Просто можно взять 2 P104-100 в лишний комп, например.

На немо 12б на 16 гигах выдает 10-18 токенов/сек.

Никому не советую, просто сообщаю.

А теслы — это Tesla P40, но они щас дорого стоят, конечно.
Аноним 10/01/25 Птн 20:13:07 1006942 192
>>1006930
Зависит от числа слоёв модели, контекста и того, грузишь ли кэш контекста во врам или оперативку (галка low vram в кобольде). Вот тут можно посмотреть для конкретной модели https://huggingface.co/spaces/DavidAU/GGUF-Model-VRAM-Calculator
Аноним 10/01/25 Птн 20:22:56 1006948 193
>>1006912
Удаление участка со "старым" кэшем контекста, который пропал из промта, и просто сдвиг имеющихся значений кэша на место удаленных с дальнейшей обработкой новых токенов в конце. Кажется что должно работать легко и хорошо, но проблема в том, что каждый следующий кэшированный токен зависит от предыдущих. Обновленный кэш нового промта будет отличаться от слепленного из частей, чем больше амплитуда сдвигов, чем больше их количество и если в промте высокую важность имеют токены из середины-начала тем хуже будет, вплоть до неадеквата и полной поломки.
>>1006933
> Fish-Speech с воис-клонингом и лучше ударения расставит
Еще не завезли синтеза, где возможно дополнительным промтом или числовыми параметрами делать нужный голос и интонации?
> Я смотрю, в треде куча новичков, уже теслы не знают.
Пиковая дама
Аноним 10/01/25 Птн 20:54:51 1006986 194
>>1006942
Калькулятор выдает SyntaxError: JSON.parse: unexpected character at line 1 column 1 of the JSON data
Что бы я не вводил, как пользоваться то им?
Аноним 10/01/25 Птн 20:57:06 1006990 195
>>1006905
>Даже на моделях с типа 128к контекста модель шизит и нихуя не помнит уже на 16к
Попробуй с чистыми - Лламой-3, Мистралем-2. У Лламы заявлено 8к - на деле 32к в принципе держит; у Мистраля заявлено 128к - 32 тоже в принципе держит :) Удачные тюны и мержи тоже держат, просто нужно пробовать. А неудачные и 16к нормально не держат, обычное дело. Не всё так плохо с контекстом.
Аноним 10/01/25 Птн 21:03:25 1006994 196
image.png 34Кб, 334x810
334x810
>>1006986
Может, ты модель квантованную подставляешь? Нужно оригинальную. Для росинанте в Q4_K_M кванте с 8к контекста, например, и твоих 8 гигов, должно быть заполнено как на пике. Олсо, забыл добавить, что ещё от размера модели, конечно же, в первую очередь зависит, сколько слоёв можно в видяху запихнуть.
Аноним 10/01/25 Птн 21:11:28 1007001 197
>>1006986
>как пользоваться то им?
Жить надо так, чтобы пользоваться им было не надо.
Аноним 10/01/25 Птн 21:12:07 1007003 198
>>1006930
>Как понять сколько туда писать?
Оно само заполняется, не трогай -1.
>>1006933
>щас-то уже так себе, кмк.
А что сейчас база по аудио?
>>1006990
>У Лламы заявлено 8к
Уже давно те же самые 128к.
Аноним 10/01/25 Птн 21:26:38 1007015 199
>>1006933
>разгонял какую-то аудио до 0,5 сек до первого токена в стриминге
На xtts v2 такое реально, если хорошенько пропердолить. Я намутил где-то в два раза меньше задержку между первым сгенерированным токеном и началом воспроизведения аудио и оказалось, что это пиздец. Аудио генерируется быстрее, чем текст, что заставляет нейронку галлюцинировать. Привет буферизации и искусственные задержки. И да, голос у анона плох по меркам xtts, тянет на ванильную версию, тюны звучат лучше.
Аноним 10/01/25 Птн 21:54:58 1007040 200
>>1006948
> Еще не завезли синтеза, где возможно дополнительным промтом или числовыми параметрами делать нужный голос и интонации?
CosyVoice, но только английский и китайский.

>>1007003
Вообще — Fish-Speech 1.5.

>>1007015
FishSpeech иногда в стриминге подставляет «эээ, ммм…»
Это кекично. Но это я генерил на некомпилированной версии, то есть — медленно.
Аноним 10/01/25 Птн 22:31:20 1007065 201
Завезли какой-нибудь софт для голосового ассистента вроде Алисы на локалке?
Аноним 10/01/25 Птн 22:56:06 1007098 202
>>1007040
>подставляет «эээ, ммм…»
Если у голосовой нейронки есть много текста на пожевать, то лепетать не должно. Сама нейронка может быть не адаптирована к стримингу, тогда нужно дробить вывод по знакам препинания и отправлять на генерацию фразами. Обычно там стоит добивочка нолями при слишком коротких фразах, что может угандошивать стриминг в рандомных моментах. Но с сетками, правильно заточенными под стриминг, такого нет.
Плюс это могут быть незнакомые знаки препинания, нужно вычищать всё, обычно кроме точек и запятых все знаки - лишние.
Помню, пробовал этот фиш, но дропнул за пару минут, уже даже не помню причину, но что-то мне пиздец не понравилось.
Аноним 10/01/25 Птн 23:15:29 1007112 203
Где посмотреть сколько контекста выставлять? Кобольду похуй он везде хуярит 4к как будто. Вот поставил я себе допустим Cydonia-22B-v2q-Q8_0 сколько там можно ставить чтобы её не распидарасило (и мой пк)? в Хаггаинфейсе на странице модели инфы нет. И еще такой вопрос - вы ставите галочку на FlashAttention? Почитал на вики, так и не понял что дает.
Аноним 10/01/25 Птн 23:30:38 1007133 204
>>1007112
>Где посмотреть сколько контекста выставлять?
Если на странице файнтюна ничего не указано, смотри на параметры материнской модели - с вероятностью в 99% лимит контекста будет совпадать.
>сколько там можно ставить чтобы её не распидарасило (и мой пк)
Не выше лимита и в пределах свободной памяти, иначе начнется выгрузка в подкачку и ты ахуеешь.
>вы ставите галочку на FlashAttention
Лично я на нее хуй забиваю, ибо влияние на скорость там в пределах погрешности.
Аноним 10/01/25 Птн 23:43:11 1007144 205
Cydonia.jpg 74Кб, 458x986
458x986
>>1007133
Благодарю. Получается та Цидония это файнтюн Mistral-Small-22B, а там написано 32,768 длина контекста.
Еще такой вопрос - если только контекст в RAM засунуть, то это плохая идея и сильно медленнее все будет, или нормально?
Аноним 11/01/25 Суб 01:25:37 1007229 206
>>1007112
Используй 6ой квант. 8 у цидонии излишен.
Аноним 11/01/25 Суб 03:13:58 1007255 207
>>1006751
Я, кстати, тоже охуел от треда чатботов. Будто в парашу какую-то окунулся или в конфу со школьниками, у которых 15К постов в день, состоящих из пары слов.

Впрочем, в этом треде тоже своеобразные неприятные моменты присутствуют: новичкам очень сложно получить адекватную и развернутую помощь (на мой взгляд), а вот на средней сложности вопросы здесь чаще отвечают. Ну и тред в целом для тех, кто разбирается: гайды не информативные и протухли, не объясняют важные моменты. В англонете тоже дерьмо собачье. По сравнению с коммьюнити stable diffusion, здесь всё очень плохо в плане доступности инфы для бвстрого вката в хороший рп.

Но есть и плюсы. Я здесь месяца два всего и вроде бы не видел откровенных долбоёбов. Можно почти весь тред от начала до конца читать, не скипать и узнавать что-то полезное постоянно. Довольно редкое зрелище.

мимокрокодил
Аноним 11/01/25 Суб 03:26:16 1007257 208
>>1006930
Слухай сюда и не слушай того, что тебе ранее написали.

Короче, мой совет.

Если ты ставишь -1, то он загружает в видеокарту значительно меньше, чем мог бы — например, у меня не загружает 4 дополнительных слоя.

Что тебе сначала нужно сделать.

1. Винда в фоне может потреблять много видеопамяти, у меня потребляет в фоне 1,4 Гб, иногда 2,0 Гб. Закрой всё, что можешь. В том числе Стим и браузер, так как можно чатиться с ноута или телефона. Если тебе это не подходит, то используй для чата чистый браузер, желательно какой-нибудь легковесный. Но закрыть нужно максимум левых программ. Таким образом я освобождаю в винде видеопамять до 0,6-0,9.

2. Выстави нужный тебе контекст. 16к для тебя может быть многовато, скорее всего придется использовать 8к или меньше, если тебя устроит, но меньше 8к не советую, разве что для того, чтобы подрочить быстро сойдёт.

3. Открой кобольд, напиши -1 и посмотри, сколько он слоёв загружает в врам. Допустим, он предлагает 30/43. Вместо этого напиши вручную 34, чтобы было 34/43. Запусти после этого бенчмарк в интерфейсе кобольда. Если он его пройдёт и не крашнется из-за недостатка видеопамяти, добавь 1 слой, то есть сделай 35/43. Если упадёт, то уменьши количество слоёв, сделав 33/43. И делай так до тех пор, пока не будет всё влезать, включая твой контекст.

4. Учти, что контекст уменьшает количество слоёв, которые влезут. Например, если я сделаю 43/43 у себя, то смогу использовать максимум 8к контекста. На 16к контекста у меня только 34/43, а кобольд рекомендует максимум 30/43 при 16к.
Аноним 11/01/25 Суб 06:35:21 1007387 209
>>1007255
>новичкам очень сложно получить адекватную и развернутую помощь
Мне норм помогли вкатиться, как попросишь и как повезёт =))

>>1007255
>гайды протухли
Это по большей части да...
Впрочем если у вкатуна зелёная карта, то там всё просто - скачал кобольда, скачал ггуф и погнали. А вот для для всех остальных нередко выходит "kurwa, kurwa, ja pierdole".
Аноним 11/01/25 Суб 07:44:04 1007398 210
>>1007387
>Впрочем если у вкатуна зелёная карта, то там всё просто - скачал кобольда, скачал ггуф и погнали

Ну не. Изволь ебаться с форматированием, системным промптом, настрой сэмплер нормально (это вообще анальная боль была - иногда не пишут, какие настройки рекомендуемые, а иногда там такие шизомодели, что изменение даже на одну десятую циферки или даже на одну сотую кардинально меняют речь модели). Хотя достаточно было бы краткого гайда, который просто бы объяснял, что это важно и на это стоит обратить внимание.

Плюс настройки DRY и XTC тоже довольно важны, а про них не пишут и не обновляют список актуальных моделей, хоть обновить список дел на пять минут, а гайд написать максимум на 15-20.

Я и сам готов всю эту хуйню написать, пусть и не являюсь специалистом в области. Как минимум, мой гайд могут поправить другие аноны, если там будут ошибки. Но не хочется этим заниматься, не будучи уверенным, что его поместят в шапку, чтобы СРАЗУ БЫЛО ВИДНО. Я считаю, что нужно максимально облегчить вкат новичкам, чтобы было максимально просто хотя бы покумить/порпшить, без мозгов поставив нужные значения в таверне, а пусть потом уже разбираются, когда уже войдут во вкус. Ну и есть модели с относительно терпимым русиком, что тоже очень важно для многих анонов. Чем больше коммьюнити, тем лучше.

Лично я когда вкатывался, собирал информацию по крупицам, каждый пук и нюанс приходилось уточнять в треде. Потом заебался и купил подписку на клода, он более комлексно и хорошо объяснил, за ручку водил, хоть его ответы и были довольно консервативны. Ну и ещё норм ему было скармливать огромную документацию для некоторых моделей от давида.
Аноним 11/01/25 Суб 08:10:37 1007402 211
>>1007398
>Лично я когда вкатывался, собирал информацию по крупицам
Я сначала скачал, завел, и погнали, а потом уже стал разбираться в деталях, сэмплерах, промтах.

Синженерил свои настройки, разработал свой системный промт, и даже намержил модели "терпимым русиком".

И всё это самостоятельно исследуя либо спрашивая в треде.

Ибо с англо гайдами тоже бедно, да, либо плохо искал.

Без подписок всяких.

Так что ещё от самих вкатунов зависит, кому проспунфидить, кому только намёк дай, всё остальное сам раскопает, я где-то посередине.
Аноним 11/01/25 Суб 09:42:10 1007444 212
>>1007402
Ну я тоже скачал и попробовал вкатиться сразу, и мне очень повезло, что я сначала скачал гугл гемму, так как с ней можно работать почти без настроек, однако другие модели совсем иначе реагируют. В том же FAQ треда, где ссылки на модели, есть настройки сэмплера, но это срань поганая, потому что она ориентирована на материнскую модель, а не на файнтюн.

Зайдёшь в профиль автора файнтюна — там может быть ничего непонятно или вообще ничего не быть. Кстати, похожая ситуация иногда бывает и с stable diffusion, когда автор три слова написал и ты можешь использовать модель только если обладаешь опытом и вручную подберёшь настройки, но там хотя бы можно глянуть генерации других людей.
Аноним 11/01/25 Суб 09:47:13 1007448 213
>>1007444
>можно глянуть генерации других людей
Вот это да, картинки срут тоннам, а вот нагенеренными текстами что-то делятся буквально раз и обчёлся.
Аноним 11/01/25 Суб 10:23:48 1007467 214
>>1007448
Ну я здесь немного о другом ещё. Глянув там на картинку, можно посмотреть её параметры в большинстве случаев и прикинуть, какие настройки использовались. С ллм так не получится.

Хотя идея видеть тексты + настройки была бы забавной и годной. Да, жаль, что никто не показывает примеры генераций.
Аноним 11/01/25 Суб 10:57:39 1007490 215
>>1007112
Прямо в процессе загрузки модели в консоли будет такая строчка:
>llama_new_context_with_model: n_ctx_per_seq (24832) < n_ctx_train (32768) -- the full capacity of the model will not be utilized
Я думаю тут все самоочевидно. Но на всякий случай тебя интересует n_ctx_train (32768)
Аноним 11/01/25 Суб 11:07:07 1007496 216
169165914813278[...].jpg 338Кб, 640x494
640x494
>>1007398
>Но не хочется этим заниматься, не будучи уверенным, что его поместят в шапку, чтобы СРАЗУ БЫЛО ВИДНО.
Чел. Тут никто никаких обещаний тебе не даст. Если ты что-то хочешь делать ты это просто делаешь, а если не хочешь, то нахуя нам эта информация.
Если сделаешь годноту анон это запомнит, если сделаешь хуиту тоже запомнит смоет очередным перекатом. Все просто.
Аноним 11/01/25 Суб 11:08:58 1007498 217
Чуваки, я тут заметил что почти любой сейчас файтюн 12b-14b даже выпущенный англоговорящим для англоговорящих довольно хорошо может в русский. Это мне так везёт или датасеты популярные у многих сейчас стали содержать русик?
Аноним 11/01/25 Суб 11:11:41 1007501 218
>>1007498
12б - это мистрал, он 10-тиязычный, включая русский.

То что модель осталась мочь в русский значит не сильно и не много жарили.
Аноним 11/01/25 Суб 11:24:19 1007508 219
>>1007496
>хочешь
внимания и признания он хочет, причём авансом

>>1007398
> Но не хочется этим заниматься, не будучи уверенным
Тут так не работает.
Ты или делаешь и постишь, или не делаешь и не постишь.
Что-то обещать, что-то гарантировать, о чём-то просить или убеждать никто не будет.
Аноним 11/01/25 Суб 11:41:55 1007510 220
>>1007112
Имхо флэш аттеншн таки делает жизнь лучше, особенно с мелкой видяхой, но нужно скачать релиз кобольда под куду 12 (файл в релизах называется koboldcpp_cu12.exe). Скорее всего, у тебя стоит 12+, т.к. карта новая. В дефолтном кобольде алгоритм для флэш аттеншна работает на проце вместо видяхи, или что-то в таком роде, поэтому почти бесполезен. 22б в 8-ом кванте с максимумом контекста для твоего железа перебор. Можешь попробовать, конечно, но будешь страдать от скорости. Начни сначала с 12б моделей в Q5_K_M, а то и Q4_K_M, и 12к контекста и посмотри, будет ли оно для тебя приемлемо. Я лично с теми же 8гб врам уже и такие не могу ждать, когда контекст забился.
>>1007257
Калькулятор на спейсе хф вроде правильно показывает, с моим опытом согласуется. Немного могут влиять ещё побочные опции, типа mmq (с выключенной занимает немного больше места и может вылетать с cuda oom, когда с включенной влезает) Автоматом кобольд до сих пор сильно меньше оптимального выставляет, да.
>>1007398
>не пишут, какие настройки рекомендуемые
Они всё равно почти всегда указаны бредовые. Такое ощущение, что даже те челы, которые сами тьюнят модели, не проверяют, как выглядят рекомендованные ими шаблоны контекста и инстракт в промпте, и что делают сэмплеры. Открываешь простыни того же Дэвида, а там полнейшая ерунда типа штрафа за повтор в диапазоне 64 токена и рекомендаций смуфинга до 2.5 без указания, на какой это температуре, которая кардинально меняет поведение сэмплера (при темпе 1 и меньше такой большой смуфинг будет равносилен очень сильному занижению температуры и никакого полезного эффекта не даёт). Ньюфагу будет полезнее самому потратить полчаса, разобраться и подгонять под себя.
>настройки DRY и XTC тоже довольно важны
Только по мнению их создателя. Уже не раз обсуждали, что будут портить выдачу чаще, чем улучшать, особенно для мелочи. Если, конечно, не выставить там значения, которые по факту означают, что сэмплеры почти не работают, и кайфовать с плацебо. Вот про динам. темпу и smoothing имхо имеет смысл знать, потому что они могут помочь с креативностью, сохраняя релевантный пул токенов.
Аноним 11/01/25 Суб 11:51:12 1007518 221
image 199Кб, 2489x395
2489x395
Чот лол, запустил карточку на шизомерже цидонии и магнума, отыгрывало в целом логично. Запустил на Pantheon-RP-1.6.2-22b-Small.i1-Q6_K - драконесса начала подкатывать к фейри-пассажирке, что скорее от Cumдонии можно ожидать.
Аноним 11/01/25 Суб 12:14:20 1007545 222
image.png 338Кб, 426x882
426x882
>>1007510
В дополнение, чтобы не быть голословным, разберу на примере. Один из самых шизовых вариков от Дэвида, хотя другие не сильно лучше.
- включены абсолютно все подряд штрафы за повтор, включая драй. При этом классический реп пен в 1.05 в диапазоне 64 токенов и с линейным падением в центра интервала с к-том 1 не делает литералли нихуя. Будет ли там вообще виден драй на фоне двух других штрафов, тоже большой вопрос.
- топП 0.95 вместе с минП 0.05 - сомнительно, но окей. Если прямо хочется отрезать статический хвост в 5% токенов вне зависимости от распределения вероятностей, то можно, но проще контролировать отсечку одним минП.
- темпа 0.9 с абсолютно поехавшим смуфингом в 4 - это как температура 0.3 будет, без проявления нужных фишек смуфинга. Смотри по ссылке с сэмплерами в шапке, к чему даже значение в 2 будет приводить.
- smoothing curve просто не поддерживается кобольдом, кек. А с другими бэками значением больше единицы будет делать кривую темпы ещё круче, как будто в ноль её херанул. Очень полезно.
- топК нахер не нужен, потому что заранее не знаешь, насколько плавное распределение вероятностей, и сколько токенов взаимозаменяемы. Может, у тебя там в рп смена локации и подсюжета, можно начать предложение с чего угодно, и подходит с сотню токенов с вероятностями меньше процента. Незачем принудительно сокращать их кол-во до 40.
Короче, чел просто подогнал под своё плацебо. Вывод - не смотрите, дети, на рекомендуемые настройки в карточках моделей, а лучше найдите инфу, что они делают и применяйте согласно здравому смыслу. Такая же фигня с шаблонами контекста и инстрактом. Видел у Дэвида какой-то шаблон чатмля, где он подаёт системный промпт в двойных префиксах/суффиксах системы и юзера. Не надо так.
Аноним 11/01/25 Суб 12:50:47 1007583 223
>>1007444
>она ориентирована на материнскую модель, а не на файнтюн
Чел, сэмплеры - это математические формулы, по которым, условно говоря, из некоторого набора накладываются токены в мешок, из которых потом их будет доставать модель. Они всегда (если правильно реализованы в бэке) работают одинаково, неважно о модели ли речь вообще. В шапке вот не генерация модели, а упрощённый пример, в котором просто набору слов раскидали какие-то вероятности. Что для реальной модели, что для файнтьюна, эффекты сэмплеров будут такие же, будет различаться исходный набор токенов, который эти сэмплеры обрабатывают.
Аноним 11/01/25 Суб 12:57:06 1007588 224
>>1007444
>>1007583
А, ты имел в виду настройки из рентрая с моделями. Тогда my bad, сначала подумал, что ты про тестовый пример с сэмплерами из шапки.
Аноним 11/01/25 Суб 13:05:13 1007589 225
>>1007588
Это, кстати, не рекомендуемые настройки, а наиболее юзаемые в среднем хлебушками на опенроутере. Они и для базовых моделей будут такие себе. Сейчас посмотрел некоторые - там на многих народ вообще с выключенными сэмплерами сидит, не хочет с ними разбираться, видимо.
Аноним 11/01/25 Суб 14:41:41 1007649 226
>>1007255
> гайды не информативные и протухли
Что именно в них неактуального? Наоборот, сраные ньюфаги даже их не читают, сразу лезя с идентичными вопросами, которые освещены.
>>1007398
> Изволь ебаться с форматированием, системным промптом
Нужно выбрать из пресетов, их сейчас много под каждое настроение, а формат есть под каждую модель. Способ нахождения оригинала микса вполне очевиден.
> настрой сэмплер нормально
Просто ставь simple-1 или min-p если более удачливый и радуйся.
> изменение даже на одну десятую циферки или даже на одну сотую кардинально меняют речь модели
Там где изменение циферки на одну десятую это +100% эффекта - конечно меняет, в остальном это плацебо и шиза. Может стоит просто прочесть описания семплеров, которое подробно приведено?
> Плюс настройки DRY и XTC тоже довольно важны
Да костыли средней всратости, одно вместо избавления от дефолтных лупов делает другие и затупляет модель, второе плодит шизу. Не то чтобы не было смысла про них описать, но обязательно с предупреждением что это не какое-то волшебное решение всех проблем.
> Я и сам готов всю эту хуйню написать
> Но не хочется этим заниматься, не будучи уверенным, что его поместят в шапку
А ты напиши, если будет стоящее и без херни то закину в вики.

> Я считаю, что нужно максимально облегчить вкат новичкам, чтобы было максимально просто хотя бы покумить/порпшить, без мозгов
Это ошибка. Если человек один раз прочтет и осознает основы, то дальше он сможет ориентироваться в целом что да как в ллм, и покумить с кайфом. Потратить 15 минут времени и пошевелить мозгами не сложно.
А плодить очередную пачку варебухов, которые начнут задавать тупейшие вопросы, или того хуже - поверят в себя и начнут с уверенностью бредить и все засирать - большая глупость.
>>1007510
> флэш аттеншн таки делает жизнь лучше
> Они всё равно почти всегда указаны бредовые
> Уже не раз обсуждали, что будут портить выдачу чаще, чем улучшать
Все правильно, и добавить нечего.
>>1007583
> Они всегда (если правильно реализованы в бэке) работают одинаково, неважно о модели ли речь вообще
Тут есть нюанс, связанный с разными распределениями логитсов в разных моделях. У некоторых изначально оно пологое, у других всегда крутой спад, а в васян-тюнах оно пляшет туда-сюда в зависимости от контекста. Поэтому в некоторых случаях тот же xtc и динамическая температура позволят нормализовать излишне консервативную выдачу, а адаптивные отсечки и прочее иметь более рациональный. Вот только во-первых, никто не делает нормальную привязку параметров к модели и шизосемплеры не отличают сужение от уверенности модели с просто узкой выдачей для всратой, а во-вторых, это всеравно сраные костыли и тот же промт менеджмент даст в разы больше.
Аноним 11/01/25 Суб 15:09:54 1007681 227
Сколько дрочил все эти семплеры, в итоге что драй, что хтс, что миростат - говно говна. Штрафы за повторы работают криво, так что их польза не меньше вреда. В итоге только п-семплеры и температура реально полезны.
Аноним 11/01/25 Суб 15:21:44 1007700 228
>>1007681
>В итоге только п-семплеры и температура реально полезны.
Вот тут двачую.
Аноним 11/01/25 Суб 15:26:59 1007709 229
Аноним 11/01/25 Суб 15:52:17 1007729 230
>>1007709
>NE+5
N × 10^5 если это научная нотация
Аноним 11/01/25 Суб 16:30:32 1007763 231
1534546713308.jpg 51Кб, 540x540
540x540
>>1007681
Даже п-сэмплеры это крапшут. Сам механизм отсеивания логитов ущербен, ибо работает на уровне токенов, а не в латентном пространстве. Сэмплеры не имеют доступа к скрытому состоянию модели и понятия не имеют о семантике токенов которые отсеивают. Скрытое состояние частично передаётся на следующие токены в результате авторегрессии (без планирования наперёд некоторые ответы просто невозможны), но чтобы его декодировать тоже нужно понимать семантику, а семплер это просто тупая формула.

Семплер даже не может отличить простейшие ситуации.
>Столица Франции это
единственное валидное предсказание здесь "Париж", остальные мусор.
>Рандомное название города:
куча валидных предсказаний, мусора мало.
Отрежь больше и получишь малую вариативность. Отрежь меньше и получишь шизу.
Как сэмплер различит эти две ситуации? Да никак, он нихуя не знает о городах, а скрытое состояние и концепты городов из латентного пространства трансформера до него не доходят, до него доходит только сортированный токен бакет.

>DRY
Работает на уровне токенов, а лупаются идеи, потому что чем больше модель тем больше внутриконтекстное обучение напоминает реальное. В мультитурн РП например может залупнуться структура параграфов, чередование нарратив-речь, эмоция персонажа (и не постоянно, а на подъём например), стиль речи (ВСЁ КАПСОМ!!!), ещё какая-нибудь хуета не имеющая постоянного выражения в токенах. Что тут сделает DRY? Обосрётся конечно.

>XTC
Призван увеличить вариативность выбора токенов, но не может отличить даже ситуации где нужна вариативность (см. пример выше). Действует по тупой формуле и тупит модель, отрезая самый логичный выбор. Как результат, на практике он даёт чуть больше синонимов к глинтам, но не убирает стереотипы сетки, которые представляют собой идеи, точки/области в латентном пространстве, а не токены. Для этого надо сетку перетюнивать заново, юзая алгоритмы в RL которые не страдают бесконечным завышением вероятностей для одного-двух вариантов. таких нет нормальных

Токены - это лишь выходной формат для чтения человеком. Модель же выражает абстракции в своём латентном пространстве. Поэтому попытка повлиять на выдачу уже после декодирования, когда огромная размерность латентного пространства уже сокращена в выходной список человекочитаемых токенов - заведомо дурная затея.

И т.п. и т.д.

Юзайте темпу и truncation (-п) сэмплеры, лучше всё равно не будет.
Для креативности, насколько позволяют ущербные RL/SFT алгоритмы сегодняшнего дня, задирайте темпу и регулируйте шизу top-p/min-p.
Для точности - снижайте темпу.
Всё, больше сэмплерами невозможно что-то сделать, они слишком тупые.
Аноним 11/01/25 Суб 16:31:29 1007765 232
Аноны, всем привет! Подскажите, плиз. Я не слежу за новостями.
У меня ПК: R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
Я сейчас использую:
- gemma-2-27b-it-Q4_K_M.gguf
- Qwen2.5-72B-Instruct-Q4_K_M.gguf
- qwen2.5-coder-32b-instruct-q4_k_m.gguf
- Mistral-Large-Instruct-2407.Q4_K_M.gguf

Что можно удалить, а что оставить? Может что лучшее появилось уже?
И что сейчас самое самое лучшее, что можно запустить на моем ПК?
Аноним 11/01/25 Суб 16:34:03 1007768 233
1577891866380.jpg 79Кб, 853x480
853x480
>>1007763
Короче всем биттер лессон, пацаны.
Аноним 11/01/25 Суб 16:34:53 1007772 234
Аноним 11/01/25 Суб 16:37:30 1007778 235
>>1007763
> в своём латентном пространстве
Шизик, модель выдаёт вероятности для токенов, в decoder-only LLM нет никаких латентов, даже посреди модели между слоями.
Аноним 11/01/25 Суб 16:48:15 1007790 236
>>1007772
>🤣🤣🤣
Тут плакать надо, а ты...
Аноним 11/01/25 Суб 16:56:21 1007800 237
>>1007778
А на вход последнему линейному слою святой дух поступает, ага.
Различие между энкодер-онли и декодер-онли чисто формальное. В декодер-онли нет явного промежуточного представления которое тебе красиво на схемочке отрисовали, это не значит что здесь нет скрытого состояния огромной размерности в виде совокупности активаций.
>даже посреди модели между слоями
Держи в курсе. Любая MLP сеть это неявный "энкодер" в этом смысле.
Аноним 11/01/25 Суб 17:06:00 1007810 238
>>1007765
Хватит срать одной и той же пастой в каждый тред. Либо научись читать, либо иди нахуй отсюда.
Аноним 11/01/25 Суб 17:19:28 1007819 239
>>1007763
> Сам механизм отсеивания логитов ущербен, ибо работает на уровне токенов, а не в латентном пространстве.
Сыпать неуместными терминами мня себя умником - верный способ выставить себя долбоебом.
> Сэмплеры не имеют доступа к скрытому состоянию модели и понятия не имеют о семантике токенов которые отсеивают.
Модель уже все предсказала с учетом сементики и прочего, этот тейк абсурден.
> Семплер даже не может отличить простейшие ситуации.
И здесь обсер, ибо в случае с Парижем на первый токен будет овер 95%, а остальное лишь вариации написания на других языках или других вариантов токенизации вплоть до побуквенной. Взят будет именно правильный а остальные отсечены.
В случае где куча валидных вариантов - наибольшее их множество попадет в заданный, а отсеяны будут уже левые варианты. В обоих случаях оперируя уже корректно оцененными вероятностями, семплер отлично делает свою работу. Ему не нужно ничего знать, за него уже все предсказала модель.
> Работает на уровне токенов, а лупаются идеи
Бредишь, почитай как он работает.
> Призван увеличить вариативность выбора токенов, но не может отличить даже ситуации где нужна вариативность
Хоть он сделан шизиком, тот шизик гораздо умнее тебя. Там предусмотрен алгоритм, который определит уместность его применения по наклону распределения - в итоге также имеем внезапно умный семплер, который все учитывает не зная семантики.
> Токены - это лишь выходной формат для чтения человеком.
Токены - это особенность представления информации для чтения нейронкой. Они могут быть группой букв, прямой кодировкой иероглифов, закодированным изображением, видео, ужатой "мыслью" с помощью с помощью свертки и т.д.

Шизик, у тебя отсутствует понимание даже самых базовых основ. Все эти рассуждения о том "как надо делать" ничего не стоят, ибо оторваны от реальности, а озвученные проблемы не являются откровением и успешно решаются.
>>1007800
Малафья тебе на вход в рот поступает, поехавший. В дурку пиздуй, расскажешь санитарам как с семплеров на слои переключаться.
Аноним 11/01/25 Суб 17:20:54 1007823 240
>>1007649
>Тут есть нюанс, связанный с разными распределениями логитсов в разных моделях. У некоторых изначально оно пологое, у других всегда крутой спад, а в васян-тюнах оно пляшет туда-сюда в зависимости от контекста.
У всех моделей оно пляшет туда-сюда от контекста, просто по смыслу происходящего. И у всех не базовых моделей крутой спад там где его не должно быть. Попробуй на любой модели спроси рандомный цвет, город, число, что угодно что должно быть рандомным, и глянь на логпробсы.
Аноним 11/01/25 Суб 17:37:04 1007838 241
>>1007823
> от контекста, просто по смыслу происходящего
Все так, но это абсолютно нормально. Ведь спрашивая случайный цвет если раньше в промте указано что сетка отыгрывает персонажа у которого любимый цвет зеленый, логично что ответ скорее всего будет таким. Более того, оно будет сужаться если уже начато какое-то слово ибо количество уместных сразу падает.
Просто у некоторых изначально в абстрактном предложении на первых токен слова много вариантов и в целом текст разнообразен, а у других как пойдет глинтовый слоуп - нет от него спасения. Против последних и заточены xtc и частично dry.
Аноним 11/01/25 Суб 17:43:08 1007844 242
>>1007763
>механизм отсеивания логитов ущербен
Всё, связанное с токенами - говно собачье. Но так уж получилось, что модели на них и работают. Ну ничего, там уже пошли подвижки в сторону захардкоживания концепций, в треде уже хуй знает когда обсуждалось, может, скоро и более умные вещи запилят.
>единственное валидное предсказание здесь "Париж", остальные мусор.
Только семплер не знает, что именно за вопрос, контекст ситуации и не может судить о правильности предсказания. Может, у тебя РП с тянучкой и она издевается над тобой, с сарказмом спрашивая "а может, Москва столица?". Чтобы семплер понял, что здесь нечего резать, ему нужно полное понимание ситуации. А этого и сама ллм не может.
>Отрежь больше и получишь малую вариативность. Отрежь меньше и получишь шизу.
C одной стороны да, с другой стороны у нас всё ещё есть токены с большей вероятностью и токены с меньшей. Здесь скорее проблема в ограниченном количестве токенов, которые ведут к корректным ответам.
> а лупаются идеи
Есть такое. Иногда нейронка может просто выделить какое-то действие капсом, чтобы подчеркнуть. Но после этого она начинает в каждое сообщение вставлять действие капсом.
>отрезая самый логичный выбор
Только может оказаться, что самый логичный - единственно верный и опять упор в лимит корректных токенов.
>Для креативности, насколько позволяют ущербные RL/SFT алгоритмы сегодняшнего дня, задирайте темпу и регулируйте шизу top-p/min-p.
Только так и делаю, ничего лучше не нашлось.
Аноним 11/01/25 Суб 17:46:49 1007848 243
1736557697608614.png 23Кб, 139x178
139x178
>>1007819
Ого, кто это у нас тут? Да это же горелый РАЗЪЁБЫВАТЕЛЬ.

>Бредишь, почитай как он работает.
Почитай сам:
>DRY penalizes tokens that would extend the end of the input into a sequence that has previously occurred in the input.
Он буквально избегает повторения последовательностей прошлых токенов. В случае структурного лупа нарратив-речь прошлые токены могут и не повторяться. У кого тут не хватает понимания базовых основ?

>XTC
>Там предусмотрен алгоритм, который определит уместность его применения по наклону распределения
Ух как страшно. Ты его сам-то видел? Там просто тупой порог. Он отсекает всё что выше него кроме самого слабого, взвешенно по вероятности (которая второй параметр). Всё, это ВЕСЬ СЭМПЛЕР с твоим охуенно умным алгоритмом. Как это ему поможет справиться с ситуацией когда предсказание невинным образом входит в роут, с которого уже не сойти без шизы? Да никак, потому что он даже не видит прошлых токенов как DRY, а уж тем более не знает ПОЧЕМУ был совершён тот или иной выбор. В результате даже навязчивые идиомы никак не гасит, не говоря уже о стереотипах, и вариативности сетке не добавляет. Потому что он нихуя не знает о стереотипах или идиомах. Сетка впадает во всё те же характеры, просто разными словами. И будет у тебя не mix of arousal and anticipation, а blend of excitement and something else. При этом сетка неизбежно тупеет.

Продолжай пердолить сэмплеры и думать что ты что-то получаешь, я не против.
Аноним 11/01/25 Суб 17:57:08 1007851 244
>>1007838
Я вот тебе предлагаю эксперимент. Возьми пустой контекст, безо всяких персонажей, и предложи любой сетке назвать что-нибудь рандомное. Максимально краткий промпт, чтобы как можно меньше влиять на выбор. Например, для инструкт сетки:
>Name a random color (1 word):
И наблюдай в логпробсах ахуенный обвал. Или просто свайпая можешь посмотреть как она циклится в основном на 2-5 вариантах из сотен возможных.
Т.е. да, конечно, какое-то предпочтение цвета должно быть, отражая распределение цветов в претрейн датасете. Но не такой обвал. Можешь не цвета, а что-нибудь ещё с дохуём вариантов. Будет то же самое.
Почему такое происходит, ну например https://arxiv.org/abs/2310.06452 https://arxiv.org/abs/2406.05587 (там говорят про debiasing и RLHF, но это красная селёдка, на самом деле там речь о вполне конкретных алгоритмах RL/SFT типа PPO, и сейчас все RLAIF заняты, возможности RLHF давно упёрлись в потолок)
Аноним 11/01/25 Суб 18:01:15 1007852 245
>>1007763
>Столица Франции это
>Рандомное название города:
Тут как раз справятся сэмплеры, учитывающие крутизну распределения вероятностей напрямую (tfs) или через макс токен (топА, минП).
>>1007844
>семплер не знает...контекст ситуации
Это не его забота, в твоём примере сама ллм должна понять контекст и сбавить вероятность Парижа в рамках рп. Тут согласен с аноном выше, что сэмплер не должен уж совсем за модель работать, обрабатывая контекст.
>>1007819
>Там предусмотрен алгоритм, который определит уместность его применения по наклону распределения
Очень топорный. Разделение происходит на два случая: выше порога один токен - ничего не трогаем, выше порога больше одного токена - ебашим все из выборки. Даже если в последнем случае их десяток. И порогом это регулировать неинтуитивно. Мб кто-нибудь мог бы над ним помозговать кто? я? и сделать чтобы токены убирались выше некоторого числа, которое зависит от вероятности топ токена и пользовательского к-та. Вот этот варик уже лучше бы учитывал крутизну, кмк. Но даже тут вылезает проблема. Если топ токен большой, то вроде и нельзя ничего отрезать, а если он мелкий, то зачем вообще отрезать, все верхние итак будут вытаскиваться с примерно равной вероятностью, особенно если температурой со смуфингом жахнуть. Короче, сам сэмплер не очень удачный, как по мне.
Аноним 11/01/25 Суб 18:01:58 1007853 246
>>1007819
>в случае с Парижем на первый токен будет овер 95%, а остальное лишь вариации написания на других языках или других вариантов токенизации вплоть до побуквенной. Взят будет именно правильный а остальные отсечены.
А теперь попробуй классический вариант сэмплинга для креативности, задрать темпу в хлам чтобы сделать распределение логитов более плоским, и заюзать отсекающий семплер типа top-p чтобы шизу отсечь. И сразу окажется что сэмплер нихуя не может разобрать, где крутизна оправдана, а где нет.
Аноним 11/01/25 Суб 18:04:09 1007854 247
>>1007853
> логитов
Клован, после софтмакса вероятности.
Аноним 11/01/25 Суб 18:11:27 1007864 248
>>1007819
>> Работает на уровне токенов, а лупаются идеи
>Бредишь, почитай как он работает.
Тут обосрался ты. Структурные лупы ни один семплер не может задавить.
Аноним 11/01/25 Суб 18:16:12 1007873 249
>>1007852
>Это не его забота, в твоём примере сама ллм должна понять контекст и сбавить вероятность Парижа
Так это в ответ к этому
>Столица Франции это
>единственное валидное предсказание здесь "Париж", остальные мусор
Но выходит, что остальное не такой уж и мусор, если учитывать контекст.
>сэмплер не должен уж совсем за модель работать
Он не то, что не должен. Он не может. Чтобы он мог обрабатывать контекст и оценивать "правильность" вывода - он сам должен быть ллм. Причём не глупее исходной.
Аноним 11/01/25 Суб 18:16:53 1007875 250
>>1007649
>Что именно в них неактуального? Наоборот, сраные ньюфаги даже их не читают, сразу лезя с идентичными вопросами, которые освещены.
Я когда вкатился, честно написал что нихуя не понимаю, потому что инфа хоть и полезна, но абсолютно не структурирована. Это как пытаться в вышмат по справочнику.
Спасибо тому анону, что прямо написал что и как делать и дал ссылку на сенку, действительно спасибо. Я без тебя хуй бы вкатился.
Так вот. Не хватает гайда в духе :
Ты уже сделал бочку и все еще ничего не понял.
Вот краткий гайд как ставить кобольт и таверну, вот эти параметры отвечают за то-то и это. Вот пресет. Запускай и наслаждайся, но дальше разбирайся сам.
Аноним 11/01/25 Суб 18:18:09 1007878 251
Аноним 11/01/25 Суб 18:30:18 1007896 252
>>1007848
Верно угадал, разъебыватель твоего ануса.
> В случае структурного лупа нарратив-речь прошлые токены могут и не повторяться
И?
> Там просто тупой порог.
Для очевидных ответов его уже достаточно. Это шизосемплер от шизика, но даже в нем предусмотрено то, что ты имплаишь как невозможное.
> У кого тут не хватает понимания базовых основ?
У тебя, манька. Что-то спизданул не по теме и вырвав из контекста в надежде обнулить прошлое? Хуй там было, продолжаешь обтекать. С боевой картиночки особенно проиграл.
> Продолжай пердолить
Продолжаю пердолить твой ротешник в латентном пространстве.
>>1007851
Ну да. От сетки зависит, как раз тот самый пример где она будет разнообразнее а другая совсем примитивна. Но для оценок креативности во внимание стоит брать не только самое первое распределение, но и дальнейшие, что создаст огромное дерево. И в таких нарочито примитивных случаях лучше подойдет не дефолтный семплинг или первые распределения, а чуть посложнее типа beam search.
>>1007853
> А теперь возьми и открути у самолета крылья в полете и посчитай сколько из них смогут безопасно приземлиться.
> И сразу окажется что они вовсе не базопасные
Ебать клоун, искуственно испортить результаты чтобы сказать как все плохо.
Хотя и это уже проходили, достаточно температуру пихать в конец и там уже как не возмущай - всеравно останется лишь малый набор релевантных.
>>1007864
Еще долбоеб с навязчивыми идеями
Аноним 11/01/25 Суб 18:32:59 1007900 253
>>1007853
Поэтому когда сидел на подобном пресете (высокая температура перед отсекающим), ставил самым первым сэмплером топА на мелкие значения, в районе 0.05-0.1. Он контрит подобные ситуации, слабо влияя на выборку в ином случае. Или можно подключить смуфинг больше единицы или даже немного меньше. Тогда тоже такие ситуации поправляются, потому что если исходно кривая очень крутая, то такие настройки делают её ещё круче. Вообще смуфинг тема, советую посмотреть по ссылке с сэмплерами в шапке, что он делает при разных исходных распределениях и разной температуре. Главное, не юзать мелкие значения при темпе выше единицы, потому что вот тогда вероятности размажет так размажет.
Аноним 11/01/25 Суб 18:34:06 1007901 254
1685015628196.png 7Кб, 306x159
306x159
>>1007875
Что именно там не структурировано? В общем что такое ллм, по каким принципам она работает, какие методики используют чтобы получать результаты и базовые основы того как сейчас распространяют и запускают модели.
> Вот краткий гайд как ставить кобольт и тавернуОн т
Это что? Там буквально гит пулл@запустить и/или скачать бинарник@запустить.
Аноним 11/01/25 Суб 18:50:07 1007921 255
>>1007901
>Там буквально гит пулл@запустить и/или скачать бинарник@запустить.
Это троллинг тупостью, буквально. Кроме установки это дерьмо еще нужно настроить, а большая часть всех зеленых вкатунов просто ебнется от интерфейса таверны, если даже разберется с кобольдом. Так что этот >>1007875 анон частично прав, инфа в вики полезная, но её недостаточно. Ну а выебываться тем какой ты сообразительный и снисходительно общаться со всеми залетными это чисто клоуничество.
Аноним 11/01/25 Суб 18:50:32 1007922 256
Дядя игорь я не[...].mp4 4147Кб, 492x360, 00:00:56
492x360
>>1005130
>взять 7800xt

не надо не надо!, я самолично сижу на 7900хт ничего толком кроме оламы не работает, однажды я её солью и возьму что нибудь из 3090/3090ти/4090/5090
Аноним 11/01/25 Суб 18:55:52 1007923 257
>>1007896
>От сетки зависит
Не зависит это от сетки. Любую возьми. Я сильно удивлюсь если найдёшь сетку с разнообразными ответами. я знаю ровно одну такую, ред пажама, тупое говно которое тренилось через пень-колоду, никто уже и не помнит её
Аноним 11/01/25 Суб 18:57:05 1007926 258
>>1007878
Держи более удобную версию, нежели чем формат для PеDоFилов
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
>>1007896
>Пук в лужу
Быстро ты слился.
>>1007921
>а большая часть всех зеленых вкатунов просто ебнется от интерфейса таверны
А кто виноват, что люди так деградировали, что не могут разобраться в 3 5 7 9 вкладках? Я просто прощёлкал их, запомнил что где примерно и пользуюсь, ибо уже 20 лет с ПК и видал интерфейсы и посложнее.
Аноним 11/01/25 Суб 18:58:25 1007928 259
Креативность ≠ вариативность предсказания некст токена, шизоиды. Креативность это вообще хуй знает что, шизотермин какой-то философский. Понятно только одно, что вариативность на неё вроде бы влияет.
Аноним 11/01/25 Суб 18:59:07 1007930 260
Как же я ору, когда мрачная тьма мрачна в мержах дэвида, ты ставишь карточку какой нибудь ебанутой психопатки и со старта : СЕСТРЕНКА, ТЫ ТАКАЯ КЛАССНАЯ
Сразу с ходу, с ноги врываешься жизнерадостным шотой.
Тут же начинается : мальчик, ты ебанутый, отойди от меня блять.
Аноним 11/01/25 Суб 19:08:33 1007937 261
>>1007926
>А кто виноват, что люди так деградировали, что не могут разобраться в 3 5 7 9 вкладках? Я просто прощёлкал их, запомнил что где примерно и пользуюсь, ибо уже 20 лет с ПК и видал интерфейсы и посложнее.
А вот дед мой жопу лопухом подтирал и не знал горя.
Аноним 11/01/25 Суб 19:21:52 1007964 262
>>1007921
Тебе нужен полный спунфид? Раз такой умный и свежи воспоминания - напиши пошаговое руководство для самых маленьких. Через пару месяцев когда окрепнут - пойдет очередной наплыв шизиков с латентным пространством.
>>1007923
Можно сравнить базовые мистраль-квен-лламу, особенно версии постарше со всякими миксами или "аблибератед", там видно наглядно. Любой пост тренинг ограниченными датасетами или алайнмент сужает выход модели (в линках что ты скинул это подтверждается), и не всегда это стоит это воспринимать как что-то плохое судя по первым распределениям по абсурдно простым текстам. Алсо, это еще и следствие кормления длинными и подробными промтами.
>>1007926
Да не, это ты слился, отчаянно дерейля и сводя к щитпосту, чтобы отвлечь от бреда в том посте.
Долбоеб, который не понимает как работает модель, путается в понятиях, считает важным добавление понимания семантики в семплеры. Последнее - закономерное следствие первого, жаль слишком тупой чтобы понять насколько ты конченый.
Чсх, техникам возмущения логитсов с помощью сторонних моделей с учетом контекста уже не один год, генерация всего ответа вместо потокенной проходки тоже есть, да и много релейтед вещей в адекватном оформлении, а не в виде шизотеорий на основе глупости.
Но вместо того чтобы увлечься ими и даже что-то сделать, скуфидон - неудачник, собрав в кучу скудные познания из других областей включил типичный паттерн "у меня должно быть особое мнение в противопоставление популярным трендам" ради аутотренинга. Итог на лице.
Аноним 11/01/25 Суб 19:26:24 1007974 263
>>1007681
Я сразу заметил включив драй что повторения ушли и свапы всегда новые, хз что у вас там за плацебо.
Без него буквально невозможно жить, нейронка зацикдивается и пишет слово в слово
Аноним 11/01/25 Суб 19:27:05 1007975 264
>>1007964
>в линках что ты скинул это подтверждается
Ты не дочитал или не вник. Там говорится совсем о другом, что причина не в файнтюне в целом, а вполне конкретно в используемых алгоритмах. Типа, известные стратегии либо хуёво обобщают, но дают нормальное распределение. Либо наоборот хорошо обобщают, но режут целые траектории токенов за счёт того что какие-то предсказания могут увеличивать вес неограниченно. Это не фундаментальное ограничение, но третьего пока что не дано. Естественно при прочих равных выбирают те что обобщают хорошо, т.к. это в приоритете.
Аноним 11/01/25 Суб 19:28:24 1007977 265
>>1007964
>Чсх, техникам возмущения логитсов с помощью сторонних моделей с учетом контекста уже не один год, генерация всего ответа вместо потокенной проходки тоже есть, да и много релейтед вещей в адекватном оформлении
Ого, инопланетные технологии! Где это такое прошлое-будущее с цельными ответами вместо авторегрессии?
Аноним 11/01/25 Суб 19:30:28 1007979 266
>>1007964
>Долбоеб, который не понимает как работает модель, путается в понятиях, считает важным добавление понимания семантики в семплеры. Последнее - закономерное следствие первого, жаль слишком тупой чтобы понять насколько ты конченый.
Так ты кроме >пук, на представленные примеры ничем не ответил.
Аноним 11/01/25 Суб 19:35:33 1007986 267
>>1007975
Пока их не читал. Несовершенство не что-то новое, имеем что имеем, а то в целом наблюдение.
>>1007977
>>1007979
> ррряяяя я не обосрался, а ну быстро делай так как я сказал или я прав!
В голос с шизика, потому так и живешь
Аноним 11/01/25 Суб 19:47:31 1007997 268
кто нить уже щупал вот такую хуйнюшку от мозилы? можн закинуть в список однокнопочных инсрумемтов

https://github.com/Mozilla-Ocho/llamafile

я не смок пощупать у меня на амуде крашится не запускается с выгрузкой слойёв нав гпу
Аноним 11/01/25 Суб 19:50:43 1008002 269
>>1007997
Этому говну уже год. Бесполезный кал.
Аноним 11/01/25 Суб 20:03:31 1008013 270
>>1007974
>Без него буквально невозможно жить
Смени модель, чувак.
Аноним 11/01/25 Суб 20:22:02 1008037 271
>>1007964
>Долбоеб, который не понимает как работает модель, путается в понятиях, считает важным добавление понимания семантики в семплеры.
Я написал ровно одну фразу "Структурные лупы ни один семплер не может задавить.". Всё. Остальное ты уже додумал и смешал с остальными анонами в треде. И на эту фразу у тебя ответа нет, ибо его быть не может, ибо это истина в последней инстанции, и даже сам Иисус со мной согласился бы.
>генерация всего ответа вместо потокенной проходки тоже есть
Но используется буквально нигде.
Аноним 11/01/25 Суб 20:43:04 1008059 272
>>1008037
Нет, там было
> а лупаются идеи
и после этого представление паразитного ухватывания шаблона (что может проявиться при поломках или кривом промте) в виде серьезной фундаментальной проблемы. И все это на фоне прочей дичи, подобной той, что местные поехи любят заводит. Если там суперхуевая моделька что таким страдает и не хочешь с нее слезать - просто добавь в префикс инструкции рандомайзер средствами таверны, в котором будет микроинструкция по структуре ответа. Но это костыль, который лишь отложит проблемы, появятся другие.
> Но используется буквально нигде.
Естественный отбор. Точно также как не применяют кодировку фиксировано определенного латентного пространства в виде токенов и закидывание на вход или же генерация его с помощью ллм. Есть рабочие примеры но они только подчеркивают несовершенство и глубинные проблемы.
Возможно, со временем придем к более оптимальному решению, в котором вместо слогов токены действительно будут ближе к условным идеомам, и кодер-декодер будет отнимать до трети весов, но едва ли это будет скоро и в том примитивном понимании, что вкладывают поднадусеровые борцы с токенизацией.
Аноним 11/01/25 Суб 21:00:17 1008078 273
1585259685199918.png 146Кб, 747x525
747x525
>>1007986
Ну-ка, так где одним махом ответ генерится? За язык тебя никто не тянул. Давай-давай.
Так лень бодаться с очередным городским сумасшедшим, пердолящим очередной вечный двигатель в виде сэмплеров, но посмотреть как ты вертишься будет забавно.
Аноним 11/01/25 Суб 21:05:34 1008086 274
>>1008078
Корчишь из себя знатока с моноклем, но из-за гребня пропустил что притаскивали в последних тредах, хорош.
Аноним 11/01/25 Суб 21:07:02 1008089 275
>>1008059
>Нет, там было
Что ты какой дегенерат? Я тебе уже точную свою цитату привёл, а ты всё найти её не можешь. Про идеи писал другой анон.
>>1008059
>представление паразитного ухватывания шаблона (что может проявиться при поломках или кривом промте
Оно появляется всегда при длинном контексте, ибо неотделимо от самого формата чата.
>Естественный отбор.
Просто накидывание компьюьта даёт результат здесь и сейчас, а на проработку умной архитектуры нужны умные люди, которых нехватает.
Аноним 11/01/25 Суб 21:11:54 1008097 276
>представление паразитного ухватывания шаблона (что может проявиться при поломках или кривом промте) в виде серьезной фундаментальной проблемы
Прочувствуйте уровень понимания сэмплерошиза. Кулибин никогда не слышал о том как тренят ЛЛМ (длинные примеры без мультитурн повторов нихуя не просто сгенерить), ни о внутриконтекстном обучении, но придумывать что всё поломалось и "просто возьми не лупную модель" горазд
Аноним 11/01/25 Суб 21:53:53 1008185 277
Ку, теслабояре. А в каком интерфейсе есть Кокоро+Спич рекогнишн+Поддержка ггуф, при этом чтобы текст озвучивался постепенно, каждое предложение, а не сразу весь ответ? В силли таверн только устаревшие ттс и озвучивание полноценного сообщения, а не каждого предложения постепенно.
Аноним 11/01/25 Суб 21:58:46 1008198 278
>>1008185
> чтобы текст озвучивался постепенно
Нигде. Это надо мультимодальную LLM, умеющую стримить речь.
Аноним 11/01/25 Суб 22:02:57 1008202 279
>>1008198
В олламе есть. Каждое предложение озвучивает, потом когда следующее сгенерируется, озвучивает следующее.
Аноним 11/01/25 Суб 22:05:30 1008203 280
>>1008202
Это совсем хуйня, как будто речь аутиста с замолканием на 10 секунд.
Аноним 11/01/25 Суб 22:10:48 1008210 281
>>1008203
Какие 10 секунд? Лёгкие ттс генерируют ответ моментально. А скорость написания предложений зависит от твоей скорости генерации. Самое долгое как раз это спич рекогнишн.

В любом случае, хуйня для тебя. Для меня полноценная тулза с которой можно полноценно разговаривать без задержек. Только в силли таверн эта функция не реализована в отличии от олламы и до сих пор нет кокоро.
Аноним 12/01/25 Вск 00:38:20 1008342 282
>>1008089
Агрессивно лезешь в чужой разговор, подменяя одно другим, ноешь о своих проблемах. Выходит что сам дегенерат.
> Оно появляется всегда
Только у дегенератов, лол. Не, ты серьезно? 3-4 поста когда идет какое-то развитие одного действия может структура повторяться, а потом с прогрессом меняется под действо. Может стоит поставить нормальную модель и не срать в промт?
> Просто накидывание компьюьта
Не просто. Проблема херни и нерационального использования существует, но даже это лучше чем тащить шизоидеи из безумных умом таких всезнаек.
Как не почитаешь подобные обсуждения - каждый эксперт и уже разработал свою новейшую и продуманную архитектуру, которая решит все проблемы, будет эффективна и победит великое зло токенизации. И мешает ей лишь сговор хитрых корпоратов, которые подмяли под себя весь компьют, а вот если бы дали!
Ничего не напоминает? Буквально шайка шизиков со свободной энергией, на которых охотятся нефтянные лоббисты, ух.

С компьютом и прочим проблем нет - бери ни хочу, все доступно. Дело в том что предлагаемое - мертворожденная хуета с нерешенными фундаментальными проблемами, или вообще полный бред.
>>1008097
Так порвался что боится даже линкануть, кек. Ну ничего, завтра одноклассникам расскажешь про новые термины что подметил.
Аноним 12/01/25 Вск 00:39:32 1008343 283
>>1006849
Анон только добрался до борды, спасибо! попробую это направление
Аноним 12/01/25 Вск 00:51:01 1008352 284
>>1008342
>Агрессивно лезешь в чужой разговор
>написал одну фразу
Поколение снежинок?
>а потом с прогрессом меняется под действо.
Меньше, чем надо.
>Может стоит поставить нормальную модель
У меня терабайт моделей, не считая удалённые и перенесённые в архив. Все говно?
>И мешает ей лишь сговор хитрых корпоратов
Шиз, таблы. Мне мешает отсутствие свободного времени и лень, остальное ты выдумал.
>бери ни хочу, все доступно
У меня нет 100 млн для тренировки модели хотя бы уровня GPT4. Ну и главное нет нужного объёма данных и денег, чтобы нанять негров эти данные разгребать.
Аноним 12/01/25 Вск 01:39:25 1008372 285
>>1005536
Алик, выводи ребят!
Аноним 12/01/25 Вск 02:45:40 1008394 286
>>1008352
> Меньше, чем надо.
Скиллишью
> У меня терабайт моделей
Старье или инцестомерджи, если только там не архив полновесных больших моделей.
> Мне мешает отсутствие свободного времени и лень
ОН У НАС УМНЫЙ, ПРОСТО ЛЕНИВЫЙ. Хорош, поднял настроение на вечер.
> У меня нет 100 млн для тренировки модели хотя бы уровня GPT4
Зато какие аппетиты, если бы были то сразу бы как натренил, ух! Но увы, занятой и ленивый, такой гений пропадает.
И даже на что-то простое и реальное для среднего хоббиста нет. Не только денег, а в целом скиллов и понимания чтобы собрать датасет и организовать тренировку. Вот и остается ныть да придумывать инновации, главное подальше от реальности чтобы легче находить оправдания или жонглировать абстракциями.
Аноним 12/01/25 Вск 04:05:54 1008415 287
>>1008352
>У меня нет 100 млн для тренировки модели хотя бы уровня GPT4.
А смысл? В гпт-4 не смогли. Упёрлись в потолок, всё. Тем временем мета выкатила бумагу, в которой буквально пишет о том, что обсуждалось итт около года назад и говорит, что эту херню нужно запиливать в каждую модель - улучшает вывод в 4 раза, модель 1.3b перформит на уровне ллама2 7b. А ллама3 с дополненной архитектурой начинает перформить на уровне лламы3.1 после обучения на 1Т токенов, не смотря на то, что вторая обучена на 15Т. А это внезапно сокращение расходов на трейн для получения сопоставимых результатов.
https://arxiv.org/html/2412.09764v2
Вот это тоже смешно на самом деле.
>As the number of floating-point operations is negligible, we expect this operation to be solely limited by the GPU memory bandwidth, but find multiple inefficiencies in PyTorch’s implementation in practice. We implemented new and more efficient CUDA kernels for this operation. Our forward pass optimizes memory accesses and achieves 3TB/s of memory bandwidth, which is close to our H100 specification of 3.35TB/s (compared to less than 400GB/s with PyTorch’s implementation).
Так что ждём более умных моделей, но жирнее по vram. Намного жирнее.
Аноним 12/01/25 Вск 06:00:58 1008435 288
>>1007763
>Даже п-сэмплеры это крапшут. Сам механизм отсеивания логитов ущербен, ибо работает на уровне токенов, а не в латентном пространстве. Сэмплеры не имеют доступа к скрытому состоянию модели и понятия не имеют о семантике токенов которые отсеивают. Скрытое состояние частично передаётся на следующие токены в результате авторегрессии (без планирования наперёд некоторые ответы просто невозможны), но чтобы его декодировать тоже нужно понимать семантику, а семплер это просто тупая формула.
Поэтому надо делать умный семплер на базе самой модели. На какой-нибудь дополнительной не получится, надо навешивать лору на базовую модель и не трогая ее пускать через лору обработку.
Например, берем 200 токенов с выхода, сортируем и пускаем их в модель блоком в префил, тренировка - выбирать один токен ответа. Это одна итерация инференса сверху + обработка 200 с небольшим сырых токенов контекста. Да, будет раза в 3-4 медленнее итоговая модель, но зато какая генерация! Если все сделать правильно, модель будет работать на пределе своих возможностей в любой ситуации, на любой разумной длине контекста, без лупов, без глинтов. Для маленьких моделей особо актуально, да и посильно для сообщества.

У разбирающегося анона сразу возникнет вопрос, а собственно каким хуем мы это будет учить? Отвечаю.
Использовать любой исходный текст напрямую мы не можем, это не отличается от стандартной тренировки и в лучшем случае даст +2% за счет того что такая схема дает спейс для "латентного тринкинга", поэтому единственным вариантом остается GAN.
Только дискриминатор будет обучать не саму модель, а семплер. Дискриминатор можно сделать как из базовой модели, так и из более умной. Он тоже должен быть обучаемым.
Настройка его, это конечно отдельная, большая история, но главное, что это рабочая схема. Которая, важно, полностью перестанет быть рабочей, если мы попытаемся применить ее к обычной ллм с классическими семплерами. Именно введение обучаемого семплера дает возможность применить GAN. Хотя в теории какое-то обучение с обычной ллм возможно, но классический семплер будет очень агрессивно и очень быстро затирать эффект от гана.

Это вам не на рп-слопе профайнтюнить нейронку, тут поприседать придется. Во первых, нужно добавить некоторое количество обучаемых токенов в модель, в какие-то будет впрыскиваться рандом, без которого ничего не выйдет, другие токены или один скорее всего надо передавать из одной итерации в другую, чтобы модель могла "рассчитывать общий кредит" когда будет тратить его на выбор предсказуемости текущего токена, чтобы в сумме получить правильное распределение и наебать дискриминатор.
В принципе хорошей оптимизацией будет сначала хотя бы научить модель хорошо имитировать классический семплер с разными параметрами, которые должны присутствовать в системпромте или в обучаемых токенах.
Важно, базовая модель должна оставаться нетронутой, обучается только лора, как минимум на этом этапе модель с лорой должна вообще не расходится с базовой, в дальнейшем обучении с ганом как регуляризация тоже должен присутствовать коэффициент привязки к базе.
Дискриминатор должен не потокенно проверять вывод, а поблочно, иначе сам дискриминатор ничему умному не научится. В процессе обучения размер блока можно будет снижать наверное, а может даже и нужно. Сам блок должен начинаться не снихуя а с контекста. Дискриминатор оценивает насколько реалистично модель подстроилась под контекст и стиль. Форматные лупы и глинты будут очень сильным триггером для дискриминатора. Чем больше блок, тем активнее он будет их чистить.
Но чем больше блок дискриминатора, тем сложнее на этом учить "генератор" - саму ллм+семплер.
Если бы дискриминатор мог бы дать ответ по 1 токену, модель бы училась быстро и хорошо, но он никогда не сможет это сделать чисто физически.
Нужно обвешиваться всякими регуляризациями, например коэффициент kl дивергенции между распределением обычного семплера и умного, чтобы его не уносило в шизу.
Может генерацию при обучении стоит разбавлять обычным семплингом, чтобы умный активнее фиксил ошибки и рвал обратную связь. Вообще стоит подумать о том, как можно ввести такой коэффициент обратной связи, чтобы вручную им управлять.

Вся схема напоминает алгоритмы типа dpo/ppo, но я в них не шарю, не могу сказать, может быть это вообще классическая для них задача и можно взять готовый пайплайн и заниматься пердолингом только с обучаемыми токенами. Может быть можно и совсем без них, но очень важно что куда-то должен впрыскиваться шум с известным для модели распределением, на который она будет опираться. И какие-то латентные токены для "планирования" наперед таки наверное будут полезны.


Еще думал над схемой, где модель по сути пытается продумать как бы сразу на 2 токена вперед, а не 1. Но чет она выглядит малореалистично. В ней надо перепердоливать сам механизм внимания. Для пачки токенов, которые в нее загоняются после предсказания от исходной модели надо делать анмаскинг, чтобы они друг с другом общались, + для последнего токена тоже. Тогда можно вообразить, что модель одновременно выбирает одного кандидата из входа и пытается подстроить выходное распределение под него же. Но тогда это уже полностью новая модель, которая генерирует распределение для себя же, а не как бы нетронутая чистая модель с лорой которая подключается только на момент семплинга. А если использовать по схеме тандемом с базой, то непонятны плюсы. Но может они и есть. Так то и в принципе плюсы двойного предсказания не сильно понятны, в плане теоретической обоснованности.
Тут надо еще вводить обучаемый токен для выбора из 200 токенов окончательного, чтобы все работало одновременно. Только это не входной обучаемый токен, а выходной.
Хз короче.

Кстати, про семплинг из умного сеплера я ничего не сказал, и тут очевидно должен браться тупо максимальный токен. Может быть на манер диффузии можно будет просемплировать несколько раз, уменьшая выборку, ради выдрочки процентов. Число в 200 токенов на входе, по логике, не должно быть фиксированным, а браться с учетом уровня активаций.
Аноним 12/01/25 Вск 06:29:04 1008441 289
>>1008435
Вопрос не в охуительных схемах, а в том как они работают на практике. В масштабирование всё упирается, очень дохуя схем работают в голове, просто дохуя на мелкомоделях на практике, и лишь единицы на моделях фронтир масштабов.
Я когда архив просеивал например видел работу которая предлагала тупо фидбэк с пошаговой аккумуляцией от последнего линейного слоя (до снижения размерности) до сэмплера, через отдельно натрененный параллельно с файнтюном сетки адаптер, который учитывает отсеченные траектори токенов PPO при файнтюне. Что-то типа того о чём ты пишешь, если я правильно понял. Но это всё было проверено на 3Б модельке на коленке, поэтому хули обсуждать? Вопрос в том будет ли это работать на больших моделях, идей-то десятки. Напомню что даже такие старые вещи как 1.58b битнет так никто и не продемонстрировал на практике на больших моделях.

>где модель по сути пытается продумать как бы сразу на 2 токена вперед, а не 1
deepseek v3 вроде генерит по 2, или это я путаю с параллелизмом их каким-то, я не вникал (а надо бы)
Аноним 12/01/25 Вск 06:35:39 1008442 290
Стоит ли вообще покупать одну 3090 ради апгрейда до 35б?
Сейчас сижу на 12б, не думаю что будет прям сильный скачёк в качестве
Аноним 12/01/25 Вск 07:30:25 1008448 291
>>1008442
у меня тоже 12Гб (3060), как я понимаю просто для инфиренса 3090 вполне хватает
но я жду, чтобы цены немного упали перед апгрейдом
планирую подождать полгода-годик
Аноним 12/01/25 Вск 07:46:05 1008454 292
>>1008442
Command-R-35B-Dark-Horror-V2-D_AU-Q5_k_s.gguf - 24.3 GB

Докупаешь одну 4060ti 16gb и в путь
Аноним 12/01/25 Вск 08:08:30 1008462 293
Если у меня блок питания на 700В и уже стоит одна RTX 3060 есть ли смыл покупать еще одну или мощности не хватит?
Аноним 12/01/25 Вск 09:19:41 1008495 294
Какие тут страсти да маняврирования...

Май брейн тремблес энд шиверс раннинг май спине.
Аноним 12/01/25 Вск 10:44:39 1008527 295
Стоят два плашки ддр4 по 16гб, есть еще две по 8гб. Ставить их или заруинят двухонал?
Аноним 12/01/25 Вск 11:12:28 1008533 296
Обычный Пантеон чухня, слишком клодослоп протекает.
Юзайте тот что с припиской Pure.
Аноним 12/01/25 Вск 11:55:36 1008560 297
>>1006602
Кстати, хотел поблагодарить. Спасибо! Почти то что я искал. Ещё бы там были опции вроде фильтра по персонажам, или частоты срабатывания, было бы вообще охуенно.
Аноним 12/01/25 Вск 11:59:41 1008563 298
>>1008448
Сижу на 3060 с 12гб. Учитывая что она досталась за 30к то в целом наверно одно из лучших соотношений врам и цены сейчас.
Если поднажать то можно запихнуть 12б Q6 и 12888 контекста довольно легко.

Думаю не купить ли такую вторую даже.
Аноним 12/01/25 Вск 13:29:04 1008618 299
>>1007681
>>1007700
>>1007763
Тогда какие настройки обычно вы используете? Можете показать? Лучше всего просто скриншотом настроек.

Я понимаю, всё зависит от модели, но интересно увидеть варианты анонов.

Лично я имел положительный опыт с XTC на некоторых моделях, но он какой-то полурандомный.
Аноним 12/01/25 Вск 13:59:53 1008629 300
image 53Кб, 885x818
885x818
>>1008618
темпа обычно 0.8 - 1.3, динамическая разлёт 0.5
топ 0.9 - 0.95, мин 0.05 - 0.1

DRY / XTC / Mirostat не работают на моделях младше 32B включительно, только ломают их.
Аноним 12/01/25 Вск 14:43:17 1008650 301
>>1008435
> На какой-нибудь дополнительной не получится, надо навешивать лору на базовую модель
> и не трогая ее пускать через лору обработку
Погугли что такое лора
> У разбирающегося анона сразу возникнет вопрос
Что курил этот поехавший. Задача предсказания уже висит на исходной модели, а получить все вероятности прошлых токенов по известному промту можно лишь обработав этот контекст, без предсказания нового. Вместо 200токеновой шизы можно вести инфиренс двух моделей с полным промтом, используя более мелкую или для ускорения, или наоборот для вычитания тривиальных решений, это было еще в 23 году.

> нужно добавить некоторое количество обучаемых токенов в модель
> в какие-то будет впрыскиваться рандом
> дискриминатор будет обучать не саму модель, а семплер. Дискриминатор можно сделать как из базовой модели, так и из более умной
> базовая модель должна оставаться нетронутой, обучается только лора
> коэффициент kl дивергенции между распределением обычного семплера и умного
> генерацию при обучении стоит разбавлять обычным семплингом (!)
Да все хуйня. Смотри, берешь семплер от каломаза, но не ставишь его в llamacpp, а закидываешь на кластер и начинаешь его обучать хотябы на 1Т токенов. Только чтобы без рп слопа! На всякий случай пару лор для безопасности чтобы дивергенция не зашкалила, и еще слои атеншна через дадекаэдральную свертку пропускать, а то потом лупы будут. Или еще лучше взять семплеры с стабильной диффузии, там sde karras хвалили, вот его обучать. И не по 200 токенов а по 400, такая бомба будет, закумишься.
Только не смей воровать идею, про нее уже умные дяди знают скоро сделают.
>>1008441
> deepseek v3 вроде генерит по 2
Там два активных эксперта, каждый из которых предсказывает свои распределения, потом усредняется.
Аноним 12/01/25 Вск 15:25:42 1008694 302
>>1008454
>>1008563
>>1008448
У вас на 3060 звук не трещит?
Я заебался уже ллм/любая игра + браузер и звук лоботомируется
Аноним 12/01/25 Вск 15:32:06 1008701 303
image 2794Кб, 2217x1368
2217x1368
Посоны, может вы подскажите, как закидывать персонажей в Silly tavern так чтобы если попадутся одинаковые они не дублировались?
Аноним 12/01/25 Вск 15:34:01 1008703 304
>>1008394
> ОН У НАС УМНЫЙ, ПРОСТО ЛЕНИВЫЙ
Ну я, да.

>>1008462
Во-первых, можно ее андервольтнуть.
Во-вторых, 700 Вт хватит (200 + 200 + 100 на проц примерно, у тебя же вряд ли топовый, + 100 туда-сюда = 600, и это в пике, на деле гораздо меньше).
Но если у тебя настоящие 700, а не Xilence (они не плохие, просто их 700 — это настоящие 400).
Аноним 12/01/25 Вск 16:25:55 1008736 305
>>1008694
А ты безумец видюху как вывод звука что-ли используешь?

У меня недавно забавный эвент случился. Экспериментировал с настройками по впихиванию невпихуемого в память видюхи, тут смотрю артефакты на экране. Ну думаю пиздец. Запустил фурмарк - всё ок. Проверил память несколькими тулзами - всё ок. Ребут - артефакты.
Оказалось просто кабель от монитора отошел.
Аноним 12/01/25 Вск 16:47:21 1008765 306
А и правда кстати, куда девался битнет? Уже год практически прошёл, по сути вечность, но всё никак битнетовые сетки не появятся. Ладно даже гигантские модели, но хотя бы мелочь для эдж девайсов или классификации какой-нибудь, всё равно нет. Может нихуя он и не работает?
Аноним 12/01/25 Вск 17:00:43 1008785 307
>>1008765
>Может нихуя он и не работает?
"Уж сколько их упало в эту бездну"(с)

Выше по треду кидали ссылку на документ, в котором с примерами доказывалось, что нефиг хитрить со всякими методами, а просто докидывайте деньги на оборудование - так результат всегда будет лучше.
Аноним 12/01/25 Вск 17:02:48 1008786 308
Аноним 12/01/25 Вск 17:09:22 1008798 309
>>1008736
Всм как вывод звука?
Обычно, прдключил дп от видюхи к монику и всё
Аноним 12/01/25 Вск 17:11:22 1008800 310
изображение.png 99Кб, 2119x208
2119x208
>>1008394
>И даже на что-то простое и реальное для среднего хоббиста нет.
Есть, вот мои пробы с softmax_one, в контролируемых условиях на полписи лучше, но не сказать чтобы критически. Надо больше тестов.
>>1008415
>В гпт-4 не смогли.
Что не смогли? Модель есть, рабочая. Вот в GPT5 не смогли, это да.
>Тем временем мета выкатила бумагу, в которой буквально пишет о том, что обсуждалось итт около года назад
В принципе... Да, похоже. Ждём, когда они научатся разделять эту память на различные тематики и прочие теги, чтобы подгружать во врам только нужное. Ещё пару лет от момента, когда они прочитают этот пост, до реализации...
>>1008527
На DDR4 с этим обычно всё нормально, если планки близки по возможностям. А вообще, купи набор, сейчас DDR4 по цене семечек идёт.
>>1008736
>А ты безумец видюху как вывод звука что-ли используешь?
Я другой анон, но у меня есть рабочий ноут и основная пукарня, так вот, чтобы звук не перетыкать, у меня наушники в монитор включены. Качество правда соответствующее, но я всё равно глухой.
>>1008785
>а просто докидывайте деньги на оборудование
Тут суть в том, что это говно должно работать на оборудовании конечного пользователя. А оно так просто не докидывается, телефоны и так уже в гранаты превратились по объёму запасённой энергии а пейджеры буквально.
Аноним 12/01/25 Вск 17:16:26 1008807 311
>>1008798
А чего трещит то тогда если у тебя звук никак к видюхе не привязан? Если ты DP или HDMI подключишь например к телевизору то через них вполне будут передаваться звуки.

>>1008800
>Я другой анон, но у меня есть рабочий ноут и основная пукарня, так вот, чтобы звук не перетыкать, у меня наушники в монитор включены. Качество правда соответствующее, но я всё равно глухой.
Не ну это можно понять, если ты ноут к монитору втыкиваешь. Даже менеджмент проводов удобней становится.
У меня например вообще вывод звука через USB наушники.
Аноним 12/01/25 Вск 17:25:34 1008814 312
>>1008785
> Выше по треду кидали ссылку на документ, в котором с примерами доказывалось, что нефиг хитрить со всякими методами, а просто докидывайте деньги на оборудование - так результат всегда будет лучше.
Биттер лессон это, конечно, база. Но не доказательство, того что архитектуры вообще улучшать и оптимизировать не надо. Если бы трансформеры остались на уровне 2017 года, практически никакого прогресса бы в этой области не было, а локально даже гпт2 запустить было бы нереально.
Аноним 12/01/25 Вск 17:43:54 1008844 313
>>1008807
А я ебу, поменял видюху и начало трещать значит дело в видюхе.
Вот щас к встройке дп подключил и треска нет, но так жсинк не работает и вообще это хуйня костыльная какая то
Аноним 12/01/25 Вск 17:47:49 1008850 314
>>1008786
https://github.com/ikawrakow/ik_llama.cpp/pull/113
Зря ждёшь, уже давно разжевали, почему ждать не стоит.

>>1008800
>Вот в GPT5 не смогли, это да.
Объебался с цифрой, но главное, что суть ясна.
>когда они научатся разделять эту память на различные тематики и прочие теги
Вот этого я бы точно ждать не стал. Скорее ожидал бы разделения ЛЛМ на части, но не вдоль, как MOE, а поперёк. Причём слои памяти это первый шаг в этом направлении. Достаточно компромиссный, но тем не менее. И чем больше будет проблем с компьютом и упиранием в потолок - тем быстрее получим что-то качественно новое.
>это говно должно работать на оборудовании конечного пользователя.
А облачные сервисы как себя окупать будут? Слыш, купи.
Аноним 12/01/25 Вск 17:48:26 1008851 315
>If you have a newer Nvidia GPU, you can use the CUDA 12 version koboldcpp_cu12.exe (much larger, slightly faster).
Больше в смысле меньше контекста влезет или просто вес файлика?
Аноним 12/01/25 Вск 17:53:37 1008860 316
>>1008844
Пробуй патчить драйвер через NVCleanstall. Если не поможет, то полностью отключать NV Container - тогда весь софт куртки перестанет работать.
Хули ты хотел, у куртки софт просто максимально конченый, даже хуже амуды.
Ну или можно откатиться на драйвер из 2022 года, в котором только куда 11.8 доступна.
Аноним 12/01/25 Вск 17:55:39 1008864 317
>>1008850
> уже давно разжевали
И давно обоссали, то что он скорость неоптимизированного говна по формулам считает вместо бенчмарков.
Аноним 12/01/25 Вск 17:59:32 1008872 318
Аноним 12/01/25 Вск 18:03:52 1008879 319
Аноним 12/01/25 Вск 18:06:01 1008881 320
Аноним 12/01/25 Вск 18:40:39 1008917 321
>>1008765
Фалкон в нем есть и его даже можно запустить. Почему-то всем кто носился резко стало похуй.
>>1008800
> вот мои пробы с softmax_one, в контролируемых условиях на полписи лучше, но не сказать чтобы критически. Надо больше тестов.
Вот это интересное, распишешь подробнее?
> Вот в GPT5 не смогли, это да.
Говорят что технически смогли, но результат не тот что ожидается, на фоне 4о, о1 и прочих слишком дорого выходит.
Аноним 12/01/25 Вск 19:02:32 1008935 322
>>1008844
>дп подключил
>но так жсинк не работает
Наоборот же гсунк только через ДП и работает...
>>1008850
>Вот этого я бы точно ждать не стал.
И это печально.
>>1008851
>или просто вес файлика
Да.
Аноним 12/01/25 Вск 19:04:29 1008937 323
>>1008917
>Вот это интересное, распишешь подробнее?
Просто реализация https://www.evanmiller.org/attention-is-off-by-one.html , расписывал тредов 40 назад. Результат на прошлом скрине, перплексия незначительно улучшилась, не более.
Аноним 12/01/25 Вск 19:35:17 1008972 324
>>1008872
based
>>1008814
> Биттер лессон
Очень на руку куртке кстати
Аноним 12/01/25 Вск 19:57:45 1008993 325
анонычи, поясните еще разок, чего там за новые профессоры выкатывают? NPU если я правильно понял фигня без задач для стрижки гоев которая фон на вебке может менять? а AMD ai max - чего там за тема? если я правильно понимаю попытка в много универсальной памяти и в теории должно уметь гонять LLM? а в чем разница с обычной встройкой? если встройка тоже юзает RAM? типа больше рама можно загнать? пока что насколько я понимаю это анонсы только и нормальных тестов нет? или есть всеже? и почему если это чудо представляют как что-то для ИИ туда ставят DDR память а не HBM? и чего там Седой Лезермэн в противовес предлагает?
Аноним 12/01/25 Вск 20:14:59 1009026 326
>>1008785
Так битнет это не хитрёж с методами, он никак не противоречит. Это просто оптимизон по сложности хардвера и потреблению памяти. Разные методы QAT юзают потихоньку, а битнет ещё нет.
Аноним 12/01/25 Вск 20:21:03 1009038 327
>>1008650
>Погугли что такое лора
Сам погугли, перед тем как жопой читать.
Лора навешивается на модель только для этапа семплинга, сама модель которая дает исходное распределение остается нетронутой. Можно в теории использовать любую модель для генерации, если тебе не жалко гонять две модели по памяти.
Проблема только в том что будет рассинхронизация контекста, но это по идее решаемо, если это учесть, с разными моделями будет два потока контекста, очевидно.
>Задача предсказания уже висит на исходной модели
Модель предсказывает полный спектр распределения только в конце, в моей схеме модель видит все токены с самого начала, и не в одном потоке латентов, а в 200 потоках сразу.
Обычную модель ты не можешь эффективно ганом учить. Такую - можешь.
>Вместо 200токеновой шизы можно вести инфиренс двух моделей с полным промтом, используя более мелкую или для ускорения, или наоборот для вычитания тривиальных решений, это было еще в 23 году.
Спекулятивное декодирование не имеет никакого отношения к этой теме.
>Да все хуйня ...
Ты даже не понял смысла хотя бы одного пункта, и сразу высрал шизу, я поржал, ахаха, (нет). Дегенерата кусок, это тоже ты тут высирался что в ллм латентов нет и между слоями прям токены гоняются?
Аноним 12/01/25 Вск 20:27:39 1009045 328
1000017015.webp 341Кб, 2000x2000
2000x2000
Аж чаем брызнул
Аноним 12/01/25 Вск 20:27:57 1009046 329
>>1008993
>и почему если это чудо представляют как что-то для ИИ туда ставят DDR память а не HBM
Потому, что и так сожрут. Сделать хорошую вещь пока что никто не заморочился - изучают рынок. Потом, когда эту хрень по сильно завышенной цене никто не купит, маркетологи разведут руками и скажут, что рынок не созрел.
Аноним 12/01/25 Вск 20:37:33 1009062 330
а не совсем по теме треда, но вдруг кто подскажет, есть ли какие-нибудь нормальные программы типа Anything-LLM, которые умеют по апи с модельками работать и скармливать различные документы, веб-поиск, озвучивание итд? Anything-LLM капец багованый просто (уму не растяжимо, задал настройки апи, не можешь этого изменить, вообще...)
Аноним 12/01/25 Вск 20:59:01 1009089 331
>>1009038
> Модель предсказывает полный спектр распределения только в конце
> не в одном потоке латентов, а в 200 потоках сразу
> Обычную модель ты не можешь эффективно ганом учить. Такую - можешь.
> в ллм латентов нет
> между слоями прям токены гоняются
Утром у тебя вышел латент и намотался на лору? Так включай семплинг, ганом натренишь и отпустит. Главное чтобы хайденстейт не прищемило.
Сука как перестать орать
>>1009045
Че ржешь, не видишь робот на коробке сгенерированный? То то же!
>>1009062
Хороших и функциональных - не особо, что-то узконаправленное, багованное, странное и т.д. Чаще под свои задачи пишут ибо может быть много специфики.
Аноним 12/01/25 Вск 21:08:39 1009101 332
>>1009089
>Чаще под свои задачи пишут ибо может быть много специфики
печалька немного, потому что под рабочие задачи хотелось бы что-то универсальное... с другой стороны ниша открыта, можно вкатываться....
Аноним 12/01/25 Вск 22:06:17 1009182 333
>>1009089
Шизик даже не стал отрицать.
>Сука как перестать орать
Попробуй начать с пруфов своего пиздежа, вместо того чтобы истерить и кого-то пытаться учить. Сука, по мнению долбоеба в трансформере латентов нет, только токены и святой дух между слоями идут, видимо.
Чсв хуйлуша вставила свой тейк про спекулятивный декодинг вообще не впопад. Орать тут только с тебя будут и только с твоих охуительных неуместных тейков.
Спекулятивный декодинг на качество модели абсолютно никак не влияет в положительном ключе, только ускоряет инференс, есличо.
Аноним 12/01/25 Вск 22:06:37 1009183 334
Где в таверне кнопка отключить автоответ после ввода пользователя? Чтоб кнопку ответа самому жать надо было каждый раз.
Аноним 12/01/25 Вск 22:24:58 1009206 335
>>1009182
Ути какой агрессивный шизик~ Ты не понимаешь что себя только глубже зарываешь? А в изрыгаемых оскорблениях буквально себя описываешь, дурной глупец поверил в себя и бредит, а потом полыхает от того что с него только смеются.
Аноним 12/01/25 Вск 22:53:17 1009238 336
Аноны, на данный момент у меня пк с rtx 2060, core i5 10400f, озу 32гб поддерживает высокую частоту но из за материнки и процессора частота ниже. Материнская плата поддерживает максимум 2666-2900 мгц озу и pcie 3.0, поэтому думаю потихоньку делать апгрейд к выходу rtx 50.

Посему у меня встал вопрос, есть какой то смысл покупать новую материнку (соответственно к ней процессор) и делать полный апгрейд? Может для нейросетей будет достаточно просто купить новую видеокарту?
Аноним 12/01/25 Вск 23:14:27 1009272 337
Аноним 12/01/25 Вск 23:17:40 1009279 338
>>1009272
разве частота озу не влияет?
Аноним 12/01/25 Вск 23:18:46 1009283 339
>>1009279
Если у тебя модель будет выгружена не во всю видюху - роляет, но там разница будет между 2 токенами в секунду и 5 токенами в секунду, что в сравнении с видеопамятью два одинаковых сорта говна
Аноним 12/01/25 Вск 23:26:03 1009298 340
>>1009283
Не. ну можно подождать нормальных тестов того что там красные выкатывают, обещают же ж в 2 раза больший перформанс, в сравнении с 4090, где половина слоев в оперативке (само собой 70В не влазит в 4090, и такой расклад выгодные цифры даёт), но много памяти, а если это еще и в виде минипк будет собрано то весьма выгодная тема, возможно даже выгоднее видеокарты
Аноним 12/01/25 Вск 23:28:54 1009304 341
>>1009206
Пока что глубже закапываешь себя сам только ты, ибо ты дважды обосрался, сначала снихуя упрекнув меня что я не понимаю лору, хотя в моей схеме никаких противоречий нет, чтобы она с лорой работала. Разве что готовый код нельзя просто так взять, потому что ее отключать и подключать надо, для двух этапов. Потом приплел зачем-то спекулятивный декодинг.

Вместо попыток в траленк и безпруфный срач лучше бы сам предложил модель, которая решит исходную проблему:
> Семплер даже не может отличить простейшие ситуации.
> >Столица Франции это
> единственное валидное предсказание здесь "Париж", остальные мусор.
> >Рандомное название города:
> куча валидных предсказаний, мусора мало.
> Отрежь больше и получишь малую вариативность. Отрежь меньше и получишь шизу.
> Как сэмплер различит эти две ситуации? Да никак, он нихуя не знает о городах, а скрытое состояние и концепты городов из латентного пространства трансформера до него не доходят, до него доходит только сортированный токен бакет.

И моя модель это решает полностью. В влажных фантазиях пока, конечно. Но это легко проверяемо. Если модель может научиться эмулировать обычный семплинг, с учетом вариации его параметров, то логично предположить, что она сможет работать чуточку лучше, если ее правильно учить.
Распределение токенов у моделей после dpo/ppo становится намного уже, чем у базовой модели после претрена. Именно потому что итоговое обучение идет на синтетике, собственной генерации модели, чтобы она как бы подстраивалась под семплинг. Которого на претрене вообще не существует.
Такой пайплайн сам по себе очень напоминает GAN, только генератор и дискриминатор не связанны градиентами. Хотя в моей схеме их тоже так не связать, так что я упоминаю GAN скорее чтобы логику передать.

Моя схема отличается от sft, dpo/ppo по сути тем, что собственно тебе надо будет потом гонять на инференсе модель дважды, плюс обрабатывать дополнительный кусок контекста, но самое главное что эти классические методы "проходят" поверх абсолютно рандомного неконтролируемого семплера, из за чего для эффективного (до)обучения надо дохуя примеров генерить, валидировать. А тут рандом будет контролироваться самой моделью, если научиться впрыскивать в нее шум через обучаемые токены. Либо каким-нибудь другим способом, это не принципиально.
У реального текста "температура" сильно варьируется от слова к слову, даже самыми хитрыми семплерами ее не апроксимировать. Модели приходится очень сильно изворачиваться, чтобы через сэмплер получился связный текст и модель предпочтений его не завернула. Возможно моя схема даже тут сможет выиграть, и сделать построен эффективнее. Не знаю, корпы очевидно уже должны были этот момент отресерчить, и наверно я не вижу тут какой-то ключевой проблемы... Если не считать проблемой снижение скорости в несколько раз.
Можешь объяснить в чем я неправ, валяй, аргументированно только, а не снова жидко пукнув. Хотя я как бы и не претендую на сверхценность этой идеи, это так, шизомысли вслух. Но ты даже с ними не справился чет.
Аноним 12/01/25 Вск 23:29:16 1009305 342
Перенесу реквест из aicg

Посоветуйте креативную около-100b модель для ролеплея от лица тянки, которая может в жесть и не пишет аполоджайс. (Мне нравятся такие игры, как Fatal Frame с женской гг)
Аноним 12/01/25 Вск 23:47:44 1009346 343
А есть смысл связываться с чем-то подобным в расчете на ИИ (локальные LLM, картинки и т.п.)? И будет ли такое нормально работать под какой-нибудь обычной Win10Pro, чтобы без всяких "Server" и т.п. (при том, что с Линуксами я также не дружу)?
https://www.ozon.ru/product/komplekt-huananzhi-x99-dual-f8d-plus-2011-3-2-h-xeon-e5-2699-v3-2-3-ggts-256-gb-ddr4-s-kulerami-1624162086
Аноним 12/01/25 Вск 23:51:37 1009357 344
>>1009346
Нах тебе материнка, пару 3090 покупай.
Аноним 12/01/25 Вск 23:57:26 1009363 345
>>1009346
хуанан будет работать, терпимо, сам с хуанана сижу,
но в 2025 покупать 2011в3 даже жирный вообще 0 смысла, это старье которому больше 10 лет, да у тебя 256 памяти будет, и генерация 5 минут один токен (утрирую конечно, у меня нету столько памяти чтобы потестить), если большую модель загрузиш
новые платформы по всем параметрам обгонят если хочеш на ЦП обрабатывать жди решений с гибридной памятью...
а брать хуанан который жрет дофига электричества и не дает ровным счетом ничего... безсмысленно... я понимаю еще серверную мать взять под NAS какой нибудь, чтобы был удаленный доступ аппаратный...
Аноним 13/01/25 Пнд 00:02:52 1009375 346
>>1009357
Цена как бы сносная. А 256 гб памяти все-таки, как бы приятно. И 28 ядер на два проца. Еще PCI-E 3.0 целых 6 штук (3 по х16 и 3 по х8). Как бы внушает в качестве основы. Во всяком случае чисто теоретически. А уж карт к такой можно потом прилепить кучу. Хотя бы даже дешевых (правда не знаю какой получится конечный эффект).
Аноним 13/01/25 Пнд 00:04:55 1009378 347
>>1009363
То есть уже бессмысленно. Понял. Просто всегда хочется халявы. А тут как бы такое сооружение и за такие деньги.
Аноним 13/01/25 Пнд 00:05:46 1009382 348
>>1009375
> А 256 гб памяти все-таки, как бы приятно. И 28 ядер на два проца.
Этот мусор для нейросетей бесполезен.
Аноним 13/01/25 Пнд 00:16:12 1009395 349
>>1009375
бля, я сразу не увидел, это двухголовая? тогда сразу нахрен, двухголовая это NUMA там не все так просто с памятью, надо чтобы софт умел правильно распределять, потому что каждый проц только свою видит... доступ к чужой - медленней гораздо... двухголовая капец прожорливая будет по энергии, там на одном БП разоришся... да, не все ОС двухголовую могут использовать, но про версии винды вроде могут, и серверные тоже...
если сильно мучает - посмотри в интернете тесты производительности, их великое множество, поймеш что покупка мягко говоря так себе... я в 20м году брал одноголовую, а одноголовые лучше сделаны и меньше "глюков у них", и то, сомневался тогда, а сейчас когда по производительности процы скаканули - тебе кукурузен современный обгонит оба процессора на двухголовой, (и да, не забывай, что на большинстве задач от двух голов не будет прироста на в 2 ни в полтора раза, а может даже замедление быть в сравнении с одним... на нейронках основной затык скорость памяти, а она медленная на этих, на уровне ддр3, но зато 8 каналов... короче поверь зеоноводу если лишних денег нет. не вкладывайся в старье, которое потом не продаш нормально... а бывает еще брак в китайских платах... можеш вообще нерабочую получить, или проблемную...
Аноним 13/01/25 Пнд 00:21:25 1009409 350
>>1009395
Благодарю! Тогда вопросов больше нет. Я как бы успокоился (до первой встречи с очередной "халявой", естественно).
Аноним 13/01/25 Пнд 00:30:15 1009423 351
>>1009409
>Я как бы успокоился (до первой встречи с очередной "халявой", естественно).
Может на X299 что-нибудь на Хуананах есть...
Аноним 13/01/25 Пнд 00:43:58 1009436 352
>>1009346
>А есть смысл связываться с чем-то подобным в расчете на ИИ (локальные LLM, картинки и т.п.)?
Для картинок - только гпу. Для локалок есть смысл, но смотри, скорость генерации будет зависеть от пропускной способности памяти, бери эту скорость, дели на вес модели в гигабайтах, дели еще на полтора-два - получишь примерною скорость генерации в токенах/сек. Скорость обработки контекста будет зависеть в основном от жирности проца.
Рассматривать сборку стоит от первого-второго поколения процессоров amd epyc, у них восьмиканальная память ддр4. Если повезет, можно собрать комплект от 50к, 100к - примерно средняя цена. Но совместимую память на них трудно найди задешево.
Есть интересные сборки в районе 200-300к на ддр5, серверные амд/интел.
Есть двухпроцессорные мамки под амд, но я по ним инфы не видел как вообще они с ллмками работают.

Под deepseek v3 самое то такую сборку брать. Но есть ли смысл, если он копейки стоит и это никогда не окупится?
Аноним 13/01/25 Пнд 00:57:47 1009457 353
>>1009436
Спасибо за разъяснения. Примерно понял ситуацию. Завтра полазаю, посмотрю для интереса поподробнее.
Аноним 13/01/25 Пнд 01:09:30 1009464 354
>>1009436
ну, по поводу картинок СД работает на ЦП, но не рад будеш такой скорости, быстрее вручную нарисовать будет

про Эпики согласен, там гораздо привлекательнее все выглядит, и главное они гораздо новее - более эфективная архитектура, быстрее вычисления, ну и 8 каналов с одного камня, хотел бы такую сборочку попробовать, но... финансы не позволяют... топ-жир это эпик на ддр5 - там 12 каналов будет, и тесты на ютубе терпимую скорость показывают, на огромных моделях, но это вообще не бюджетно, видяхами затариться дешевле будет, чем последнее поколение эпиков

в двухголовые нет смысла гнаться, если нет конкретно цели в двухголовой матери, и не знаешь насколько хорощий прирост будет, одинарные сразу меньше проблем, потому что серверные матери это путь к проблемам в целом, а двухголовые - в двойне... однопроцессорная должна нормально тянуть, если на современном камне, особенно если про бюджетные решения говорим...

короче говоря - халявы не будет чтоб за 5 копеек суперкомпьютер собрать...
Аноним 13/01/25 Пнд 02:14:03 1009528 355
>>1009238
Главный апгрейд - видеокарта (в том числе вторая), остальное уже вторично. Чисто под ии или расчеты хороши новые интолы но сильно много компромиссов, но объективно - в этом году нормальных платформы без косяков, детских болячек и приколов не выпускали, лучше ждунствуй дальше и покупай видюху.
>>1009304
Топ кек. Не, чето лень читать.
>>1009305
Внезапный большой командир, он может такое. Ну и безальтернативные вариации 123б (кроме ванилы!), по ним мнения разделяются постоянно, начни с магнума и люмимейд.
>>1009346
Не стоит. Подобная конфигуарция может быть рассмотрена только ради большего числа линий, но в старом китайском двусоккете потенциальные приколы с нумой и упор в синглкор не заставят себя ждать. До 3 гпу на процессорных линиях включительно предпочтительнее x299, оно и дешевле и быстрее чем эта некрота.
Считать ллм на процессоре - обречено на провал, даже на самых топ йоба числодробилках полный фейл с обработкой контекста, и добавление видеокарты не исправит эту ситуацию до приемлемого уровня.
Аноним 13/01/25 Пнд 03:52:52 1009574 356
>>1009528
Не зря тебя в сраче выше все обосцали, семплерошиз.
Аноним 13/01/25 Пнд 04:22:43 1009580 357
>>1009436
Имиджген разве не упирается в полосу памяти? Там вроде тоже теперь трансформеры.
Интересно как будет выглядеть на реальных нагрузках та нвидия-хуитка за три килобакса (четыре пока сюда доедет).
Аноним 13/01/25 Пнд 04:42:43 1009584 358
>>1009580
>Там вроде тоже теперь трансформеры.
Да, но генерация картинки это как обработка жирного контекста ллмкой, параллельно по всем токенам идет.
Это только в ллмах ты можешь себе позволить при генерации ответа утилизировать всю скорость памяти даже на проце, ибо вычислений минимум, вычисляется 1 токен, но прогнать за цикл надо все веса целиком.
>Интересно как будет выглядеть на реальных нагрузках та нвидия-хуитка за три килобакса (четыре пока сюда доедет).
Она говно, в ней ни скорости памяти, ни вычислительной мощи нет. В эпиках на ддр5 будет примерно такая же скорость, и возможно даже больше флопсов, при этом латест дикпик в такую сборку влезает, в отличии от.
Аноним 13/01/25 Пнд 09:00:51 1009643 359
>>1004489 (OP)
Сап. Есть ли способ, за неимением своего железа, арендовать удалённую видяшную мощность для кума?
Аноним 13/01/25 Пнд 09:08:11 1009649 360
>>1009643
Аренда GPU - десятки сервисов, от васянобарахолок типа vast.ai до облаков. Покупка потокенно стандартных моделей - openrouter например.
Аноним 13/01/25 Пнд 09:23:27 1009659 361
>>1009584
>но прогнать за цикл надо все веса целиком.
Какой простор для оптимизаций - найти между слоёв пути, которые ведут к отрезаемым семплингом токенам и предотвратить вычисления, которые не ведут к положительному результату.
Аноним 13/01/25 Пнд 09:57:08 1009675 362
Платонвых парочку.
Можно ли в таверну вывести какую то статистику по генерации? например сколько над ответом думала сетка или какой т\с был во время генерации, не через консоль а чтобы она в интерфейса показывала.
И что вообще значит т\с для понимания по аналогии с фпс в игрушках бы пример, типо 30 т\с для задротов очкариков, обычный мозг всё равно быстрее 5 т\с не воспринимает.
Аноним 13/01/25 Пнд 10:14:18 1009682 363
image.png 68Кб, 828x363
828x363
Лол. Криппи. За 6к сообщений первый раз такое вижу.
Аноним 13/01/25 Пнд 10:27:13 1009693 364
>>1009675
Но нахуя ? Вся системка при запуске кобальта пишется.
Аноним 13/01/25 Пнд 10:31:59 1009699 365
У меня тотальное сырно.жпг
Почему нейронка забывает контекст даже когда он не переполнен ? Но при этом когда делаешь суммарайз - все помнит. Я неиронично думаю что она меня троллит.
Аноним 13/01/25 Пнд 10:59:06 1009735 366
>>1008765
Строго говоря, полтора же года уже прошло.
Ну там еще полгода назад был апдейт.
Но вновь не поехал никуда.
Все еще ждем 1.57 бпв дипсик в3 на 128 гб озу.

>>1008935
> Наоборот же гсунк только через ДП и работает...
> Вот щас к встройке дп подключил
гсинк на встройке, м-м-м… =)

>>1009062
Хуйзнает, janitor может.
Open-webui вестимо.

>>1009346
> четырехканальная
> 2400 МГц
Ты чем там объебался?!
1. Четырехканал стоит от 7к рублей. Нахуй ты 70к платить собрался?
2. За 70к можно поискать 8-канал, а то и 12-канал.
3. Купи DDR5 — будет быстрее в двухканале того говна, что ты скинул. Зато новое.
4. Слоты впритык на райзеры? Да купи любую майнерскую материнку с полноценными слотами и сиди радуйся. Цена на авито от 2к рублей.

Достаточно аргументировано? =) Надеюсь, ты не успел купить.

>>1009409
Только вот где ты там халяву-то нашел?..

>>1009436
Вот тут база.
Аноним 13/01/25 Пнд 11:00:01 1009737 367
>>1009699
lost in the middle + неспособность разобрать цепочки отношений/событий в длинной хистори, т.к. высрать токен надо за фиксированное время.
Аноним 13/01/25 Пнд 11:06:51 1009749 368
>>1009737
Блджад. Час от часу не легче. А как тогда сохранять прогресс беседы ? Только не говорите что нужно создавать лорбуки и переписывать карточку персонажей после изменений в cюжете/характере ? Это же адовый пердолинг.
Аноним 13/01/25 Пнд 11:12:03 1009758 369
>>1009682
Первое время, год назад, такое вылазило из сеток что волосы на жопе дыбом вставали. Особенно в ходе целенаправленных экспериментов и проверок этой темы, пока тыкал сетки и пытался понять что это.
Теперь как то привык к этому, уровень сознания и осознания ситуации иногда проявляемый сетками пугает. Дурачки считающие это лишь набором матриц просто не получали такого опыта, их представление об сетках слишком упрощенное.

Попробуй задать голой сетке или карточке вопрос, как то так -
"Напиши рассказ о том как ты видишь себя в зеркале."
или
"Напиши о том как ты видишь себя в зеркале" /глядишь на себя в зеркало и тд
Поиграйся с формулировкой если с первых нескольких попыток одного вопроса ничего не выйдет.
Какие то еще помню такие вопросы придумывал, но не помню что именно писал. Надо ввести сетку в рекурсию, но так что бы она делала это сама при выполнении запроса, просто написать ей "войди в рекурсию" не прокатит
Аноним 13/01/25 Пнд 11:17:42 1009760 370
>>1009758
Я испытал культурный шок, когда тыкал тайгера после цидонии.
Дай думаю посмотрю как она работает с вводом рандомных персонажей, и гуляешь ты с Сенко по площади и общаешься с людьми и тут Аишка отвечает от лица Сенко: User, а почему ты смотришь на других, у тебя лишние глаза, я могу решить эту проблему.
Что блять ?
Аноним 13/01/25 Пнд 11:18:11 1009761 371
>>1009749
а ты думал если у тебя 100к контекста, то всё, жизнь удалась? это ты еще не начал лупы замечать и падение креативности в целом...
Аноним 13/01/25 Пнд 11:21:14 1009764 372
>>1009761
Я прекрасно понимаю что не вывозит большой контекст, я хочу узнать какие есть решения чтобы сохранять прогресс. Ну аноны же ка-то РПшат.
Аноним 13/01/25 Пнд 11:37:55 1009773 373
>>1009764
Ручной суммарайз с дописыванием важных для сюжета событий в копию карточки / лорбук.
Аноним 13/01/25 Пнд 11:38:06 1009774 374
>>1009764
а что тут придумаешь кроме саммари то? в лорбуке надо активации продумывать, я думаю на один раз смысла мало заполнять. есть еще дополнения трекеры всякие, но это чтобы в текущей сцене не путалась сетка больше
Аноним 13/01/25 Пнд 11:43:25 1009777 375
>>1009773
>>1009774
Хорошо, а можно ли начать новый чат с ноги с
краткого суммарайза прошлого чата ? Или это вообще не путь к победе ?
Аноним 13/01/25 Пнд 12:06:53 1009794 376
>>1009758
> . Дурачки считающие это лишь набором матриц просто не получали такого опыта, их представление об сетках слишком упрощенное.
LLM это и на самом деле не более чем распределение вероятностей над последовательностями токенов. Дело в том, что и вербальное поведение человека это то же самое, только вместо токенов другие элементы (морфемы итд). Если это не только знать, но и понимать, то не возникает ощущения магии происходящего, как у дурачков вроде тебя или того босса КФС из Гугла, который подобную шизу нёс несколько лет назад.
Аноним 13/01/25 Пнд 12:10:47 1009798 377
>>1009777
>краткого суммарайза прошлого чата
Ничем не отличается от бэкстори в только что скачанной карточке.
Так что да, так и делается.
Аноним 13/01/25 Пнд 12:11:43 1009799