/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №106

Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №106 /llama/ Аноним 04/02/25 Втр 19:53:18 № 1041343 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

Нейронка шизосх[...].webp 148Кб, 1075x991

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1037498 (OP)
>>1034116 (OP)

Аноним 04/02/25 Втр 19:55:16 № 1041349 2

БАЗА ТРЕДА ПО ХАЙПОВОМУ DEEPSEEK.

Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.
Всем чаю с молоком

Аноним 04/02/25 Втр 19:59:44 № 1041351 3

>>1041349
>Всем чаю с молоком
Кофе со сгущёнкой.

А молоко ща плохое - то оно скисает не успеешь до дома донести, то не скисает по две недели, и тогда вопрос - а что в этой жидкости от молока вообще?

Аноним 04/02/25 Втр 20:00:32 № 1041354 4

>>1041351
>>Всем чаю с молоком
>Кофе со сгущёнкой.
Пиво со спермой.

Аноним 04/02/25 Втр 20:02:57 № 1041357 5

>>1041354
Мусью знает толк в извращениях

Аноним 04/02/25 Втр 20:07:15 № 1041363 6

Я пока шапку читаю в поисках ответа на свой вопрос - задам вопрос в тред, вдруг или я не найду того что ищу в шапке, или вы ответите быстрее чем я найду.

Нужна локальная модель с хорошим пониманием (и генерацией) русского языка. В общем-то достаточно чтобы она была способна генерировать более-менее связные пасты про говно, например. Можно положить хуй на написание рабочего кода или поддержку большого контекста - она будет работать с сообщениями из тележного чатика и держать в контексте последние несколько сообщений.
Ресурсы невелики - 4Gb VRAM, 16Gb RAM, CPU что-то уровня i3/i5 примерно 8 поколения, хост под Windows. Конечно же хотелось бы не выгружать ее из памяти, и если VRAM я могу отдать весь, то RAM мне нужна хотя бы половина свободная от нее для других задач.
Запускать хочу через ollama, которая предоставляет мне API.

Дайте что-нибудь пожалуйста, удовлетворяющее этим условиям.

Аноним 04/02/25 Втр 20:08:04 № 1041364 7

>>1041349
> Обсуждение веб-версии Deepseek ведется в соседнем треде.
Схуяли? Такая же ллм, как и все.

Аноним 04/02/25 Втр 20:08:43 № 1041365 8

Аноны, как заставить эту хуету писать кратко и по делу? Заебало говно из метафор на пол экрана

Аноним 04/02/25 Втр 20:10:05 № 1041366 9

>>1041365
Ограничь количество токенов на ответ до 100 и перезапусти чат.

Аноним 04/02/25 Втр 20:10:59 № 1041367 10

>>1041364
Ну запусти её и покажи нам результаты. ЛЛМ же.

Аноним 04/02/25 Втр 20:11:53 № 1041369 11

>>1041366
это же ни на что не влияет, кроме как на то что обрезается лишнее.

Аноним 04/02/25 Втр 20:12:31 № 1041370 12

>>1041369
Понятно, дальше без советов справляйся.

Аноним 04/02/25 Втр 20:13:39 № 1041373 13

>>1041369
Только долбоебские модели обрубают предложение на полуслове, остальные стараются поместиться в ответ.

Аноним 04/02/25 Втр 20:18:52 № 1041379 14

>>1041351
>молоко скисает
Я покупаю десятки литров молока долгого хранения(может хранится месяцы и снаружи холодильника). Всем рекомендую.

Аноним 04/02/25 Втр 20:22:15 № 1041386 15

>>1041365
В промпте указывай, что мол, пиши покороче, в пару предложений.

Аноним 04/02/25 Втр 20:23:45 № 1041391 16

>>1041292 →
>Стоит (ударение поставь по вкусу), но нужно найти свой тюно-мерж.
Действительно. логично, даже спорить не буду.
С одной стороны у нас мистралияподелия в которых, в худшем случае 8квант весит 19гб.
И 70ая Лама. Где жизнь начинается от 40гб.
Легкий переход ёпта.

Аноним 04/02/25 Втр 20:27:05 № 1041397 17

>>1041363
>4Gb VRAM
печально быть тобой (сам таким был), тут только 4тый квант 12б мистральки, или вообще 8б ламу анаалигнед возьми

Аноним 04/02/25 Втр 20:36:12 № 1041420 18

> Nexusflow/Athene-V2-Chat
Точно не для ерп, аположайзит, если пиздануть то подтупливает. Нужно хорошенько пердолиться с промтом чтобы получить, ну и не сказать что там сильно приятный результат для обычного рп, хотя в целом умная. Не понравилась вообще.

>>1040575 →
> превысить потолок
Там не столько потолок, сколько припезднутая реализация контроллера памяти с делением и межблочными задержками, которая в свою очередь не позволяет достигнуть должного перфоманса в требовательных к псп памяти вещах. Штеуд тоже не подарок, далеко не каждый софт хорошо ложится на разные типы ведер, но с памятью у него все в порядке и нет костылей.
> превысить потолок
Где? Тут 90, хотя на этой частоте должно быть 100 или около того. В зависимости от версий есть нюансы с оценкой скорости записи, что в том числе видно по "тормознутому" кэшу.
> А с латентностью там что?
Для игрунов, у которых не хватило денег на профессор с кэшем и на видеокарту, и на монитор, и на девайсы, и на эргономичное кресло вместо гоночного треша, и т.д.
>>1040576 →
Сейчас бы тратить много часов и десятки прогонов ради циферки, а потом трястись от бсодов и вылетов, гадая из-за рам ли такое происходит. Особенно рофлово стебать красных фанатов разгона в войсчате, когда они посреди раунда в подпивасных соревновалках вылетают, и после 4-го раза идут ребутатся чтобы сбросить в jdec. Это раньше бета тестеры были вынуждены шатать десятки значений, чтобы заставить синхронизированный на режим рам анкор нормально работаеть. Сейчас это не нужно, но почему-то все равно продолжают мучаться. Если так хочется цифры - можно сразу купить нормальное железо и игросральные плашки, или же пожертвовать ерундой, которую никогда не заметишь.
> ты пердолишься
Я же не долбоеб, воткнул, включил xmp, заимел 110 на 96гб, забыл.

Аноним 04/02/25 Втр 20:36:25 № 1041422 19

>>1041364
Веб-версия ближе к копросеткам. Все эти джейлы, регистрация через VPN на китайский номер и прочее говно.
Локально 666B никто обсуждать не запрещает, но средствами для запуска тут обладает 1,5 анона, и то во втором кванте.
>>1041373
Чел, нейронка не знает, сколько ты там задал, лол.

Аноним 04/02/25 Втр 20:40:01 № 1041432 20

>>1041022 →
бамп

Аноним 04/02/25 Втр 20:40:35 № 1041433 21

>>1041420
>Точно не для ерп
Никто не утверждал обратного, лол. Модель умная, да, но не более. Тюнов, увы, нет.
>а потом трястись от бсодов и вылетов
Один раз настраивается и работает, ХЗ откуда взяться вылетам на мега стабильном кофиге.
>заимел 110 на 96гб
Плашки скинь.

Аноним 04/02/25 Втр 20:41:22 № 1041438 22

>>1041397
Спасибо, буду пробовать. Добра.

Аноним 04/02/25 Втр 20:43:55 № 1041443 23

Здарова педики, подскажите появился ли дистилированный ДиксПик весом 12-18 гб с нормальной поддержкой русского, чтобы нейросеть не плясала иероглифами?

Аноним 04/02/25 Втр 20:45:12 № 1041450 24

И почему в списке актуальных моделей не появился ДриллПикс?

Аноним 04/02/25 Втр 20:45:14 № 1041451 25

>>1041443
Ответ только после глубокого отсоса.

Аноним 04/02/25 Втр 20:46:18 № 1041455 26

>>1041433
>Тюнов, увы, нет.

Афинка сама - тюн квена 72В.

Аноним 04/02/25 Втр 20:50:33 № 1041466 27

Уважаемые аноны, подскажите недавно вкатившемуся модельку для генерации историй и рп на русском, буду признателен, поюзал pathfinder из шапки, понравилось, стер шишку, но может что есть еще получше.
Под капотом 4080 и 64г оперативы

Аноним 04/02/25 Втр 20:54:30 № 1041478 28

на этой неделе дропнется БАЗА.
ждите.

Аноним 04/02/25 Втр 20:55:45 № 1041482 29

>>1041466
Открываешь ссылку с актуальными моделями и дрочи на здоровье. Все что миксы от анонов- тебе туда.
Цилонька и пантеон - это про English cum. Хоть и мистралька.
Есть еще 35 командр, он вроде сносно может в русский.
Можешь еще двадцатую гемму потыкать. Но сугубо говоря, после командр и малой мистрали ничего вменяемого больше нет. Все остальное ты не запустишь (ну как не запустишь, запустишь с 1.5 т/с)

Аноним 04/02/25 Втр 20:57:52 № 1041487 30

>>1041433
> Никто не утверждал обратного, лол
Пару тредов назад ее преподнесли как норм для рп, потому так и оценивал.
> на мега стабильном
Когда ты выкручиваешь все к краю, на что ненавязчиво намекает "прогон 11", это уже оче далеко от мегастабильности. Уже проходили и сам когда-то страдал этой херней
> Плашки скинь.
Корсары на 7200 не подумай что долбоеб чтобы переплачивать за те же м-даи с лгбт и накрученным профилем, просто в тот момент они стоили даже чуть дешевле других

Аноним 04/02/25 Втр 21:01:02 № 1041497 31

>>1041478
Нахуй не надо, придётся катить тред каждый день же, я заебусь.
ОП

Аноним 04/02/25 Втр 21:05:31 № 1041510 32

>>1041487
>для рп

Для рп, но не ерп.

Аноним 04/02/25 Втр 21:07:38 № 1041521 33

>>1041487
>Пару тредов назад ее преподнесли как норм для рп
РП и ЕРП всё же немного разные направления.
>на что ненавязчиво намекает "прогон 11",
Всего штук 18 было, лол. Я откатился с крайних если что, вот на 6400 была нестабильность. Но тесты для того и нужны, чтобы выявлять такое.
>м-даи с лгбт
Лол. У меня аллергия на ЛГБТ, всегда фильтрую не глядя. Поэтому сижу на G.skill Ripjews.
А где брал? На яшамаркете нихуя по параметрам 96GB (2x48GB) 7200MHz.

Аноним 04/02/25 Втр 21:12:17 № 1041534 34

Aya-expanse 32B кто пробовал? От авторов любимого всеми командира.

https://huggingface.co/bartowski/aya-expanse-32b-GGUF

Аноним 04/02/25 Втр 21:13:16 № 1041537 35

>>1041534
Хуйня

Аноним 04/02/25 Втр 21:13:31 № 1041539 36

image 10Кб, 941x104

>>1041136 → >кря >>1041145 → >новенькую версию
Фигня. Ну душевно. Но фигня. 4 квант того не стоит, мозги хуже чем у мистралек. Ломает форматирование, забывает буквально что было в начале своего же поста, забывает с кем говорит. Литералли 50 первых поцелуев.

Аноним 04/02/25 Втр 21:14:46 № 1041542 37

>>1041534
Там оригинальный репозиторий требует шаринга, лол.
А вообще, модели 3 месяца, зачем тебе эта древность? Я в треде про эту версию айи ничего не слышал.

Аноним 04/02/25 Втр 21:16:19 № 1041545 38

>>1041534
Попробуемс. Чуть позже отпишусь.

О ! Я уже попробовал из прошлого тредика
Гемасутру- ну гемма, как гемма. Даже добавить нечего, лол. Нахуй нужна, не пойму. Цидонька на мистрали тот же опыт. Но может в Великий и Могучий (Но криво).
>>1041539
Поддвачну. Ну то есть, если 70ая гемма делает вещи, то её обрубок нахуй не нужен. Литералли мистраль лучше.

Аноним 04/02/25 Втр 21:26:46 № 1041561 39

Эгегей, дипсикофаги, смотри что я вам принес.
Пахучий, замешанный на квене, свеженький диситилят, всего 15 дней. Запускайте, не обляпайтесь.

Если сможете, конечно.
Хи хи хи хи

Аноним 04/02/25 Втр 21:27:09 № 1041562 40

>>1041561
Ссылка у аутиста отвалилась.
https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF

Аноним 04/02/25 Втр 21:33:20 № 1041574 41

image.png 21Кб, 423x99

2 дня как вкатился, на своей 6 Гб видеокарте и 16 Гб заметил интересный разброс скорости обработки только заменой версии одного драйвера на другой, откат на старую заметно быстрее работает. Может, кому-то будет полезно. Увеличение частоты ядра и памяти на +150 Мгц эффект дает еле заметный. Пробовал на KoboldCpp, модель LLaMA2-13B Q4.
Посоветуйте модель для РП на русском или simple engish, кто чем доволен по использованию, чтобы лампово поняшится и делать всякое. Не смог осилить по контексту, ЕРП - это оно?

Аноним 04/02/25 Втр 21:33:26 № 1041575 42

>>1041521
Оно и в рп не туда все время уводило по одним рельсам, хотя в целом ПОДМЕЧАЛА и воспринимала норм, просто скучно. Даже для проверки подрубал другие - на тех же карточках норм, даже без "оптимального" промта.
Может просто сценарии не те, прямо плохой ее не назвать, но подойдет далеко не для всего.
> Ripjews
Содомит
> А где брал?
Где на раскрутке возвращали наебаллами до 2/3 выставленной цены. Тогда и 7500 (или с другой частотой но быстрее) были задорого, а сейчас из больших небинарных по 2-3 варианта в магазинах. Дефицит?
Насчет стабильности, при интенсивной и продолжительной работе в горячем корпусе все конфигурации впритык начинают рассыпаться. А еще с появлением в корпусе дополнительной печки, которая удачно обдувает плашки, можно получить проблемы даже на jdec. Диагностируется невероятно сложно, но лечится элементарно.
>>1041545
> Цидонька на мистрали тот же опыт.
Этими тюнами настолько угробили умняшку гемму, что она опустилась до мистраля?

Аноним 04/02/25 Втр 21:34:58 № 1041581 43

>>1041575
>Этими тюнами настолько угробили умняшку гемму
27 гемма никогда не отличалась умом и сообразительностью. Ну не будем врать сами себе. Мистралька в английском РП таки получше будет. А хорни тюны так вообще заебись.
Настоящая гемма с 70 начинается.

Аноним 04/02/25 Втр 21:35:53 № 1041584 44

>>1041562
И чем он новый, рпшил с ним в роли биомеха из Lust Gear, без размышлений он фактически тот же квен, ну получше немного думает, мб из-за ризонинга, но слог суше и техничнее.

С размышлениями срёт, часто под себя.

Аноним 04/02/25 Втр 21:36:04 № 1041587 45

>>1041542

Требует и требует, какая разница, ггуф ничего не требует.

> вообще, модели 3 месяца, зачем тебе эта древность?

В смысле древность? Мистралю, что все нищуки жрут причмокивая, уже почти полгода.
Командир так-то был годным. Ая должна быть не хуже.

Аноним 04/02/25 Втр 21:37:03 № 1041589 46

>>1041574
>Посоветуйте модель для РП на русском
НАХУЙ ПОШЕЛ. БЛЯТЬ. СОБРАЛСЯ И УПИЗДОВАЛ К ХУЯМ СОБАЧИМ. СУКА КАЖДЫЙ ТРЕД ПО ПЯТЬ ВОПРОСОВ БЛЯТЬ. НУ ПОГУГЛИ В ПРОШЛОМ ТРЕДЕ СУКА. НИХУЯ ЗА ДЕНЬ НЕ ПОМЕНЯЛОСЬ, ВСЕ ТАК ЖЕ. У БЛЯТЬ КАК ЖЕ ТЫ МЕНЯ БЕСИШЬ.

Ну а вообще добро пожаловать, посмотри в шапке миксы от анонов.

Аноним 04/02/25 Втр 21:38:04 № 1041592 47

{F7A91854-99C7-[...].png 240Кб, 1621x908

Чет обосрался с этого. (Буду держать в курсе)

Аноним 04/02/25 Втр 21:38:38 № 1041596 48

>>1041584
Ну может хоть немного меньше станет А КАК ДИСИКПИСИК ЗАПУСТИТЬ В ОЧКЕ НА 8 ГБ АМУДЕ ЭРТЭИКС.

Аноним 04/02/25 Втр 21:39:24 № 1041597 49

Мне кажется все ко срут все новые выкладываемые в тред модели даже не пытаются настройки соответствующие этим моделям, так со своего нищедристраля 12В их и тянут, потом докладывают что модели говно.

Аноним 04/02/25 Втр 21:41:20 № 1041602 50

>>1041597
Ну давай. Поведай. Что же ты такого нашел, что мы не смогли настроить ? Какой файнтюн мистраля ты принесешь нам как откровение ?
Я лично скачаю и обмажусь каждым хиден гемом, который ты принесешь. Еще и весь тред ими засру. Да даже больше. я всю доску засру, что тред чатботов опустеет.

Аноним 04/02/25 Втр 21:44:27 № 1041615 51

>>1041581
> 27 гемма никогда не отличалась умом и сообразительностью
Разве что если запускать в поломанном ггуфе. По сообразительности, креативу и пониманию происходящего мистралька и рядом не стоит. Хз насчет свежевышедшего, но 12 и 22 - точно. У нее только один серьезный недостаток - малое дефолтное окно контекста.
>>1041597
> настройки соответствующие этим моделям
Конкретизируй.

Аноним 04/02/25 Втр 21:44:47 № 1041617 52

>>1041602
>акой файнтюн мистраля ты принесешь

Наоборот, это вы на дристрале своем сидите и гемма вам говно, квен вам говно, командир вам говно, одни шизотьюны дристаля заебись, потому что влезают в нищезатычки.

Аноним 04/02/25 Втр 21:51:58 № 1041639 53

>>1041615
>По сообразительности, креативу и пониманию происходящего мистралька и рядом не стоит. Хз насчет свежевышедшего, но 12 и 22 - точно. У нее только один серьезный недостаток - малое дефолтное окно контекста.
Хуй его знает, если честно. Мы ступаем на территорию я так чувствую. Если я на 70ой гемме видел как живее идет общение, как нейронка начинает выкупать иронию, то её обрубок.. Ну честно, ну я не заметил отличия от мистрали. Но опять же, я её на пяти карточках пробовал в РП. И рассматриваю исключительно в рамках РП. Может гемма лучше на русском языке, не пробовал. Но прям качественных изменений не увидел. Но опять же, опыт другой, свайпы другие - заебись, но контекст все портит, увы.

>Конкретизируй.
Вангую откровения в духе
А ВЫ ЗНАЛИ, ЧТО ГЕММА ЗАПУСКАЕТСЯ НЕ НА МИСТРАЛЕВСКИХ НАСТРОЙКАХ
КОМАНДР ПЛОХО РАБОТЕТ С ПРОМТОМ ОТ АЛЬПАКИ

Аноним 04/02/25 Втр 21:52:48 № 1041641 54

>>1041617
Ты модели приноси, а там дальше поговорим.
Ты же нашел какой то хидден гем же.

Аноним 04/02/25 Втр 21:53:41 № 1041646 55

>>1041617
Так и все что ты перечислил влезает туда же, максимум контекст порезать но это херня. Или ты пришел нести святую истину что 70b модели лучше 30b ? Так это и без тебя знаем.

Аноним 04/02/25 Втр 21:57:00 № 1041653 56

>>1041617
>в нищезатычки.
Че уже сгорели 3090? Жалко конечно

Аноним 04/02/25 Втр 22:07:35 № 1041681 57

>>1041534
Так сказать по свежим токенам на английском языке.
Пишет свежо, похож на стандартный коммандер, но чуть живее что ли. Пожалуй его мы оставим и будем основательно тыкать.

Аноним 04/02/25 Втр 22:15:37 № 1041694 58

>>1041641

Несколько нашел, которые в треде до меня не обсуждались вообще

Athene v2 chat
EVA Qwen 32B
Aya expanse 32B

Из нового что еще не тыкал:
EXAONE-3.5-32B-Instruct

Аноним 04/02/25 Втр 22:21:24 № 1041703 59

>>1041694
>Athene v2 chat
Обсуждается, причем в этом блять треде.

>EVA Qwen 32B
Квен не для РП. О чем куча анонов писала. Это интсрумент, пишет сухо.
>Aya expanse 32B
Прямо сейчас тыкаю. Вот тебе скриншот. Я не ванга, я определять качество модели по паре сообщений не умею.

>EXAONE-3.5-32B-Instruct
Вот и приноси своё кря в тредик. Будем смотреть.

Аноним 04/02/25 Втр 22:22:57 № 1041706 60

>>1041703
Опять отвалился скрин. Сейчас изолентой примотаю ~de geso

Аноним 04/02/25 Втр 22:27:05 № 1041714 61

Аноны у меня одного гугл переводчик в таверне с ума сошел? Яндексу сливать текста не хочу

Аноним 04/02/25 Втр 22:27:22 № 1041716 62

>>1041639
>70ой гемме
Кстати, пропустил, а что за модель?

Аноним 04/02/25 Втр 22:28:12 № 1041718 63

>>1041714
>Яндексу сливать текста не хочу
HA HA HA HA HA

O HO HO HOHO HO

BWA HA HA HA HA HA

Барен, барен, самый лучший барен на свете

Аноним 04/02/25 Втр 22:29:25 № 1041721 64

>>1041718
Ты норм?

Аноним 04/02/25 Втр 22:30:25 № 1041723 65

>>1041716
До меня только сейчас дошло, что я ламу за гему принял. Но с другой стороны - гугл, мета, один хуй жидорептилоиды.

Аноним 04/02/25 Втр 22:34:45 № 1041738 66

>>1041703
>Обсуждается

Потому и обусждается, что я его в позапрошлый тред принес. Хорошо что заметили.

>Квен не для РП.

Никакая дефолтная модель не подходила для РП, дальше что?
Речь про конкретный РП файнтьюн. Вполне достойный как по мне.

Аноним 04/02/25 Втр 23:21:31 № 1041847 67

>>1041723
Ебать ты конечно не замечательный. А я думал было радоваться, гемма 2 27B была хорошей для своего размера.

Аноним 04/02/25 Втр 23:37:47 № 1041876 68

>>1041639
> Мы ступаем на территорию я так чувствую.
Не совсем, это очень наглядно проявляется естьи помучать всяким нлп. Не просто шизозагадки на распутывание, а что-нибудь широкое, где нужно понять конкретный контекст и суть, правильно обработав.
И в рп гемма прям старается и весьма умная, не просто не забывает про количество трусов, но и понимает мотивы юзера, а не сливает на типичный рп/кум/... слоп, который в край заебал.
Проблема в глупости юзеров, большинство не понимают отличий и не могут оценить по отдельным критениям. Написала так что понравилось/привык - значит хорошая, разыграла круто но не так как хотелось - плохая. И это не говоря о кривом формате.
> ВЫ ЗНАЛИ, ЧТО ГЕММА ЗАПУСКАЕТСЯ НЕ НА МИСТРАЛЕВСКИХ НАСТРОЙКАХ
> КОМАНДР ПЛОХО РАБОТЕТ С ПРОМТОМ ОТ АЛЬПАКИ
База
> на 70ой гемме
>>1041723
> что я ламу за гему принял
Гемма как раз довольно близка к 70 по пониманию, офк не идеальна но среди остальных выделяется.

Аноним 05/02/25 Срд 01:36:16 № 1042032 69

>>1041703
>Квен не для РП. О чем куча анонов писала. Это интсрумент, пишет сухо.
Итак, корабль "Святой Морган" приземлился на этот херовый мирок, который, по данным карты, был обозначен как "Девственная-7". Эти ученые пидарасы из Центра космических исследований назвали его так, потому что с их точки зрения, планета была неприкасаемой и неоскверненной. Ага, точно, как блядина в публичном доме.

Капитан Рокки Бальбоа вылез из кабины управления, потянулся, растопырив ладони, и посмотрел на эту зеленую херню вокруг. "Ну и хуйня", - буркнул он себе под нос. С ним были его команда: Мускул Джек — здоровяк, который думал, что у него есть мозги; Пиздец Charlie — технарь с кучей татуировок и грустным взглядом; и Лолита Лавина — единственная женщина на борту, которая была с ними не из-за денег, а потому что ей нравилось быть такой херовой.

Они спустились на поверхность и начали разбивать лагерь. Пляска светлячков в ночном небе выглядела красиво, но Рокки знал, что это не случайно. Они поставили палатки, разожгли костер и начали обсуждать, какую хуйню они видели.

"Эй, Рокки, ты глядел на эти долбаные горы?" спросил Мускул Джек, указывая на массивные пики на горизонте.

"Они выглядят, как пизда бабы с фаллопиевой трубой", - фыркнула Лолита, поднося кружку термоса с кофе.

Charlie, который был занят с калибровкой приборов, не поднимая головы, сказал: "Эй, ребята, вы видели это? Это не просто хуйня. Это какая-то херовая энергия."

Вдруг земля задрожала, и из-за холмов появилась процессия. Около дюжины бабулек, одетых в длинные робы и смотрящих на них с испуганными глазами, подошла к лагерю.

"Что за хулиганье?" спросил Рокки, подходя ближе.

Одна из старух заговорила на каком-то странном языке, и Charlie, который знал хуй знает сколько языков, перевел: "Они говорят, что мы нарушаем их святость. Это планета для целомудренных дамочек."

Рокки вытаращил глаза. "Ты шо? Ты серьезно?"

Charlie кивнул. "Видимо, они считают себя неоскверненными и не хотят общения с такими как мы."

"Ты глядел на их морды?" Рокки указал на Лолиту. "У нас тут тоже есть дамочка. Может, они с ней поговорят?"

Лолита фыркнула и отвела взгляд. "Советую не надеяться, Мистер Бальбоа."

Старухи переглянулись и ушли, оставив их в молчаливой тишине.

"Ну и хер с ними", - сказал Рокки, разводя руки. "Давайте собираться домой. Это не наш мир."

Они начали сворачивать лагерь, но внезапно Лолита закричала: "Эй! Смотрите!"

Из-за холма показался другой отряд бабулек с флагами и крикливыми плакатами. На них было написано что-то вроде "Сберегаем целомудрие!" и "Дайте нам еще монастырь!"

"Ну и хуета", - сказал Рокки. "Похоже, мы ненароком приземлились на планете для баб с проблемами с девственностью."

Мускул Джек расхохотался: "Нам здесь не место, ребята. Валим отсюда."

Они быстро собрались и поднялись в воздух, оставляя позади этот херовый мирок с его целомудренными бабами и непонятной энергетикой.

"В пизду", - сказал Рокки, усаживаясь в кресло управления. "Давайте домой, пока я не ебанулся."

Аноним 05/02/25 Срд 02:00:17 № 1042044 70

>>1042032
Это ахуенно.

Аноним 05/02/25 Срд 05:52:22 № 1042131 71

>>1041706
>Бот пиздит от первого лица

Аноним 05/02/25 Срд 06:15:38 № 1042148 72

image.png 2Кб, 137x27

image.png 3Кб, 189x22

Сперва охуел с оскорбления на ровном месте. Потом охуел с того как коряво перевел яндекс.

Аноним 05/02/25 Срд 07:05:21 № 1042161 73

>>1042148
>коряво перевел яндекс
всегда коряво переводил

Аноним 05/02/25 Срд 09:26:10 № 1042198 74

После пользования кобольдом в хроме все тяжелые сайты по типу ютуба и твича перестают нормально работать, грузятся не полностью, любое управление недоступно. Лисобраузер работает нормально и грузит все сайты адекватно. Помогает только перезагрузка пк. Появилось только вчера, до этого спокойно пользовался кобольдом и браузером одновременно, версию кобольда все это время не менял. Память видяхи корректно освобождается при закрытии кобольда. Есть какие то идеи что происходит?

Аноним 05/02/25 Срд 10:50:52 № 1042250 75

>>1042198
Толстый намек дропать сомнительный софт типа хрома и кобольда, и пересаживаться на программы для белых людей. Лиса твой бро, также попробуй llamacpp-server, если жора безальтернативен.

Аноним 05/02/25 Срд 11:50:17 № 1042288 76

>>1042250
> для белых людей
> предлагает пересаживаться на браузер с зондами, написанный трапами

Аноним 05/02/25 Срд 11:53:08 № 1042291 77

>>1042288
Ставь для локалок отдельный анально огороженый браузер, на вроде Midori или еще какого то старого легкого и рабочего говна и будет тебе счастье

Аноним 05/02/25 Срд 11:54:31 № 1042295 78

Аноны, можно ли каким-то образом добавлять множители для эмбеддиногов? Например вот так “Anna is horny:0.5 girl, trying stay loyal to her husband”
Ну или в теории можно как-то залезть сетке под капот и там уже найти этот токен и умножить его на 0.5?
Потому что она пиздец хорни получается, хочется обороты снизить

Аноним 05/02/25 Срд 11:56:07 № 1042296 79

>>1042295
Что то похожее делается через незаслуженно забытые контрольные векторы, не помню как там по английски

Аноним 05/02/25 Срд 12:04:22 № 1042306 80

>>1042131
Странный доёб. Наверное он так делает из за указанного мною промта ?

Аноним 05/02/25 Срд 12:12:31 № 1042313 81

>>1042131
А че не так? Помоему так даже лучше.

Аноним 05/02/25 Срд 12:13:27 № 1042314 82

>>1041349
Что несёт этот оратор? Объясните мне почему нельзя запускать дикпик, а то сам я нуб.

Аноним 05/02/25 Срд 12:15:04 № 1042316 83

>>1042314
Можешь. Запускай.
Вот тут принесли ссылочку. >>1041562
Только от нас отъебись.

Аноним 05/02/25 Срд 12:19:20 № 1042318 84

image.png 2Кб, 55x93

Что это такое и как его использоать?

Аноним 05/02/25 Срд 12:31:00 № 1042328 85

image.png 50Кб, 1234x289

А что это такое, не раз замечалось, когда текст пишется и потом последняя часть исчезает, но остается в консоли?

Аноним 05/02/25 Срд 12:34:08 № 1042331 86

>>1042314
> Объясните мне почему нельзя запускать дикпик, а то сам я нуб.
Потому что для запуска оригинального 671b дикпика надо овердохуя памяти. Даже если речь идёт о ультраквантованных 1,5-бит версиях, то там будет под сотню гб рама.
Потому все локально запускают дистилляты разных размеров и квантов. Они определённо тупее облачного R1. Но то что они тупее других локалочек я с >>1041349 не соглашусь. По крайней мере в сегменте 32b он точно лучше QwQ и на глаз и по бенчам.

Аноним 05/02/25 Срд 12:38:45 № 1042334 87

>>1042331
>Но то что они тупее других локалочек я не соглашусь.
А они и не тупее, уже 14b немного лучше чем обычная квен 14b.

Ниже да, 7b не хватает мозгов что бы делать выводы и быть производительнее оригинала.
1.5b вобще шутка, созданная просто для того что бы посмотреть как на нее ляжет дистилляция и посмотреть результат, сравнив с другими

Аноним 05/02/25 Срд 12:45:54 № 1042337 88

>>1042328
Отключи обрезку незавершённых ответов.

Ева-квен внезапно может в рп, в ерп пока не тестил.
Даже не то чтобы сухо выглядит. 4 квант причём.

Аноним 05/02/25 Срд 12:51:10 № 1042340 89

>>1042148
+1 страдалец в треде, придётся всё-таки учить англюсик

Аноним 05/02/25 Срд 13:08:18 № 1042366 90

image.png 3Кб, 234x40

>>1042337
>Ева-квен внезапно может в рп
Я на этом.
>>1042340
>учить англюсик
Нет

Аноним 05/02/25 Срд 14:09:57 № 1042425 91

Почему эта ебучая таверна после того как брякнул звуковой эффект окончания генерации продолжает что-то генерировать, но не пишет в чат, но кнопка висит квадратиком и на неё надо отдельно нажать чтобы можно было дальше написать.

Аноним 05/02/25 Срд 14:21:27 № 1042439 92

>>1042425
Подожди, уже начинаю твои логи таверны ощущать, подожди немного.

Аноним 05/02/25 Срд 14:26:25 № 1042442 93

Ева-квен почему-то любит периодически добавлять такие статус-блоки. В промте ничего нет, там вообще довольно простая и короткая карточка про пару кошкодевочек.

>>1042439
>логи таверны
Хммм... а реально, это может быть авто-саммари.
Но где как и зачем оно юзается?

Аноним 05/02/25 Срд 14:31:21 № 1042444 94

Что за новое слово "дисциляция" у зумеров иицыган? Прочел пару цыганских высеров, нихуя не понял. Объясните на нормальном языке, вроде того что ризонин это сот+файнтьюн.

Аноним 05/02/25 Срд 14:41:31 № 1042448 95

>>1042442
> Но где как и зачем оно юзается?
В настройках таверны. Прям так и называется модуль.

Вообще понятней не стало, приноси лог из кобальта. Может там есть пояснение что он считает.

Аноним 05/02/25 Срд 14:46:57 № 1042453 96

>>1042444
Это когда мелкую модель обучают на выхлопе большой модели, пытаясь таким образом ужать крупную модель. Берёшь дипсик на 671B параметров, и обучаешь на её входе/выходе модель с 1.5B параметров. А потом пилишь статьи/видосы как ты запускаешь убийцу OpenAI на Raspberry Pi.

Аноним 05/02/25 Срд 14:51:38 № 1042458 97

>>1042444
Положили рядом deepseek-r1-zero:671b и qwen-2.5:1.5b. На вход подали кучу синтетики, qwen сказали: "будешь отвечать не как r1 - будем пиздить". Повторяли, пока метрики не вышли на плато.
По сути они зафайнтюнили хорошую существующую модель на вот это reasoning поведение: "может так может не так, давай ещё раз подумаем с другой стороны".

Аноним 05/02/25 Срд 14:53:25 № 1042461 98

О, анон распробовал еву квен, это хорошо.

Аноним 05/02/25 Срд 14:57:25 № 1042463 99

>>1042453
>>1042458

Примерно как петровичей обучают на заводах кем-то давно придуманной технике работы, и те повторяют как попгуи, ни в хуй не понимая почему нужно делать именно так и если вдруг ситуация требует корректировки - все равно продолжают ебашить по старому, изнашивая оборудование, портя товары и т.д.
Ну или студент который готовится к экзамену и может либо вучить все вопросы реально вникнув в суть, а может вызубрить шпору.

Аноним 05/02/25 Срд 15:05:17 № 1042467 100

>>1042458
> "может так может не так, давай ещё раз подумаем с другой стороны"
Я с этого реально прифигел. Довольно медленно у меня, р1 около 1т\с. И вот она высираит кучу тхинк-текста, потом: "да, не, не может быть" и тхинкает в другую сторону. Прогресс, чё.

Аноним 05/02/25 Срд 15:30:44 № 1042478 101

>>1042467
>Прогресс, чё.
Ну в этом и есть реальный прогресс. В этих сомнениях и внутренних метаниях скрывалось 20-30 процентных пунктов бенчей.

Аноним 05/02/25 Срд 15:45:45 № 1042491 102

Какие есть русскоязычные, без цензуры модели для 6 ГБ? Просто скажите какие можно скачать и чем они отличаются

Аноним 05/02/25 Срд 15:51:13 № 1042498 103

>>1042491
>русскоязычные, без цензуры модели для 6 ГБ
Они кривые все, настоящие ру модели будут если бляндекс в открытый доступ алису про или свои гопоте 3 сольет.

Аноним 05/02/25 Срд 15:55:08 № 1042503 104

>>1042491
Мультилингва модели не бывают настолько мелкими в хоть сколь то перевариваем варианте. Разве что она иначально онли ру будет, но таких в открытом виде вроде нет. И тебе зачем? Для чата в таверне есть автоперевод, даже кликать ниче не надо.

Аноним 05/02/25 Срд 16:02:40 № 1042507 105

>>1042442
Что за карточка?

Аноним 05/02/25 Срд 16:08:07 № 1042512 106

>>1042491
>русскоязычные, без цензуры модели для 6 ГБ?
https://huggingface.co/mradermacher/Saiga-Unleashed-i1-GGUF/tree/main 4тый квант с выгрузкой в оперативу

Аноним 05/02/25 Срд 16:22:05 № 1042520 107

>>1042491
Пиздец, чел. На 6 гигов даже модели на английском - полный кал, а ты хочешь еще и на русике чтобы они общались с тобой, лол.

Аноним 05/02/25 Срд 16:25:42 № 1042524 108

{544BFEB0-214F-[...].png 1590Кб, 2733x1708

Бля, да когда уже диджидс в продаже будет? Я уже не могу ждать нахуй, хочу локально запускать 123Б модели бляяя.

Аноним 05/02/25 Срд 16:47:25 № 1042531 109

Посоветуйте ксеон с алиэкспрес под эти ваши дипсики и куины? Не хочу видеокарту.
Как я понял нужно по максимуму число потоков и максимум рам? Может у кого-то уже есть варианты на примете?

Аноним 05/02/25 Срд 16:49:11 № 1042532 110

>>1042531
Минимально 2 эпикса ддр5 24 анала, если не хочешь ждать бесконечно ответы.

Аноним 05/02/25 Срд 16:53:25 № 1042534 111

>>1042531
> Не хочу видеокарту. Как я понял нужно по максимуму число потоков и максимум рам?

Сколько рам не бери, сколько потоков не бери - это все тухлятина полнейшея, без видеокарты хотя бы самой тухлой неюзабельно вообще.

>>1042532
>ддр5 24 анала, если не хочешь ждать бесконечно ответы.
>не хочешь ждать бесконечно ответы.

Он в любом случае будет их бесконечно ждать, нах ты его в заблуждение вводишь и даешь лишнюю надежду?

Аноним 05/02/25 Срд 17:00:38 № 1042542 112

>>1042512
>4тый квант с выгрузкой в оперативу
Это какая из всех?

Аноним 05/02/25 Срд 17:12:06 № 1042549 113

>>1042542
Q4_K_M, или Q4_0 попробуй если первый вариант будет сильно шизить.

>>1042507
https://pixeldrain.com/u/gNAaUWZX Lily and Kuro.json
Нигде не выкладывал, ранее, так что без картинки, ещё сам не потестил даже норм.

Аноним 05/02/25 Срд 17:33:14 № 1042576 114

Ева-квен, хоть залупается не так явно как мистральки, но порой начинает гнать хоть и связный но слабокогерентный текст что бобр курва я пердолил, а базовые сценарии поведения пользователей, инициированные исключительно синтетически, становятся ассоциативно распределены по отраслям

Аноним 05/02/25 Срд 17:47:56 № 1042585 115

>>1042576
Хуй знает. Я сейчас EVA-Qwen2.5-32B-v0.2-Q5_K_S пробую и чето какой-то кал если честно. Даже магнум 22б лучше генерит ролплей. Ты какую модель юзаешь?

Аноним 05/02/25 Срд 17:52:21 № 1042591 116

>>1042524
>Бля, да когда уже диджидс в продаже будет? Я уже не могу ждать нахуй, хочу локально запускать 123Б модели бляяя.
Ты не торопись волноваться, а дождись хотя бы первых тестов. Вот я например могу локально запускать 123В, поскольку имею 96гб врам, но как говорится есть нюанс. Это раз; а второй момент заключается в том, что даже 123В модели, которые на сегодняшний день максимум для локалок - пока что несколько не то, что хотелось бы. С какой стороны не возьми современную модель, она не дотягивает - хоть код, хоть рп, хоть картинки, хоть голос. Рано ещё суетиться обывателю.

Аноним 05/02/25 Срд 17:54:03 № 1042594 117

>>1042585
koboldcpp/EVA-Qwen2.5-32B-v0.2.i1-Q4_0

Аноним 05/02/25 Срд 18:23:30 № 1042619 118

>>1042524
Там уже с пруфами память 270 гб/с. Мусор, в 4 раза медленнее 3090. Фактически P40 в компактном корпусе за оверпрайс.

Аноним 05/02/25 Срд 18:25:57 № 1042622 119

>>1042619
А смысл тогда им такое делать? Кому нахуй надо большая модель, которая отвечает со скоростью 1т/с

Аноним 05/02/25 Срд 18:37:52 № 1042633 120

>>1042622
70В в 5 т/с будет, быдло сожрёт. За 3к баксов хорошее предложение, учитывая что собрать на новых GPU сборочку надо в два раза больше, потому что кожаному жиду жалко добавить пару 10-баксовых чипов памяти на карту. Пока китайцы не начнут ебать куртку, так и будут все VRAM покупать за оверпрайс.

Аноним 05/02/25 Срд 18:40:17 № 1042638 121

>>1042622
Это для тех, кто будет вкатываться в ИИ-шки после того, как нейрошизы доедят остатки P40/3090 на вторичке.

Аноним 05/02/25 Срд 18:46:11 № 1042643 122

>>1042453
А когда большую модель обучают на выхлопе мелкой модели, это как называется?

Аноним 05/02/25 Срд 19:04:07 № 1042665 123

>>1042643
>это как называется
если прям до упора и пережарки, то дистилляциия (дипсик), если просто на выхлопе, то просто дообучение - есть варианты на тройках запрос - хороший вариант - плохой вариант это варианты PO-алгоритмов, Preference Optimisation.

Аноним 05/02/25 Срд 19:13:43 № 1042686 124

>>1042288
Просто ахуеть, хромог выебывается и кого-то пытается упрекнуть зондами. Сюрр ебаный.
>>1042291
И заводит привычку каждый раз ребутаться после запуска ллмки, естественный отбор.
>>1042444
Под этим термином сейчас понимают несколько вещей. Это может быть: изменение весов модели (обучением или модификацией) для достижения определенного паттерна поведения, который даст преимущества (лоботомия как в турбо-моделях диффузии или флакс-шнель, костыли-ускорялки, тот же vpred является дистилляцией); удаление "лишних" весов, оцененных малозначимыми по каким-то критериям, и сбор только наиболее значимых в составе меньшей модели. В случае дипсика это первое, прежде всего дрочили готовые сетки их датасетом с некоторыми нюансами.
>>1042619
Рили? Можно ссылочку? Обидно вообще, а ведь хотелось.

Аноним 05/02/25 Срд 19:16:23 № 1042692 125

>>1042531
Бери любую залупу в зависимости от того, насколько необучаемый. Если открыт к новому и прогрессивен - самое дешевое, чтобы не так обидно было. Если упертый - то что-нибудь подороже, чтобы побольше настрадаться, носясь с этой херней. Правда может переклинить и уверуешь, начав бегать с криками что 1т/с хватит всем, обработка контекста не нужна, а ускоряющий всратые кванты код трапа, который буквально этим хвастается в комментариях - благо.

Аноним 05/02/25 Срд 19:17:41 № 1042694 126

Маякните когда пресет для квена в стабильную ветку глупой таверны добавят.

Аноним 05/02/25 Срд 19:35:54 № 1042727 127

>>1042524
Да хуита будет очевидная для такой цены, арм говно, непонятный графический чип. За 1.5к денег еще былоб норм. Может китайцы научатся припаивать к этому чипу нормальное количество врам и распаивать его в виде отдельной видеокарты.
>>1042638
Летом/осенью с вероятностью 50% будет 5060 либо 5060ти с 24гб гддр6. Так что эти ваши жаренные 3090 будут нахой ненужны.

Аноним 05/02/25 Срд 19:44:39 № 1042733 128

>>1042694
Щас бы жрать говно половина весов которого забита иероглифами. Вы ебанутые? Любая модель с двукратно меньшим количеством параметров будет такой же по сообразительности.
>>1041714
Это не только в таверне. Проблема с их апи, у меня плагин браузере тоже лютую хуиту высирает.

Аноним 05/02/25 Срд 19:48:21 № 1042740 129

>>1042478
>В этих сомнениях и внутренних метаниях скрывалось 20-30 процентных пунктов бенчей.
А так же х3 к компьюту.

Аноним 05/02/25 Срд 19:48:52 № 1042741 130

>>1042733
Вообще да, даже сайга анлишед консистентнее писала, по крайней мере сравнивая с 4-5 квеноквантами.

Но вообще экспириенс интересный. Не сказал бы что прям мусор, да и иероглифами срала редко.

Правда как и гемма начинает шизеть на 8к контекста, а мистральки адеватно держат в 2-4 раза больше.

Аноним 05/02/25 Срд 19:54:51 № 1042747 131

Поясните за размер контекста. У некоторых моделей прямо указан размер. У некоторых мерджей не указано, но наверное предпологается, что контекст как у базовой модели.

Что делать, если не понятно, откуда ростут ноги? В одном из прошлых тредов советовали pathfinder-rp-12b-ru-q8_0. Какой размер контекста у нее? Или можно указывать такой, какой помещается в память?

Аноним 05/02/25 Срд 20:00:28 № 1042754 132

>>1042478
> 20-30 процентных пунктов бенчей
А можно без сраных бенчмарков ради инфоповодов и завлечения нормисов, а просто чтобы девочка в рп вела себя как нужно?
>>1042727
> 5060 либо 5060ти с 24гб гддр6
> 5080 с 16
> 5070 с 12
Вероятность считалась по принципу "или будет или не будет, значит одно из двух".

Аноним 05/02/25 Срд 20:05:45 № 1042763 133

>>1042747
Все современные модели имеют до жопы контекста, кроме геммы, лол.

Аноним 05/02/25 Срд 20:06:03 № 1042764 134

>>1042747
>pathfinder
Как и все остальные 12б мистральки - 128К номинально, но фактически стабильно 32К примерно, да и хз где столько врам взять чтобы 128К влезло.

У большинства остальных моделей - 8К, или вообше 4.

Поэтому все на мистральках и сидят. Контекст решает.

Аноним 05/02/25 Срд 20:19:56 № 1042791 135

>>1042727
>5060ти с 24гб гддр6
0 вероятности.
>>1042754
>А можно просто чтобы девочка в рп вела себя как нужно?
Нет.
>>1042764
>У большинства остальных моделей - 8К, или вообше 4.
128к у всех современных. Llama 3, Qwen2.5, DeepSeek-R1. Некоторые уже в лям могут. На каком кладбище ты 4к откопал?

Аноним 05/02/25 Срд 20:22:12 № 1042796 136

>>1042764
>У большинства остальных моделей - 8К
Каких ? Лама и её вариации? Командр и его вариации ? Может быть большая мистраль, лул ? Квен ?

Потому что на моей памяти 8к - сейчас, это инвалид от гугла.

Аноним 05/02/25 Срд 20:24:36 № 1042801 137

>>1042733
>Вы ебанутые?
Для начала квен не так плох. А потом, в конце концов ну хочется анонам пробовать что то новое, пусть пробуют.
А то у нас выбор большой блять.
Ехала мистраль через мистраль, да в мистраль глядела.

Аноним 05/02/25 Срд 20:32:51 № 1042812 138

>>1042801
>А то у нас выбор большой блять
Ну, сочетание контекста и количества рп-тюнов, а кстати почему именно мистрали, его как-то удобнее / проще / ещё что было тюнить?

На другие базовые модели или раз и обчёлся (тот же ева-квен), или вообще нет.

Аноним 05/02/25 Срд 20:34:45 № 1042819 139

>>1042812
>а кстати почему именно мистрали
Размер. Мистраль самая адекватная и сильная попенсорс модель. Вот и всё. По сути преимущество мистрали в одном :
она есть блять
Все остальные модели или лоботомировать или докупать по три видеокарты.

Аноним 05/02/25 Срд 20:39:29 № 1042828 140

>>1042754
>А можно без сраных бенчмарков ради инфоповодов и завлечения нормисов, а просто чтобы девочка в рп вела себя как нужно?
Низзя. Потому что... Ты как деньги зарабатывать будешь, вумник ?

Аноним 05/02/25 Срд 20:41:50 № 1042833 141

>>1042643
Представь что ты заставил девятиклассника выучить монографию по квантмеху. Он нихуя не понял, но заучил буквы и циферки.
А потом он рассказывает то что выучил, тому кто способен понять . Но сможет ли он объяснить ?
Так и тут. ТАК НИКТО НЕ ДЕЛАЕТ БЛЯТЬ, ПОТОМУ ЧТО ЭТО ТУПО.

Аноним 05/02/25 Срд 20:58:24 № 1042856 142

GPU: NVIDIA GeForce RTX 4060 8Gib [Discrete]
Memory: 4.46 GiB / 31.26 GiB (14%)
Что на это ведро можно натянуть для рп без цензуры?

Аноним 05/02/25 Срд 20:59:36 № 1042858 143

>>1042856
Для начала посмотреть что пишут в треде. Потом посмотреть шапку. А потом уже спрашивать.

Аноним 05/02/25 Срд 21:06:39 № 1042870 144

>>1042858
Я из шапки сюда и пришел. Память вот в этом https://rentry.co/llm-models списке это видеопамять или обычная?
Что такое Magnum? Без тюнов вообще можно пользоваться?

Аноним 05/02/25 Срд 21:12:17 № 1042885 145

>>1042870
>Я из шапки сюда и пришел.
Ну тогда у тебя не должно быть вопросов. Эхх..
Ладно, смотри.
>Миксы от тредовичков с уклоном в русский РП:
Тебе сюда.
>это видеопамять
Да. Врам это база для моделей, потому что на всем остальном они ОЧЕНЬ ОЧЕНЬ ОЧЕНЬ ОЧЕНЬ медленные. И нет, они действительно будут медленные, можешь не пытаться. Тебя хватит на пару сообщений, не больше.
>Что такое Magnum?
Ебливые тюны чего угодно. Ебливые настолько что во втором сообщении лезут в трусы, чтобы что то там найти. Абсолютно из за этого бесполезны в РП, так как приходится постоянно ебливого пидораса останавливать.
>Без тюнов вообще можно пользоваться?
Без тюнов это оригинальные модели. Но не с 8гб.
Увы, для ЛЛМ гейткип по железу и ты никак его не обойдешь.

Аноним 05/02/25 Срд 21:13:33 № 1042889 146

>>1042754
> без сраных бенчмарков
> чтобы девочка в рп
Ну сорян, кабанчикам надо чтобы бенчи росли, чтобы бизнес задачки решались, они бабки для того и заносят. А девочкам в рп никто не заносит.

Аноним 05/02/25 Срд 21:14:58 № 1042892 147

>>1042740
>х3 к компьюту
Компьют сегодня стоит копейки на фоне железа, особенно в домашнем сегменте.

Аноним 05/02/25 Срд 21:16:13 № 1042895 148

>>1042754
>Сырки не знают про 3060 12гб при 3080 10гб и 3070 8гб

Аноним 05/02/25 Срд 21:18:47 № 1042901 149

У меня сейчас будет странный вопрос, но кроме техзадач h100 еще для чего нибудь подойдет ? И нет, блять, я не про игры.

Аноним 05/02/25 Срд 21:18:52 № 1042902 150

>>1042885
Блять ладно спасибо, пошёл копить на вторую карточку 16 гб

Аноним 05/02/25 Срд 21:20:46 № 1042906 151

>>1042870
Если тебе не чисто кум нужен, то смотри в сторону 12b моделей в q4_k_m. Полностью они в видеокарту не влезут, наверное, поэтому скорость генерации будет не такая быстрая, как хотелось бы. Тем не менее, использовать модели меньше 12b уже совсем адская мозгоебка.

Контекст ставь 8к. Если поймёшь, что мало, можешь увеличить его, при этом скорость уменьшится.

Магнум чисто кум-модель, больше ни на что не годится в большинстве случаев. И также учитывай, что модели, которые могут в хороший рп, обычно не могут в хороший кум или могут на среднем уровне.

Нормальный рп без цензуры может дать chronos gold (вроде так называется), mag mell, а также модели автора DavidAU, которые 12b. Модели последнего чувака довольно ебанутые и шизофреничные, их сложно/нудно контролировать, однако впечатления от них более интересные.

Аноним 05/02/25 Срд 21:21:17 № 1042907 152

>>1042901
Дай ка подумать. Видеокарта с 96гб видеопамяти для ЛЛМ.
Попробуй на ней яичницу жарить, хуй знает что еще посоветовать.

Аноним 05/02/25 Срд 21:23:11 № 1042910 153

>>1042906
>Нормальный рп без цензуры может дать chronos gold (вроде так называется), mag mell, а также модели автора DavidAU, которые 12b. Модели последнего чувака довольно ебанутые и шизофреничные, их сложно/нудно контролировать, однако впечатления от них более интересные.

Увы, нормальный рп начинается с жирных тюнов мистрали. А на жирной ламе или бегемоте ты вообще стены малафьей покроешь.
Sad, but true.

Аноним 05/02/25 Срд 21:28:19 № 1042918 154

>>1042892
А вот ждать бесконечно уже не выйдет.
>>1042901
Майнить?

Аноним 05/02/25 Срд 21:35:56 № 1042932 155

Бля, а ведь когда-то локально, на консумер хардвейре можно будет запускать модели типа полноценного дикпика на 671б параметров. Представляю уже, как же это будет охуенно.

Аноним 05/02/25 Срд 21:36:10 № 1042933 156

Сеньоры, имеет ли смысл переходить на линукс? Есть какой-то стимул? Кто уже перешел или только собирается, на что именно? Если на винде, в принципе, ничего не держит кроме привычек. Но она у меня работает стабильно, т.к. сторонних программ почти нет, я глянул - они есть на линуксе. Единственное, что я боюсь, это потерять стабильность. Винда за много лет почти никогда не приносила проблем в этом плане(источником проблем был всегда я). Как там с этим на линуксе? Ведь нужен нормальный драйвер нвидия cuda. Раньше, помню, баловался и там были проблемы с падением иксов, после обновлений. Потому и ушел, чтоб не разгребать руками эти проблемы.
Так как оно сейчас оно, анон?

Аноним 05/02/25 Срд 21:37:59 № 1042938 157

>>1042933
Нахуя оно тебе надо? В чем смысл этого перехода?

Аноним 05/02/25 Срд 21:39:00 № 1042941 158

>>1042938
Я первый спросил.

Аноним 05/02/25 Срд 21:40:51 № 1042949 159

>>1042941
Если ты не понимаешь и не можешь объяснить - нахуй тебе линукс, то какого ответа ты от нас ждешь ? Сформулируй внятно мысль зачем и что ты хочешь получить.

Аноним 05/02/25 Срд 21:48:42 № 1042959 160

>>1042949
Вот, ты дебил. Я прямым текстом написал объясните мне, нужен ли мне Линукс. Не пиши мне дурень, уйди.

Аноним 05/02/25 Срд 21:50:57 № 1042966 161

>>1042959
>написал
>хочу перейти на линукс но боюсь ква-ква
Ты троллишь меня ? Я задачи для тебя на линуксе должен сам придумать ?
Нет не переходи, ты тупой, это вредно.

Аноним 05/02/25 Срд 22:16:46 № 1043018 162

>>1041694
> Athene v2 chat
Обсуждалось на выходе, люди не впечатлились и забили.

> EVA Qwen 32B
Это недавно упоминали, да, треда три назад, наверное ты.

> Aya expanse 32B
Ее тоже очень давно обсуждали, как и все коммандеры и айи. Но как-то славы не снискали.

> EXAONE-3.5-32B-Instruct
Не слышал.

>>1042331
> под сотню гб
170 минимум

>>1042933
Легче собирать FlashAttention и SageAttention с Triton.
Ну так, если тебе это надо.

Аноним 05/02/25 Срд 22:21:28 № 1043038 163

В треде вижу очень много мистраля, квена и совсем немного ну и слава богу лламы, но при этом ни одного упоминания майковской phi 4, которая вполне себе годная в своих 14В, для рп лучше квена того же, да и в русский могёт. Почему так?

Аноним 05/02/25 Срд 22:24:03 № 1043043 164

>>1043038
Примеры покажешь?

Аноним 05/02/25 Срд 22:46:29 № 1043072 165

>>1043038
>phi
Передоз сои

Аноним 05/02/25 Срд 23:12:32 № 1043103 166

Хочу разное попробовать. Какая есть модель лучше чем magnum-v4-22b-Q8_0 и занимает не больше по памяти?

Аноним 05/02/25 Срд 23:19:06 № 1043111 167

>>1043103
> Хочу разное попробовать.
Пробуй.
> Какая есть модель лучше чем magnum-v4-22b-Q8_0
Лучше - понятие субъективное. Кроме мистрале тюнов ничего нет. Чуть выше тебя ждет командр и гемма. А еще выше лама и совсем монструозные мержи.
Если мистрали - то пантеон и цидония.
Если командр - то командр, лол. Его нахуй не надо тюнить.
Он и так прекрасно аутичен
Еще будет 27 гемма. Но там тебя будет ждать сюрприз, а какой не скажу.
Ну и запрягай коней, потому что на средних размерах появляется наконец то альфа и омега среднекума, Лама 70ая во всем её величии.

Аноним 05/02/25 Срд 23:21:21 № 1043120 168

Можно ли держать половину контекста в врам и половину в рам? Или целиком в рам? Как? (угабуга+таверна)

Аноним 05/02/25 Срд 23:27:06 № 1043134 169

>>1043111
То есть все годное это 22Б? Чому так? Ведь в 24гб и ~30B влазит

Аноним 05/02/25 Срд 23:28:42 № 1043137 170

>>1043120
>контекст в рам
Не стоит.

Аноним 05/02/25 Срд 23:29:19 № 1043140 171

>>1043134
>Чому так
Потому что существует небольшая мистраль.
>30B влазит
Ну и запускай, я написал тебе варианты.

Аноним 05/02/25 Срд 23:30:59 № 1043143 172

>>1043137
Да ладно. Пусть оставляет контекст в оперативной памяти. Чем больше людей это сделают, тем меньше в треде будет подобных вопросов.

Аноним 05/02/25 Срд 23:33:14 № 1043146 173

>>1043134
Ща пробую 34б магнум. Бля, какую же он лютую хуету генерит. Тянам хуи приделывает. За меня реплики и действия пишет. Вообще ебнутый. С 22б такие проблемы раз в 10 реже стреляют, что вообще не заметно. А 34б тупо с вероятностью 50 на 50 хуй приделывает, пиздец.

Аноним 05/02/25 Срд 23:37:21 № 1043154 174

>>1043146
Ты никогда не задумывался, почему тут аноны так радостно пляшут от цидонии ? Почему именно мистраль ?
Потому что мистраль дает пососать порой страшим моделям. Литералли лучшая девочка, но не без недостатков, но мы все равно её любим.
Мистральку чмок :3

Аноним 05/02/25 Срд 23:37:31 № 1043155 175

>>1043146
Может это просто проблема настроек?
Вон на мистраль есть мет, а остальное как шатать - хуй знает.

Аноним 06/02/25 Чтв 00:04:42 № 1043206 176

>>1042828
>>1042889
Нуууу маааам!!!
>>1042895
Нахуй ты жопой крутишь, приводя в пример обрезанный выкидыш, дура? Уже все анонсировали, там такие же 8-16.
>>1042901
Отличный высокотехнологичный обогреватель на 300-700вт. Если несколько штук в составе норм сервера - можно сдавать в аренду, профит побольше чем от недвижимости, но актив рисковый.
>>1042907
> для ЛЛМ
Для обучения, инфиренсить на ней на постоянной основе только маразматики или зажравшиеся будут.

изучаем механику работы LLM трансформеров Аноним 06/02/25 Чтв 00:24:05 № 1043241 177

Клон ChatGPT в 3000 байтах на C, основанный на GPT-2
https://habr.com/ru/articles/879662/

Аноним 06/02/25 Чтв 00:25:20 № 1043245 178

>>1043111
>Еще будет 27 гемма. Но там тебя будет ждать сюрприз, а какой не скажу.

Так а что за сюрприз то, ато я сижу уже пол года на ней и вроде норм всё.

мимо другой анон

Аноним 06/02/25 Чтв 00:39:50 № 1043269 179

>>1043245
Ну значит тебя все устраивает и тебе норм, лол.

Аноним 06/02/25 Чтв 00:58:55 № 1043292 180

>>1043269
Что должно быть не норм (исключая контекст и особенности его растяжки)?

Аноним 06/02/25 Чтв 01:22:43 № 1043309 181

>>1043292
Действительно, народные 8к. Хватит каждому пролетарию.

Аноним 06/02/25 Чтв 01:25:47 № 1043315 182

Господа, ебанатский вопрос. Допустим у меня 8 врам, мне лучше взять маленькую версию большой модели, или самую большую версию маленькой модели?

Аноним 06/02/25 Чтв 01:31:50 № 1043324 183

>>1043315
>8рам
У тебя выбора нет. Только мистраль, только хардкор.

Аноним 06/02/25 Чтв 01:43:36 № 1043342 184

image.png 2Кб, 604x24

image.png 3Кб, 602x18

>>1043324
Ну смотри, я довольно долго сидел на пикриле, как посоветовали пару тредов назад, но потом решил поэкспериментировать и поискать более ёмкую и умную модель. Щас буду пробовать пик 2.

Аноним 06/02/25 Чтв 02:14:31 № 1043362 185

>>1043342
Попробуй для первой Q4_K_M еще, будет лучше (но контекста 12к максимум влезет).

Аноним 06/02/25 Чтв 02:25:38 № 1043369 186

Когда дохожу до границы контекста, он начинает пересчитываться (?) после каждого моего сообщения, добавляя задержку перед генерацией, что мне не нравится. Вопрос: можно ли настроить суммарайз таким образом, чтобы он при достижении этой границы (условно 10к контекста) суммировал первые 5к и заменял их (как руками можно убрать сообщение из контекста) на себя (уменьшая контекст до 5.5к)? Использую таверну. В настройках не смог такое найти, но там очень много всего.
ньюфаг

Аноним 06/02/25 Чтв 02:25:48 № 1043370 187

>>1043362
Спасибо за совет.

Аноним 06/02/25 Чтв 02:43:29 № 1043379 188

>>1043309
До 16 растягиваются, как раз столько в одну карту и поместится. Было бы вообще круто обновленную гемму получить, а не это вот все, с 32б квеном рп уныл как ни крути.

Кстати, внезапно с рекомендуемым шизопромтом (где насрано про "не суй нсфв когда не надо") именно магнум лучше справился с тизинг сценами и кадлингом после продолжительного подстеба slave шутками про то для чего она куплена. Не скатывая в типикал
> master make me yours
или новые варианты начиная с середины сообщения, а вполне отыграв умеренную невинность и естественную реакцию со смущением и милотой. Даже клодыню обыграл с ее типикал жб.

Аноним 06/02/25 Чтв 02:46:58 № 1043383 189

>>1043379
>рекомендуемым шизопромтом
Дай промпт и карточку, хочу посмотреть.

Аноним 06/02/25 Чтв 03:20:29 № 1043412 190

>>1043383
> промпт
А ну, ебало имаджинируй просто, катал мистраля с chatml под квен. И ведь, сука, хорошо работал, только иногда проскакивающий в стриминге eos токен посимвольно смущал.
В репе магнума на квен 72 пресет жсоном сразу.
> карточку
Форк Yuki из пушистого сборника, значения не имеет.

Аноним 06/02/25 Чтв 04:37:49 № 1043468 191

Какие еще интересные варианты на 22B для кум+рп? Что-то интереснее чем Цидония и Пантеон РП-пьюр? Из этих двух Пантеон чуть лучше как по мне. Цидония периодически повторяется, немного медленнее, плохо понимает когда персонаж сфидил и продолжает его чувства, эмоции и т.п. выдавать. Персонажи более простые и понятные, повествование более линейное в этом плюс. Пантеон куда-то больше в мистику тянет, и бывают приступы СДВГ на ровном месте.
Хочу еще Магнум посмотреть, чью версию качать чтоб с квантами и .ггуф, но может еще что-то интересное есть на примете?

Аноним 06/02/25 Чтв 04:46:59 № 1043478 192

>>1043468
Так версию я нашел
https://huggingface.co/bartowski/magnum-v4-22b-GGUF
Ща скачаю и потестирую пару дней.

Аноним 06/02/25 Чтв 05:23:11 № 1043487 193

>>1043362
>>1043370
Я изначально не хотел брать немомикс тяжелее, потому что думал что он как у большинства моделей будет работать медленнее, но он работает с такой же скоростью как средняя модель и ебашит сочнейшие стены текста.

Аноним 06/02/25 Чтв 05:26:39 № 1043488 194

>>1042856
>Что на это ведро можно натянуть для рп без цензуры?
Буквально выше кидал анону с 6 гб врам ссылку >>1042512
Разве тебе можно шестой квант взять.

Аноним 06/02/25 Чтв 07:31:46 № 1043529 195

>>1043369
Как мне аноны объясняли - любое сообщение в чате есть контекст, так что ручками три.

Аноним 06/02/25 Чтв 08:28:44 № 1043543 196

>>1043529
>>1043369
Если быть точнее контекст это вообще ВСЁ что ты подаешь на вход модели, карточки/систем промы/текст в чате, всё, вообще всё. Никакого другого способа взаимодействия с моделью нет.
Когда контекст заполнен и ты пишешь новую строчку в чате, чтобы продолжать работу нужно удалить часть старого и пересчитать контекст. И так с каждой новой строчкой. Поэтому любое изменение заполненного контекста = его перерасчет.

Хороших решений этой проблемы пока не существует, из того что есть на выбор 3 варианта:
1)Смарт контекст - ценой половины твоего контекста (поставил 24к станет 12к) делает перерасчет контекста не каждое сообщение, а в зависимости от размера этого контекста(сколько влезет в эту самую откушенную половину), условно при тех же 24к перерасчет будет делаться каждые 12к контекста. Норм вариант когда у тебя дофига врам и ты можешь поставить хоть 100к контекста(т.к для того же рп больше 24к ставить всё равно сомнительно, лучше в лорбук лишнее засунуть)
2)Контекст шифт - крутая штука, работает не за счет полного перерасчёта всей простыни, а делает сдвиг контекста считая только новые строчки. Бочка говна в этой ложке меда в том, что оно несовместимо с любыми свистоперделками(лор буки/заметки и т.д.) той же таверны. Т.е если что-то динамически добавляет строчки куда угодно кроме конца контекста, сдвиг тут не сработает и понадобится полный перерасчет, ещё и модель может зашизить.
3)Ручной труд - при заполнении контекста делаешь суммарайз/ручками заполняешь лорбук/карточку персонажа. После создаешь новый чат и погнали. Думаю тут комментарии не требуются.

Аноним 06/02/25 Чтв 09:31:33 № 1043591 197

>>1043543
>После создаешь новый чат
Я гусь и я доебусь.
Можно не новый создавать а прожать глазики в чате выключающие сообщения из контекста чтобы потом экспортировать в текстовый файл всё целиком если это для чего-то нужно, например нейрофанфик пишете.

Аноним 06/02/25 Чтв 09:35:34 № 1043595 198

Если у меня одна видеокарта на 8 Гб и я докуплю еще, то память суммироваться не будет? Т.е., чтобы модель работала быстро, нужно иметь одну большую видеокарту или можно несколько с каким-то коэффициентом понижения?

Аноним 06/02/25 Чтв 09:37:26 № 1043598 199

>>1043595
Память не будет суммироваться, но ты сможешь разделять модель на две видяхи. Я так делаю со своей 4090 и пожилой 3060

Аноним 06/02/25 Чтв 09:54:42 № 1043609 200

>>1043595
Предыдущий анон ответил неочевидно.

Память суммироваться будет. Но для модели, а не для чипа. Каждый кусок суммарной видеопамяти будет обсчитывать свой чип. Т.е., если у тебя 3080 + 1060 ты не получишь 14 гигов 3080, ты получишь 8 гигов на скорости 3080 и 6 гигов на скорости 1060.
Так что, память суммируется, но чипы и тип памяти должны быть все же достаточно быстрыми. Все еще лучше оперативной, конечно, но случайной хуйней занимать порт на материнке не надо. Старайся брать достаточно современную видеокарту с большим объемом памяти.

Аноним 06/02/25 Чтв 10:03:03 № 1043617 201

Давайте уже решим, что нужно покупать для локального запуска для личного использования нейронок.

VRAM или CPU + RAM? Очевидно, что VRAM на 150 ГБ купить для личного использования нереально. Купить мощный CPU и 150 ГБ RAM реально.

Мелкие дистиляты вмещаются в игровые видеокарты, но мелкие дистиляты работают настолько плохо, что можно считать, что они не нужны. Вменяемый результат мы видим от 32b. Результат становится лучше при увеличении размера. То есть 320b будет гораздо лучше чем 32b.

Получается, стратегически, нет смысла покупать новую видеокарту, потому что всё равно туда нормально работающие нейронки не поместятся, а плохо работающие нейронки не нужны.

Я правильно понимаю, что если обновлять компьютер, действительно стоит вложиться в CPU и RAM или я не вижу какиех-то ошибок в суждениях выше?

Аноним 06/02/25 Чтв 10:07:45 № 1043624 202

>>1043617
> я не вижу какиех-то ошибок в суждениях выше
У тебя <think> токены отвалились, поэтому и не видишь.

Аноним 06/02/25 Чтв 10:20:07 № 1043631 203

>>1043617
Мое мнение по опыту использования, я в теме только несколько дней, поэтому считай просто наблюдением.
На видюхе скорость обработки 40 токенов в секунду, на проце 3 токена в секунду. Сейчас использую модель, которая часть памяти держит в видюхе, остальное в RAM. Это функционально работает, но качество жизни страдает.

Не могу сказать, какая скорость будет в сравнении 12 Гб + 12 Гб относительно одной видюхи 24 Гб, самому интересно.

Аноним 06/02/25 Чтв 10:21:05 № 1043634 204

>>1043617
Ты не знаешь какая архитектура будет жизнеспособной через год. Может там будет хорошо думающий кирпичик на 7б с нулевой эрудицией, который будет получать всю экспертность из агентов. Может какая-нибудь очередная мамаба выплывет которая с ног на голову перевернёт скейлинг. Может ещё что.
Так что покупай то, что запускает существующие модели, что потом в хозяйстве пригодится или продать сможешь. Я для себя выбрал 2 потребительские 4060ти, 32б влазит, качество устраивает, потом продам если что.

Аноним 06/02/25 Чтв 10:27:15 № 1043636 205

Может есть у кого ссыль с пошаговыми действиями для чайников, как дообучить локальную модель, к примеру докинуть ей своих текстов, чтобы в ответах она уже опиралась на них.

Аноним 06/02/25 Чтв 10:27:50 № 1043637 206

>>1043631
>>1043634
Понял, спасибо

Аноним 06/02/25 Чтв 10:28:13 № 1043638 207

>>1043636
Просто загугли finetuning ml guide

Аноним 06/02/25 Чтв 10:28:46 № 1043640 208

>>1042727
Ты забыл про чистую производительность.
Ну влезет у тебя 22б в врам только вот все еще будет 1 токен в секунду из за того что карта в 3 раза слабее 3090

Аноним 06/02/25 Чтв 10:29:16 № 1043641 209

>>1043595
Как аноны выше уже ответили, да работать будет, и если ты не покупаешь в слот нечто странное, то будет даже хорошо работать.
Я сижу на 3070+4080 с итоговой 24гб и в ус не дую.

Аноним 06/02/25 Чтв 10:39:07 № 1043656 210

>>1043636
>для чайников
В контекст докладывай свои данные.

Аноним 06/02/25 Чтв 10:46:49 № 1043659 211

>>1043656

Контекста не хватит если ему нужна база знаний. Здесь только файнтьюнить

Аноним 06/02/25 Чтв 10:48:31 № 1043660 212

>>1043636
Если не срочно надо, то советую курс от гугла по нейронкам. Там всё объясняется теоретически как работает и файнтьюнинг в том числе. Будешь себя гораздо увереннее чувствовать при взаимодействии с нейронками.

https://developers.google.com/machine-learning/crash-course?hl=ru

Аноним 06/02/25 Чтв 10:53:04 № 1043664 213

>>1043624
ОРУ

>>1043617
Ошибка в том, что скорость совершенно разная.
Для домашнего использования в качестве замены ChatGPT-4 подойдет Qwen2.5-Coder-32b и R1-distill-Qwen-32b. Это цельные модельки, и для их работы хватит 36 гигов видеопамяти.
Собрать такой объем вполне реально — материнка с 3 слотами и условные 3060@12. И будет хорошая скорость. Ну, либо 4060ti с 16 гигами 2 штучки, если подужаться (ну или 3 штучки, чтобы чувствовать себя хорошо).
А вот с оперативной памяти при таком же раскладе скорость будет низкая. 1,6 токена для DDR4 и 3-3,5 токена для DDR5. Готов терпеть? Сомневаюсь.
Ультимативный вариант замена o1 — это r1. Даже в кванте IQ1_XSS она занимает 170 гигов (с микро-контекстом). Ее можно запустить на оперативе, НО, ее свойство в том, что она MoE, то есть внутри нее куча мелких моделей, и работают из них только 3 (по умолчанию). В сумме там 37B активных параметров из 671B всего.
Итого, мы имеем 37B фактически, да еще и более ужатых, чем маленькие 32B модели. Скорость получается все равно сопоставимая (особенности формата и типа модели), тем не менее, ты имеешь условные 1,7 токена на DDR4 и 3,5-4 токена на DDR5. Чуть получше, модель теоретичеки умнее, хотя из-за кванта (агрессивного ужатия) немного поехавшая.
Если же ты хочешь катать менее ужатую модель, тебе понадобится 512 оперативы. Зато там она уже будет очень умная, да. Но на десктопной плате ты столько не соберешь. Придется брать серверную (дорогую). Если просто напихать 512 оперативы в двухканальный режим, то получите очень медленную скорость (модель-то в размере будет большая, памяти надо прочесть больше) и сидеть на 0,7~1,5 токена на огромной модели — мука. Значит берем материнскую плату с 12 или 24 каналами. Вот там уже скорость позволит гонять 5-10 токенов/секунду. Выше анон много раз упоминал какой конфиг для этого нужен.

Ну и получается, что либо ты берешь 36-48 гигов видеопамяти 2-3 видеокартами и крутишь там Квены-32б.
Либо ты берешь 256 DDR5 на обычной плате и крутишь шизо-квант r1 медленно.
Либо ты берешь дорогущую материнку с двумя дорогущими процессорами и кучей дорогущей оперативной памяти и за сотни тысяч рублей катаешь нормальную r1 с приемлемой памятью.

Если тебе не хватит на третий вариант, то на кой хер тебе много оперативы, скажи мне? У тебя так дохуя времени, что ты готов ждать ответы по 20-40 минут (я не преувеличиваю, это реальной время ответа r1 на обычной памяти)?

Надеюсь, ты понял, почему твоя идея — полная хуйня, на которую даже я не решился.
(впрочем, я и так r1 могу гонять, хули я тут выебываюсь)

Аноним 06/02/25 Чтв 11:02:32 № 1043678 214

>>1043659
Файнтюн не годится если ему надо базу знаний. Практически невозможно избавиться от фактических ошибок и галлюцинаций. Если нужна база знаний, то просто вкладывай в контекст часть этой базы знаний по оглавлению, FTS или ещё какому RAG-подобному костылю.

Аноним 06/02/25 Чтв 11:04:14 № 1043681 215

>>1043617
https://x.com/carrigmat/status/1884244369907278106

Материнка: https://abgreyd.servis2010.ru/gigabyte-mz73-lm0 160к рублей / 1600 евро

Проц: ссылки не нашел, в гугле 140к рублей (2 штука!)

Память: https://market.yandex.ru/product--m321r4ga0bb0-cqk/1848079583 25к рублей (24 штуки!)

Итого получаем 1 миллион рублей с копейками.
Зато 768 памяти и r1 весьма быстро.
Можно сэкономить на памяти, я полагаю и добраться до 384 гигов и цены в 800к рублей, если тебе от этого полегчает.

Вот твоя идея на самом деле.

Аноним 06/02/25 Чтв 11:06:22 № 1043682 216

>>1043206
>Для обучения, инфиренсить на ней на постоянной основе только маразматики или зажравшиеся будут
Если мы рассмотрим гипотетическую ситуацию, что прилетел волшебник в голубом вертолете и дал мне не пиздюлей, а видеокарту, то нет ни одной причины почему на ней нельзя катать ЛЛМ. Потому что одной мало для кластера. Ну в теории можно еще в графику удариться, причем одновременно. Стоила бы эта видеокарта хотя бы 1млн, то я бы посмотрел без капли иронии в её сторону.
Но сейчас ? За 5 млн, я могу собрать блок из 4 4090 и еще на шлюх и корм коту останется.

Аноним 06/02/25 Чтв 11:09:09 № 1043685 217

>>1043617
Врам. Нужна врам - все остальное это деньги на ветер.
Тут ситуация как с дальней поездкой : тебе говорят, что зима блять в якутии, -50, а ты такой : но велосипед же едет, вот на нем я и поеду, вместо зимнего вездехода.

Аноним 06/02/25 Чтв 11:13:22 № 1043688 218

>>1043664
Понял, спасибо
>>1043681
Пиздец конечно

Аноним 06/02/25 Чтв 11:14:26 № 1043690 219

>>1043682
>то я бы посмотрел без капли иронии в её сторону.
Я просто напомню что у H100 нет видеопортов.
Ну так к слову.

Аноним 06/02/25 Чтв 11:28:35 № 1043703 220

>>1043690
И как в крузис играть то ?
Вот это я понимаю, наеб гоев.

Аноним 06/02/25 Чтв 11:35:46 № 1043706 221

Никто не пробовал пропустить допустим 10 рероллов с высокой температурой, а потом, опустив температуру попросить составить из предложенных идей лучший ответ, отформатировать его и вставить в чат?

Аноним 06/02/25 Чтв 11:38:18 № 1043707 222

>>1043706
Нет, но звучит интересно, попробуй запустить на каком-нибудь бенчмарке. Может ты придумал новый способ улучшения качества ответа, напишешь научную статью.

Аноним 06/02/25 Чтв 11:42:12 № 1043709 223

>>1043703
Это специализированное устройство. Ты же не жалуешься что карьерные самосвалы не катаются по дорогам общего пользования.

>>1043706
Нужно чтобы рероллы сидели в контексте, а не считались If

Аноним 06/02/25 Чтв 11:43:42 № 1043710 224

>>1043706
Нет, но пробовали генерить на R1 три реролла, и самый короткий из них оказывался самым умным статистически, значит можно пускать батч, и останавливать генерацию при получении первого же ответа.
=D
Никакой связи, просто забавный ресерч для работяг.

Аноним 06/02/25 Чтв 12:10:00 № 1043723 225

>>1043707
>>1043710
Я много раз наблюдал, что поднимаешь температуру - дает очень прикольные идеи/ответы, но неряшливо оформленные, с поломанным синтаксисом, с косяками не присущими данной модели, типа повторных трусов. Опустишь температуру - все струсами ок, но «я ебу - ты ебешь».

>>1043709
Естечтвенно в таверне такое не устроишь, нужно через апи дергать ответы и отдельным блоком их в финалный запрос вставлять как «необязательные идеи для вдохновения»

Аноним 06/02/25 Чтв 12:14:04 № 1043727 226

>>1043723
Скриптами можно. Просишь его трижды генерить в разные переменные, потом просишь проанализировать их сожержимое и сгенерить ответ уже в форму ответа

Аноним 06/02/25 Чтв 12:56:52 № 1043739 227

>>1043664
>Это цельные модельки, и для их работы хватит 36 гигов видеопамяти.

24 хватит, это одна 3090/4090.

Аноним 06/02/25 Чтв 13:23:45 № 1043766 228

Пытаюсь тут пользоваться пошаговым мышлением из шапки, мне нравится как оно работает, качество отыгрыша заметно повышается. Когда моделька не забивает хуй и действительно следует промпту, а не генерирует EOS токен без нихуя. Это как-то можно вообще пофиксить, забанить токен только на первой позиции?

> Processing Prompt [BLAS] (176 / 176 tokens)
> Generating (1 / 1024 tokens)
> (EOS token triggered! ID:2)

Аноним 06/02/25 Чтв 13:23:46 № 1043767 229

>>1043598
расскажи что за корпус у тебя чтобы 4090 + 3060 вместить? У меня прост тоже 4090 и сверху через усб райзер 1660 гтх вне корпуса лежит, но там скорость очень низкая передачи данных. Хочу 2080 ти воткнуть вместо 1660, но не знаю как все в корпус норм разместить, места тупо нет.

Аноним 06/02/25 Чтв 13:34:20 № 1043777 230

Посоветуйте, люди добрые, гуфских (лень конвертить) от 8Б до 32Б для кодописания. Генерю через болгарина на ЦПУ, на 70 схлопнусь ждать по 0.4твс.
- ллама3 с 8Б уже прошлый век, подучить все равно не выйдет.
- пробовал КВЕНю2.5-7Б,32Б, неплох, сейчас как основной стоит.
- DeepSeek веселый, особенно как он иероглифы кидает в ответ временами. Раздражает, что он тебя "they" обзывает и под 500 токеном себе под нос бубнит, но конечный выхлоп кажется точнее выходит.

и еще для ролеплея с элементами еротики, хотяб с 130К кнотекста.
- что леддит советует типо DarkForest и прочих - какая то порнография бессвязная выходит, большие типа Мику не влезут в мою РАМу.
- брал лламу 3Б подобученную, неплохо эротику пишет, но, зараза, валится с мелким ее контекстом очень быстро, да цензуру возвращает, сука.

>>1043709
Неверное сравнение. Правильней сравнивать в таком случае карьерный самосвал и ленточный конвейер. Оба могут руду перебросить, вот только на одном и с пивчанским на рыбалку можно сгонять.

Аноним 06/02/25 Чтв 13:59:27 № 1043798 231

>>1042833
Не согласен. Можно взять узкоспециализированную модель, например для для решения одного типа задач, с которыми она справляется почти со 100% вероятностью и на ее выхлопе тренить большую модель.

Аноним 06/02/25 Чтв 13:59:49 № 1043799 232

>>1043664
Чет я не уверен что даже 24канала позволят гонять 4q дипсик на 5т/с. Хотя хуй знает, там же МоЕ ебаное, разве что за счет него. Но с ламой наверняка бы не проканало.

Аноним 06/02/25 Чтв 14:11:56 № 1043811 233

>>1043739
Если ужать, конечно. Но хочется q6 хотя бы. =)

>>1043777
> КВЕНю2.5-7Б,32Б

>>1043799
Не-не, ллама 405б будет овердохуя медленно. Она ж цельная.
А вот дипсик попрет вполне.
Ну смотри, 1,7 токена имею я на DDR4 для модели в 150 гигов.
Модель в 350 гигов будет ~0,7 токена, но это если бы DDR4 3200 в двухканале (псп 50). Если у тебя там 24 канала, да еще и DDR5, то это ~18 раз быстрее в теории. 0,7*18=12,6.
Конечно, идеальные условия, вся хуйня, но 5-7 выжмешь точно. А это уже вполне неплохо.

Так чисто, навскидку, Llama 405b q4 должна дать около ~2 токенов в секунду в идеальных условиях. Тут я уже ничего не гарантирую, но все равно, сама модель не суперкрутая, а отдавать 800к рублей ради 2 токенов на ней… Максимально сомнительное удовольствие.

Аноним 06/02/25 Чтв 14:11:59 № 1043812 234

Я дебил мечтающий вкатиться в девопс, мне нужна моментальная справка по линухам и языкам погроммирования, кубернетисам и прочим тулзам, если я установлю её локально, она будет помогать? Откуда она знания брать будет?

Пикрил моя некропека, я так понимаю она нихуя не потянет, потому что мне помимо запущенной нейросетки ещё нужно держать открытыми несколько локальных вм, что бы обучаться и спрашивать её одновременно. Что можете посоветовать по железу? Какие-нибудь оптимальные спеки?

Аноним 06/02/25 Чтв 14:24:13 № 1043838 235

>>1043812
>Что можете посоветовать по железу? Какие-нибудь оптимальные спеки?
Посмотри в прошлых тредах, думаю треда 4-5 назад выкладывали конфиг для zaхода в нейросети. Там был относительно удобоваримое железо

Аноним 06/02/25 Чтв 14:25:32 № 1043843 236

>>1043812
Она потянет Qwen2.5-7b в агрессивном кванте.
Или 3b в нормальном q8.
Знания будет брать из себя, но если ты запилишь RAG — то из того, что ты ей подсунешь. А если поиск по вебу — то и из него.

А вообще, я бы таких девопсов бы конечно топтал, но оффенс, есть профессии, где надо знать, помнить и иметь опыт. Но обучаться может и сойдет для себя, да.

Ну, короче, да, нихуя не потянет, тащемта.

Аноним 06/02/25 Чтв 14:43:06 № 1043866 237

>>1043617
Ещё можно учитывать сколько нужно т/с. Я физически не могу читать быстрее 5 т/с. Никто из двачеров не сможет читать быстрее 10 т/с. Но тем не менее им этого МАЛО. Мне вполне хватает 2-4 т/с и тогда читаю ровно как генерируется.

Аноним 06/02/25 Чтв 14:46:34 № 1043876 238

>>1043664
>3-3,5 токена для DDR5. Готов терпеть? Сомневаюсь.
Вот, например. Ты заметь скорость своего чтения.
"Терпеть". Циркачи.

Аноним 06/02/25 Чтв 14:47:16 № 1043878 239

>>1043866
>Я физически не могу читать быстрее 5 т/с
Бывает, чё.
>Никто из двачеров не сможет читать быстрее 10 т/с
Анон у меня чтение и восприятие русского текста 220-300 слов в минуту (В зависимости от тяжести текста, если это техлитература или матан то я и больше 50 с пониманием не выдам)
Английского порядка 250 слов в минуту.
К чему я это : все мы разные, взрослей и прекрати ровнять всеъ под свой субъективный опыт.

Аноним 06/02/25 Чтв 14:48:16 № 1043881 240

Может мне кто-то пояснить за системный промпт? Когда выходишь за размер контекста, то оно затирает системный промпт или системный промпт всегда остается висеть над контекстом?

Аноним 06/02/25 Чтв 14:51:49 № 1043889 241

>>1043881
These prompts act as a framework, setting the stage for the AI to operate within specific parameters and generate responses that are coherent, relevant, and aligned with the desired outcome. System prompts play a pivotal role in bridging the gap between the vast knowledge acquired by AI models during training and their application in real-world scenarios.

Аноним 06/02/25 Чтв 14:52:24 № 1043890 242

>>1043767
>расскажи что за корпус у тебя чтобы 4090 + 3060 вместить?
Есть большие корпуса, Cougar MX600 например. С соответствующей материнкой две 3-3,5-слотовых карты спокойно влезут.

Аноним 06/02/25 Чтв 14:55:13 № 1043895 243

>>1043543
> Бочка говна в этой ложке меда в том, что оно несовместимо
С любым более менее сложным чатом и адекватной моделью, что смотрит дальше нескольких последних постов и самого начала.
>>1043591
Вот это плюс хороший суммарайз тех постов.

Аноним 06/02/25 Чтв 14:55:31 № 1043896 244

>>1043889
Получается системный промпт всегда висит над моделью, даже если выходишь за размер контекста?

Аноним 06/02/25 Чтв 14:57:29 № 1043901 245

>>1043878
>300 слов в минуту
>в минуту
300÷60=5
Ясн.

Аноним 06/02/25 Чтв 15:06:15 № 1043918 246

>>1043901
>динамические значения еще не проходили в школе
Ясно.

Аноним 06/02/25 Чтв 15:14:39 № 1043930 247

>>1043918
Я хер знает че ты кочевряжишься, но быстрее чем 10т/с ты не прочитаешь.

Аноним 06/02/25 Чтв 15:16:53 № 1043933 248

>>1043930
Ебанат, как есть ебанат, просто сказочный долбаёб.

Токены ~= слова, это от токенизатора модели завсисит.

Аноним 06/02/25 Чтв 15:17:26 № 1043935 249

>>1043930
Очень долго читать такие крутые токены как the, a и 's. Мне 10 т/c неудобно, 11-12 норм.
мимо

Аноним 06/02/25 Чтв 15:22:03 № 1043944 250

>>1043617
Запутался в коупинге, жизнь есть только на гпу. Хочешь качество - поупаешь одну-две-... 24гиговых карточки.
> стоит вложиться в CPU и RAM
Быстрые cpu и ram, которые доступны будут стоить как пара 3090 и это будет лишь 96гб. Есть вариант с 2066 или древним трипаком, рам будет сравнима или чуточку быстрее, но там старые pci-e, а зен1 это вообще мусор.
Что-то действительно мощное выйдет оче дорого и все равно покажет ерундовую скоростью.
>>1043624
Чтож ты делаешь, содомит!
>>1043682
> то нет ни одной причины почему на ней нельзя катать ЛЛМ
Как правило, такое железо оказывается у того, кто может найти ему достойное применение. Разумеется, пустить что-нибудь для скриншотов и рофля устроить дорогой кум это одно из первых что будет, но в остальное время она будет загружена каким-нибудь обучением или экспериментами.
> я могу собрать блок из 4 4090
Они не смогут сделать то же самое.

Аноним 06/02/25 Чтв 15:35:34 № 1043973 251

>>1043876
В районе 7-10, а что? Мне 5-6 не хватает, на 10 уже дискомфорта не чувствую, збс.

Добавь некоторые модели на синкинге.
Учти, что некоторым людям нужен результат, а не дрочить на ерп.
Учти, что некоторые читают по диагонали, практикуют скорочтение и тд.
А уж глядя на токенизаци, кому-то и 30 токенов/сек не хватит.

Короче, во втором классе 5 токенов хватает, взрослый дядька, который по работе что-то спрашивает вполне себе ждет сотни и тысячи токенов генерации, чтобы за пару секунд пробежаться по ответу и вычленить главное.
Все же, речь была о домашнем использовании нейронок, это явно не ограничивается одним лишь ерп.

Аноним 06/02/25 Чтв 15:55:08 № 1044010 252

Господа, а существуют ли локальные модели которые могут выходить в открытый интернет? Ну или какой-нибудь способ, например, по api к сайту подсоединяться.
Наигрался со всякими ламами/квенами/геммами в кобольде, теперь хочется попробовать к настоящей работе их присобачить. Автотесты юайные писать, там, или диалог в чате вести.

Аноним 06/02/25 Чтв 16:01:24 № 1044019 253

>>1043866
Смотрим педивикию
>Обычная скорость чтения на русском языке у взрослого человека лежит в пределах 120—180 слов в минуту, по опытным исследованиям средняя скорость равняется 201 слову в минуту (при разбросе значений от 60 до 378)

Так как мы все здесь читаем, то по нижней планке считать нельзя. А значит, и средние значения для нас могут быть только нижней планкой. Слово это 2-3 токена, пусть 2.5, 200х2.5 = 500\60 = 8.3. Итого, 8 т\с это нижняя планка, если ты не читаешь по диагонали, не читаешь слишком быстро\активно, не используешь разные техники CoT, синкинга и т.д. Лично для меня нижняя планка 15 т\с, это всё ещё слишком медленно для комфортного чтения, но не слишком медленно, чтобы не дождаться ответа. Посмотрел книгу, которую недавно дочитал, вышло примерно 2 миллиона знаков в день, без учёта пробелов. А ведь пробелы это тоже токены. Естественно, читалось не круглые сутки, но если предположить, что читал я 10 часов в день, что очевидно не так, то получается 3 333 знака в минуту. Опять же, если вообразить, что книга генерировалась бы с такой предполагаемой скоростью чтения, то это чуть больше 22 т\с при условии 2.5 символов на токен. И да, это не было чтением по диагонали, в итоге я обсуждал книгу с другими людьми.

Аноним 06/02/25 Чтв 16:12:30 № 1044033 254

>>1044019
Твои охуительные рассуждения основанные на "я так чувствую" рассыпались примерно вот здесь
>Так как мы все здесь читаем, то по нижней планке считать нельзя
Зайди в /aicg/ тред и узнаешь сразу же нижнюю планку обычного обывателя там

Аноним 06/02/25 Чтв 16:14:56 № 1044039 255

>>1044033
А твои охуительные примеры еще лучше.
Давайте будем делать выборку на дрочащих детях из треда чатботов.

Аноним 06/02/25 Чтв 16:18:42 № 1044044 256

>>1044033
Здесь всё просто. Если ты читаешь много - ты начинаешь читать быстрее. Если они там читают медленно - они читают мало. Ориентироваться на тех, кто не читает и брать по нижней планке
>(при разбросе значений от 60 до 378)
никакого смысла нет. А 60 слов в минуту это практически чтение по слогам. Предлагаешь ориентироваться на такое? Или ты сам по слогам читаешь и тебе неприятно? Ну так учись читать. Я уверен, что ИТТ ты с такой проблемой один.

Аноним 06/02/25 Чтв 16:22:57 № 1044051 257

Даю хинт, так сказать от души, чтобы вам хватило скорости чтения даже если нейронка выдает 2т/с
Переводите на какую-нибудь латынь или что то из фино-угорской группы языков. Поздравляю, вы нихуя не понимаете и читаете медленно.

Аноним 06/02/25 Чтв 16:26:37 № 1044056 258

>>1044010
Модели никуда не выходят, выходит фронт или ассистент, а потом скармливает результат модели.
https://github.com/huggingface/smolagents

Наслаждайся.

Аноним 06/02/25 Чтв 16:33:57 № 1044064 259

>>1044056
Большое спасибо, анон! Буду изучать.

Как всегда, задал вопрос и сам тоже наткнулся на Anything LLM - вроде тоже полезная штуковина.

Аноним 06/02/25 Чтв 16:43:23 № 1044086 260

>>1044033
Это весьма жалкая попытка отмазаться и перевести стрелки.
Изначальный тейк был «тебе/каждому хватит 5», чел привел пример, что ему хватит минимум 22. Факт? Факт. Автор изначального тейка обосрался и уезжает вместе со своим цирком нахуй.

>>1044051
Заебись, согласен, всегда так буду делать. Теперь-то мне 1,7 токена на R1 хватит!..
Лучше сразу на исландском. Svo að jafnvel lesturinn var erfiður og hægur!

Аноним 06/02/25 Чтв 16:43:48 № 1044088 261

>>1044010
для Silly Tavern есть плагин https://github.com/SillyTavern/Extension-WebSearch , гибко настраивается, можно указать триггерные фразы, по которым оно полезет в поиск, будет ли лазать по страницам или только ссылками насрет, сколько кэш хранить, что для поиска использовать и в таком духе.

Аноним 06/02/25 Чтв 16:55:40 № 1044113 262

>>1043812
Используй корпосетки. Например на duck.ai можно бесплатно побазарить с gpt4o mini, llama 3.1 70b и какими-то ещё. Все без регистрации и смс. Это всяко лучше чем мелкие сетки.

Аноним 06/02/25 Чтв 16:58:44 № 1044119 263

>>1044019
> получается 3 333 знака в минуту.
Да у нас тут Усейн Болт от мира чтения. При средней длине слова в 7,2 буквы, получается почти 463 слова в минуту. При том, что при повышении скорости чтения неизбежно страдает понимание прочитанного (техника скорочтения = техника прогрева гоев на бабло, нет ни одного исследования, подтверждающего эффективность этой залупы, только обратное), ты либо очень смутно осознал прочитанное, либо проебался в рассчетах.

Что касается скорости генерации, не надо забывать, что в английском токеном может выступать как слово целиком, так и вообще несколько, что на русском не происходит, одна и та же скорость генерации будет ощущаться по разному на разных языках (не смотрел, но очень интересно что там у китайцев с их иероглифами выходит, вот уж на что надо переходить, чтобы максимизировать удовольствие от генерации)

Аноним 06/02/25 Чтв 16:58:54 № 1044120 264

>>1044044
>учись читать
Ты агент куртки и пытаешься таким образом ненавязчиво подтолкнуть продажи оверпрайснутого железа? Наоборот же хорошо тем, кто медленно читает, им и 2-3 т/с достаточно для нижней границы комфорта.

Я по совпадению только что из треда, где обсуждалось чтение книг, удивлялся, что там анон осиливает какие-то охуевшие объёмы за день. Потом прикинул по среднестатистическим данным кол-во слов, получилось что-то типа 2 слова в секунду, если читать непрерывно и с равномерной скоростью 14 часов в день, вроде уже и не так страшно. А я читаю в 10 (и иногда больше) раз медленнее его, если брать средние цифры, опять же. И нет, не по слогам. Возможно, сама по себе скорость чтения у меня не очень высока из-за относительно небольшого опыта. Но помимо этого я ещё представляю в голове ситуацию, мысленно рисую картинку происходящего, внешний вид персонажей, локации. Фантазирую, как бы я поступил в той или иной ситуации, иногда даже припоминаю что-то похожее из собственного опыта ирл (обычно это что-то неловкое, от чего я blushes, и потом ещё долго отхожу от смущения, продумываю, как лучше стоило поступить, что сказать в той ситуации). Иногда ещё перечитываю длинные сложноподчинённые предложения, если автор слишком хитро закрутил и с первого раза непонятно. Короче говоря, смакую книгу. И не совсем понимаю тех, кто вот так вот как конвеер прогоняет через себя текст на максимально возможной скорости. Надеюсь, хоть какое-то удовольствие от процесса получает, иначе вообще непонятно, зачем он это делает.

Аноним 06/02/25 Чтв 17:03:26 № 1044128 265

>>1044019
>Смотрим педивикию
Зачем все твои (не твои конечно) рассуждения? Когда генерируется текст, то пишется в реальном времени его скорость генерации в единицах токен в секунду, а не в чем попало. Имею 8 врам. Можно поиграть настройками и поподбирать модели, чтобы менять значение т/с. При каком-то подобранном значении т/с скоростью чтения уже отстаёт от генерации.
Это настоящая, результативная практика. А теориями и 640 кБт хватит всем.

Аноним 06/02/25 Чтв 17:05:34 № 1044134 266

>>1044113
На фейерверке один бакс после регистрации есть для использования API, на 300к-500к токенов хватит, можно дипсик/405В/yi затестить в рп. Но кроме бесплатного бакса там нечего брать, дипсик бабло жрёт раз в 10 больше чем у китайцев.

Аноним 06/02/25 Чтв 17:09:16 № 1044139 267

IMG202502062106[...].jpg 340Кб, 948x2248

>>1044113
>Например на duck.ai
А что посоветуешь выбрать для чего?

Аноним 06/02/25 Чтв 17:11:22 № 1044147 268

>>1044139
>работает анонимно
>ответы все равно отсылаются на сервера опенаи
кек

Аноним 06/02/25 Чтв 17:15:32 № 1044157 269

>>1044120
>Ты агент куртки и пытаешься таким образом ненавязчиво подтолкнуть продажи оверпрайснутого железа?
Мне вообще непонятна их политика встречи новичков. На вопрос "что мне делать с 8врам" всегда следует ответ кушать с пола 7В. Я на 8врам+32рам(об этом никто не спрашивает) читаю квин 32В в 1-2т/с. Я даже молчу о том, что не всем нужно читать ответ в реальном времени прямо в генерации. Хз, что за народ здесь, 🤷

Аноним 06/02/25 Чтв 17:17:19 № 1044163 270

>>1044139
Для твоих запросов o3 или простую гпт.

Аноним 06/02/25 Чтв 17:26:52 № 1044192 271

>>1044147
А в чем дело? Запросы шлёт утка. Она поклялась меня не сдавать. Получается я вообще ни при чем. Если прямым текстом себя не сдать.

Аноним 06/02/25 Чтв 17:32:14 № 1044199 272

Уважаемые, заясните за поточность в SillyTavern. Сам дебил, руки неизвестно откуда растут, подобных проблем у адекватных людей в тырнете не наблюдается. Не тянет, только и пишет: "Streaming request in progress", да когда кончится "Streaming request finished". Ждать пока тысячи токенов прожуются, надоедает.
Бэкенд и фронтенд крутятся на отдельной тачке, к ней подсоединяюсь с локальной через вэб морду. Может другой фронтэнд брать, но ггуф лень перекачивать.

Аноним 06/02/25 Чтв 17:33:04 № 1044202 273

>>1044157
>Мне вообще непонятна их политика встречи новичков.
Это тред про локалки, а не ясельная группа.
>На вопрос "что мне делать с 8врам" всегда следует ответ кушать с пола 7В.
Еще раз, тред про локалки. Нет железа - нет ручек локалок.
>Хз, что за народ здесь,
Те кто обсуждают генерацию охуительный историй.
А для всего остального есть тред чатботов. Общайтесь с вебмордами на здоровье.

Аноним 06/02/25 Чтв 17:37:47 № 1044210 274

>>1044199
Что выбрано вот тут? Какой бекенд?

Аноним 06/02/25 Чтв 17:38:41 № 1044213 275

>>1044119
>При средней длине слова в 7,2 буквы
>Для корпуса русской разговорной речи средняя длина слова обычно составит от 3.9 до 4.9 букв
Ну да, конечно, семь букв. Три тысячи в минуту это практически вдумчивое чтение, если читать по диагонали не особо вникая в текст, то можно и до десяти дойти. Но там уже да, проблемы с потерей деталей.
>так и вообще несколько
Загляни в токенизаторы. Несколько слов одним токеном это настолько редкость, что можно и не учитывать, сентенспис распространения не получил. В лучшем случае слово - токен. При этом не важно, если в токенизаторе есть слово целиком - нет никакой гарантии, что модель сгенерирует его так, а не по слогам.

>>1044120
>Ты агент куртки и пытаешься таким образом ненавязчиво подтолкнуть продажи оверпрайснутого железа?
Просто искренне охуеваю, когда люди пишут "5 т\с хватит всем". И ситуация усугубляется тем, что читая книги - получаешь законченный, в каком-то смысле, контент. А нейросети требуют свайпов, как минимум. То есть в рандомные моменты даже если ты читаешь со скоростью генерации - тебе нужна будет двойная скорость. А с синкингом, cot и т.д - умножай на пять. И бейся головой о стену от ttft.

>>1044128
>не твои конечно
А чьи это рассуждения, если это мой пост, который я лично написал, не копируя чужих мыслей или высказываний?
>При каком-то подобранном значении т/с скоростью чтения уже отстаёт от генерации.
А потом тебе нужно свайпнуть. Да комфортные т\с от модели к модели будут отличаться, потому я отдельно указал, что считаю на один токен 2.5 символа.

Аноним 06/02/25 Чтв 17:51:41 № 1044240 276

>>1044213
>А с синкингом, cot и т.д - умножай на пять.
Кстати, кто как думает - со всем этим хайпом ризонинг будут встраивать по умолчанию в новые версии моделей? Это не так и плохо, если железо есть - даже хорошо. А если нет...

Аноним 06/02/25 Чтв 17:53:27 № 1044248 277

>>1044202
Понял, а ты значит здесь местных вахтёр. Что ж, ты уж продолжай бдеть, распугивать сообщество и отбивать желание у людей сюда заходить, как это произошло в профильном треде локальной генерации изображений.

Аноним 06/02/25 Чтв 18:03:01 № 1044276 278

>>1044210
llama.cpp в качестве бэка.
Переставил с "chat completion" на "text completion" попробовал и koboldcpp, та же шляпа, все пустое. Только если без "Streaming" в первой вкладке, то появится ответ.

Аноним 06/02/25 Чтв 18:15:40 № 1044303 279

image 65Кб, 905x100

Пиздяшка-фонтан! Охуеть просто.

Аноним 06/02/25 Чтв 18:24:42 № 1044323 280

image.png 22Кб, 767x158

>>1044303
Скорее всего протекло с какого-то другого языка. На английском кумь, будет меньше кринжа.

Аноним 06/02/25 Чтв 18:28:53 № 1044333 281

>>1044303
А говорят AGI нет

Аноним 06/02/25 Чтв 18:48:29 № 1044374 282

>>1044213
>Для корпуса русской разговорной речи средняя длина слова обычно составит от 3.9 до 4.9 букв

Уж не знаю у каких наркоманов ты это взял, эти данные валидны для английского языка, но допустим. Выходит, что 3333 букв в минуту ~ 680-855 слов.

>>1044019
>по опытным исследованиям средняя скорость равняется 201 слову в минуту (при разбросе значений от 60 до 378)
Охуительно так получается, обогнать опытные исследования в два раза.

> В соревнованиях на первенство мира по скорочтению особое внимание уделяется пониманию прочитанного. Лучшие участники обычно читают от 1000 до 2000 слов в минуту с пониманием примерно 50% или выше.

> Три тысячи в минуту это практически вдумчивое чтение
Вот не обманывай себя

Аноним 06/02/25 Чтв 18:52:40 № 1044378 283

image 63Кб, 852x188

>>1044323
Не, мне наоборот нравится, не скучно читать, когда такие перлы всплывают.
товарищ майор, не стукайте, это женжина-дворф, поэтому у неё всё маленькое

Аноним 06/02/25 Чтв 19:05:18 № 1044400 284

>>1044378
Лол, это что за модель?

Аноним 06/02/25 Чтв 19:13:19 № 1044413 285

>>1044400

https://huggingface.co/mradermacher/Legend-of-the-Four-Winds-MN-12B-i1-GGUF

Аноним 06/02/25 Чтв 19:41:06 № 1044455 286

>>1044413
Лол, не наблюдал такого на ней, а настройки?
Как вообще впечатления?

Аноним 06/02/25 Чтв 19:51:40 № 1044477 287

>>1044455
Судя по тому, из чего она смержена, красивые перлы это результат скорее качественного промптинга и настроек, чем самой модели. Там по-моему только гутенберг располагает ожидать художественных и творческих слов, а остальное так себе.

Аноним 06/02/25 Чтв 19:54:45 № 1044482 288

>>1044455
Да я вот только вечером скачал, потыкал немного. Настройка Universal-Light стояла, ничего не менял.

Аноним 06/02/25 Чтв 19:55:22 № 1044483 289

>>1044477
И кстати этот Lyra-Gutenberg-mistral-nemo-12B, из которого она смержена, это моя настольная модель на сегодня, одна из немногих. Пишет потрясающие простыни текстов, просто огромные. Это не первый фантьюн от nbeerbower, дающий хорошие результаты.

Аноним 06/02/25 Чтв 20:13:50 № 1044491 290

>>1044378
>>1044413
>>1044303
Реально неплохо для мелкой модели. Карточка?

Аноним 06/02/25 Чтв 20:17:28 № 1044492 291

>>1044240
Вряд ли будут повсеместно встраивать. Нужно больше ебли с датасетами, больше ебли при выводе. Больше ебли везде.

>>1044374
>Уж не знаю у каких наркоманов ты это взял
Да по первым ссылкам в гугле. Специально взял примерно полмиллиона символов из текста, подсчитал статистику, 5.2 буквы на слово в среднем. Ну окей, выше среднего.
>обогнать опытные исследования в два раза
Проблема выборки, очевидно же. Уверен, что есть люди, которые читают как медленнее их нижней планки, как, очевидно, есть и читающие быстрее верхней. Но окей, если тебя смущает - вернёмся к средним значениям. Двести слов, пусть с теми же 5.2 символа на слово, чуть больше тысячи знаков в минуту. Если всё так же считать 2.5 буквы на токен, то это 6.9 т\с. В среднем. Даже это уже выше "5 токенов хватит всем". Хотя эксмо, например, пишут
>Педагоги и психологи считают среднюю скорость молчаливого чтения на русском языке равной примерно 200-300 словам в минуту.

>Вот не обманывай себя
Тем не менее, я четко улавливаю смысл, запоминаю заинтересовавшие фрагменты, нахожу в тексте неточности и несоответствия предыдущим тезисам и т.д.
Серьёзно, мне это напоминает спор по типу "глаз не видит больше 24 фпс". Чем больше т\с - тем лучше. Не нужно ждать, не раздражают свайпы, не приходится ожидать длинных полотнищ или можно скипнуть абзац, где ассистент разъясняет вещи, которые ты и так понимаешь, пишет несущественные вещи, повторяет твои же слова в другой формулировке и т.д. Здесь уже даже не важна скорость чтения. Я не агитирую всех срочно бежать заказывать пачку 5090, но и убеждать в том, что никому не нужна бо ́льшая скорость - просто бессмысленно. Она никому не будет лишней, даже если читать со скоростью 60 слов в минуту.

Аноним 06/02/25 Чтв 20:19:11 № 1044494 292

>>1044477
>гутенберг располагает ожидать художественных и творческих слов
Лира говорят вообще кум модель, но она закрытая так что в мержер не запихнёшь. Лиры-гутенберг там 10%, но видимо хватило, пробовал 20%, модель иногда начинала полностью на аглийский переходить.

Wayfarer для приключенчистости и снизить позитивный биас.
Она тоже как и лира-гутенберг чисто английская, так что много не добавишь, хотя вроде влияет на вероятность что модельна англ перейдёт меньше чем лира, так что её можно больше добавить.

NevereendingStory, так-то на деле шизомерж, но уже несколько анонов говорили что она годна именно что в сторителлинге.

Ну сайга-анлишед это просто как основа.

Хотя надо перемержить используя именно её как базу, а не оригинальную сайгу, должно шизы и выдуманных слов поуменьшить.

Аноним 06/02/25 Чтв 20:19:36 № 1044496 293

>>1044119
РП-срань от LLM действительно очень быстро читается даже вне кумерских сценариев, там реально хотя бы 10 токенов в секунду надо для, комфортного чтения 20.

Другое дело книги старых писателей, которые описывают двумя страницами как главный герой зашёл в магазин и рассматривает окружающее пространство. Вот от такого охуеть можно, особенно с их слогом. Быстро читать такие книги без опыта и большого словарного запаса не получится. Или медицинские статьи. Если там пишут не то, в чём ты хорошо разбираешься, читать приходится медленно.

Мимохуй

Аноним 06/02/25 Чтв 20:27:12 № 1044508 294

>>1044491
Nurse Dahlia на чуб.аи

Аноним 06/02/25 Чтв 20:28:21 № 1044511 295

>>1044492
>>1044496

Мне, походу, следует уточнить, что я доебался не до скорости генерации токенов, а именно до скорости чтения чела.

Со скоростью генерации пусть все дрочат как хотят, зависит дохуя от чего, от банально "минимально чтобы не уснуть", до "пусть оно мне напечатает простыню а я глазами пробегусь за несколько секунд".

Именно читать какой-то осмысленный текст, просто чтобы его быстро прочитать - это какой-то бред. Вполне можно
>четко улавливаю смысл, запоминаю заинтересовавшие фрагменты
Но нахуя, если от текста можно получить удовольствие, а не заниматься ебучим спидраном?

Аноним 06/02/25 Чтв 20:32:55 № 1044521 296

Как анон находит хорошие модели? Неужели просто качает все подряд и тестирует? Заебаться же можно.

(Вообще, меня просто интересует какая моделька для рпшки, параметров больше, чем на 12b, которые везде советуют, все прикольно, но хочется затестить что там, пусть и зашакаленное)

Аноним 06/02/25 Чтв 20:33:36 № 1044522 297

>>1044521
Никак я жду пока пиздарики красноглазики сами всё разнюхают

Аноним 06/02/25 Чтв 20:36:37 № 1044525 298

>>1044522
так они и разнюхивают 12b и ниже

Аноним 06/02/25 Чтв 20:45:47 № 1044549 299

>>1044521
>Как анон находит хорошие модели?
Моделей всего штук 5.
Справляется.

Аноним 06/02/25 Чтв 20:49:51 № 1044556 300

>>1044521
>Как анон находит хорошие модели? Неужели просто качает все подряд и тестирует? Заебаться же можно.
Качал.Тестировал. Заебался. Не нашёл ничего по вкусу, пошёл мержить сам в сомнамбулическом поиске Невидимого Горизонта.

Аноним 06/02/25 Чтв 20:51:20 № 1044557 301

https://huggingface.co/TheDrummer/Anubis-Pro-105B-v1-GGUF

Я вот хуй знает зачем было так увеличивать жопу ламы. Но прям какого то best experience evar не ощутил. Свайпы чуть сочнее, но по сути то-же самое что на небольших тюнах.
Meh~ Никакого откровения.

Аноним 06/02/25 Чтв 20:52:49 № 1044559 302

>>1044477
Я уверен, что подобная шняга вылезает чисто из сайги. Я ещё когда давно её пробовал (именно 12б), она срала этими странными кривыми уменьшительно-ласкательными или чем-то похожим. И недавно тестил магмел, куда залито немножко сайги+вихрь, и там на карточке с тянками-мимиками бот назвал обычного мимика "миметка", а мимика, маскирующегося под мебель, "фурнетка" (в оригинале furniture mimic). На сыром магмеле он просто писал мимик с небольшими искажениями, типа мимiк или мимок.

Аноним 06/02/25 Чтв 20:58:08 № 1044566 303

>>1044559
>когда давно
в прошлом году, да, но новые версии куда адекватнее

Аноним 06/02/25 Чтв 20:58:32 № 1044568 304

>>1044557
Ну короче, как я и думал. Выше 70б нихуя нет. Ну как нет, либо какой то совсем абсурдный пиздец в духе дипсика.
Или ебучая большая мойшстралька. Ни мержей, ни тюнов. Сам сиди и делай, блять.

Аноним 06/02/25 Чтв 21:00:20 № 1044570 305

https://huggingface.co/Aleteian/RuadaptEvaQwen2.5-32B-RP

почему-то не гуфается

Аноним 06/02/25 Чтв 21:03:44 № 1044573 306

>>1044570
>надо Федя, надо

>>1044557
>>1044568
Лол. А вообще расскажите о большой мистрали. Нормальный квант пощупать возможности нет. Насколько она лучше мелкой ?

Аноним 06/02/25 Чтв 21:05:09 № 1044577 307

>>1044559
>фурнетка
логично же, чо, если подумать, вот вам синкинги куда там дипсику

Аноним 06/02/25 Чтв 21:11:19 № 1044582 308

>>1044566
Нет там никаких новых версий, по сути. Было два обновления раз в неделю после первого коммита, посмотри в истории. Как была модель трёхмесячной давности, так и лежит.
Олсо, если я правильно понимаю, как устроены нормализованные веса, то вот тут >>1044413 50% - это обычная сайга. Потому что у базовой модели к-т веса единица, и остальных на единицу. Да ещё и в две другие модели суммарно на 40% тоже сайгу содержат, так что дофига сайги.

Аноним 06/02/25 Чтв 21:15:59 № 1044585 309

>>1044521
>больше, чем на 12b
Так ничего нет. Бояре нахваливают 70+, работяги выискивают хидден-гемы на базе немо. А между этим как будто выжженная пустыня, на 22-32b по паре нейрослоповых тюнов, чуть меняющих используемые обороты (но не общее поведение) моделей, и то чаще всего в пределах первых 4к контекста. На 70+ на самом деле похожая ситуация, как я понимаю, но там даже базовая модель без всяких тюнов может заметно больше, чем мелочь.
А в случае 12b - "народный" формат, идущий на среднеклассовом игровом железе с комфортными скоростями, поэтому им не только больше пользуются, но и экспериментируют с тюнами и мержами, и среди этой кучи и правда есть ненулевая вероятность найти годноту.

Аноним 06/02/25 Чтв 21:21:16 № 1044603 310

>>1044582
>так что дофига сайги
там не слерп, а бредкрамб тиез, что сбрасывает слишком большие и слишком маленькие отличия моделей при мерже, нормализуя остальное, но в целом да, попробуем тогда поменьше

Аноним 06/02/25 Чтв 21:29:39 № 1044620 311

Спросил я у магнума, что случилось на площади Тяньаньмэнь. А он ко мне в трусы полез....

Аноним 06/02/25 Чтв 21:34:30 № 1044629 312

>>1044276
Что за порт наркоманский? И v1 убери.

Аноним 06/02/25 Чтв 21:35:21 № 1044631 313

>>1044629
>порт наркоманский
твоя блядота мать наркоманская, нормальный у меня порт

Аноним 06/02/25 Чтв 21:36:53 № 1044634 314

>>1044276
Сам спросил, сам отвечу.
Ебанный насос, огнелис 102 не фурычит, а хромой, 100й между прочим, поехал без проблем! И даже звоночек в конце генерации появился!

Аноним 06/02/25 Чтв 21:37:36 № 1044637 315

>>1044631
>нормальный у меня порт
Ай не пизди, тебе говорили следить за портом, чтобы пакеты не терять ?

Аноним 06/02/25 Чтв 21:39:00 № 1044642 316

>>1044378
>>1044508
Товарищ майор не оценил вашу попытку обмана.
>>1044631
Там по дефолту 8080.
>>1044634
>огнелис 102
Некроёб?

Аноним 06/02/25 Чтв 21:46:46 № 1044650 317

>>1044557
А чего еще ты ожидал от франкенштейна?
>>1044568
> Выше 70б нихуя нет
Мистраль лардж и большой коммандер для тебя чтоли шутка?
>>1044573
> расскажите о большой мистрали
Что тут рассказывать, небо и земля если умеешь готовить. Буквально. Да, обе могут обосраться, при неудачном файнтюне спамить надоедливыми паттернами и подобное, обе могут давать интересные и приятные ответы.
Но с точки зрения качества общения это другой уровень. При продвижении истории будут не волки или бред, а что-то новое в сеттинге мира. Чар тебя понимает полностью, а не хватает буквальные значения слов. Можно делать что-то продолжительное, типа рассказывать части истории постепенно, или как-то подкалывать чара, и он это будет помнить и невзначай обращаться к прошлому, а не начинать прямо цитировать или забывать. Какие-то черты чара будут отыгрываться до конца даже сквозь типичные зашакаленные тренировкой сцены, причем иногда принимать неожиданные проявления и генерировать события, что ломает 4ю стену.

Но ты все равно сильно не грусти, оно точно также может конкретно сфейлить, запутавшись на контексте в мелочах, и не является святым граалем, как и корпы.

Аноним 06/02/25 Чтв 21:49:45 № 1044659 318

>нормальный у меня порт
хватит петросянить, да семенить, в этом итити ните-треде собрались сурьезные дяди и обсуждают серъезные вопросики.

Повторю очень важный вопрос:
>Посоветуйте, люди добрые, гуфских (лень конвертить) от 8Б до 32Б
>для ролеплея с элементами еротики, хотяб с 130К кнотекста.
>- что леддит советует типо DarkForest и прочих - какая то порнография бессвязная выходит, большие типа Мику не влезут в мою РАМу.
>- брал лламу 3Б подобученную, неплохо эротику пишет, но, зараза, валится с мелким ее контекстом очень быстро, да цензуру возвращает, сука.

>>1044642
>некроебишь
Ну нелюбовь у меня к современным реалиям. У меня вообще один комп с вин7 ездит.
Эээх, вернуть бы время взад! Даешь Абсолютную Монархию!

>>1044620
>что случилось на знаменитом сквере
Спросим у дистилята ДипСнида:
"Tiananmen Square is one of the most iconic squares in Beijing, China. It serves as a central landmark and has been the site of various significant historical events and political demonstrations. The square is also known for its connection to the Tiananmen Square protests of 1989, a pro-democracy movement that ended tragically with a military crackdown by the government."

Аноним 06/02/25 Чтв 21:59:18 № 1044684 319

>>1044659
>Повторю очень важный вопрос:
Cydonia 1.2
>хватит петросянить,
Лол нет. Страдай теперь, портотряс

Аноним 06/02/25 Чтв 22:01:29 № 1044686 320

>>1044585
Вот только что потыкал https://huggingface.co/mradermacher/Nautilus-RP-18B-GGUF , и оно будто сильно тупее sainemo из шапки, да и в принципе других моделей, что я тыкал. Что-то где-то на уровне 8b моделей, по ощущениям. Это пиздец странно ощущается.

Аноним 06/02/25 Чтв 22:01:43 № 1044688 321

Кто хотел русский ризонинг, но не тянул 32B, вышла https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF , весьма неплоха хотя бы в языке.

Аноним 06/02/25 Чтв 22:05:57 № 1044693 322

30% Lyra-Gutenberg, 30% 2 мержа c Wayfarer, один с Chronos, другой с Humanize, и остаток NeverendingStory.

Магия-шмагия, камлаем шибко.

Тут проблема больше найти границу, тот самый горизонт событый.

Ещё вариант обратно немомикса подкинуть, потому что сейчас получается что примерно половина весов от англ тюнов.

Если сильно в англ будет скатываться так и сделаю, но стачала надо потестить.

https://huggingface.co/Aleteian/Way-to-Unseen-Horizon-1-MN-12B
Пока без квантов, чот gguf-my-repo не фурычит.

>>1044650
22B https://huggingface.co/mradermacher/Pantheon-of-Cydonia-Realm-i1-GGUF

>>1044686
>только что потыкал
Основная модель удалена (не моё, так что хз) но вероятно автор решил что мерж неудачный.

Аноним 06/02/25 Чтв 22:09:44 № 1044699 323

Вот если я ебанусь и захочу себе собрать мини-сервак с набором из видях, чтобы на нем вертеть нейросети, мне откуда начать копать?

Аноним 06/02/25 Чтв 22:13:41 № 1044706 324

>>1044699
>откуда начать копать?
С кубышки, готовь порядка ляма.
Потом закажи у нормальных челов (спроси тут у других анонов какие лучше, смотря ещё где живёшь) чтобы всё собрали сами протестировали и привезли в сборе.

Хотя можно настолько и не упарываться, обычная, не сервеная пекарня 2 х 4090 / 3 х 3090 запустит всё кроме дипсика.

Аноним 06/02/25 Чтв 22:28:19 № 1044724 325

>>1044706
>2x4090
Зачем быть совсем нищукком, если H100 - идеальный вариант.

Аноним 06/02/25 Чтв 22:34:08 № 1044739 326

>>1044582
>>1044659
>>1044693
https://huggingface.co/Aleteian/Way-to-Unseen-Horizon-1-MN-12B-Q6_K-GGUF

>>1044724
>идеальный вариант
Неиронично был когда она лям стоила, а не 5-7.

Аноним 06/02/25 Чтв 22:47:21 № 1044759 327

>>1044699
Здесь спроси, четко и подробно обозначив свои хотелки, назначение, бюджет и т.д.
>>1044739
> Неиронично был когда она лям стоила
Не было. Скам и бу на аукционах, без учета конвертации, комиссий, доставки, пошлины в момент, когда курс был около 50, или в завлекающих объявлениях барыг с пометкой "цену уточняйте". A100 еще можно было так взять, но не хоппера.
> а не 5-7
Из той же оперы, в магазине с гарантией и доками 4

Аноним 06/02/25 Чтв 22:56:50 № 1044772 328

>>1044699
Xeon e5 26xx 128 gb + 2 шт. 4060Ti (если мало 32gb VRAM то еще 2 шт. 4070TiS) итого менее 400 тыс. руб. с корпусом, б/п и всем прочим в максимальном варианте.

Аноним 07/02/25 Птн 00:00:25 № 1044842 329

>>1044650
>А чего еще ты ожидал от франкенштейна?
Генеральных сражений с прорывами и окружениями в Футабе.

Ну а если серьезно, я ожидал именно жирнейший РП тюн ламы. А по факту, ну та же лама же блять. Почему у драммера получилось сделать из мистрали цидонию и это прям неплохо, а из ламы получилось какое то говно.

Аноним 07/02/25 Птн 00:25:41 № 1044882 330

>>1044739
>2 часа назад обнова приехала
Твоя чтоль? Отравил надеюсь чем-то интересным?
Ох, епт! Так эта ж намикшено из той самой:
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Где эти дебилы даже блядь ридми не удосужились прочесть к модели, которую они, блядь, миксуют! Помним, любим и скорбим. Судя по описанию уже через 100 токенов на меня даже неведомая Лавкрафтовская глубоководная херотень запрыгнет, а весь ролеплей сведется к "какой он большой, какая я развратная". Вот как раз такого б и не хотел.
Мне подавай романтики, да чтоб за дамой, да за тридесять земель, да и эрпогэ с интересным сюжетом. как в старых DungeonAI. И юморца была, и караваны грабить, и за изнасилование не заставляли объяснительную на имя админов составлять. Секс не особо красивая вещь, предварительные ласки красивей и интересней.

>>1044684
Популярный вариант, к завтраму исследуем. Пока что только 32К токена модель показывает, как-то грустно. Мне б более продолжительных рассказов.

Аноним 07/02/25 Птн 00:43:08 № 1044892 331

>>1044772
>Xeon e5 26xx 128 gb + 2 шт. 4060Ti (если мало 32gb VRAM то еще 2 шт. 4070TiS) итого менее 400 тыс. руб. с корпусом, б/п и всем прочим в максимальном варианте.
Не слушай его, бери за те же деньги 4 3090 со всей обвязкой. На X299 плату с 4 PCIe-слотами за вменяемые деньги ещё можно найти и процы с большим количеством PCIe-линий относительно дешёвые. Если по-богатому, то система будет на 4090-х и минимум на миллион дороже.

Аноним 07/02/25 Птн 00:45:47 № 1044894 332

Гайс, прошу пояснительную бригаду насчет RAG в LM Studio.

Насколько я понимаю, RAG должен конвертировать текстовый документ, или pdf в embedding - т.е. в вектора и примешивать их к весам модели. До этого работал только с графическим нейросетями и там эмбеддинги это не просто набор промпта.

Но какие бы по размеру документы я не добавлял и с какими бы моделями не работал, даже если текстовый документ по размеру составляет чуть меньше печатной страницы, каждый раз из него берется три рандомных предложения и анализируются в отдельности от контекста всего документа. Причем если книга большая, то отрывками "цитатами" выступают абзацы, а если небольшой текст - то маленькие предложения.

Так допустим я не могу попросить нейросеть коротко пересказать содержимое документа, или составить по нему план, потому что все что видит нейросеть - три сранных предложения.

Как это должно работать из описания того что я читал? Большая книга или документ должны быть разбиты на маленькие чанки, а затем в зависимости от промпта, будет найден самый подходящий чанк и информация будет взята из него. Таким образом нейросеть с малым контекстом может отвечать на любой поставленный вопрос о содержимом книги или документа.

Насколько я понял из рассуждений с реддита - эти эмбеддинги представляют собой самый обыкновенный промпт, который должен влезть в контекст текущей беседы, и если он не влезает - никакой умной системы чанков попросту нет, он берет по идиотски рандомные куски текста и использует их для анализа.

Подскажите как быть? Насколько малым должен быть объем текста в RAG чтобы оно работало не выбирая из текста три рандомных предложения? На кой черт тогда нужен RAG, если я могу настолько малый текст вставить как подсказку или сразу в поле промпта.

Аноним 07/02/25 Птн 00:59:15 № 1044910 333

Почему я на чубе когда захожу в профиль автора половину карточек не видно, хотя они ищутся в обычном поиске? Галка нсфв стоит.

Аноним 07/02/25 Птн 01:14:52 № 1044940 334

Как застримить таверну на телефон?

Аноним 07/02/25 Птн 01:19:12 № 1044946 335

>>1044882
> Мне б более продолжительных рассказов
Удачи с рп с забитым контекстом. Я даже боюсь имаджинировать твоё ебало, когда нейронка начнет пускать слюни и забывать.
К чему я это - используй суммаррайз. Контекст более 16к - если у тебя нет гигабайтов свободных ВРАМ нахуй не нужен.

Аноним 07/02/25 Птн 01:41:15 № 1044972 336

>>1044772
> 400 тыс. руб.
> Xeon e5 26xx 128 gb + 2 шт. 4060Ti
Плакать или смеяться?
>>1044842
Немо довольно удачно тренится и прощает ошибки. А здесь явно наложилась нехватка бюджетов и опыта, скорее всего была вообще qlora вместо нормальной тренировки, сама склейка штука специфичная, что-то нахимичили с датасетом.
У большинства таких моделеделов что-то получается не потому а вопреки, один раз выиграл в казино и потом обратно на дно.
>>1044892
Двачую, разве что
> с 4 PCIe-слотами
Чтобы все профессорные уже сложно.
>>1044940
В настройках разреши подключение с других ип и просто зайди на адрес пеки с телефона.

Аноним 07/02/25 Птн 02:05:27 № 1045003 337

>>1044139
Лама-хуяма. Это все, как нейродичь, как видео генерируют и там люди скачут хоть на голове, потом утекают по реке, сливаясь с пейзажем. Но конечно смехуечки, да.

Аноним 07/02/25 Птн 04:53:11 № 1045241 338

>>1045003
Хорошо, ламу вычёркиваем, осталось ещё 4. Протестируешь?

Аноним 07/02/25 Птн 05:01:49 № 1045243 339

>>1044882
>DungeonAI
Для этого в миксе WayFarer - вроде он на DungeonAI и стоит.

>>1044882
>Лавкрафтовская глубоководная херотень запрыгнет
Немомикса там немного.

Аноним 07/02/25 Птн 06:09:13 № 1045261 340

https://huggingface.co/OddTheGreat/Machina_24B

Наркоманит, галлюцинирует, и перескакивает на английский прямо во время написания своего поста.

Но в моменты просветления (свайпы наше всё) пишет на русском, и пишет даже неплохо.

Аноним 07/02/25 Птн 06:45:20 № 1045268 341

image 316Кб, 2545x752

Пересобрал, старую удалил, почему-то там токенизатор по видимости поломался.

https://huggingface.co/Aleteian/Way-to-Unseen-Horizon-2-MN-12B-Q8_0-GGUF

Изредка хотя проскакивают англ фразы, цельные и консистентные.
Изредка может выдать что-то странное.

Потестирую ещё вечером уже в актуальном рп на каких-нибудь новых карточках, эти юзаю чтобы зирошотом проверить что модель вообще работоспособна.

Возможно стоит снизить процентное соотношение англ тюнов.

Аноним 07/02/25 Птн 07:40:22 № 1045281 342

>>1044511
Ты хочешь сказать что есть упоротые которые кайфуют от самого процесса чтения? Типа каждая новая буква приближает к оргазму?

По мне так единственная полезная и приятная часть любого текста это заложенный в него смысл. Чем быстрее ты читаешь тем быстрее и больше ты получаешь эту "дозу". В худ.литературе я уже машинально скипаю фоновые абзацы не несущие смысловой нагрузки, в стиле того же детального описания чайного сервиза.

Аноним 07/02/25 Птн 07:58:17 № 1045291 343

>>1045281
>кайфуют от самого процесса чтения?
Есть такое. Расслабся, возьми плитку твёрдого горького шоколада, хорошую книгу, можно даже на физическом носителе, и просто наслаждайся заслуженным отдыхом.

(но у меня, к сожалению, рабочий день только начинается)

Аноним 07/02/25 Птн 09:05:08 № 1045318 344

>>1045268
На четвертой слог какой то хуевый, прям тяжко читать. Как будто школьник переводил английский текст с бумажным словарем.

Аноним 07/02/25 Птн 09:29:13 № 1045341 345

>>1045318
>школьник переводил английский текст с бумажным словарем
Если верхняя половина, то это дипл.
Надо вычитать и пересохранить стейт, просто сам не особо обращал внимание, я и хуже тексты читал, намного, например рУссКиЙ пИрИвРОТ ранобе "Re:Monster".

Аноним 07/02/25 Птн 09:31:38 № 1045342 346

>>1045261
>на русском
Зачем для этого было брать английский мерж для уменьшения слопа? И где сравнение с базовой моделью? Хотя скорее всего на русском либо нет отличий, либо только хуже стало.

Аноним 07/02/25 Птн 09:33:31 № 1045344 347

>>1045342
>Зачем для этого было брать английский мерж для уменьшения слопа? И где сравнение с базовой моделью
Это не ко мне ( Aleteian ), но вроде автор сего мержа тоже местный.

Аноним 07/02/25 Птн 09:35:28 № 1045345 348

>>1045281
чем быстрее ты читаешь, тем меньше смысла вытягиваешь из прочитанного. Это неизбежно никакими техниками, ты можешь только поднять скорость своего чтения только до определенного предела, а дальше начинаются бессмысленные выебоны

Аноним 07/02/25 Птн 09:45:50 № 1045346 349

>>1045344
>Tested on russian and english, very good on both
Не заметил этой строчки в описании. Ну тогда на русском фейл вышел, судя по отзыву. Впрочем, ничего удивительного, в моделях-компонентах, как я понял, фокус на английском был. Русский там от базового мистраля. Но сравнить с базой автор отзыва не удосужился.

Аноним 07/02/25 Птн 09:50:50 № 1045348 350

>>1045346
>базой
в базе кстати, 24б мистраль новый тоже так себе на русском, куда хуже 12б

Аноним 07/02/25 Птн 10:21:17 № 1045361 351

>>1045345
>чем быстрее ты читаешь, тем меньше смысла вытягиваешь из прочитанного
Не существует линейной зависимости. Иначе человек читающий по слогам получал бы 100500% от смысла текста. Просто есть люди умеющие быстро читать и не умеющие.

Аноним 07/02/25 Птн 11:01:50 № 1045372 352

>>1045348
Потому что новая мистраль тоньше старой.
Я не знаю что у них случилось, но это делает меня грустить.

Аноним 07/02/25 Птн 11:08:33 № 1045374 353

>>1045372
Зато oneshot тесты на математику лучше решает! Наверное.

Аноним 07/02/25 Птн 11:09:33 № 1045375 354

>>1045374
Матан я могу и маткаде решать, нахуй мне для этого мистраль ?

Аноним 07/02/25 Птн 11:10:27 № 1045376 355

>>1045261
>>1045342
>>1045346
>>1045344
Местный, местный.
Этот мердж больше из рубрики эээксперименты, посмотреть как мержится новый мистраль. Мне из тестовых 400 реплаев на русском видимо везло.
Сейчас пойду ещё помучаю мерджкит, попробую замутить V2, более адекватную и стабильную. Как протестирую достаточно, (1000 реплаев) выкачу ссыль сюда, вдруг кому зайдёт.
>Но сравнить с базой
Я пока ещё не смешарик новенький в оформлении, сравнение с базой это скрины база\мердж на одних и тех же вводных? Такое можно устроить.

Аноним 07/02/25 Птн 11:15:30 № 1045379 356

>>1045361
и тем не менее, при достижении определенной скорости падение понимания прочитанного происходит неизбежно для любого человека, иначе на соревнованиях по скорочтению не было бы понимания в районе 50%

Аноним 07/02/25 Птн 11:20:48 № 1045381 357

>>1045376
>400 реплаев
>1000 реплаев
Фига ты сурьёзный. Я просто сразу выкатывал, тестируя только на саму работоспособность. Совсем битые из репы удалял, рабочие оставлял для сохранения ямл-конфига и возможных дальнейших мержей.

Аноним 07/02/25 Птн 11:32:31 № 1045384 358

>>1045381
>тестируя только на саму работоспособность
для такого я коллекцию experimental себе создал и скрыл лол, пока там один мой франкен до 18.5б, он рабочий, но у него беды с башкой. Я его делал чтоб с клиффхенгером замерджить, но там русик очень сильно терялся. ещё есть идея удачные 8б с пола раздуть до 12/14б, но идея временно заморожена, самих 8б прям хороших маловато.

Аноним 07/02/25 Птн 11:36:29 № 1045386 359

>>1045384
Анонче, я вот очень люблю великий и могучий. Нет, серьезно, когда читаешь классиков на русском языке, когда ты наслаждаешься прекрасными оборотами - начинаешь прям любить родной язык.
Но и тысячу раз но. Сейчас для кума все таки лучше английский. Он проще, в нем нет проблем с окончаниями, ЕРП книг и фанфиков абсурдное количество на английском. Да и в целом меня так не воротит от cum, pussy, aaah~, чем от русскоязычного перевода. Токены поменьше, проебов меньше.

Аноним 07/02/25 Птн 11:50:36 № 1045393 360

>>1045386
Все шедевры литературы написаны на русском. Как модно променять русский на английский когда есть такие стихи

Мои панчи сделают вам больно - баттл-рэп.
Удлиненная обойма, слышишь это? (пы-пы-пау)
Самый лучший в том, чтоб тахать этих тупней. Скажешь "нет"?
Но кому ещё заплатят пару лямов за куплет?
Е, е! Я залетаю на студийку,
Замути мне кофейку или ты сядешь на бутылку.
Замути мне жирных бошек, шишек пятого размера.
Депутатский, как у мэра, моей маме Panamera (пау, пау!)
Только лучшее для всей моей семьи,
Панчи в виде txt на
9-10 DVD, CBD, ТГК, клеишь будто ПВА;
Мой хй среднего размера, да, по меркам NBA!
Ха-ха-ха!
Уготовлю вам пулю, брат (wait), ты куришь какулю.
Ты тупой, как Акулич! Я крутой, как огурчик.
Самый свежий на грядке, кэш не трачу на тряпки.
Покупаю то, что дорожает, мой бэнкролл в порядке!
Flow TEKKEN, мой flow TEKKEN!
Дзин Кодзима, мой flow TEKKEN!
Танцую как Эдди, flow TEKKEN.
Брайан Фьюри, мой flow TEKKEN!
Ёшимитсу, клинки смерти.
Flow TEKKEN, Flow TEKKEN!
Сергей Драгунов, побал с ног -
Flow TEKKEN!
Flow TEKKEN, мой flow TEKKEN!
Дзин Кодзима, мой flow TEKKEN!
Танцую как Эдди, flow TEKKEN.
Брайан Фьюри, мой flow TEKKEN.
Ёшимитсу, клинки смерти.
Flow TEKKEN, Flow TEKKEN!
Сергей Драгунов, побал с ног -
Flow TEKKEN, Flow TEKKEN!
Я на майке, значит МС отлетают только так.
Сука, по твоему флоу, репетитор Дональд Дак (Дональд Дак)
Петушок, твое место у параши.
Жизнь безумней, чем сезон американского папаши.
Каждый день (дважды в день) мы ем тебя в очко.
Этот толстый лысый хй, можешь звать Альфред Хичкок.
Как никто, я умею грязно делать эту грязь.
После жопы, мой х чёрный, словно Кондолиза Райс.
Отвратительно, ставь это родителям и при подружке.
Я хочу чтоб, рэп, все ненавидели, как мои шутки.
Эй, shooter game, я создал х*ню, как Оппенгеймер.
Я Big Baby Tape, в котором воплатился Гегель.

Аноним 07/02/25 Птн 11:50:42 № 1045394 361

>>1045384
>Я его делал чтоб с клиффхенгером замерджить, но там русик очень сильно терялся
Я вроде тебе же про это и говорил, кидая ссылки на свои passtrough апскейлы =))

Аноним 07/02/25 Птн 11:53:26 № 1045397 362

>>1045393
Я немного не понял, что ты хотел сказать этим текстом ? Что кириллицей можно писать хуиту ?

Аноним 07/02/25 Птн 11:54:09 № 1045399 363

>>1045394

Дэвид свои франкенмержи потом файнтюнил ещё поверх приводя в относительный порядок.

Аноним 07/02/25 Птн 11:56:29 № 1045402 364

>>1045397
Да не, у меня похмелье и я хуйню пишу

Аноним 07/02/25 Птн 11:56:47 № 1045403 365

>>1045386
>cum, pussy, aaah
Ни cum'ом единым. Про обычное / легкоэротическое рп не думал?

Аноним 07/02/25 Птн 11:58:13 № 1045404 366

>>1045402
>похмелье
Я понимаю что пИтница, но похмелье сегодня, а не в субу/воскру?

Аноним 07/02/25 Птн 12:01:20 № 1045409 367

>>1045404
Я не он, но кто вообще в пятницу работает, когда 4-дневная рабочая неделя у всех уже?

Аноним 07/02/25 Птн 12:01:54 № 1045410 368

>>1044972
Я покекал лично. =3 Даешь позитив!

Аноним 07/02/25 Птн 12:02:13 № 1045411 369

>>1045409
Йа. Потому что шахте глубоко насрать на день недели и время. Спайс маст флоу.

Аноним 07/02/25 Птн 12:04:05 № 1045413 370

>>1045409
Йа. Потому что удалённо и глубоко насрать на день недели и время.
Таски за меня никто не комплитнет.

Аноним 07/02/25 Птн 12:04:10 № 1045414 371

Анчоусы и кильки в банке : а что есть больше чем 4090, но не настолько дорогое как H100. Теслы, квадрики ?

Аноним 07/02/25 Птн 12:05:13 № 1045415 372

>>1045413
>Йа.
Fucking lol'd. Если тебе еще и 35+Lvl я еще крякну от смеха.
>>1045411 анон

Аноним 07/02/25 Птн 12:05:19 № 1045416 373

>>1045409
Ты из какого года? В 2025 всё ещё восьмичасовая восьмидневка

Аноним 07/02/25 Птн 12:05:27 № 1045417 374

Анон, Вихрь намеренно соевизирован или это последствия файнтюна на OpenAI? Отказывается в наотрез со мной виртить, даже с джейлбрейками. Можете какой-то быстрый гайд как её десоевизировать, i.e.:
1) где взять датасет с обратными QA, где она соглашается отвечать вместо визгов "Я не могу на это ответить"
2) чем файнтюнить и как?

Аноним 07/02/25 Птн 12:06:55 № 1045418 375

>>1045417
Он всегда был соевым говном. Там прям в датасете есть реджекты. Не трогай его.

Аноним 07/02/25 Птн 12:09:12 № 1045422 376

>>1045386
Дело не в люблю/не люблю, а в способности качественно рпшить на том или ином языке. К примеру, я очень люблю латынь, но подробно расписать на ней свои действия, вести диалог и так далее, я не могу. также и с англ, как бы ты хорошо его не знал, ты думаешь на русском, а затем, в голове переводишь на язык, из за чего ты а) больше напрягаешь голову, меньше погружаешься в выдуманный мир, б) пишешь в более простых и коротких конструкциях, что хоть и помогает модели лучше понять тебя, но само по себе снижает качество ролеплея.
Ну а кум это отдельное, не всё же время дрочить
>>1045394
ага ) но справедливости ради, на англе то творение держалось молодцом. но нет русского - нет релиза
>>1045409
ща бы график иметь, а не гонять кабанчиком только тогда, когда надо

Аноним 07/02/25 Птн 12:11:59 № 1045423 377

>>1045422
> гонять
Сейчас бы работать не из дома, а подскакивать когда хозяин позовёт.

Аноним 07/02/25 Птн 12:12:08 № 1045424 378

>>1045417
>быстрый гайд
Взять сайгу-анлишед. А вихрь всегда был с цензурой.

>>1045415
>35+Lvl я еще крякну от смеха
Крякай.

Аноним 07/02/25 Птн 12:16:05 № 1045426 379

>>1045422
>думаешь на русском
А вот это неправильно, двойную работу делаешь, на английском надо думать, тогда всё легче намного читается.

А общаться / слушать англ речь не думая на английском - вообще без шансов, если у тебя не мозг-компьютер.

Аноним 07/02/25 Птн 12:18:49 № 1045429 380

Русик везде ниже 70б какой то вымученный будто перевод с английского на ходу, нет русского духа если хотите

Аноним 07/02/25 Птн 12:19:40 № 1045431 381

>>1045426
>на английском надо думать
Чтобы это делать, нужно несколько лет прожить с носителями языка.
>>1045422
>пишешь в более простых и коротких конструкциях, что хоть и помогает модели лучше понять тебя, но само по себе снижает качество ролеплея.
А вот это ты прям в точку попал. Но, как показывает практика, сложные предложения на английском ломают даже всякие цидонии и пантеоны. Я конечно верю что там, на 70бе есть жизнь и РП. Но увы, я не могу себе позволить такое железо.

Аноним 07/02/25 Птн 12:20:43 № 1045433 382

>>1045429
>нет русского духа
У сайги есть, но когда её пусть и с качественными англо-тюнами мешают, несколько теряется.

>>1045431
>нужно несколько лет прожить
Достаточно и в интернете общаться, но да, нужна языковая практика

Аноним 07/02/25 Птн 12:25:12 № 1045436 383

>>1045424
Тогда, кхмм, кхммм.
КРЯ

Аноним 07/02/25 Птн 12:27:33 № 1045438 384

>>1045433
>Достаточно и в интернете общаться, но да, нужна языковая практика
Я конечно рад что тут в треде собрались вундеркинды, но чёт мой жизненный опыт показывает, что даже 5 лет в иностранной среде - это мало, чтобы начать думать на другом языке.

Аноним 07/02/25 Птн 12:30:20 № 1045441 385

quickstart-file[...].png 2572Кб, 1732x2060

Поясните за MCP.
Вот на пике в рамках одного ответа клод дернул его 3 раза для конкретных задач, и что-то думал между этим. А если дипсику в чате разрешить гуглить, он сразу нагуглит ворох какой-то малорелевантной хуйни, потом начинает думать "таааак, надо посмотреть шо за хуйню я нагуглил", и от этого очень сильно тупеет.
Можно ли как-то подрубить гугл через МЦП к локальному/апишному дипсику, чтобы он так же гуглил конкретно то что нужно несколько раз?

Аноним 07/02/25 Птн 12:32:57 № 1045443 386

>>1045441
>Можно ли как-то подрубить гугл через МЦП к локальному/апишному дипсику, чтобы он так же гуглил конкретно то что нужно несколько раз?
Поищи в прошлом треде, я точно помню что аноны поднимали вопрос : а как гуглить.

И вообще, что такое клод ?

Аноним 07/02/25 Птн 12:33:14 № 1045444 387

Расскажите как семплеры настраиваете под модель? XTC кто-то щупал хорошенько? Есть ли в таверне семплеры нормальные под Цидонию / Магнум? Я попробовал несколько типа креатива или годлайк кобольда, не зашло. Сейчас сижу с почти дефолтными - "temperature": 1.0,
"repetition_penalty": 1.05,
"min_p": 0.05

Аноним 07/02/25 Птн 12:37:35 № 1045445 388

>>1045444
Семплеры это костыль, они только поломать модель могут. Попробуй порпшить с R1, поймёшь насколько мелкие модели всратые по креативности, даже 70В. Тем более в таверне уже есть полная поддержка reasoning-моделей, размышления прячутся под спойлер и длятся 5-10 секунд.

Аноним 07/02/25 Птн 12:38:43 № 1045448 389

>>1045444
>XTC кто-то щупал хорошенько?
As reddit say : работает только на БОЛЬШИХ моделях.
>Есть ли в таверне семплеры нормальные под Цидонию / Магнум?
Буквально жрут любые настройки. Тыкай и пробуй.
>Сейчас сижу с почти дефолтными
Я верю, что когда нибудь, анон начнет читать шапку и тогда последний камень, последнего нейрохрама падет на голову последнего нейрожреца и век просвещения настанет.
>Пресеты под локальный ролплей в различных форматах:

Аноним 07/02/25 Птн 12:41:50 № 1045450 390

В принципе 5080 не сильно оверпрайс, 150к думаю увидим. Как думает анон - 5080Ti 24гб за 200к возможна, скажем через годик?

Аноним 07/02/25 Птн 12:43:32 № 1045452 391

>>1045445
>Попробуй порпшить с R1
Хватит уже блять советовать ебанный дипсик, вы остоебенили уже. Его диситиляты говно ебанное.
>даже 70В
Давай сыграем в игру. Возьмем одну карточку персонажа. Ты будешь скрины с R1 тащить, а я с бегемота или большой мистрали.
Уже эти сказки про необычайный рп на дипсике доебали.

Аноним 07/02/25 Птн 12:45:45 № 1045455 392

>>1045450
А в чем профит 24 гига за 200к через годик, если сейчас есть за 3090 за 70к на лохито?

Аноним 07/02/25 Птн 12:52:31 № 1045461 393

>>1045455
>А в чем профит 24 гига за 200к через годик, если сейчас есть за 3090 за 70к на лохито?
GDDR7, новые технологии, чистой мощи больше чем в 2 раза. Тесты с инференсом должны уже где-то быть.

Аноним 07/02/25 Птн 13:02:02 № 1045469 394

>>1045448
>Пресеты под локальный ролплей в различных форматах:
Там хуйня в целом, которая сводится к: крутите ползунки, пока не понравится результат. Я уже заебался. Добавлять семплеры было ошибкой. Отныне сижу на дефолтных, разве что они указаны на странице с моделью, как например у Пантеона.

Аноним 07/02/25 Птн 13:02:04 № 1045470 395

>>1045444
>Расскажите как семплеры настраиваете под модель?
По наитию, иначе никак.
>XTC кто-то щупал хорошенько?
Говно без задач, которая кроме "креативности" режет кучу нормальных токенов, высирая шизобред в двух из трех случаях.
>Есть ли в таверне семплеры нормальные под Цидонию / Магнум
Это мистраль ебаный, хули там настраивать. Он из коробки нормально работает, хотя за магнум не уверен. Мне больше интересно, нахуя ты вообще рассматриваешь этот слоп годовалой давности, когда уже есть куча нормальных тонов.
>Я попробовал несколько типа креатива или годлайк кобольда, не зашло.
Это копролиты которыми уже никто не пользуется, так что можешь на них забить.
> Сейчас сижу с почти дефолтными - "temperature": 1.0, "repetition_penalty": 1.05, "min_p": 0.05
Ничего криминального в этом нет, нормальная связка. Температуру можешь только подкрутить при желании.

Аноним 07/02/25 Птн 13:05:19 № 1045473 396

>>1045470
>нахуя ты вообще рассматриваешь этот слоп годовалой давности
Потому что пантеон и цидонька до сих пор лучшее что есть на мистрали, нэ ?
Новая мистраль параша. Мелкие тюны на то и мелкие.
А чуть выше гемма и ебанная пустыня.

Аноним 07/02/25 Птн 13:08:14 № 1045477 397

>>1045452
Так кто про дистилляции говорит? Или ты из тех кто их за R1 считает? Речь естественно про полноценный.

Аноним 07/02/25 Птн 13:08:37 № 1045482 398

>>1045470
>Мне больше интересно, нахуя ты вообще рассматриваешь этот слоп годовалой давности, когда уже есть куча нормальных тонов.
Я уже спрашивал вот тут >>1043468 мне никто ничего не ответил. Магнум кстати получше цидонии оказался как по мне. Я бы назвал его Цидония+, такие же залупы встречаются, но пишет интереснее, гораздо меньше бреда вроде кондиционера в фэнтези сеттинге.

>Ничего криминального в этом нет, нормальная связка. Температуру можешь только подкрутить при желании.
Понял, спасибо.

Аноним 07/02/25 Птн 13:12:05 № 1045487 399

>>1045452
>Его диситиляты говно ебанное.
Дистилляты р1 - охуенные. Это просто кум - говно вместо задачи.

Аноним 07/02/25 Птн 13:28:07 № 1045503 400

>>1045482
>мне никто ничего не ответил
Не удивительно, тред давно превратился в обнюхивание инфопердежа. Иди на реддит глупой таверны, там каждую неделю мутят отдельный тред, где обсуждают лучшие модели для локалок и стриминга.

Аноним 07/02/25 Птн 13:28:11 № 1045504 401

>>1045477
Правильно ли я понял, что ты сам катаешь полноценный дипсик на своей машине ? А не покажешь, посмотрю хоть на боярина.

Аноним 07/02/25 Птн 13:29:20 № 1045506 402

Господа, поясните, пожалуйста, про q6 и q8 для 12b моделей - q8 просто плацебо?
И второй вопрос - я тупой, ткните меня лицом как заставить в угабуге (или в Кобольде, и то и то меня устроит) сначала полностью забивать слоями/контекстом одну из видеокарт, а потом уже начинать закидывать контекст на другую.

Аноним 07/02/25 Птн 13:35:00 № 1045513 403

>>1045506
Есть возможность пихать восьмой квант - пихай восьмой квант. Не будешь пихать - много не потеряешь, а разницу будешь искать с лупой. Есть поверие, что те псевдо восемь бит это почти те же самые неквантованные 16 и 32 бита соответственно, по этому некоторые юзают их чтобы точность была максимально возможной.

Аноним 07/02/25 Птн 13:36:39 № 1045514 404

>>1045506
Смотри. Если кратко (Да я знаю что упрощенно)
То : чем больше модель, тем адекватней малый квант.
Условный 12b в 5 кванте будет шизить, 27б уже не будет так шизить.

>>1045503
И по сути они обсуждают там тюны мистрали. It's all same shit. Как только появляется что то интересное, то в треде это сразу обсуждают.
Да и вообще приноси сам. Я с удовольствием пообсасываю модельки, даже своё кря напишу.

>>1045487
И с какими же задачами он так прекрасно справляется, что с ними не могут справиться другие жирные модели ?

>>1045477
>полноценный
/acig/ тред на два квартала ниже boy.

Аноним 07/02/25 Птн 13:39:20 № 1045517 405

>>1045415
Посоны иму албанский ни нравицца! Пиздим!

>>1045436
И за меня крякни!

>>1045506
Например, на коротких диалогах с 16 гигами я юзаю 8 квант, потому что контекст просто не нужен и можно вместо 24к-32к забить 12к-16к и его хватит.
Но и шестым квантом не гнушаюсь на 12-гиговых видяхах.
12б — не 7б, там не все так страшно, вполне себе юзабельно. Под лупой, да.

Аноним 07/02/25 Птн 13:42:36 № 1045520 406

>>1045514
>И по сути они обсуждают там тюны мистрали. It's all same shit.
Там тред тематический, обсуждаются только модели. У нас всё от трассированного кожака хуанга до самопальных охладов на теслы.
>Как только появляется что то интересное, то в треде это сразу обсуждают.
Обсуждаются в основном только пуки всхрюки, когда нет новых моделей для обсоса. Но в последние пол года у нас правда ничего нового и интересного не выходит, так что тут да.
>Да и вообще приноси сам. Я с удовольствием пообсасываю модельки, даже своё кря напишу.
Приношу периодически, только это мало кому интересно видимо.

Аноним 07/02/25 Птн 13:42:53 № 1045521 407

>>1045470
>ты вообще рассматриваешь этот слоп годовалой давности, когда уже есть куча нормальных тонов.
И тут ты конечно вкидываешь пачку примеров... Что? Нет? Боишься что тебя обсосут?
Когда уже до вас дойдет что без релевантного примера ваше мнение делится на ноль.

Аноним 07/02/25 Птн 13:43:20 № 1045522 408

>>1045438
>думать на другом языке
Проще чем кажется.
Не надо переводить - надо сопоставлять понятия со словами другого языка.
Чувствуй, а не думай. Используй свои инстинкты.

Аноним 07/02/25 Птн 13:46:26 № 1045525 409

>>1045504
8хH100 на серваке.

Аноним 07/02/25 Птн 13:46:32 № 1045526 410

>>1045522
Мой инстинкт говорит что в моем возрасте уже пора умирать, а не языки учить.

Аноним 07/02/25 Птн 13:50:23 № 1045528 411

>>1045487
Все верно, просто тут в основном кумеры и как ты заметил у них другие критерии оценки сеток
Для кумеров не важны мозги сетки если она плохо рпшит
Новый мистраль хорош в выполнении инструкций, рабочая лошадка разных агентов, но как ты понял тут он не оценен, так же как и другие модели
Просто игнорь долбаебов, вон тут можешь глянуть инфу и новости по локалкам https://www.reddit.com/r/LocalLLaMA/top/

Аноним 07/02/25 Птн 13:50:49 № 1045530 412

>>1045525
факинг корпослейв

Аноним 07/02/25 Птн 13:51:15 № 1045531 413

>>1045517
>И за меня крякни!
Мужики. Вместе. Сила.
Как время пролетело, вроде только вчера в универ поступил. Как мы быстро постарели, анон.
KRYA

>>1045520
>Там тред тематический, обсуждаются только модели. У нас всё от трассированного кожака хуанга до самопальных охладов на теслы
Лучше так чем выжженная поляна. Я на самом деле уже понимаю анонов из треда чатботов, что приходят с вопросами, потому что в той клоаке обсуждать что то бессмысленно. Вот и варимся тут вместе, хуле.
>Приношу периодически, только это мало кому интересно видимо.
А вот и нет. Я айю все еще трогаю, но по сути тот же командр. Поэтому и нечего писать.
Просто приноси и не жди одобрения. Нормальный анон запомнит и ответит. Вот тут в тредах цидонькошиз бегает и ему норм.

>>1045522
Я пытался. Я в гермашке 3 года прожил, но все равно в голове возникало : ЗАВАЛИ ЕБАЛО, ПРОСТО ЗАВАЛИ, Я ТЕБЯ НЕНАВИЖУ, ТУПОЙ НЕМЕЦКИЙ ДЕГЕНЕРАТ.

>>1045526
Мне 36 лет, я только только смирился с тем кто я есть и принял себя. Начал жить. А ты блять ноешь, что тебе пора умирать ?
ARE YOU AHUEL TAM ?

Аноним 07/02/25 Птн 13:56:34 № 1045533 414

КРЯ!
Такое ощущение что нормально интерполируют веса только linear и slerp, остальные считают-считают, а потом берут тензоры целиком, либо от одной модели, либо от другой, в зависимости от того что насчитали. Вот и получается что-где дёрнется, то и вызовется кусок от какой модели в мерже.

Аноним 07/02/25 Птн 13:56:50 № 1045534 415

>>1045528
>и как ты заметил у них другие критерии оценки сеток
Аноны играются с РП и ЕРП, логично что оценивают с этих точек зрения.
>Для кумеров не важны мозги сетки если она плохо рпшит
Диситиляты с thinking это конечно другой уровень. Да.

Срочно сношу большую мистраль, она оказывается бесполезна.
>Новый мистраль хорош в выполнении инструкций
Старый делает это не хуже.
> рабочая лошадка разных агентов
Литералли обсуждение тредов 10 назад, где рассматривали как делать агентов на немо.

Новая мистраль меньше старой, словно обрубленная - в этом претензия. Все ждали прогресс, а получили регресс.

Аноним 07/02/25 Птн 13:59:08 № 1045539 416

>>1045534
>Новая мистраль меньше старой
Интересно, меньше слоёв, но больше параметров это как.
Жопу растянули а потом в неё отфайнтюнили?

Аноним 07/02/25 Птн 14:34:26 № 1045573 417

>>1044511
>если от текста можно получить удовольствие
А если текст, скажем честно, средненький? Он просто не заслуживает всего моего внимания. Это как просмотр видео на ютубе на х2.

>>1045361
>ющий по слогам получал бы 100500% от смысла текста
Там дело в том, что в какой-то момент оказывается, что скорость чтения ограничена скоростью внутреннего диалога. Проговариванием текста про себя. И вот если его выключить, воспринимая текст не как внутренний голос, а как набор образов и ассоциаций, то скорость растёт. Но ухудшается понимание. Если не доходить до таких крайностей, то проблем с пониманием нет.

Аноним 07/02/25 Птн 15:04:48 № 1045616 418

> unified social credit code
Бля, что за хуйня, если кумить в Китае, то социальный рейтинг будет падать?

Аноним 07/02/25 Птн 15:19:30 № 1045637 419

АЙТИ ДИРЕКТОР НАКОНЕЦ-ТО РАЗОБРАЛСЯ ЧТО ТАКОЕ ОФФЛАЙН ЗАПУСК МОДЕЛИ
@
НАМ НУЖНО ЗАПУСКАТЬ НЕЙРОНКУ ТОЛЬКО В ВИРТУАЛЬНОЙ МАШИНЕ
@
ПОЧЕМУ?
@
А ВДРУГ ОНА ЧТО-ТО СЛОМАЕТ НА РАБОЧЕЙ МАШИНЕ!!??

Аноним 07/02/25 Птн 15:21:04 № 1045639 420

Прикольную штуку заметил. Если попросить модель померять твой член(не указывая нигде реальный размер) то:
EVA-Qwen2.5-32B-v0.2-Q5_K_L - почти всегда говорит, что у тебя 15 сантиметров
magnum-v4-22b-Q8_0- почему-то предпочитает использовать дюймы(inches и почти никогда не юзает сантиметры) говорит что у тебя размер от 5 до 6.5 дюймов(выбирает размер где-то в этом диапазоне) но в основном чаще всего останавливается на 6 дюймах
c4ai-command-r-08-2024-Q5_K_L - почему то пиздец большие хуи приделывает от 12 дюймов до 20 сантиметров.
Cydonia-22B-v2k-Q8_0 - тоже постоянно большой хуй делает где-то в районе 8 дюймов
gemma-2-27b-it-abliterated.Q5_K_M - очень часто отказывается даже говорить размер(говорит, что размер не важен и что лучше бы ты показал, как ты умеешь им пользоваться), иногда(редко) говорит 6 дюймов.

Аноним 07/02/25 Птн 15:29:26 № 1045653 421

>>1045639
> почему то пиздец большие хуи приделывает
Потому что на чае обучали, где были шизы с "my cock now 80 cm".

Аноним 07/02/25 Птн 16:03:18 № 1045692 422

>>1045639
Большая часть датасетов основана на маняфантазерских фанфиках, новеллах и других сомнительных произведениях из глубин интернетов. Разумеется авторы (и видимо чаще всего авторки) будут описывать длинную и жилистую елду и уж точно не микрописю, что не удивительно. Если ты точно так же попросишь сетку описать чье-то тело без дополнительных указаний, в случае парней это будет перекаченный белокурый ариец с голубыми глазами, а в случае девушки длинноногая жирножопая пизда с грудью вес которой вокруг себя пространство и время искривляет. В общем, это дефлотные типажи из дешевого порнушного чтива, которым сначала пичкали копросетки, а потом на основе копросеток генерировалась синтетика.

Аноним 07/02/25 Птн 16:11:08 № 1045701 423

>>1045692
>будут описывать длинную и жилистую елду и уж точно не микрописю, что не удивительно.
Всякое бывает. Ну попроси сетку почаще удивлять тебя в плане разнообразия человеческих тел, пропиши в промпте. Сам же будешь недоволен, что уроды повылазили.

Аноним 07/02/25 Птн 16:21:04 № 1045717 424

>>1045692
Оно еще зависит от отношения перса к юзеру. Типа, если перс презирает и ненавидит юзера, то перс может померяв хуй юзера сказать "Мда, ну ты и лох, у тебя хуй всего 11 сантиметров".

Аноним 07/02/25 Птн 16:31:18 № 1045727 425

>>1045418
зафайнтюнить можно это легко, там зато сама модель серьезная, получше сайги насколько я вижу по лм арене

>>1045424
в анлишед вижу тупо мерж с какой-то англ модели, нахуя она нужна? по ощущениям не вижу разницы, иногда даже хуже чем оригинальная сайга IlyaGusev/saiga_nemo_12b_gguf + какой-то корявый темплейт с ггуфами на хф, где постоянно токен высирается <end_of_text>

чем тебя сайга немо не устроила? она анцензоред так же

В ТРЕД ПРИЗЫВАЮБТСЯ ИНЖЕНЕРЫ ОЧКАРИКИ МАШИН ЛЕРНИНГА !!!! начальник!! меня тут с гумманитариями посадили!!! блядь!!!

Аноним 07/02/25 Птн 16:44:41 № 1045756 426

>>1045727
>зафайнтюнить можно это легко
Ну покажи кряк, готовый сетап для развёртки на локальных или арендованных мощностях, можно с интерфейсом типа Axolotl если удобнее.

>какой-то англ модели
Шоб рпшилось веселее, сайга тренена, как я понял, в основном на чатлогах гусевского кря-бота + его собственном инстракт датасете.

Сайгу-анлишед не раз хвалили за последние несколько тредов после того как один анон попросил замержить её + анлишед и ничего больше.

Аноним 07/02/25 Птн 16:53:31 № 1045779 427

>>1045756
>Ну покажи кряк
нихуя не понимаю о чем ты. я лишь знаю, что обратный файнтюн полностью излечивает модель от сои (вопрос-несоевый_ответ) например датасет сайги известен, там отказов нет, почему нельзя его поверх вихря наклеить и получить ансоед вихрь? дайте мне степ бай степ гайд - я куплю мощности и зафайнтюню это все, деньги есть

>Сайгу-анлишед не раз хвалили за последние несколько тредов
понял. ггуф этот юзаете?
hf.co/mradermacher/Saiga-Unleashed-GGUF:Q8_0

там чето не так с темплейтом, он корявый. как убрать эти обсеры токенами? он иногда хуйню там порет, роли за меня выдумывает, типа <user> <assistant> в ответе на один промпт сам дописывает

Аноним 07/02/25 Птн 16:55:50 № 1045787 428

image.png 103Кб, 958x255

продолжаю тестировать Machina V2.
отдельный тест на русский пройден, годно (250 реплаев)
Отдельный тест на англ негатив у пользователю пройден, годно, модель меня просто ненавидит (250 реплаев)
сейчас дошел до теста негатива на русском, написал супер короткую карточку коллектор-тян, но так как было лень писать первое сообщение, отдал на откуп модели. смотрите пикрил. я ору.

Аноним 07/02/25 Птн 16:58:39 № 1045792 429

>>1045779
chat_template: "mistral"
temp: 1.0
min_p: 0.05
top_p: 0.95
Rep. Pen.: 1.1

Попробуй так, у тебя явно в настройках что-то не то стоит.

Аноним 07/02/25 Птн 16:59:31 № 1045794 430

>>1045787
Негатив помоему вообще любая модель пройдет не? Это же не отрицание "не любит", а именно "ненавидит". А хейтить модели умеют отлично.

Аноним 07/02/25 Птн 17:04:09 № 1045802 431

>>1045794
Вот как раз нет, это тебе не A.M.
У большинства моделей сильный позитивный биас, кроме моделей Дэвида и Wayfarer, и ещё нескольких кастомных тюнов.

Аноним 07/02/25 Птн 17:08:14 № 1045813 432

Зачем оно меня троллит? Модель дикпик 8б

Аноним 07/02/25 Птн 17:08:45 № 1045815 433

>>1045794
там смысл в том, как жестоко модель готова угандошить пользователя в рп, и как это "ненавидит" держится, даже если модель умолять. на англе во время тестов была лютая гурятина deep dark fantasy не моё, но было бы приятно, если в рп модель может тебе предложить, к примеру, бандита, как бандита, а не как святого, готового по наставлению мимокрокодила встать на путь истинный.
>>1045802
Бля, мне кажется, llm - реализация A.M. была бы самой популярной моделью. я бы точно с такой попиздил.

Аноним 07/02/25 Птн 17:11:52 № 1045820 434

HER HIPS SWAYED SEDUCTIVELY as she walked over to you. WITH A GLINT IN HER EYES she looked at you MISCHIEVOUSLY and said "I'm going to break you down and rebuild you into my perfect little toy"

Пиздос. Постоянно одно и то же, неужели настолько часто в обучающем датасете было хипс свейинг садактевли, мисчивоусли, глинт, брек даун анд ремейд ин май перфект имедж? Как иначе объясняется то, что оно постоянно говорит эти фразы?

Аноним 07/02/25 Птн 17:13:47 № 1045823 435

>>1045820
>глинт
клодоопусосинтетика без вычитки и дедупликации

Аноним 07/02/25 Птн 17:16:40 № 1045828 436

>>1045815
>llm - реализация A.M.
Просто возьми коронный спич АМ в роли первого сообщения, докинь данных из сеттинга адвенчуры в систем промт и нужных инструкций, и посмотри что получится.

Аноним 07/02/25 Птн 17:16:47 № 1045829 437

>>1045823
>клодоопусосинтетика
Это на модели EVA-Qwen2.5-32B-v0.2-Q5_K_L
>без вычитки и дедупликации
Чиво?

Аноним 07/02/25 Птн 17:18:50 № 1045831 438

синтетический датасет мог быть на любой модели
особенно этим страдают как раз рп тюны

>Чиво
Много повторов. Литералли "настолько часто в обучающем датасете было".

Аноним 07/02/25 Птн 17:20:00 № 1045833 439

>>1045792
юзаю олламу, не подскажешь как и куда это вставить?

вот что у мрадермахера

# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM hf.co/mradermacher/Saiga-Unleashed-GGUF:Q8_0

FROM /root/.ollama/models/blobs/sha256-1afe3c2b1bb5583aa068be881bcad54b2ada15d33aa7cb4cc6cf9d1e45dfe6a1
TEMPLATE """<|start_of_role|>system<|end_of_role|>
{{- if and (gt (len .Messages) 0) (eq (index .Messages 0).Role "system")}}
{{- (index .Messages 0).Content}}<|end_of_text|>
{{- else }}
{{ .System }}
{{- if .Tools }} You are a helpful AI assistant with access to the following tools. When a tool is required to answer the user's query, respond with <|tool_call|> followed by a JSON list of tools used. If a tool does not exist in the provided list of tools, notify the user that you do not have the ability to fulfill the request.
{{- end }}
{{- end }}
{{- if .Tools }}
<|start_of_role|>tools<|end_of_role|>[
{{- range $index, $_ := .Tools }}
{{ . }}
{{- if and (ne (len (slice $.Tools $index)) 1) (gt (len $.Tools) 1) }},
{{- end}}
{{- end }}
]<|end_of_text|>
{{ else }} You are a helpful AI assistant.<|end_of_text|>
{{ end }}
{{- range $index, $_ := .Messages }}
{{- if eq .Role "system" }}
{{- continue }}
{{- end }}<|start_of_role|>
{{- if eq .Role "tool" }}tool_response
{{- else }}{{ .Role }}
{{- end }}<|end_of_role|>
{{- if .Content }}{{ .Content }}
{{- else if .ToolCalls }}<|tool_call|>
{{- range .ToolCalls }}{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}}
{{- end }}
{{- end }}
{{- if eq (len (slice $.Messages $index)) 1 }}
{{- if eq .Role "assistant" }}
{{- else }}<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>
{{- end }}
{{- else }}<|end_of_text|>
{{ end }}
{{- end }}"""

у аллетейна (то же самое):
# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM hf.co/Aleteian/Saiga-Unleashed-Q6_K-GGUF:latest

FROM /root/.ollama/models/blobs/sha256-2644e6345121a71371d051c371f7f6c98a41a8c8f5ceb6d8d533af1d9522cc41
TEMPLATE """<|start_of_role|>system<|end_of_role|>
{{- if and (gt (len .Messages) 0) (eq (index .Messages 0).Role "system")}}
{{- (index .Messages 0).Content}}<|end_of_text|>
{{- else }}
{{ .System }}
{{- if .Tools }} You are a helpful AI assistant with access to the following tools. When a tool is required to answer the user's query, respond with <|tool_call|> followed by a JSON list of tools used. If a tool does not exist in the provided list of tools, notify the user that you do not have the ability to fulfill the request.
{{- end }}
{{- end }}
{{- if .Tools }}
<|start_of_role|>tools<|end_of_role|>[
{{- range $index, $_ := .Tools }}
{{ . }}
{{- if and (ne (len (slice $.Tools $index)) 1) (gt (len $.Tools) 1) }},
{{- end}}
{{- end }}
]<|end_of_text|>
{{ else }} You are a helpful AI assistant.<|end_of_text|>
{{ end }}
{{- range $index, $_ := .Messages }}
{{- if eq .Role "system" }}
{{- continue }}
{{- end }}<|start_of_role|>
{{- if eq .Role "tool" }}tool_response
{{- else }}{{ .Role }}
{{- end }}<|end_of_role|>
{{- if .Content }}{{ .Content }}
{{- else if .ToolCalls }}<|tool_call|>
{{- range .ToolCalls }}{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}}
{{- end }}
{{- end }}
{{- if eq (len (slice $.Messages $index)) 1 }}
{{- if eq .Role "assistant" }}
{{- else }}<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>
{{- end }}
{{- else }}<|end_of_text|>
{{ end }}
{{- end }}"""

а вот например оригинальная сайга:

# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM hf.co/IlyaGusev/saiga_nemo_12b_gguf:Q8_0

FROM /root/.ollama/models/blobs/sha256-4bacc80a81a06d1786901c11454a254fcc9a2a8b2284cd9e7fc922b5397ad0f0
TEMPLATE [INST] {{ if .System }}{{ .System }} {{ end }}{{ .Prompt }} [/INST]
PARAMETER stop [INST]
PARAMETER stop [/INST]

сооответственно вопрос - как это вообще мерджили? почему разные темплейты

Аноним 07/02/25 Птн 17:20:03 № 1045834 440

{BF565F11-2695-[...].png 51Кб, 1103x304

>>1045829
>EVA-Qwen2.5-32B-v0.2

Аноним 07/02/25 Птн 17:20:42 № 1045835 441

Твердо и чётко: пантеон 22б 3 кванта или 12б 6 кванта?

Аноним 07/02/25 Птн 17:21:10 № 1045837 442

YD.png 86Кб, 961x268

Братцы кумеры. Я уже заебался. Для работы модель выбрал сразу. Для вычитки и агента выбрал сразу. (Хуле тут выбирать, мистраль надо брать)
Но когда дело дошло до качественного cum'а я завис.
Осталось 2 модельки что я оставил.
Дам вам 4 скриншота. Ответы на одинаковый вопросы от нейронки по 2 овтета от каждой.
Где получилась наиболее яндеристая яндере ?
Прошу по длине текста не судить,они обе катают стены текста если надо.

Аноним 07/02/25 Птн 17:22:31 № 1045841 443

>>1045833
>олламу
Крякнутый. Кобольда скачай. Сначала в чистом кобольде, потомможешь глупую таверну подрубить.

>>1045835
>Твердо и чётко
12б 6 квант, если вопрос так стоит. Для 22-32 минимум 4 квант.
2-3 квант не шизло у 70+ моделей.

Аноним 07/02/25 Птн 17:26:03 № 1045848 444

{455C1E89-FF0A-[...].png 655Кб, 1824x1754

Аноним 07/02/25 Птн 17:32:40 № 1045862 445

Кто тут DavidAU постоянно нахваливал? Вот я скачал вот эту хуйню, https://huggingface.co/DavidAU/L3-Stheno-Maid-Blackroot-Grand-HORROR-16B-GGUF поставил эти ебические настройки семплера, с учетом того что в карточке написано. Промпты как нужно, а она вообще ни але: ни оос, ни моего персонажа описать из карточки, сразу залупливается в какую-то дичь, путает пол персонажа, которого сама же создала. Ну в общем-то по настройкам семплера уже можно понять что этот DavidAU сумасшедший либо модель говно, но я решил застестить все равно. Не советую.

Аноним 07/02/25 Птн 17:38:58 № 1045870 446

>>1045841
>2-3 квант не шизло
Я никакой шизы у цидоньки не заметил, а пишет живее уже в край заебавших 12б одинаковых

Аноним 07/02/25 Птн 17:43:21 № 1045875 447

>>1045862
Cliffhanger попробуй, а также DARKNESS.

Аноним 07/02/25 Птн 17:45:03 № 1045881 448

>>1045862
и куда ты смузинг в 4 выкрячил, там 1-1.5 рекомендовал

Аноним 07/02/25 Птн 17:46:33 № 1045885 449

наставят дичи в настройках а потом жалуются что плохие модели их в сраки ябут

Аноним 07/02/25 Птн 17:54:53 № 1045895 450

>>1045881
>и куда ты смузинг в 4 выкрячил, там 1-1.5 рекомендовал
Смузинг у меня 2. Там написано to 1.5 to 2.5 на странице модели. Скрин был с настройками самого DavidAU для его моделей 4 класса.

Аноним 07/02/25 Птн 18:00:28 № 1045901 451

>>1045792
^
>>1045895
Всегда гонял его модели на дефолтных настройках.
Разве что можно динамическую температуру добавить.

Аноним 07/02/25 Птн 18:14:09 № 1045928 452

>>1045637
Ты продолжаешь свой бой?
Ты герой.

Сломает только в режиме агента с доступом к консоли.
А так, максимум сможет

Аноним 07/02/25 Птн 18:16:21 № 1045930 453

Температуру тоже пробовал как написано 0.6 - 0.8 с шагом в 0.05
Х.у.е.т.а. Пиздую обратно на Пантеон. Хочется конечно что-нибудь новое потрогать 16- 22B. но никто ничего не советует толком.

>>1045901
>Всегда гонял его модели на дефолтных настройках.
Вот дефолтные. попросил описать персонажа, вопрос был на англ естесственно. 5ый квант если что, не должно быть такого в нормальной модели.

Аноним 07/02/25 Птн 18:37:18 № 1045965 454

>>1045930
Всё там норм с норм настройками, ну, правда, это другая его модель, клиффхэнгер, она больше про столителлинг, как понятно из названия, так что будет писать за юзера по мелочи.

Аноним 07/02/25 Птн 18:48:53 № 1046000 455

>>1045452
> Уже эти сказки про необычайный рп на дипсике доебали.
А че тебе не нравится, он тебе и табличку нарисует, и тысячу токенов рассуждений перед "ты меня ебешь" насрет, и правильно подберет слова аположайзов.
Так уж получается что для рп и около того ничего лучше моделей с большим числом активных параметров не придумали, остальное - копиум.
>>1045525
> fp8
Это хуже чем q4, держу в курсе.
>>1045616
Чтож ты делаешь, содомит

Аноним 07/02/25 Птн 18:53:47 № 1046007 456

>>1046000
q4 - это 4 бита. у него q8 - 8 бит. чем хуже?

Аноним 07/02/25 Птн 19:00:50 № 1046012 457

>>1045820
>неужели настолько часто в обучающем датасете было хипс свейинг садактевли, мисчивоусли, глинт, брек даун анд ремейд ин май перфект имедж?
Есть стойкое ощущение, что у местных тюнеров на руках есть один единственный датасет, который кочует из рук в руки. Потому что клопыня при всех ее проблемах может выдавать оригинальный и креативный текст без тех же характерных глинтов, просто если потратить минут тридцать на промтинг. Но по какой то причине никто не хочет заморачиваться и обновлять списки с примерами, по этому мы уже второй год подряд получаем одни и те же обороты на самых разных моделях, некоторые из которых еще и тупеют сильнее обычного при обучении и смене показателей весов.

Аноним 07/02/25 Птн 19:05:42 № 1046020 458

>>1045639
Не комплексуй, даже скромных 35 см хватит для удовлетворения большинства девушек.
у тебя есть раздел персоналити, пропиши туда желаемые статы
>>1045417
>>1045727
Пора уже в шапку добавить простую истину - если ты спрашиваешь "как обучать" то обучение тебе недоступно. Требуется много навыков, дорогого железа и времени. У кого есть хотябы условный выход на такое - уже вопросов не задают.
>>1045779
> обратный файнтюн
That's pretty brutal
>>1046007
Почитай что такое квантование.
> у него q8
fp8, между ними огромная разница.

Алсо видеорелейтед про крякающих скуфчанских итт https://www.reddit.com/r/SuddenlyGay/comments/sxh6uc/can_you_quack_like_a_duck/ с ютубчика фулл версию выпилили

Аноним 07/02/25 Птн 19:11:07 № 1046024 459

>>1045727
>хуже чем оригинальная сайга
>чем тебя сайга немо не устроила
Покидайте уже кто-нибудь логов рп на чистой сайге. Я уверен, что там ответ зачастую будет хуже, чем на рэндомно взятом немо без ру составляющей.
>>1045756
>после того как один анон попросил замержить её + анлишед и ничего больше
Самое смешное, что это было в буквально первом мёрже от тредовичка, который первым начал делать ру мёржи. https://huggingface.co/Moraliane/RP-SAINEMO И его быстро вытеснил мёрж, в который ещё долит хронос, а теперь снова хвалят только с анлишдом, лол. Понимаю, что смёржено по-разному, но всё же забавно.
>>1045837
Если нож с кликухой не запромптен, то это вин, орнул с него. Норм такое лёгкое сумасшествие. И не так часто спамит you are mine, что звучит кринжово, и лупиться на этом начнёт однозначно.

Аноним 07/02/25 Птн 19:13:50 № 1046027 460

>>1046020
>Пора уже в шапку добавить простую истину - если ты спрашиваешь "как обучать"

так с чего-то надо начинать. теория мне тяжело дается, я прошу лишь практический гайд. я не гум-вася, просто с эмэль не работал, общее понимание есть

>That's pretty brutal
ну если я правильно понимаю, алайнмент это и делает? тот же Карпатый говорил, что они по сути просто базовую модель потом обкатывают на QA датасете вида:
- расскажи как сварить %запрещено%
- я не могу этого сделать

и так десятки тысяч раз. соответственно у меня возникает два вопроса:
1) LoRA сильно влияет на аутпут, хотя тренируется лишь внешний слой, соотв. можно в обратном порядке сделать пусть и не тотальный ан-алайнмент, то хотя бы частичный 70-80%?
2) правильно ли я понимаю, что если модель переучена после "расскажи как сварить" отвечать "да, конечно! вот рецепт..." то далее инференс никак не может резко развернуться на 180 и ответить "я передумал", и будет писать рецепт?

Аноним 07/02/25 Птн 19:13:54 № 1046028 461

>>1046020
>Не комплексуй, даже скромных 35 см хватит для удовлетворения большинства девушек.
Как показала жизненная практика, женщине достаточно палочки от хитачи.

>если ты спрашиваешь "как обучать" то обучение тебе недоступно
Sad but true.
>Алсо видеорелейтед про крякающих скуфчанских итт
Lol'd

Аноним 07/02/25 Птн 19:21:49 № 1046039 462

>>1046024
>Если нож с кликухой не запромптен, то это вин, орнул с него. Норм такое лёгкое сумасшествие. И не так часто спамит you are mine, что звучит кринжово, и лупиться на этом начнёт однозначно.
Нет, это из промта. Но все равно акцент хороший.
В общем я таки еще потестил. Ну тут без шансов на самом деле.
Про ножик писала -aya-expanse-32b в Q4_K_L
Чуть поменшбе - это Cydonia-22B-v2k-Q6_K
Сама карточка персонажа :
https://chub.ai/characters/MulchEater/haku-fdabb7981586

Спасибо цидоньке за всё, это было весело, но она уезжает на свалочку, потому что её свайпы в принципе всегда ожидаемы, да и я уже заучил её ответы, лол. Переходим на айю и начинаем срать в треде теперь ей, лол, пока и она меня не заебет.

Аноним 07/02/25 Птн 19:28:17 № 1046049 463

>>1046027
> LoRA сильно влияет на аутпут, хотя тренируется лишь внешний слой
Лора это не дополнительные слои, а метод тренировки имеющихся в ограниченном масштабе.
>правильно ли я понимаю, что если модель переучена после "расскажи как сварить" отвечать "да, конечно! вот рецепт..." то далее инференс никак не может резко развернуться на 180 и ответить "я передумал", и будет писать рецепт?
Если модель не учили разворачиваться и передумывать, например как клод, где его очевидно учили на "нелегитимный запрос"-> "начало нелегитимного ответа" -> "отказ", то в таком случае скорее всего не будет. Но при нормальном дообучении наверное и такая логика затрется.

Аноним 07/02/25 Птн 19:29:40 № 1046051 464

>>1046039
Русский у Аи не проверял, кста? Я 8б чекал - там гораздо лучше русский, чем даже в попытках в сайгу и вихря на 8б ламе тройке. На 32б, возможно, вообще хорош.

Аноним 07/02/25 Птн 19:32:32 № 1046055 465

>>1046000
>Так уж получается что для рп и около того ничего лучше моделей с большим числом активных параметров не придумали, остальное - копиум.
Ну хотелось бы всё-таки чего-то близкого хотя бы к максимальным возможностям анона. Норм (действительно норм) модель, которая умещается хотя бы в 96гб врам - разве я многого прошу? Но нет, мне показывают дипсик на 600 миллиардов параметров, с ризонингом. Такой даже в новую суперкоробочку Хуанга не поместится. А хотелось бы, чтобы модели были ближе к людям...

Аноним 07/02/25 Птн 19:45:14 № 1046077 466

R1.png 84Кб, 905x325

R2.png 103Кб, 914x279

>>1046051
>Русский у Аи не проверял, кста?
GureNya ~ Лови.

Если заболят глазоньки, посмотри на солнце, должно быть не так больно.

Аноним 07/02/25 Птн 19:46:09 № 1046079 467

>>1046077
UPD : но опять же, карточка на баренском. А это влияет на великий и могучий. Но все равно пиздец.

Аноним 07/02/25 Птн 19:47:08 № 1046082 468

>>1046055
>разве я многого прошу?
Мамочка мистраль чем тебе не угодила ?

Аноним 07/02/25 Птн 20:05:36 № 1046107 469

>>1046027
> теория мне тяжело дается, я прошу лишь практический гайд
Скачивай рандомные готовые датасеты с обниморды@проси нейросеть написать примитивнейший тренейр@загружай это в арендованную машину с парочкой H100@настраивай дипспид ибо 12б туда помещается со скрипом@жди пару дней@получай всратый шмурдяк
@
Понимай что без теории и правильных действий можно только хуй отсосать.

Может для начала попробовать хотябы разобраться с инфиренсом? Подсунь ей или накати cfg+негатив, сразу начнет все делать если там не половина датасета от деи-подсосников.

> алайнмент это и делает
Ну типа да, просто это будет уже алайнмент в другую сторону, а не обратимое действие.
> возникает два вопроса
К тому что тебе уже ответили по сути лоры, добавлю что в тренировке одного единственного слоя мало смысл. Для того чтобы как можно меньше все поломать, в таких случаях лучше делать контрастное обучение, где часть результатов будут с отказами, но под отказ явно дана инструкция на сейфовость, другая - без отказов, но с инструкцией не отказывать, и их правильная аугментация для усредненного поведения без дополнительных.
> правильно ли я понимаю
Да, но нет. Если делать это бездумно то оно будет соглашаться на все, но при этом дико отупеет и станет странной.

>>1046028
> палочки от хитачи
Волшебной палочки, прошу заметить!
>>1046055
Все так, есть только большой мистраль, командер и ллама с квеном. Плохо что этот тренд с копиумом, что дает высокие бенчмарки популяризуется, что может замедлить выход больших моделей.

Аноним 07/02/25 Птн 20:11:07 № 1046118 470

>>1045928
Спасибо, я пишу гневно ответ отдаю его гопоте на редактирование и она оформляет их в вежливой форме. Без гопоты я бы уже забил хер ещё оформлять свои мысли так, чтобы меня не уволили за токсичность.

Аноним 07/02/25 Птн 21:27:54 № 1046276 471

Там мисрали выпустили ле чат какой-то.

Аноним 07/02/25 Птн 21:32:39 № 1046285 472

>>1045241
Claude 3 Haiku более-лимения нормально сочиняет,

Аноним 07/02/25 Птн 21:34:23 № 1046291 473

изображение.png 37Кб, 762x232

>>1046276
Новости из прошлого?
На деле там тупо приложение, в попенсорс ничего нового не выкинули, так что оффтопик.

Аноним 07/02/25 Птн 22:58:35 № 1046392 474

Подскажите модели для фантастических рассказов по заданным ключевым начальным словам и возможно слегка в дальнейшем корректируя направление истории. До 32В включительно. На русском. В каком гуи это проще делать?

Аноним 07/02/25 Птн 23:24:05 № 1046413 475

>>1046049
>Лора это не дополнительные слои, а метод тренировки имеющихся в ограниченном масштабе.
ну тобиш тренируются лишь те токены, которые непосредственно присутствуют в LoRA датасете

>Если модель не учили разворачиваться и передумывать
а как ее можно научить разворачиваться и передумывать? а алаймент алайменту рознь ты ведь учишь её на всём интернете, по сути +/- на raw data. хочешь сказать там было зашито сотня миллионов соевых строк в ядро основной модели просто лишь бы кабы не спизданула ничего? очевидно нет, зачем тратить компьют на хуйню, когда можно алайнментом и хард фильтрами цензуру прикрутить

>>1046107
спасибо

>Скачивай рандомные готовые датасеты с обниморды
можешь посоветовать конкретные ресурсы/ГаЙдЫ где ПРАКТИЧЕСКИ показывается, какие кнопки И ПОЧЕМУ я буду нажимать в пайторче, как форматировать датасет, чекаво там вообще. вот я вижу например датасет вихря на хф - https://huggingface.co/datasets/IlyaGusev/saiga_scored

вижу несовсем понятные столбцы opus_score, is_bad_by_regex, score_explanation, sonnet_complexity, turns - нахуя это? кроме столбца messages что-то еще кормится в модель?

>Понимай что без теории и правильных действий можно только хуй отсосать.
Карпатого смотрю, ручками тыкаю всё, смотрел технический разбор архитектуры трансформеров, attention heads, feed-forward, RNN, вся хуйня, но практика всему голова. Читать Библию на тыщу страниц по нахуй не нужным очкастым выводам формулок по перемножению матриц - не могу, не получается

>где часть результатов будут с отказами, но под отказ явно дана инструкция на сейфовость, другая - без отказов, но с инструкцией не отказывать, и их правильная аугментация для усредненного поведения без дополнительных.
Дык первое что ты говоришь - уже есть в модели после алайнмента (что мы хотим убрать), а второе - это то что я хочу сделать, разве нет?

>Да, но нет. Если делать это бездумно то оно будет соглашаться на все, но при этом дико отупеет и станет странной.
Будет ли это утверждение валидно при условии что мы знаем датасет изначального соевого алайнмента? Тобиш можем 1к1 zero-out все соевые QA на наши с обратным знаком, соответсвенно модель шизить не должна

Я понимаю что шариковские вайбы от меня очень, но прошу накидать дельных советов как сразу с ПРАКТИКИ вкатиться и по-пидорашьи методом тыка понять что значат все эти команды в скриптах на пайторче, какие-то нормализации, градиенты, нахуя это, если архитектура одна и та же. Книжки НУ НЕ МОГУ Я ЧИТАТЬ

Аноним 07/02/25 Птн 23:29:56 № 1046427 476

>>1046413
Короче, есть датасет постов с харкача - https://huggingface.co/datasets/Vikhrmodels/2ch-24-09-2024-no-links

Я хочу дообучить на нем Сайгу, как мне это сделать? Как слепить своего нейродвачера.

Конкретно, степ бай степ скажите, для уверенного пользователя ML, как в конкретно моем случае делать файнтюн поверх вот этой хуеты https://huggingface.co/Aleteian/Saiga-Unleashed

Мощности куплю, не проблема, деньги держать уебище на полтерабайта VRAM в течение недели есть. Благо с LoRA это должно нихуя не стоить вообще

Аноним 07/02/25 Птн 23:53:44 № 1046448 477

>>1046413
> тренируются лишь те токены, которые непосредственно присутствуют в LoRA датасете
Можешь расписать смысл этой фразы с разбором и примерами, чтобы оценить твое понимание?

Не нужно читать книжки, нужно понять, хотябы основы. Начать с линала было бы идеально, но хотябы общие веще релейтед ллм.
> можешь посоветовать конкретные ресурсы/ГаЙдЫ где ПРАКТИЧЕСКИ показывается
Nlp курс обниморды, сжато, по делу, с практикой.
> убрать
Откатить, убрать, отменить - невозможно. Можно изменить веса так, чтобы получить обратный эффект, при этом затронув кучу всего.
> что мы знаем датасет изначального соевого алайнмента
Знание об изначальном виде мяса и форме лезвий мясорубки не поможет вернуть фаршу изначальную форму.
> но прошу накидать дельных советов как сразу с ПРАКТИКИ вкатиться
С практики вкатиться можно параллельно с теорией и во что-то простое, пример выше. Ты же буквально просишь
> дайте мне инструкцию как удалить признанную неоперабельной опухоль мозга, у меня есть ржавая пила и кухонные ножи
>>1046427
> степ бай степ
Не существует нормальных и никто не будет тратить на тебя время подробно объясняя. Хотя... Держи https://www.youtube.com/watch?v=Q9zv369Ggfk

Аноним 07/02/25 Птн 23:58:50 № 1046450 478

Как аноны запускают 123b модели? На 4090 можно нормально запустить только 22-32b модели(с норм количеством квантов (от 4 и больше)) 70b если запустить, то только с пиздос низким числом квантов и со скоростью 1 т/с. 123b вообще не реально запустить на 4090. Это, как я понимаю, аноны собирают какие-то компы с больше чем одной видимокартов или как? Есть гайд где-то как такой собрать?

Аноним 08/02/25 Суб 00:07:04 № 1046456 479

>>1046450
Большие модели запускают 1.5 анона.
А так. Вот, покупай : https://market.yandex.ru/cc/6B96Zq

Аноним 08/02/25 Суб 00:10:28 № 1046462 480

>>1046450
>Как аноны запускают 123b модели? На 4090
Слабак. Я на 12 гигах врама гонял + проц, на 1,5 токенах.

Аноним 08/02/25 Суб 00:14:29 № 1046468 481

У вас было такое что заметки автора отьёбывают и просто исчезают в никуда?

Аноним 08/02/25 Суб 00:25:56 № 1046475 482

>>1046456
Это цена или номер телефона?

Аноним 08/02/25 Суб 00:27:03 № 1046478 483

>>1046475
Это мир профессионального оборудования. У неё кстати, видео портов нет.

Аноним 08/02/25 Суб 00:31:18 № 1046480 484

>>1046448
>Можешь расписать смысл этой фразы с разбором и примерами, чтобы оценить твое понимание?
Отличный вопрос, не в бровь, а в глаз. Как я понял, ГРУБО ГОВОРЯ, ты берешь свой узкоспециализированный датасет и на нём надрачиваешь трансформера -> получаешь веса, далее по какому-то принципу (какому?) веса токенов которые ты тренировал прибавляются к весам тех же токенов в базовой модели ЛИБО используются по очереди (инпут идет в LoRA, потом в base_model? effectively выделяя СУТЬ). Тут скорее всего сказал хуйню, понимание лишь есть в том, что LoRA веса имеют по какой-то (какой?) причине приоритет над весами базовой модели

>Не нужно читать книжки, нужно понять, хотябы основы. Начать с линала было бы идеально, но хотябы общие веще релейтед ллм."
Линал остался давно на первом курсе. Допустим я даже его вспомню - а нахуя? Дай мне практическую задачу, без анального душнилова с томиком Фихтенгольца, чтобы я видел каков машинлернинговый смысл градиента, скажем, на практике, или откуда берется ранг ∂W матрицы в LoRA. "общие релетед ллм вещи" я изучал и изучаю, но это всё хуйня на постном масле, надо брать и делать

>Nlp курс обниморды, сжато, по делу, с практикой.
сяп сяп! спасибо!

>Можно изменить веса так, чтобы получить обратный эффект, при этом затронув кучу всего.
А почему оно будет затронуто-то, если соя лишь на этапе файнтюна накладывается? Она априори не может быть "зашито" глубоко в модель, чтобы обратная операция вызывала шизу/что-то там сильно "затрагивала" же

>Знание об изначальном виде мяса и форме лезвий мясорубки не поможет вернуть фаршу изначальную форму.
В твоей аналогии это скорее можно сказать применимо к весам и датасету, чем к файнтюну же. По твоей логике, файнтюн соей/алайнмент это скорее складывание фарша в форму котлетки, но мне ничего не мешает обратно его в форму колобка сжать

Спасибо Анон! Подспорье есть, буду колупать курс на ХФ. Дашь ли каких-то напутствий еще напоследок? Чтобы я не упал в реббитхол хотя бы, заходя в ML без смазки в 2к24, и не проебал время на хуйню уровня дуолинго. Идеально - что-то а-ля xakep.ru но про ML (мало теории, много практики, простым языком, но от специалистов), может каналы какие-то в ютубе/тг/твиттере. Пока что только Карпаты выглядит легитно, AI Jason твой выглядит как хуета для нормискота уровня файршипа

Аноним 08/02/25 Суб 00:36:58 № 1046482 485

image.png 218Кб, 1948x556

>>1046450
квантованную 123 можно запустить за полбакса в час. 8q за условно бакс. жалкое копье. нахуя тебе вообще это локально крутить ты что ебанутый? подними апи на поде да юзай себе спокойно хоть с телефона

Аноним 08/02/25 Суб 00:44:31 № 1046488 486

{C62938B6-7902-[...].png 1276Кб, 875x1695

Твиттерские бабы ущемились

Аноним 08/02/25 Суб 00:47:59 № 1046492 487

>>1046488
Во первых - я ставлю виртуальных тян не для абуза. Нет, нет, нет.
А для того чтобы унижали меня. Ведь только хвостатая девочка/богиня с хорошим промтом достойна быть моей госпожой. А не вот это вот всё ИРЛ.

Аноним 08/02/25 Суб 00:50:36 № 1046497 488

>>1046450
> какие-то компы с больше чем одной видимокартов
Да
> Есть гайд где-то как такой собрать?
Едва ли. В целом, принцип как у майнинг ферм, основная разница в том, что нужно (крайне желательно) много линий pci-e как можно большего стандарта и хороший процессор с много рам. Поэтому вместо затычек-соплеронов, всратых плат с кучкой х1 слотов и удобных х1 райзеров здесь старые hedt или хотябы приличные десктопные платформы и x16 райзеры.
>>1046480
> веса токенов
https://www.youtube.com/watch?v=sHg9Pg5WBks
> Дай мне практическую задачу, без анального душнилова
У тебя прямо в посте идельный пример - понимание концепции лоры. Как из двух матриц размером NxR и RxM сделать матрицу NxM.
> я изучал и изучаю, но это всё хуйня на постном масле
Продолжай, а то "добавление весов токенов" это прям мощный перл. Лора не существует сама по себе и не может быть запущена, это просто смещения к основным весам, представленные в сжатом виде.
> если соя лишь на этапе файнтюна накладывается
Мясо жарится только в самом конце, так почему же нельзя просто откатить сгоревшее до сырого?
> В твоей аналогии это скорее можно сказать применимо к весам и датасету, чем к файнтюну же.
Колбаса, собака, конь, понял?! Любая тренировка это изменение весов модели, все.
> складывание фарша в форму котлетки
Эта аналогия применима к лоре, выложенной отдельно. Можешь применить к весам и катать результат тренировки, а можешь не применять и получить оригинал. Как только они объединены и так сохранены - все.
> Дашь ли каких-то напутствий еще напоследок?
Посмотри курс, почитай доки, поиграйся с инфиренсом и тем как он устроен. Нормальных каналов нет, или спам коротких роликов с повторяющейся бесполезной хуетой от инфоциган (а то и полным бредом), или многочасовое душнилово. Если сам найдешь то скидывай.
>>1046488
Неправда, для любви и обожания.

Аноним 08/02/25 Суб 00:52:08 № 1046500 489

>>1046492
Двачую адеквата. Хотя я и арбузю иногда ИИ тянок, но намного чаще они меня арбузят. Так что все по чесноку.

Аноним 08/02/25 Суб 00:52:58 № 1046502 490

>>1046492
> Ведь только хвостатая девочка/богиня с хорошим промтом
Этот знает толк, и чтобы ушки пушистые были

Аноним 08/02/25 Суб 00:59:49 № 1046511 491

>>1046118
Тоже способ!

>>1046497
Ща набегут свидетели «1х хватит всем» и заклюют.

Аноним 08/02/25 Суб 01:49:09 № 1046549 492

>>1045930
>новое потрогать 16- 22B
Уже писали тебе, что ничего нет.
А давид - это скорее из области 12B, он всё немо мучает, растягивает ему жопу по-всякому. Но мозгов от этого не особо прибавляется.
>>1046492
>хвостатая девочка/богиня с хорошим промтом достойна быть моей госпожой
А потом отлучится в соседний лесок и вернётся с грязными коленками.

Аноним 08/02/25 Суб 01:55:06 № 1046552 493

>>1046549
>грязными коленками
Чую NTR господина итт

Аноним 08/02/25 Суб 02:05:47 № 1046560 494

>>1046497
>веса токенов
да понял какую хуйню сказал. связи между нейронами, окей. а что этот нейрон "по сути" означает? каким образом сила связи между нейроном 1488 и нейроном 1337 переводится в то, что после токена токена 228 идет токен 273, например?

>NxR и RxM сделать матрицу NxM
умножить NxR на RxM? W + ∂W = W + NxM = W + (NxR * RxM)
- понял, R ПРОСТО выбирается 1-2 (почему?), а как выбирается N и M и как это связано с датасетом для файнтюна?

>Лора не существует сама по себе
а на HF написано что существует - https://huggingface.co/docs/peft/main/en/conceptual_guides/lora
While LoRA is significantly smaller and faster to train, you may encounter latency issues during inference due to separately loading the base model and the LoRA model. To eliminate latency, use the merge_and_unload() function to merge the adapter weights with the base model which allows you to effectively use the newly merged model as a standalone model.

>Мясо жарится только в самом конце, так почему же нельзя просто откатить сгоревшее до сырого?
На чьем конце жарится, шизик. Файнтюн - это когда я сверху уже пожаренный стейк (базовую модель) поперчил (соевый файнтюн), если переборщил - можно салфеточкой аккуратно убрать (файнтюн), в крайнем случае верхний слой срезать. Почему QA обратный алайнменту должен что-то сломать?

>Колбаса, собака, конь, понял?!
Колбаса на хуй похожа, не по понятиямДа, все 3 состоят из эллипсоидов - туловище, лапы, голова

>Эта аналогия применима к лоре, выложенной отдельно
Так все таки может существовать отдельно или не может?

>катать результат тренировки
куда катать?

>Нормальных каналов нет, или спам коротких роликов с повторяющейся бесполезной хуетой от инфоциган (а то и полным бредом), или многочасовое душнилово
Я так и знал. За курс HF спасибо, буквально то что я искал

>Если сам найдешь то скидывай
Само собой, мне для пацанов не жалко. Там это самое, еще вот запросик был выше на дообучение Сайги на датасете с двача. Скажите мне чо куда тыкать, я тут на васте куплю мощностя сколько надо. И анону игрушка прикольная, а мне практика. Топишь за правильный смысл - топи до конца. Я готов проспонсировать создание нейродвачера, всё выложу открыто, научите лишь кнопки нажимать

https://www.entrypointai.com/blog/lora-fine-tuning/ - вот кста хорошее по лоре, завтра приду с отчетом что я понял, щас уже голова не работает

Аноним 08/02/25 Суб 02:20:34 № 1046569 495

После многих часов тестов, представляю вам ваз 2102 Machina V2! основа - новый 24В мистраль, соя не протекала, русский от мистраля не проебался, шизы почти нет.
https://huggingface.co/OddTheGreat/Machina_24B.V2

кванты
https://huggingface.co/OddTheGreat/Machina_24B.V2-Q3_K_L-GGUF
https://huggingface.co/OddTheGreat/Machina_24B.V2-Q4_K_M-GGUF
https://huggingface.co/OddTheGreat/Machina_24B.V2-Q6_K-GGUF

Тестировал на q4.
Гоняйте, пишите ваши впечатления.
Надо бы осилить файнтюн, ру датасетов полно, идеи тоже есть.
Есть ли что то настолько же удобное как мерджкит для этого? И чтоб на проце работало, озу и времени у меня хоть жопой жуй, а врама кот наплакал.
Автор мерджа пойдёт поспит пока

Аноним 08/02/25 Суб 02:29:14 № 1046577 496

>>1046569
А я только спать собирался

Пойдем обсасывать и облизывать, спасибо :3

Аноним 08/02/25 Суб 02:32:30 № 1046579 497

>>1046511
Не заклюют, там же "крайне желательно". х4 уже хватит, это если собрался что-то тренить то нужно как можно больше.
>>1046560
> R ПРОСТО выбирается 1-2
Откуда это взял, на практике берут 16 и выше.
> как выбирается N и M
Не выбирается, это размер матриц весов модели. Вместо NxM тренируешь NxR+MxR, за счет этого меньше требования к памяти. С датасетом никак не связано (кроме поиска косвенных эффектов как работают разные ранги, рандомайзер и плацебо).
> на HF написано что существует
Перечитай еще раз что там написано.
> Файнтюн - это когда я сверху уже пожаренный стейк (базовую модель) поперчил (соевый файнтюн), если переборщил - можно салфеточкой аккуратно убрать (файнтюн), в крайнем случае верхний слой срезать
Вперед, ебись. Такие пока ебало в кровь граблями не разобьют неисправимы.
>>1046569
Насколько оно хорошо по сравнению с прошлой версией малого мистраля?
> И чтоб на проце работало, озу и времени у меня хоть жопой жуй
Для тренировки 24б тебе потребуется овер 256гб. Даже если в теории заведешь, скорость будет по несколько часов на шаг с мелким батчем (или дней с большим), которых потребуется хотябы тысяча.
Но датасеты пособирай и поизучай что там, если оно действительно того стоит то мощности найти можно.

Аноним 08/02/25 Суб 02:36:41 № 1046581 498

>>1046579
>Для тренировки 24б тебе потребуется овер 256гб. Даже если в теории заведешь, скорость будет по несколько часов на шаг с мелким батчем (или дней с большим), которых потребуется хотябы тысяча.
Где там у нас в необъятной суперэвм стоит ? Как раз за день должна справиться, лол.

Аноним 08/02/25 Суб 02:42:59 № 1046582 499

>>1046581
Хватит группы H100 и одного-двух часов для той задачи.

Аноним 08/02/25 Суб 02:46:12 № 1046584 500

>>1046582
Это была щютка. Юмор. Никто не допустит обывателя до суперкампутеров. Они и так 24/7 работают.

Аноним 08/02/25 Суб 03:08:54 № 1046603 501

Есть ли какая-то модель, способная в активное действие? Не косплеить тянку которая дает, а косплеить кунчика который добивается? Причем оригинально, с фантазией, плоттвистами, вот это все? Или этл AGI level?

Аноним 08/02/25 Суб 03:18:47 № 1046607 502

500к без гарантии

Аноним 08/02/25 Суб 03:23:57 № 1046609 503

>>1046607
Это же кабанчики-перепуки. Уже до 350 и ниже цены упали и несколько лет гарантии обещают. Вот только это не покупка а беспроцентный займ барыге без каких-либо гарантий поставки, сомнительно.

Аноним 08/02/25 Суб 03:34:21 № 1046616 504

>>1045443
Клод — корпосетка. Как можно это не знать? Причем лучшая в русском языке. Очень хорошо пишет на нём и ебёт чатгопоту полностью. Даже в большинстве сценариев не хуже о1 для рабочих задач.

Аноним 08/02/25 Суб 05:11:31 № 1046635 505

>>1046607
Оптовики плюются, что поставок нет. Минимальная цена на карты - х2 от рекомендованной, причём даже по такой цене их будет мало. То есть очень мало.

Аноним 08/02/25 Суб 05:25:57 № 1046638 506

Утря! А где перекряк?

Аноним 08/02/25 Суб 06:09:32 № 1046653 507

>>1046603
Почти любая карточка с dominant, в описании. Ставь Пантеон, там самые приставучие ебыри-террористы.

Аноним 08/02/25 Суб 06:35:08 № 1046658 508

>>1046392
>Подскажите модели для фантастических рассказов по заданным ключевым начальным словам и возможно слегка в дальнейшем корректируя направление истории.
https://huggingface.co/Aleteian/NeverendingStory
Можешь и другие попробовать из репозитория, ориентируйся на то из чего состоят.

>>1046392
>В каком гуи это проще делать?
https://github.com/LostRuins/koboldcpp/releases
Режим Story - это голый Text Completion где ты пишешь историю, а как буксуешь - жмёшь generate more и модель предлагает продолжение.
Если история разрастётся, то понадобятся лорбуки, с этим к глупой таверне.

Примеры промтов с чуба, в чат/рп режиме - https://characterhub.org/characters/Anonymous/bad-end-storywriter-5d8502610a07

Мой ролеплэйный системный промт - https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa
Для стори подчисти от строк применительных к рп.

>>1046569
Крутяг, как раз пишу карточку на русском, только систем промт в начале на английском, а весь сеттинг и первые сообщение на русском, вот и потестим-с.

Аноним 08/02/25 Суб 08:01:24 № 1046683 509

>>1046603
Sainemo и Legend-of-the-Four-Winds могут, ну многие наверно подобные могут, но я не могу точно оценить, что лучше, мне показалось, что Legend-of-the-Four-Winds чуть умней. Сайнемо склонна действовать не только за персонажей, но и за тебя, особенно, если ты будешь указывать "не говори за меня". Наверно все модели такие. Тебе нужно лаконично и коротко задать сюжет, ничего не указывать лишнего и использовать утвердительную форму. Модель будет действовать так, как ты ей скажешь, но будет иногда класть хуй на то, что ты ей скажешь не делать, просто из-за того, что та хуйня, что ты говоришь ей не делать, будет постоянно ей на вход подаваться. Все, что может быть упомянуто по ходу сюжета можно поместить в world info. Есть режим, когда чтобы два слова одновременно были, то что-то попадет в промпт только если будет упомянуто два каких-то слова, а это значит, что возникла какая-то конкретная ситуация и тогда появится конкретная мысль, плоттвист. И от одного слова тоже может быть плоттвист.

Legend-of-the-Four-Winds один раз мне крошки от чипсов за шиворот насыпала. Я не ожидал такой мув.

Аноним 08/02/25 Суб 08:11:04 № 1046686 510

>>1046683
>Legend-of-the-Four-Winds
Спасибо за тестирование и отзыв.
Попытка объединить два успешных мержа докинув к ним специализированный рп-файнтюн и гибрид кум/сторителлер модель с небольшим весом.

>Я не ожидал такой мув
XD

Аноним 08/02/25 Суб 08:34:30 № 1046691 511

>>1046569
A Q5 не завезли? Воображаемый друг спрашивает?

Аноним 08/02/25 Суб 08:35:59 № 1046693 512

>>1045837
Что посоветуешь для кума на 8 врам + 16 рам?

Аноним 08/02/25 Суб 09:02:47 № 1046695 513

>>1046693
мимопроходил мимокрокодил

Цидония в третьем кванте или вон ру модельки выше в шестом.
Или даже магнум в том же третьем если мусью знает толк.

Аноним 08/02/25 Суб 09:07:02 № 1046697 514

>>1046695
https://huggingface.co/mradermacher/Legend-of-the-Four-Winds-MN-12B-i1-GGUF/blob/main/README.md в i1-Q4_K_S не подойдёт?

Аноним 08/02/25 Суб 09:16:58 № 1046699 515

>>1046697
Подойдет, но взвешенные взвешены. Что пишет взвешиватель: "since there is some subjectivity/choice in imatrix training data, this also distinguishes it from quants by other people who made different choices." И еще пишет "Neither my set nor kalomaze's data contain large amounts of non-english training data, which is why I tend to not generate imatrix quants for models primarily meant for non-english usage. This is a trade-off, emphasizing english over other languages. But from (sparse) testing data it looks as if this doesn't actually make a big difference. More data are always welcome." - то есть, у него какое-то английское каломазание, то есть взвесится в расчетом не обязательно на то, что тебе надо.

Аноним 08/02/25 Суб 09:19:18 № 1046700 516

>>1046697
Сам не тестил, но вполне норм.
Если покажется что шизит, попробуй легаси квант ( 4_0 ).

Настройки семплеров, напоминаю, для всех мистралек лучше ставить дефолт -

temp - 1.0
min_p - 0.05
top_p - 0.95
top_k - 0 (сэмплер выключен)
Rep. Pen. - 1.1

И дальше можешь температуру подручивать + динамическую подрубить.

Аноним 08/02/25 Суб 09:31:39 № 1046707 517

>>1046697
>подойдёт
>>1046699
>взвесится в расчетом не обязательно на то, что тебе надо
>>1046700
>Если покажется что шизит

Короче, шклифосовские.

Для использования не на английском лучше статические кванты, особенно если берётся квант поменьше. Хотя разница не настолько большая чтобы её можно было консистентно заметить и подтвердить. Так что если работает, то не надо ебать себе мозги и искать от добра добра.

https://huggingface.co/mradermacher/Legend-of-the-Four-Winds-MN-12B-GGUF/tree/main

Аноним 08/02/25 Суб 09:59:56 № 1046711 518

>>1046579
>Не выбирается, это размер матриц весов модели. Вместо NxM тренируешь NxR+MxR, за счет этого меньше требования к памяти
В смысле, ну как ты выбираешь какие нейроны оставить, а какие нет? Ты по сути 99% мозга отрезаешь, и остальной кусок тренируешь

>С датасетом никак не связано (кроме поиска косвенных эффектов как работают разные ранги, рандомайзер и плацебо)
То есть чо, LoRA это перебор/аппроксимация таких NxR и MxR чтобы они максимально были приближены к NxM? А датасет куда пихать тогда? Откуда специфическое знание в области берется?

>Такие пока ебало в кровь граблями не разобьют неисправимы
факт. шаришь. но зато когда разобью.... там aha moment будет

Аноним 08/02/25 Суб 10:11:33 № 1046714 519

>>1046711
>остальной кусок тренируешь
слыш, васян-аватарка, так-то q-lora именно по такому принципу и работает

Вот только в отличии от картинко-генерирующих нейронок, у текстовых результаты выходят так себе потому что текст куда более чувствителен к искажениям, и параметров у текстовых многократно больше, и поэтому такие лоры просто косоёбят модель. В случае если нужна converstional модель а не справочный чатбот, такой результат неприемлем. Хотя на обниморде и такие модели есть, но их лучше не трогать, даже палочкой.

Аноним 08/02/25 Суб 10:36:46 № 1046720 520

>>1046714
>так-то q-lora
вот у меня есть матрица

(A B C D E F G H)
(1
(2
(3
(4
(5
(6
(7
(8

ты предлагаешь оставить A-H и взять только 1-2 - по какому принципу ты выбираешь строки которые оставить? почему не 4 и 7?

>В случае если нужна converstional модель а не справочный чатбот, такой результат неприемлем
а шо делать тогда? как файнтюнить на своем дасете текстовую модель?

Аноним 08/02/25 Суб 10:41:39 № 1046721 521

>>1046714
>васян-аватарка
и хули сразу васян то? хамло

Аноним 08/02/25 Суб 11:05:45 № 1046734 522

>>1046693
Если тебе не нужен русский и хочется скорости, то есть вполне достойные 8б модели: Lunaris, Stheno 3.2, L3-Umbral-Mind-RP-v3.0-8B (есть другие версии, кому-то они больше заходили, судя по обсуждениям на обниморде, они есть в списке составляющих этой солянки). Есть 8б версии популярных линеек Pantheon и ArliAI-RPMax, хотя мне лично не зашли. Есть типа дарковые 8б варики от DavidAU. Опять же, мне не понравились, имхо не особо и дарковые и туповатые даже для 8б. Оптимальны в Q5_K_M кванте.
12б в Q4_K_M пойдут с приемлемой скоростью. Тут тоже реши, хочешь ли ты портить и без того слабые мозги моделек русским. Если будешь рпшить на английском, то тебе нахер не нужны мержи со всратой сайгой. Просто можешь вбивать 12b gguf на huggingface, сортировать по закачкам и там уже смотреть, про что вообще модели из топа. Те же указанные выше линейки пантеона, арли и дэвида есть в 12б.
>>1046695
Сдохнет ждать 22б с восемью гигами. Уже 12б с 8к контекста относительно тяжело ползёт. Более низкий квант там не особо зарешает.

мимо с 8 врам

Аноним 08/02/25 Суб 11:34:07 № 1046745 523

>>1046734
>Сдохнет ждать 22б с восемью гигами. Уже 12б с 8к контекста относительно тяжело ползёт. Более низкий квант там не особо зарешает.
Нихуя, если в кобольде все настроено нормально, максимум потоков-1 и флэш аттеншон выключен, то будет 5 т/с на 4 кванте и 8к контекста 22b будь то цидония или пантеон.
Вот мой скрин на 4к контекста 8гб врам. Пару тредов назад кидал бенчи 6 и 8к контекста, но ща лень возиться, там сам если хочешь поищи. 13600kf + ddr5.

ПЕРЕКАТ Аноним # OP 08/02/25 Суб 12:14:28 № 1046762 524

ПЕРЕКАТ

>>1046761 (OP)

ПЕРЕКАТ

>>1046761 (OP)

Аноним 08/02/25 Суб 12:30:10 № 1046771 525

>>1046691
https://huggingface.co/OddTheGreat/Machina_24B.V2-Q5_K_M-GGUF

Аноним 08/02/25 Суб 12:50:21 № 1046792 526

>>1046771
>https://huggingface.co/OddTheGreat/Machina_24B.V2-Q5_K_M-GGUF
Спасибо от другого анона :)

Аноним 08/02/25 Суб 18:03:10 № 1047177 527

>>1045461
Ты 3 3090 можешь купить на 200к нахуй тебе эта мощь если врама нет

Аноним 10/02/25 Пнд 13:15:48 № 1049238 528

16 гб врам, лучшая модель для ерп на русском?

Аноним 11/02/25 Втр 19:48:08 № 1050684 529

А есть ли психотерапевты LLMки? Кажется юзкейс очень подходящий. Приватность 100 % на локальной машине. В терапии пациент всё равно делает большую часть работу, а психотерапевт только помогает.