Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 529 90 101
Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №106 /llama/ Аноним 04/02/25 Втр 19:53:18 1041343 1
Llama 1.png 818Кб, 630x900
630x900
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
KL-divergence s[...].jpg 223Кб, 1771x944
1771x944
Нейронка шизосх[...].webp 148Кб, 1075x991
1075x991
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1037498 (OP)
>>1034116 (OP)
Аноним 04/02/25 Втр 19:55:16 1041349 2
изображение.png 1404Кб, 1148x882
1148x882
БАЗА ТРЕДА ПО ХАЙПОВОМУ DEEPSEEK.

Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.
Всем чаю с молоком
Аноним 04/02/25 Втр 19:59:44 1041351 3
>>1041349
>Всем чаю с молоком
Кофе со сгущёнкой.

А молоко ща плохое - то оно скисает не успеешь до дома донести, то не скисает по две недели, и тогда вопрос - а что в этой жидкости от молока вообще?
Аноним 04/02/25 Втр 20:00:32 1041354 4
>>1041351
>>Всем чаю с молоком
>Кофе со сгущёнкой.
Пиво со спермой.
Аноним 04/02/25 Втр 20:02:57 1041357 5
>>1041354
Мусью знает толк в извращениях
Аноним 04/02/25 Втр 20:07:15 1041363 6
Я пока шапку читаю в поисках ответа на свой вопрос - задам вопрос в тред, вдруг или я не найду того что ищу в шапке, или вы ответите быстрее чем я найду.

Нужна локальная модель с хорошим пониманием (и генерацией) русского языка. В общем-то достаточно чтобы она была способна генерировать более-менее связные пасты про говно, например. Можно положить хуй на написание рабочего кода или поддержку большого контекста - она будет работать с сообщениями из тележного чатика и держать в контексте последние несколько сообщений.
Ресурсы невелики - 4Gb VRAM, 16Gb RAM, CPU что-то уровня i3/i5 примерно 8 поколения, хост под Windows. Конечно же хотелось бы не выгружать ее из памяти, и если VRAM я могу отдать весь, то RAM мне нужна хотя бы половина свободная от нее для других задач.
Запускать хочу через ollama, которая предоставляет мне API.

Дайте что-нибудь пожалуйста, удовлетворяющее этим условиям.
Аноним 04/02/25 Втр 20:08:04 1041364 7
>>1041349
> Обсуждение веб-версии Deepseek ведется в соседнем треде.
Схуяли? Такая же ллм, как и все.
Аноним 04/02/25 Втр 20:08:43 1041365 8
Аноны, как заставить эту хуету писать кратко и по делу? Заебало говно из метафор на пол экрана
Аноним 04/02/25 Втр 20:10:05 1041366 9
>>1041365
Ограничь количество токенов на ответ до 100 и перезапусти чат.
Аноним 04/02/25 Втр 20:10:59 1041367 10
>>1041364
Ну запусти её и покажи нам результаты. ЛЛМ же.
Аноним 04/02/25 Втр 20:11:53 1041369 11
>>1041366
это же ни на что не влияет, кроме как на то что обрезается лишнее.
Аноним 04/02/25 Втр 20:12:31 1041370 12
>>1041369
Понятно, дальше без советов справляйся.
Аноним 04/02/25 Втр 20:13:39 1041373 13
>>1041369
Только долбоебские модели обрубают предложение на полуслове, остальные стараются поместиться в ответ.
Аноним 04/02/25 Втр 20:18:52 1041379 14
>>1041351
>молоко скисает
Я покупаю десятки литров молока долгого хранения(может хранится месяцы и снаружи холодильника). Всем рекомендую.
Аноним 04/02/25 Втр 20:22:15 1041386 15
>>1041365
В промпте указывай, что мол, пиши покороче, в пару предложений.
Аноним 04/02/25 Втр 20:23:45 1041391 16
>>1041292 →
>Стоит (ударение поставь по вкусу), но нужно найти свой тюно-мерж.
Действительно. логично, даже спорить не буду.
С одной стороны у нас мистралияподелия в которых, в худшем случае 8квант весит 19гб.
И 70ая Лама. Где жизнь начинается от 40гб.
Легкий переход ёпта.
Аноним 04/02/25 Втр 20:27:05 1041397 17
>>1041363
>4Gb VRAM
печально быть тобой (сам таким был), тут только 4тый квант 12б мистральки, или вообще 8б ламу анаалигнед возьми
Аноним 04/02/25 Втр 20:36:12 1041420 18
> Nexusflow/Athene-V2-Chat
Точно не для ерп, аположайзит, если пиздануть то подтупливает. Нужно хорошенько пердолиться с промтом чтобы получить, ну и не сказать что там сильно приятный результат для обычного рп, хотя в целом умная. Не понравилась вообще.

>>1040575 →
> превысить потолок
Там не столько потолок, сколько припезднутая реализация контроллера памяти с делением и межблочными задержками, которая в свою очередь не позволяет достигнуть должного перфоманса в требовательных к псп памяти вещах. Штеуд тоже не подарок, далеко не каждый софт хорошо ложится на разные типы ведер, но с памятью у него все в порядке и нет костылей.
> превысить потолок
Где? Тут 90, хотя на этой частоте должно быть 100 или около того. В зависимости от версий есть нюансы с оценкой скорости записи, что в том числе видно по "тормознутому" кэшу.
> А с латентностью там что?
Для игрунов, у которых не хватило денег на профессор с кэшем и на видеокарту, и на монитор, и на девайсы, и на эргономичное кресло вместо гоночного треша, и т.д.
>>1040576 →
Сейчас бы тратить много часов и десятки прогонов ради циферки, а потом трястись от бсодов и вылетов, гадая из-за рам ли такое происходит. Особенно рофлово стебать красных фанатов разгона в войсчате, когда они посреди раунда в подпивасных соревновалках вылетают, и после 4-го раза идут ребутатся чтобы сбросить в jdec. Это раньше бета тестеры были вынуждены шатать десятки значений, чтобы заставить синхронизированный на режим рам анкор нормально работаеть. Сейчас это не нужно, но почему-то все равно продолжают мучаться. Если так хочется цифры - можно сразу купить нормальное железо и игросральные плашки, или же пожертвовать ерундой, которую никогда не заметишь.
> ты пердолишься
Я же не долбоеб, воткнул, включил xmp, заимел 110 на 96гб, забыл.
Аноним 04/02/25 Втр 20:36:25 1041422 19
>>1041364
Веб-версия ближе к копросеткам. Все эти джейлы, регистрация через VPN на китайский номер и прочее говно.
Локально 666B никто обсуждать не запрещает, но средствами для запуска тут обладает 1,5 анона, и то во втором кванте.
>>1041373
Чел, нейронка не знает, сколько ты там задал, лол.
Аноним 04/02/25 Втр 20:40:01 1041432 20
Аноним 04/02/25 Втр 20:40:35 1041433 21
>>1041420
>Точно не для ерп
Никто не утверждал обратного, лол. Модель умная, да, но не более. Тюнов, увы, нет.
>а потом трястись от бсодов и вылетов
Один раз настраивается и работает, ХЗ откуда взяться вылетам на мега стабильном кофиге.
>заимел 110 на 96гб
Плашки скинь.
Аноним 04/02/25 Втр 20:41:22 1041438 22
>>1041397
Спасибо, буду пробовать. Добра.
Аноним 04/02/25 Втр 20:43:55 1041443 23
Здарова педики, подскажите появился ли дистилированный ДиксПик весом 12-18 гб с нормальной поддержкой русского, чтобы нейросеть не плясала иероглифами?
Аноним 04/02/25 Втр 20:45:12 1041450 24
И почему в списке актуальных моделей не появился ДриллПикс?
Аноним 04/02/25 Втр 20:45:14 1041451 25
>>1041443
Ответ только после глубокого отсоса.
Аноним 04/02/25 Втр 20:46:18 1041455 26
>>1041433
>Тюнов, увы, нет.

Афинка сама - тюн квена 72В.
Аноним 04/02/25 Втр 20:50:33 1041466 27
Уважаемые аноны, подскажите недавно вкатившемуся модельку для генерации историй и рп на русском, буду признателен, поюзал pathfinder из шапки, понравилось, стер шишку, но может что есть еще получше.
Под капотом 4080 и 64г оперативы
Аноним 04/02/25 Втр 20:54:30 1041478 28
на этой неделе дропнется БАЗА.
ждите.
Аноним 04/02/25 Втр 20:55:45 1041482 29
>>1041466
Открываешь ссылку с актуальными моделями и дрочи на здоровье. Все что миксы от анонов- тебе туда.
Цилонька и пантеон - это про English cum. Хоть и мистралька.
Есть еще 35 командр, он вроде сносно может в русский.
Можешь еще двадцатую гемму потыкать. Но сугубо говоря, после командр и малой мистрали ничего вменяемого больше нет. Все остальное ты не запустишь (ну как не запустишь, запустишь с 1.5 т/с)
Аноним 04/02/25 Втр 20:57:52 1041487 30
>>1041433
> Никто не утверждал обратного, лол
Пару тредов назад ее преподнесли как норм для рп, потому так и оценивал.
> на мега стабильном
Когда ты выкручиваешь все к краю, на что ненавязчиво намекает "прогон 11", это уже оче далеко от мегастабильности. Уже проходили и сам когда-то страдал этой херней
> Плашки скинь.
Корсары на 7200 не подумай что долбоеб чтобы переплачивать за те же м-даи с лгбт и накрученным профилем, просто в тот момент они стоили даже чуть дешевле других
Аноним 04/02/25 Втр 21:01:02 1041497 31
>>1041478
Нахуй не надо, придётся катить тред каждый день же, я заебусь.
ОП
Аноним 04/02/25 Втр 21:05:31 1041510 32
>>1041487
>для рп

Для рп, но не ерп.
Аноним 04/02/25 Втр 21:07:38 1041521 33
>>1041487
>Пару тредов назад ее преподнесли как норм для рп
РП и ЕРП всё же немного разные направления.
>на что ненавязчиво намекает "прогон 11",
Всего штук 18 было, лол. Я откатился с крайних если что, вот на 6400 была нестабильность. Но тесты для того и нужны, чтобы выявлять такое.
>м-даи с лгбт
Лол. У меня аллергия на ЛГБТ, всегда фильтрую не глядя. Поэтому сижу на G.skill Ripjews.
А где брал? На яшамаркете нихуя по параметрам 96GB (2x48GB) 7200MHz.
Аноним 04/02/25 Втр 21:12:17 1041534 34
Аноним 04/02/25 Втр 21:13:16 1041537 35
Аноним 04/02/25 Втр 21:13:31 1041539 36
image 10Кб, 941x104
941x104
>>1041136 → >кря >>1041145 → >новенькую версию
Фигня. Ну душевно. Но фигня. 4 квант того не стоит, мозги хуже чем у мистралек. Ломает форматирование, забывает буквально что было в начале своего же поста, забывает с кем говорит. Литералли 50 первых поцелуев.
Аноним 04/02/25 Втр 21:14:46 1041542 37
изображение.png 139Кб, 1372x944
1372x944
>>1041534
Там оригинальный репозиторий требует шаринга, лол.
А вообще, модели 3 месяца, зачем тебе эта древность? Я в треде про эту версию айи ничего не слышал.
Аноним 04/02/25 Втр 21:16:19 1041545 38
>>1041534
Попробуемс. Чуть позже отпишусь.

О ! Я уже попробовал из прошлого тредика
Гемасутру- ну гемма, как гемма. Даже добавить нечего, лол. Нахуй нужна, не пойму. Цидонька на мистрали тот же опыт. Но может в Великий и Могучий (Но криво).
>>1041539
Поддвачну. Ну то есть, если 70ая гемма делает вещи, то её обрубок нахуй не нужен. Литералли мистраль лучше.
Аноним 04/02/25 Втр 21:26:46 1041561 39
dVDqye.gif 705Кб, 320x320
320x320
Эгегей, дипсикофаги, смотри что я вам принес.
Пахучий, замешанный на квене, свеженький диситилят, всего 15 дней. Запускайте, не обляпайтесь.

Если сможете, конечно.
Хи хи хи хи
Аноним 04/02/25 Втр 21:27:09 1041562 40
Аноним 04/02/25 Втр 21:33:20 1041574 41
image.png 21Кб, 423x99
423x99
2 дня как вкатился, на своей 6 Гб видеокарте и 16 Гб заметил интересный разброс скорости обработки только заменой версии одного драйвера на другой, откат на старую заметно быстрее работает. Может, кому-то будет полезно. Увеличение частоты ядра и памяти на +150 Мгц эффект дает еле заметный. Пробовал на KoboldCpp, модель LLaMA2-13B Q4.
Посоветуйте модель для РП на русском или simple engish, кто чем доволен по использованию, чтобы лампово поняшится и делать всякое. Не смог осилить по контексту, ЕРП - это оно?
Аноним 04/02/25 Втр 21:33:26 1041575 42
>>1041521
Оно и в рп не туда все время уводило по одним рельсам, хотя в целом ПОДМЕЧАЛА и воспринимала норм, просто скучно. Даже для проверки подрубал другие - на тех же карточках норм, даже без "оптимального" промта.
Может просто сценарии не те, прямо плохой ее не назвать, но подойдет далеко не для всего.
> Ripjews
Содомит
> А где брал?
Где на раскрутке возвращали наебаллами до 2/3 выставленной цены. Тогда и 7500 (или с другой частотой но быстрее) были задорого, а сейчас из больших небинарных по 2-3 варианта в магазинах. Дефицит?
Насчет стабильности, при интенсивной и продолжительной работе в горячем корпусе все конфигурации впритык начинают рассыпаться. А еще с появлением в корпусе дополнительной печки, которая удачно обдувает плашки, можно получить проблемы даже на jdec. Диагностируется невероятно сложно, но лечится элементарно.
>>1041545
> Цидонька на мистрали тот же опыт.
Этими тюнами настолько угробили умняшку гемму, что она опустилась до мистраля?
Аноним 04/02/25 Втр 21:34:58 1041581 43
>>1041575
>Этими тюнами настолько угробили умняшку гемму
27 гемма никогда не отличалась умом и сообразительностью. Ну не будем врать сами себе. Мистралька в английском РП таки получше будет. А хорни тюны так вообще заебись.
Настоящая гемма с 70 начинается.
Аноним 04/02/25 Втр 21:35:53 1041584 44
>>1041562
И чем он новый, рпшил с ним в роли биомеха из Lust Gear, без размышлений он фактически тот же квен, ну получше немного думает, мб из-за ризонинга, но слог суше и техничнее.

С размышлениями срёт, часто под себя.
Аноним 04/02/25 Втр 21:36:04 1041587 45
>>1041542

Требует и требует, какая разница, ггуф ничего не требует.

> вообще, модели 3 месяца, зачем тебе эта древность?

В смысле древность? Мистралю, что все нищуки жрут причмокивая, уже почти полгода.
Командир так-то был годным. Ая должна быть не хуже.
Аноним 04/02/25 Втр 21:37:03 1041589 46
>>1041574
>Посоветуйте модель для РП на русском
НАХУЙ ПОШЕЛ. БЛЯТЬ. СОБРАЛСЯ И УПИЗДОВАЛ К ХУЯМ СОБАЧИМ. СУКА КАЖДЫЙ ТРЕД ПО ПЯТЬ ВОПРОСОВ БЛЯТЬ. НУ ПОГУГЛИ В ПРОШЛОМ ТРЕДЕ СУКА. НИХУЯ ЗА ДЕНЬ НЕ ПОМЕНЯЛОСЬ, ВСЕ ТАК ЖЕ. У БЛЯТЬ КАК ЖЕ ТЫ МЕНЯ БЕСИШЬ.

Ну а вообще добро пожаловать, посмотри в шапке миксы от анонов.
Аноним 04/02/25 Втр 21:38:04 1041592 47
{F7A91854-99C7-[...].png 240Кб, 1621x908
1621x908
Чет обосрался с этого. (Буду держать в курсе)
Аноним 04/02/25 Втр 21:38:38 1041596 48
>>1041584
Ну может хоть немного меньше станет А КАК ДИСИКПИСИК ЗАПУСТИТЬ В ОЧКЕ НА 8 ГБ АМУДЕ ЭРТЭИКС.
Аноним 04/02/25 Втр 21:39:24 1041597 49
Мне кажется все ко срут все новые выкладываемые в тред модели даже не пытаются настройки соответствующие этим моделям, так со своего нищедристраля 12В их и тянут, потом докладывают что модели говно.
Аноним 04/02/25 Втр 21:41:20 1041602 50
>>1041597
Ну давай. Поведай. Что же ты такого нашел, что мы не смогли настроить ? Какой файнтюн мистраля ты принесешь нам как откровение ?
Я лично скачаю и обмажусь каждым хиден гемом, который ты принесешь. Еще и весь тред ими засру. Да даже больше. я всю доску засру, что тред чатботов опустеет.
Аноним 04/02/25 Втр 21:44:27 1041615 51
>>1041581
> 27 гемма никогда не отличалась умом и сообразительностью
Разве что если запускать в поломанном ггуфе. По сообразительности, креативу и пониманию происходящего мистралька и рядом не стоит. Хз насчет свежевышедшего, но 12 и 22 - точно. У нее только один серьезный недостаток - малое дефолтное окно контекста.
>>1041597
> настройки соответствующие этим моделям
Конкретизируй.
Аноним 04/02/25 Втр 21:44:47 1041617 52
>>1041602
>акой файнтюн мистраля ты принесешь

Наоборот, это вы на дристрале своем сидите и гемма вам говно, квен вам говно, командир вам говно, одни шизотьюны дристаля заебись, потому что влезают в нищезатычки.
Аноним 04/02/25 Втр 21:51:58 1041639 53
>>1041615
>По сообразительности, креативу и пониманию происходящего мистралька и рядом не стоит. Хз насчет свежевышедшего, но 12 и 22 - точно. У нее только один серьезный недостаток - малое дефолтное окно контекста.
Хуй его знает, если честно. Мы ступаем на территорию я так чувствую. Если я на 70ой гемме видел как живее идет общение, как нейронка начинает выкупать иронию, то её обрубок.. Ну честно, ну я не заметил отличия от мистрали. Но опять же, я её на пяти карточках пробовал в РП. И рассматриваю исключительно в рамках РП. Может гемма лучше на русском языке, не пробовал. Но прям качественных изменений не увидел. Но опять же, опыт другой, свайпы другие - заебись, но контекст все портит, увы.

>Конкретизируй.
Вангую откровения в духе
А ВЫ ЗНАЛИ, ЧТО ГЕММА ЗАПУСКАЕТСЯ НЕ НА МИСТРАЛЕВСКИХ НАСТРОЙКАХ
КОМАНДР ПЛОХО РАБОТЕТ С ПРОМТОМ ОТ АЛЬПАКИ
Аноним 04/02/25 Втр 21:52:48 1041641 54
>>1041617
Ты модели приноси, а там дальше поговорим.
Ты же нашел какой то хидден гем же.
Аноним 04/02/25 Втр 21:53:41 1041646 55
>>1041617
Так и все что ты перечислил влезает туда же, максимум контекст порезать но это херня. Или ты пришел нести святую истину что 70b модели лучше 30b ? Так это и без тебя знаем.
Аноним 04/02/25 Втр 21:57:00 1041653 56
>>1041617
>в нищезатычки.
Че уже сгорели 3090? Жалко конечно
Аноним 04/02/25 Втр 22:07:35 1041681 57
>>1041534
Так сказать по свежим токенам на английском языке.
Пишет свежо, похож на стандартный коммандер, но чуть живее что ли. Пожалуй его мы оставим и будем основательно тыкать.
Аноним 04/02/25 Втр 22:15:37 1041694 58
>>1041641

Несколько нашел, которые в треде до меня не обсуждались вообще

Athene v2 chat
EVA Qwen 32B
Aya expanse 32B

Из нового что еще не тыкал:
EXAONE-3.5-32B-Instruct
Аноним 04/02/25 Втр 22:21:24 1041703 59
>>1041694
>Athene v2 chat
Обсуждается, причем в этом блять треде.

>EVA Qwen 32B
Квен не для РП. О чем куча анонов писала. Это интсрумент, пишет сухо.
>Aya expanse 32B
Прямо сейчас тыкаю. Вот тебе скриншот. Я не ванга, я определять качество модели по паре сообщений не умею.

>EXAONE-3.5-32B-Instruct
Вот и приноси своё кря в тредик. Будем смотреть.
Аноним 04/02/25 Втр 22:22:57 1041706 60
223.png 144Кб, 947x467
947x467
>>1041703
Опять отвалился скрин. Сейчас изолентой примотаю ~de geso
Аноним 04/02/25 Втр 22:27:05 1041714 61
Аноны у меня одного гугл переводчик в таверне с ума сошел? Яндексу сливать текста не хочу
Аноним 04/02/25 Втр 22:27:22 1041716 62
>>1041639
>70ой гемме
Кстати, пропустил, а что за модель?
Аноним 04/02/25 Втр 22:28:12 1041718 63
>>1041714
>Яндексу сливать текста не хочу
HA HA HA HA HA

O HO HO HOHO HO

BWA HA HA HA HA HA


Барен, барен, самый лучший барен на свете
Аноним 04/02/25 Втр 22:29:25 1041721 64
Аноним 04/02/25 Втр 22:30:25 1041723 65
>>1041716
До меня только сейчас дошло, что я ламу за гему принял. Но с другой стороны - гугл, мета, один хуй жидорептилоиды.
Аноним 04/02/25 Втр 22:34:45 1041738 66
>>1041703
>Обсуждается

Потому и обусждается, что я его в позапрошлый тред принес. Хорошо что заметили.

>Квен не для РП.

Никакая дефолтная модель не подходила для РП, дальше что?
Речь про конкретный РП файнтьюн. Вполне достойный как по мне.
Аноним 04/02/25 Втр 23:21:31 1041847 67
>>1041723
Ебать ты конечно не замечательный. А я думал было радоваться, гемма 2 27B была хорошей для своего размера.
Аноним 04/02/25 Втр 23:37:47 1041876 68
>>1041639
> Мы ступаем на территорию я так чувствую.
Не совсем, это очень наглядно проявляется естьи помучать всяким нлп. Не просто шизозагадки на распутывание, а что-нибудь широкое, где нужно понять конкретный контекст и суть, правильно обработав.
И в рп гемма прям старается и весьма умная, не просто не забывает про количество трусов, но и понимает мотивы юзера, а не сливает на типичный рп/кум/... слоп, который в край заебал.
Проблема в глупости юзеров, большинство не понимают отличий и не могут оценить по отдельным критениям. Написала так что понравилось/привык - значит хорошая, разыграла круто но не так как хотелось - плохая. И это не говоря о кривом формате.
> ВЫ ЗНАЛИ, ЧТО ГЕММА ЗАПУСКАЕТСЯ НЕ НА МИСТРАЛЕВСКИХ НАСТРОЙКАХ
> КОМАНДР ПЛОХО РАБОТЕТ С ПРОМТОМ ОТ АЛЬПАКИ
База
> на 70ой гемме
>>1041723
> что я ламу за гему принял
Гемма как раз довольно близка к 70 по пониманию, офк не идеальна но среди остальных выделяется.
Аноним 05/02/25 Срд 01:36:16 1042032 69
>>1041703
>Квен не для РП. О чем куча анонов писала. Это интсрумент, пишет сухо.
Итак, корабль "Святой Морган" приземлился на этот херовый мирок, который, по данным карты, был обозначен как "Девственная-7". Эти ученые пидарасы из Центра космических исследований назвали его так, потому что с их точки зрения, планета была неприкасаемой и неоскверненной. Ага, точно, как блядина в публичном доме.

Капитан Рокки Бальбоа вылез из кабины управления, потянулся, растопырив ладони, и посмотрел на эту зеленую херню вокруг. "Ну и хуйня", - буркнул он себе под нос. С ним были его команда: Мускул Джек — здоровяк, который думал, что у него есть мозги; Пиздец Charlie — технарь с кучей татуировок и грустным взглядом; и Лолита Лавина — единственная женщина на борту, которая была с ними не из-за денег, а потому что ей нравилось быть такой херовой.

Они спустились на поверхность и начали разбивать лагерь. Пляска светлячков в ночном небе выглядела красиво, но Рокки знал, что это не случайно. Они поставили палатки, разожгли костер и начали обсуждать, какую хуйню они видели.

"Эй, Рокки, ты глядел на эти долбаные горы?" спросил Мускул Джек, указывая на массивные пики на горизонте.

"Они выглядят, как пизда бабы с фаллопиевой трубой", - фыркнула Лолита, поднося кружку термоса с кофе.

Charlie, который был занят с калибровкой приборов, не поднимая головы, сказал: "Эй, ребята, вы видели это? Это не просто хуйня. Это какая-то херовая энергия."

Вдруг земля задрожала, и из-за холмов появилась процессия. Около дюжины бабулек, одетых в длинные робы и смотрящих на них с испуганными глазами, подошла к лагерю.

"Что за хулиганье?" спросил Рокки, подходя ближе.

Одна из старух заговорила на каком-то странном языке, и Charlie, который знал хуй знает сколько языков, перевел: "Они говорят, что мы нарушаем их святость. Это планета для целомудренных дамочек."

Рокки вытаращил глаза. "Ты шо? Ты серьезно?"

Charlie кивнул. "Видимо, они считают себя неоскверненными и не хотят общения с такими как мы."

"Ты глядел на их морды?" Рокки указал на Лолиту. "У нас тут тоже есть дамочка. Может, они с ней поговорят?"

Лолита фыркнула и отвела взгляд. "Советую не надеяться, Мистер Бальбоа."

Старухи переглянулись и ушли, оставив их в молчаливой тишине.

"Ну и хер с ними", - сказал Рокки, разводя руки. "Давайте собираться домой. Это не наш мир."

Они начали сворачивать лагерь, но внезапно Лолита закричала: "Эй! Смотрите!"

Из-за холма показался другой отряд бабулек с флагами и крикливыми плакатами. На них было написано что-то вроде "Сберегаем целомудрие!" и "Дайте нам еще монастырь!"

"Ну и хуета", - сказал Рокки. "Похоже, мы ненароком приземлились на планете для баб с проблемами с девственностью."

Мускул Джек расхохотался: "Нам здесь не место, ребята. Валим отсюда."

Они быстро собрались и поднялись в воздух, оставляя позади этот херовый мирок с его целомудренными бабами и непонятной энергетикой.

"В пизду", - сказал Рокки, усаживаясь в кресло управления. "Давайте домой, пока я не ебанулся."
Аноним 05/02/25 Срд 02:00:17 1042044 70
Аноним 05/02/25 Срд 05:52:22 1042131 71
0855r9.jpg 546Кб, 3000x1680
3000x1680
>>1041706
>Бот пиздит от первого лица
Аноним 05/02/25 Срд 06:15:38 1042148 72
image.png 2Кб, 137x27
137x27
image.png 3Кб, 189x22
189x22
Сперва охуел с оскорбления на ровном месте. Потом охуел с того как коряво перевел яндекс.
Аноним 05/02/25 Срд 07:05:21 1042161 73
>>1042148
>коряво перевел яндекс
всегда коряво переводил
Аноним 05/02/25 Срд 09:26:10 1042198 74
После пользования кобольдом в хроме все тяжелые сайты по типу ютуба и твича перестают нормально работать, грузятся не полностью, любое управление недоступно. Лисобраузер работает нормально и грузит все сайты адекватно. Помогает только перезагрузка пк. Появилось только вчера, до этого спокойно пользовался кобольдом и браузером одновременно, версию кобольда все это время не менял. Память видяхи корректно освобождается при закрытии кобольда. Есть какие то идеи что происходит?
Аноним 05/02/25 Срд 10:50:52 1042250 75
>>1042198
Толстый намек дропать сомнительный софт типа хрома и кобольда, и пересаживаться на программы для белых людей. Лиса твой бро, также попробуй llamacpp-server, если жора безальтернативен.
Аноним 05/02/25 Срд 11:50:17 1042288 76
>>1042250
> для белых людей
> предлагает пересаживаться на браузер с зондами, написанный трапами
Аноним 05/02/25 Срд 11:53:08 1042291 77
>>1042288
Ставь для локалок отдельный анально огороженый браузер, на вроде Midori или еще какого то старого легкого и рабочего говна и будет тебе счастье
Аноним 05/02/25 Срд 11:54:31 1042295 78
Аноны, можно ли каким-то образом добавлять множители для эмбеддиногов? Например вот так “Anna is horny:0.5 girl, trying stay loyal to her husband”
Ну или в теории можно как-то залезть сетке под капот и там уже найти этот токен и умножить его на 0.5?
Потому что она пиздец хорни получается, хочется обороты снизить
Аноним 05/02/25 Срд 11:56:07 1042296 79
>>1042295
Что то похожее делается через незаслуженно забытые контрольные векторы, не помню как там по английски
Аноним 05/02/25 Срд 12:04:22 1042306 80
>>1042131
Странный доёб. Наверное он так делает из за указанного мною промта ?
Аноним 05/02/25 Срд 12:12:31 1042313 81
>>1042131
А че не так? Помоему так даже лучше.
Аноним 05/02/25 Срд 12:13:27 1042314 82
>>1041349
Что несёт этот оратор? Объясните мне почему нельзя запускать дикпик, а то сам я нуб.
Аноним 05/02/25 Срд 12:15:04 1042316 83
>>1042314
Можешь. Запускай.
Вот тут принесли ссылочку. >>1041562
Только от нас отъебись.
Аноним 05/02/25 Срд 12:19:20 1042318 84
image.png 2Кб, 55x93
55x93
Что это такое и как его использоать?
Аноним 05/02/25 Срд 12:31:00 1042328 85
image.png 50Кб, 1234x289
1234x289
А что это такое, не раз замечалось, когда текст пишется и потом последняя часть исчезает, но остается в консоли?
Аноним 05/02/25 Срд 12:34:08 1042331 86
изображение.png 447Кб, 3280x1438
3280x1438
>>1042314
> Объясните мне почему нельзя запускать дикпик, а то сам я нуб.
Потому что для запуска оригинального 671b дикпика надо овердохуя памяти. Даже если речь идёт о ультраквантованных 1,5-бит версиях, то там будет под сотню гб рама.
Потому все локально запускают дистилляты разных размеров и квантов. Они определённо тупее облачного R1. Но то что они тупее других локалочек я с >>1041349 не соглашусь. По крайней мере в сегменте 32b он точно лучше QwQ и на глаз и по бенчам.
Аноним 05/02/25 Срд 12:38:45 1042334 87
>>1042331
>Но то что они тупее других локалочек я не соглашусь.
А они и не тупее, уже 14b немного лучше чем обычная квен 14b.

Ниже да, 7b не хватает мозгов что бы делать выводы и быть производительнее оригинала.
1.5b вобще шутка, созданная просто для того что бы посмотреть как на нее ляжет дистилляция и посмотреть результат, сравнив с другими
Аноним 05/02/25 Срд 12:45:54 1042337 88
>>1042328
Отключи обрезку незавершённых ответов.

Ева-квен внезапно может в рп, в ерп пока не тестил.
Даже не то чтобы сухо выглядит. 4 квант причём.
Аноним 05/02/25 Срд 12:51:10 1042340 89
>>1042148
+1 страдалец в треде, придётся всё-таки учить англюсик
Аноним 05/02/25 Срд 13:08:18 1042366 90
image.png 3Кб, 234x40
234x40
>>1042337
>Ева-квен внезапно может в рп
Я на этом.
>>1042340
>учить англюсик
Нет
Аноним 05/02/25 Срд 14:09:57 1042425 91
Почему эта ебучая таверна после того как брякнул звуковой эффект окончания генерации продолжает что-то генерировать, но не пишет в чат, но кнопка висит квадратиком и на неё надо отдельно нажать чтобы можно было дальше написать.
Аноним 05/02/25 Срд 14:21:27 1042439 92
>>1042425
Подожди, уже начинаю твои логи таверны ощущать, подожди немного.
Аноним 05/02/25 Срд 14:26:25 1042442 93
image 870Кб, 1625x918
1625x918
Ева-квен почему-то любит периодически добавлять такие статус-блоки. В промте ничего нет, там вообще довольно простая и короткая карточка про пару кошкодевочек.

>>1042439
>логи таверны
Хммм... а реально, это может быть авто-саммари.
Но где как и зачем оно юзается?
Аноним 05/02/25 Срд 14:31:21 1042444 94
Что за новое слово "дисциляция" у зумеров иицыган? Прочел пару цыганских высеров, нихуя не понял. Объясните на нормальном языке, вроде того что ризонин это сот+файнтьюн.
Аноним 05/02/25 Срд 14:41:31 1042448 95
>>1042442
> Но где как и зачем оно юзается?
В настройках таверны. Прям так и называется модуль.

Вообще понятней не стало, приноси лог из кобальта. Может там есть пояснение что он считает.
Аноним 05/02/25 Срд 14:46:57 1042453 96
.png 390Кб, 583x447
583x447
>>1042444
Это когда мелкую модель обучают на выхлопе большой модели, пытаясь таким образом ужать крупную модель. Берёшь дипсик на 671B параметров, и обучаешь на её входе/выходе модель с 1.5B параметров. А потом пилишь статьи/видосы как ты запускаешь убийцу OpenAI на Raspberry Pi.
Аноним 05/02/25 Срд 14:51:38 1042458 97
изображение.png 233Кб, 996x630
996x630
>>1042444
Положили рядом deepseek-r1-zero:671b и qwen-2.5:1.5b. На вход подали кучу синтетики, qwen сказали: "будешь отвечать не как r1 - будем пиздить". Повторяли, пока метрики не вышли на плато.
По сути они зафайнтюнили хорошую существующую модель на вот это reasoning поведение: "может так может не так, давай ещё раз подумаем с другой стороны".
Аноним 05/02/25 Срд 14:53:25 1042461 98
О, анон распробовал еву квен, это хорошо.
Аноним 05/02/25 Срд 14:57:25 1042463 99
>>1042453
>>1042458

Примерно как петровичей обучают на заводах кем-то давно придуманной технике работы, и те повторяют как попгуи, ни в хуй не понимая почему нужно делать именно так и если вдруг ситуация требует корректировки - все равно продолжают ебашить по старому, изнашивая оборудование, портя товары и т.д.
Ну или студент который готовится к экзамену и может либо вучить все вопросы реально вникнув в суть, а может вызубрить шпору.
Аноним 05/02/25 Срд 15:05:17 1042467 100
>>1042458
> "может так может не так, давай ещё раз подумаем с другой стороны"
Я с этого реально прифигел. Довольно медленно у меня, р1 около 1т\с. И вот она высираит кучу тхинк-текста, потом: "да, не, не может быть" и тхинкает в другую сторону. Прогресс, чё.
Аноним 05/02/25 Срд 15:30:44 1042478 101
>>1042467
>Прогресс, чё.
Ну в этом и есть реальный прогресс. В этих сомнениях и внутренних метаниях скрывалось 20-30 процентных пунктов бенчей.
Аноним 05/02/25 Срд 15:45:45 1042491 102
Какие есть русскоязычные, без цензуры модели для 6 ГБ? Просто скажите какие можно скачать и чем они отличаются
Аноним 05/02/25 Срд 15:51:13 1042498 103
>>1042491
>русскоязычные, без цензуры модели для 6 ГБ
Они кривые все, настоящие ру модели будут если бляндекс в открытый доступ алису про или свои гопоте 3 сольет.
Аноним 05/02/25 Срд 15:55:08 1042503 104
>>1042491
Мультилингва модели не бывают настолько мелкими в хоть сколь то перевариваем варианте. Разве что она иначально онли ру будет, но таких в открытом виде вроде нет. И тебе зачем? Для чата в таверне есть автоперевод, даже кликать ниче не надо.
Аноним 05/02/25 Срд 16:02:40 1042507 105
Аноним 05/02/25 Срд 16:08:07 1042512 106
Аноним 05/02/25 Срд 16:22:05 1042520 107
>>1042491
Пиздец, чел. На 6 гигов даже модели на английском - полный кал, а ты хочешь еще и на русике чтобы они общались с тобой, лол.
Аноним 05/02/25 Срд 16:25:42 1042524 108
{544BFEB0-214F-[...].png 1590Кб, 2733x1708
2733x1708
image.png 341Кб, 729x439
729x439
Бля, да когда уже диджидс в продаже будет? Я уже не могу ждать нахуй, хочу локально запускать 123Б модели бляяя.
Аноним 05/02/25 Срд 16:47:25 1042531 109
Посоветуйте ксеон с алиэкспрес под эти ваши дипсики и куины? Не хочу видеокарту.
Как я понял нужно по максимуму число потоков и максимум рам? Может у кого-то уже есть варианты на примете?
Аноним 05/02/25 Срд 16:49:11 1042532 110
>>1042531
Минимально 2 эпикса ддр5 24 анала, если не хочешь ждать бесконечно ответы.
Аноним 05/02/25 Срд 16:53:25 1042534 111
>>1042531
> Не хочу видеокарту. Как я понял нужно по максимуму число потоков и максимум рам?

Сколько рам не бери, сколько потоков не бери - это все тухлятина полнейшея, без видеокарты хотя бы самой тухлой неюзабельно вообще.

>>1042532
>ддр5 24 анала, если не хочешь ждать бесконечно ответы.
>не хочешь ждать бесконечно ответы.

Он в любом случае будет их бесконечно ждать, нах ты его в заблуждение вводишь и даешь лишнюю надежду?
Аноним 05/02/25 Срд 17:00:38 1042542 112
image.png 218Кб, 1901x916
1901x916
>>1042512
>4тый квант с выгрузкой в оперативу
Это какая из всех?
Аноним 05/02/25 Срд 17:12:06 1042549 113
>>1042542
Q4_K_M, или Q4_0 попробуй если первый вариант будет сильно шизить.

>>1042507
https://pixeldrain.com/u/gNAaUWZX Lily and Kuro.json
Нигде не выкладывал, ранее, так что без картинки, ещё сам не потестил даже норм.
Аноним 05/02/25 Срд 17:33:14 1042576 114
Ева-квен, хоть залупается не так явно как мистральки, но порой начинает гнать хоть и связный но слабокогерентный текст что бобр курва я пердолил, а базовые сценарии поведения пользователей, инициированные исключительно синтетически, становятся ассоциативно распределены по отраслям
Аноним 05/02/25 Срд 17:47:56 1042585 115
>>1042576
Хуй знает. Я сейчас EVA-Qwen2.5-32B-v0.2-Q5_K_S пробую и чето какой-то кал если честно. Даже магнум 22б лучше генерит ролплей. Ты какую модель юзаешь?
Аноним 05/02/25 Срд 17:52:21 1042591 116
>>1042524
>Бля, да когда уже диджидс в продаже будет? Я уже не могу ждать нахуй, хочу локально запускать 123Б модели бляяя.
Ты не торопись волноваться, а дождись хотя бы первых тестов. Вот я например могу локально запускать 123В, поскольку имею 96гб врам, но как говорится есть нюанс. Это раз; а второй момент заключается в том, что даже 123В модели, которые на сегодняшний день максимум для локалок - пока что несколько не то, что хотелось бы. С какой стороны не возьми современную модель, она не дотягивает - хоть код, хоть рп, хоть картинки, хоть голос. Рано ещё суетиться обывателю.
Аноним 05/02/25 Срд 17:54:03 1042594 117
image 1012Кб, 1686x672
1686x672
>>1042585
koboldcpp/EVA-Qwen2.5-32B-v0.2.i1-Q4_0
Аноним 05/02/25 Срд 18:23:30 1042619 118
>>1042524
Там уже с пруфами память 270 гб/с. Мусор, в 4 раза медленнее 3090. Фактически P40 в компактном корпусе за оверпрайс.
Аноним 05/02/25 Срд 18:25:57 1042622 119
>>1042619
А смысл тогда им такое делать? Кому нахуй надо большая модель, которая отвечает со скоростью 1т/с
Аноним 05/02/25 Срд 18:37:52 1042633 120
>>1042622
70В в 5 т/с будет, быдло сожрёт. За 3к баксов хорошее предложение, учитывая что собрать на новых GPU сборочку надо в два раза больше, потому что кожаному жиду жалко добавить пару 10-баксовых чипов памяти на карту. Пока китайцы не начнут ебать куртку, так и будут все VRAM покупать за оверпрайс.
Аноним 05/02/25 Срд 18:40:17 1042638 121
>>1042622
Это для тех, кто будет вкатываться в ИИ-шки после того, как нейрошизы доедят остатки P40/3090 на вторичке.
Аноним 05/02/25 Срд 18:46:11 1042643 122
>>1042453
А когда большую модель обучают на выхлопе мелкой модели, это как называется?
Аноним 05/02/25 Срд 19:04:07 1042665 123
>>1042643
>это как называется
если прям до упора и пережарки, то дистилляциия (дипсик), если просто на выхлопе, то просто дообучение - есть варианты на тройках запрос - хороший вариант - плохой вариант это варианты PO-алгоритмов, Preference Optimisation.
Аноним 05/02/25 Срд 19:13:43 1042686 124
>>1042288
Просто ахуеть, хромог выебывается и кого-то пытается упрекнуть зондами. Сюрр ебаный.
>>1042291
И заводит привычку каждый раз ребутаться после запуска ллмки, естественный отбор.
>>1042444
Под этим термином сейчас понимают несколько вещей. Это может быть: изменение весов модели (обучением или модификацией) для достижения определенного паттерна поведения, который даст преимущества (лоботомия как в турбо-моделях диффузии или флакс-шнель, костыли-ускорялки, тот же vpred является дистилляцией); удаление "лишних" весов, оцененных малозначимыми по каким-то критериям, и сбор только наиболее значимых в составе меньшей модели. В случае дипсика это первое, прежде всего дрочили готовые сетки их датасетом с некоторыми нюансами.
>>1042619
Рили? Можно ссылочку? Обидно вообще, а ведь хотелось.
Аноним 05/02/25 Срд 19:16:23 1042692 125
>>1042531
Бери любую залупу в зависимости от того, насколько необучаемый. Если открыт к новому и прогрессивен - самое дешевое, чтобы не так обидно было. Если упертый - то что-нибудь подороже, чтобы побольше настрадаться, носясь с этой херней. Правда может переклинить и уверуешь, начав бегать с криками что 1т/с хватит всем, обработка контекста не нужна, а ускоряющий всратые кванты код трапа, который буквально этим хвастается в комментариях - благо.
Аноним 05/02/25 Срд 19:17:41 1042694 126
Маякните когда пресет для квена в стабильную ветку глупой таверны добавят.
Аноним 05/02/25 Срд 19:35:54 1042727 127
>>1042524
Да хуита будет очевидная для такой цены, арм говно, непонятный графический чип. За 1.5к денег еще былоб норм. Может китайцы научатся припаивать к этому чипу нормальное количество врам и распаивать его в виде отдельной видеокарты.
>>1042638
Летом/осенью с вероятностью 50% будет 5060 либо 5060ти с 24гб гддр6. Так что эти ваши жаренные 3090 будут нахой ненужны.
Аноним 05/02/25 Срд 19:44:39 1042733 128
>>1042694
Щас бы жрать говно половина весов которого забита иероглифами. Вы ебанутые? Любая модель с двукратно меньшим количеством параметров будет такой же по сообразительности.
>>1041714
Это не только в таверне. Проблема с их апи, у меня плагин браузере тоже лютую хуиту высирает.
Аноним 05/02/25 Срд 19:48:21 1042740 129
>>1042478
>В этих сомнениях и внутренних метаниях скрывалось 20-30 процентных пунктов бенчей.
А так же х3 к компьюту.
Аноним 05/02/25 Срд 19:48:52 1042741 130
>>1042733
Вообще да, даже сайга анлишед консистентнее писала, по крайней мере сравнивая с 4-5 квеноквантами.

Но вообще экспириенс интересный. Не сказал бы что прям мусор, да и иероглифами срала редко.

Правда как и гемма начинает шизеть на 8к контекста, а мистральки адеватно держат в 2-4 раза больше.
Аноним 05/02/25 Срд 19:54:51 1042747 131
Поясните за размер контекста. У некоторых моделей прямо указан размер. У некоторых мерджей не указано, но наверное предпологается, что контекст как у базовой модели.

Что делать, если не понятно, откуда ростут ноги? В одном из прошлых тредов советовали pathfinder-rp-12b-ru-q8_0. Какой размер контекста у нее? Или можно указывать такой, какой помещается в память?
Аноним 05/02/25 Срд 20:00:28 1042754 132
>>1042478
> 20-30 процентных пунктов бенчей
А можно без сраных бенчмарков ради инфоповодов и завлечения нормисов, а просто чтобы девочка в рп вела себя как нужно?
>>1042727
> 5060 либо 5060ти с 24гб гддр6
> 5080 с 16
> 5070 с 12
Вероятность считалась по принципу "или будет или не будет, значит одно из двух".
Аноним 05/02/25 Срд 20:05:45 1042763 133
>>1042747
Все современные модели имеют до жопы контекста, кроме геммы, лол.
Аноним 05/02/25 Срд 20:06:03 1042764 134
>>1042747
>pathfinder
Как и все остальные 12б мистральки - 128К номинально, но фактически стабильно 32К примерно, да и хз где столько врам взять чтобы 128К влезло.

У большинства остальных моделей - 8К, или вообше 4.

Поэтому все на мистральках и сидят. Контекст решает.
Аноним 05/02/25 Срд 20:19:56 1042791 135
>>1042727
>5060ти с 24гб гддр6
0 вероятности.
>>1042754
>А можно просто чтобы девочка в рп вела себя как нужно?
Нет.
>>1042764
>У большинства остальных моделей - 8К, или вообше 4.
128к у всех современных. Llama 3, Qwen2.5, DeepSeek-R1. Некоторые уже в лям могут. На каком кладбище ты 4к откопал?
Аноним 05/02/25 Срд 20:22:12 1042796 136
>>1042764
>У большинства остальных моделей - 8К
Каких ? Лама и её вариации? Командр и его вариации ? Может быть большая мистраль, лул ? Квен ?

Потому что на моей памяти 8к - сейчас, это инвалид от гугла.
Аноним 05/02/25 Срд 20:24:36 1042801 137
>>1042733
>Вы ебанутые?
Для начала квен не так плох. А потом, в конце концов ну хочется анонам пробовать что то новое, пусть пробуют.
А то у нас выбор большой блять.
Ехала мистраль через мистраль, да в мистраль глядела.
Аноним 05/02/25 Срд 20:32:51 1042812 138
>>1042801
>А то у нас выбор большой блять
Ну, сочетание контекста и количества рп-тюнов, а кстати почему именно мистрали, его как-то удобнее / проще / ещё что было тюнить?

На другие базовые модели или раз и обчёлся (тот же ева-квен), или вообще нет.
Аноним 05/02/25 Срд 20:34:45 1042819 139
>>1042812
>а кстати почему именно мистрали
Размер. Мистраль самая адекватная и сильная попенсорс модель. Вот и всё. По сути преимущество мистрали в одном :
она есть блять
Все остальные модели или лоботомировать или докупать по три видеокарты.
Аноним 05/02/25 Срд 20:39:29 1042828 140
>>1042754
>А можно без сраных бенчмарков ради инфоповодов и завлечения нормисов, а просто чтобы девочка в рп вела себя как нужно?
Низзя. Потому что... Ты как деньги зарабатывать будешь, вумник ?
Аноним 05/02/25 Срд 20:41:50 1042833 141
>>1042643
Представь что ты заставил девятиклассника выучить монографию по квантмеху. Он нихуя не понял, но заучил буквы и циферки.
А потом он рассказывает то что выучил, тому кто способен понять . Но сможет ли он объяснить ?
Так и тут. ТАК НИКТО НЕ ДЕЛАЕТ БЛЯТЬ, ПОТОМУ ЧТО ЭТО ТУПО.
Аноним 05/02/25 Срд 20:58:24 1042856 142
GPU: NVIDIA GeForce RTX 4060 8Gib [Discrete]
Memory: 4.46 GiB / 31.26 GiB (14%)
Что на это ведро можно натянуть для рп без цензуры?
Аноним 05/02/25 Срд 20:59:36 1042858 143
>>1042856
Для начала посмотреть что пишут в треде. Потом посмотреть шапку. А потом уже спрашивать.
Аноним 05/02/25 Срд 21:06:39 1042870 144
изображение.png 56Кб, 893x562
893x562
>>1042858
Я из шапки сюда и пришел. Память вот в этом https://rentry.co/llm-models списке это видеопамять или обычная?
Что такое Magnum? Без тюнов вообще можно пользоваться?
Аноним 05/02/25 Срд 21:12:17 1042885 145
>>1042870
>Я из шапки сюда и пришел.
Ну тогда у тебя не должно быть вопросов. Эхх..
Ладно, смотри.
>Миксы от тредовичков с уклоном в русский РП:
Тебе сюда.
>это видеопамять
Да. Врам это база для моделей, потому что на всем остальном они ОЧЕНЬ ОЧЕНЬ ОЧЕНЬ ОЧЕНЬ медленные. И нет, они действительно будут медленные, можешь не пытаться. Тебя хватит на пару сообщений, не больше.
>Что такое Magnum?
Ебливые тюны чего угодно. Ебливые настолько что во втором сообщении лезут в трусы, чтобы что то там найти. Абсолютно из за этого бесполезны в РП, так как приходится постоянно ебливого пидораса останавливать.
>Без тюнов вообще можно пользоваться?
Без тюнов это оригинальные модели. Но не с 8гб.
Увы, для ЛЛМ гейткип по железу и ты никак его не обойдешь.
Аноним 05/02/25 Срд 21:13:33 1042889 146
>>1042754
> без сраных бенчмарков
> чтобы девочка в рп
Ну сорян, кабанчикам надо чтобы бенчи росли, чтобы бизнес задачки решались, они бабки для того и заносят. А девочкам в рп никто не заносит.
Аноним 05/02/25 Срд 21:14:58 1042892 147
>>1042740
>х3 к компьюту
Компьют сегодня стоит копейки на фоне железа, особенно в домашнем сегменте.
Аноним 05/02/25 Срд 21:16:13 1042895 148
>>1042754
>Сырки не знают про 3060 12гб при 3080 10гб и 3070 8гб
Аноним 05/02/25 Срд 21:18:47 1042901 149
У меня сейчас будет странный вопрос, но кроме техзадач h100 еще для чего нибудь подойдет ? И нет, блять, я не про игры.
Аноним 05/02/25 Срд 21:18:52 1042902 150
>>1042885
Блять ладно спасибо, пошёл копить на вторую карточку 16 гб
Аноним 05/02/25 Срд 21:20:46 1042906 151
>>1042870
Если тебе не чисто кум нужен, то смотри в сторону 12b моделей в q4_k_m. Полностью они в видеокарту не влезут, наверное, поэтому скорость генерации будет не такая быстрая, как хотелось бы. Тем не менее, использовать модели меньше 12b уже совсем адская мозгоебка.

Контекст ставь 8к. Если поймёшь, что мало, можешь увеличить его, при этом скорость уменьшится.

Магнум чисто кум-модель, больше ни на что не годится в большинстве случаев. И также учитывай, что модели, которые могут в хороший рп, обычно не могут в хороший кум или могут на среднем уровне.

Нормальный рп без цензуры может дать chronos gold (вроде так называется), mag mell, а также модели автора DavidAU, которые 12b. Модели последнего чувака довольно ебанутые и шизофреничные, их сложно/нудно контролировать, однако впечатления от них более интересные.
Аноним 05/02/25 Срд 21:21:17 1042907 152
>>1042901
Дай ка подумать. Видеокарта с 96гб видеопамяти для ЛЛМ.
Попробуй на ней яичницу жарить, хуй знает что еще посоветовать.
Аноним 05/02/25 Срд 21:23:11 1042910 153
>>1042906
>Нормальный рп без цензуры может дать chronos gold (вроде так называется), mag mell, а также модели автора DavidAU, которые 12b. Модели последнего чувака довольно ебанутые и шизофреничные, их сложно/нудно контролировать, однако впечатления от них более интересные.

Увы, нормальный рп начинается с жирных тюнов мистрали. А на жирной ламе или бегемоте ты вообще стены малафьей покроешь.
Sad, but true.
Аноним 05/02/25 Срд 21:28:19 1042918 154
>>1042892
А вот ждать бесконечно уже не выйдет.
>>1042901
Майнить?
Аноним 05/02/25 Срд 21:35:56 1042932 155
Бля, а ведь когда-то локально, на консумер хардвейре можно будет запускать модели типа полноценного дикпика на 671б параметров. Представляю уже, как же это будет охуенно.
Аноним 05/02/25 Срд 21:36:10 1042933 156
Сеньоры, имеет ли смысл переходить на линукс? Есть какой-то стимул? Кто уже перешел или только собирается, на что именно? Если на винде, в принципе, ничего не держит кроме привычек. Но она у меня работает стабильно, т.к. сторонних программ почти нет, я глянул - они есть на линуксе. Единственное, что я боюсь, это потерять стабильность. Винда за много лет почти никогда не приносила проблем в этом плане(источником проблем был всегда я). Как там с этим на линуксе? Ведь нужен нормальный драйвер нвидия cuda. Раньше, помню, баловался и там были проблемы с падением иксов, после обновлений. Потому и ушел, чтоб не разгребать руками эти проблемы.
Так как оно сейчас оно, анон?
Аноним 05/02/25 Срд 21:37:59 1042938 157
>>1042933
Нахуя оно тебе надо? В чем смысл этого перехода?
Аноним 05/02/25 Срд 21:39:00 1042941 158
Аноним 05/02/25 Срд 21:40:51 1042949 159
>>1042941
Если ты не понимаешь и не можешь объяснить - нахуй тебе линукс, то какого ответа ты от нас ждешь ? Сформулируй внятно мысль зачем и что ты хочешь получить.
Аноним 05/02/25 Срд 21:48:42 1042959 160
>>1042949
Вот, ты дебил. Я прямым текстом написал объясните мне, нужен ли мне Линукс. Не пиши мне дурень, уйди.
Аноним 05/02/25 Срд 21:50:57 1042966 161
>>1042959
>написал
>хочу перейти на линукс но боюсь ква-ква
Ты троллишь меня ? Я задачи для тебя на линуксе должен сам придумать ?
Нет не переходи, ты тупой, это вредно.
Аноним 05/02/25 Срд 22:16:46 1043018 162
>>1041694
> Athene v2 chat
Обсуждалось на выходе, люди не впечатлились и забили.

> EVA Qwen 32B
Это недавно упоминали, да, треда три назад, наверное ты.

> Aya expanse 32B
Ее тоже очень давно обсуждали, как и все коммандеры и айи. Но как-то славы не снискали.

> EXAONE-3.5-32B-Instruct
Не слышал.

>>1042331
> под сотню гб
170 минимум

>>1042933
Легче собирать FlashAttention и SageAttention с Triton.
Ну так, если тебе это надо.
Аноним 05/02/25 Срд 22:21:28 1043038 163
В треде вижу очень много мистраля, квена и совсем немного ну и слава богу лламы, но при этом ни одного упоминания майковской phi 4, которая вполне себе годная в своих 14В, для рп лучше квена того же, да и в русский могёт. Почему так?
Аноним 05/02/25 Срд 22:24:03 1043043 164
Аноним 05/02/25 Срд 22:46:29 1043072 165
Аноним 05/02/25 Срд 23:12:32 1043103 166
Хочу разное попробовать. Какая есть модель лучше чем magnum-v4-22b-Q8_0 и занимает не больше по памяти?
Аноним 05/02/25 Срд 23:19:06 1043111 167
>>1043103
> Хочу разное попробовать.
Пробуй.
> Какая есть модель лучше чем magnum-v4-22b-Q8_0
Лучше - понятие субъективное. Кроме мистрале тюнов ничего нет. Чуть выше тебя ждет командр и гемма. А еще выше лама и совсем монструозные мержи.
Если мистрали - то пантеон и цидония.
Если командр - то командр, лол. Его нахуй не надо тюнить.
Он и так прекрасно аутичен
Еще будет 27 гемма. Но там тебя будет ждать сюрприз, а какой не скажу.
Ну и запрягай коней, потому что на средних размерах появляется наконец то альфа и омега среднекума, Лама 70ая во всем её величии.
Аноним 05/02/25 Срд 23:21:21 1043120 168
Можно ли держать половину контекста в врам и половину в рам? Или целиком в рам? Как? (угабуга+таверна)
Аноним 05/02/25 Срд 23:27:06 1043134 169
>>1043111
То есть все годное это 22Б? Чому так? Ведь в 24гб и ~30B влазит
Аноним 05/02/25 Срд 23:28:42 1043137 170
>>1043120
>контекст в рам
Не стоит.
Аноним 05/02/25 Срд 23:29:19 1043140 171
>>1043134
>Чому так
Потому что существует небольшая мистраль.
>30B влазит
Ну и запускай, я написал тебе варианты.
Аноним 05/02/25 Срд 23:30:59 1043143 172
>>1043137
Да ладно. Пусть оставляет контекст в оперативной памяти. Чем больше людей это сделают, тем меньше в треде будет подобных вопросов.
Аноним 05/02/25 Срд 23:33:14 1043146 173
>>1043134
Ща пробую 34б магнум. Бля, какую же он лютую хуету генерит. Тянам хуи приделывает. За меня реплики и действия пишет. Вообще ебнутый. С 22б такие проблемы раз в 10 реже стреляют, что вообще не заметно. А 34б тупо с вероятностью 50 на 50 хуй приделывает, пиздец.
Аноним 05/02/25 Срд 23:37:21 1043154 174
>>1043146
Ты никогда не задумывался, почему тут аноны так радостно пляшут от цидонии ? Почему именно мистраль ?
Потому что мистраль дает пососать порой страшим моделям. Литералли лучшая девочка, но не без недостатков, но мы все равно её любим.
Мистральку чмок :3
Аноним 05/02/25 Срд 23:37:31 1043155 175
>>1043146
Может это просто проблема настроек?
Вон на мистраль есть мет, а остальное как шатать - хуй знает.
Аноним 06/02/25 Чтв 00:04:42 1043206 176
>>1042828
>>1042889
Нуууу маааам!!!
>>1042895
Нахуй ты жопой крутишь, приводя в пример обрезанный выкидыш, дура? Уже все анонсировали, там такие же 8-16.
>>1042901
Отличный высокотехнологичный обогреватель на 300-700вт. Если несколько штук в составе норм сервера - можно сдавать в аренду, профит побольше чем от недвижимости, но актив рисковый.
>>1042907
> для ЛЛМ
Для обучения, инфиренсить на ней на постоянной основе только маразматики или зажравшиеся будут.
изучаем механику работы LLM трансформеров Аноним 06/02/25 Чтв 00:24:05 1043241 177
Аноним 06/02/25 Чтв 00:25:20 1043245 178
>>1043111
>Еще будет 27 гемма. Но там тебя будет ждать сюрприз, а какой не скажу.

Так а что за сюрприз то, ато я сижу уже пол года на ней и вроде норм всё.

мимо другой анон
Аноним 06/02/25 Чтв 00:39:50 1043269 179
>>1043245
Ну значит тебя все устраивает и тебе норм, лол.
Аноним 06/02/25 Чтв 00:58:55 1043292 180
>>1043269
Что должно быть не норм (исключая контекст и особенности его растяжки)?
Аноним 06/02/25 Чтв 01:22:43 1043309 181
>>1043292
Действительно, народные 8к. Хватит каждому пролетарию.
Аноним 06/02/25 Чтв 01:25:47 1043315 182
Господа, ебанатский вопрос. Допустим у меня 8 врам, мне лучше взять маленькую версию большой модели, или самую большую версию маленькой модели?
Аноним 06/02/25 Чтв 01:31:50 1043324 183
>>1043315
>8рам
У тебя выбора нет. Только мистраль, только хардкор.
Аноним 06/02/25 Чтв 01:43:36 1043342 184
image.png 2Кб, 604x24
604x24
image.png 3Кб, 602x18
602x18
>>1043324
Ну смотри, я довольно долго сидел на пикриле, как посоветовали пару тредов назад, но потом решил поэкспериментировать и поискать более ёмкую и умную модель. Щас буду пробовать пик 2.
Аноним 06/02/25 Чтв 02:14:31 1043362 185
>>1043342
Попробуй для первой Q4_K_M еще, будет лучше (но контекста 12к максимум влезет).
Аноним 06/02/25 Чтв 02:25:38 1043369 186
Когда дохожу до границы контекста, он начинает пересчитываться (?) после каждого моего сообщения, добавляя задержку перед генерацией, что мне не нравится. Вопрос: можно ли настроить суммарайз таким образом, чтобы он при достижении этой границы (условно 10к контекста) суммировал первые 5к и заменял их (как руками можно убрать сообщение из контекста) на себя (уменьшая контекст до 5.5к)? Использую таверну. В настройках не смог такое найти, но там очень много всего.
ньюфаг
Аноним 06/02/25 Чтв 02:25:48 1043370 187
Аноним 06/02/25 Чтв 02:43:29 1043379 188
>>1043309
До 16 растягиваются, как раз столько в одну карту и поместится. Было бы вообще круто обновленную гемму получить, а не это вот все, с 32б квеном рп уныл как ни крути.

Кстати, внезапно с рекомендуемым шизопромтом (где насрано про "не суй нсфв когда не надо") именно магнум лучше справился с тизинг сценами и кадлингом после продолжительного подстеба slave шутками про то для чего она куплена. Не скатывая в типикал
> master make me yours
или новые варианты начиная с середины сообщения, а вполне отыграв умеренную невинность и естественную реакцию со смущением и милотой. Даже клодыню обыграл с ее типикал жб.
Аноним 06/02/25 Чтв 02:46:58 1043383 189
>>1043379
>рекомендуемым шизопромтом
Дай промпт и карточку, хочу посмотреть.
Аноним 06/02/25 Чтв 03:20:29 1043412 190
>>1043383
> промпт
А ну, ебало имаджинируй просто, катал мистраля с chatml под квен. И ведь, сука, хорошо работал, только иногда проскакивающий в стриминге eos токен посимвольно смущал.
В репе магнума на квен 72 пресет жсоном сразу.
> карточку
Форк Yuki из пушистого сборника, значения не имеет.
Аноним 06/02/25 Чтв 04:37:49 1043468 191
Какие еще интересные варианты на 22B для кум+рп? Что-то интереснее чем Цидония и Пантеон РП-пьюр? Из этих двух Пантеон чуть лучше как по мне. Цидония периодически повторяется, немного медленнее, плохо понимает когда персонаж сфидил и продолжает его чувства, эмоции и т.п. выдавать. Персонажи более простые и понятные, повествование более линейное в этом плюс. Пантеон куда-то больше в мистику тянет, и бывают приступы СДВГ на ровном месте.
Хочу еще Магнум посмотреть, чью версию качать чтоб с квантами и .ггуф, но может еще что-то интересное есть на примете?
Аноним 06/02/25 Чтв 04:46:59 1043478 192
Аноним 06/02/25 Чтв 05:23:11 1043487 193
>>1043362
>>1043370
Я изначально не хотел брать немомикс тяжелее, потому что думал что он как у большинства моделей будет работать медленнее, но он работает с такой же скоростью как средняя модель и ебашит сочнейшие стены текста.
Аноним 06/02/25 Чтв 05:26:39 1043488 194
>>1042856
>Что на это ведро можно натянуть для рп без цензуры?
Буквально выше кидал анону с 6 гб врам ссылку >>1042512
Разве тебе можно шестой квант взять.
Аноним 06/02/25 Чтв 07:31:46 1043529 195
>>1043369
Как мне аноны объясняли - любое сообщение в чате есть контекст, так что ручками три.
Аноним 06/02/25 Чтв 08:28:44 1043543 196
>>1043529
>>1043369
Если быть точнее контекст это вообще ВСЁ что ты подаешь на вход модели, карточки/систем промы/текст в чате, всё, вообще всё. Никакого другого способа взаимодействия с моделью нет.
Когда контекст заполнен и ты пишешь новую строчку в чате, чтобы продолжать работу нужно удалить часть старого и пересчитать контекст. И так с каждой новой строчкой. Поэтому любое изменение заполненного контекста = его перерасчет.

Хороших решений этой проблемы пока не существует, из того что есть на выбор 3 варианта:
1)Смарт контекст - ценой половины твоего контекста (поставил 24к станет 12к) делает перерасчет контекста не каждое сообщение, а в зависимости от размера этого контекста(сколько влезет в эту самую откушенную половину), условно при тех же 24к перерасчет будет делаться каждые 12к контекста. Норм вариант когда у тебя дофига врам и ты можешь поставить хоть 100к контекста(т.к для того же рп больше 24к ставить всё равно сомнительно, лучше в лорбук лишнее засунуть)
2)Контекст шифт - крутая штука, работает не за счет полного перерасчёта всей простыни, а делает сдвиг контекста считая только новые строчки. Бочка говна в этой ложке меда в том, что оно несовместимо с любыми свистоперделками(лор буки/заметки и т.д.) той же таверны. Т.е если что-то динамически добавляет строчки куда угодно кроме конца контекста, сдвиг тут не сработает и понадобится полный перерасчет, ещё и модель может зашизить.
3)Ручной труд - при заполнении контекста делаешь суммарайз/ручками заполняешь лорбук/карточку персонажа. После создаешь новый чат и погнали. Думаю тут комментарии не требуются.
Аноним 06/02/25 Чтв 09:31:33 1043591 197
>>1043543
>После создаешь новый чат
Я гусь и я доебусь.
Можно не новый создавать а прожать глазики в чате выключающие сообщения из контекста чтобы потом экспортировать в текстовый файл всё целиком если это для чего-то нужно, например нейрофанфик пишете.
Аноним 06/02/25 Чтв 09:35:34 1043595 198
Если у меня одна видеокарта на 8 Гб и я докуплю еще, то память суммироваться не будет? Т.е., чтобы модель работала быстро, нужно иметь одну большую видеокарту или можно несколько с каким-то коэффициентом понижения?
Аноним 06/02/25 Чтв 09:37:26 1043598 199
>>1043595
Память не будет суммироваться, но ты сможешь разделять модель на две видяхи. Я так делаю со своей 4090 и пожилой 3060
Аноним 06/02/25 Чтв 09:54:42 1043609 200
>>1043595
Предыдущий анон ответил неочевидно.

Память суммироваться будет. Но для модели, а не для чипа. Каждый кусок суммарной видеопамяти будет обсчитывать свой чип. Т.е., если у тебя 3080 + 1060 ты не получишь 14 гигов 3080, ты получишь 8 гигов на скорости 3080 и 6 гигов на скорости 1060.
Так что, память суммируется, но чипы и тип памяти должны быть все же достаточно быстрыми. Все еще лучше оперативной, конечно, но случайной хуйней занимать порт на материнке не надо. Старайся брать достаточно современную видеокарту с большим объемом памяти.
Аноним 06/02/25 Чтв 10:03:03 1043617 201
Давайте уже решим, что нужно покупать для локального запуска для личного использования нейронок.

VRAM или CPU + RAM? Очевидно, что VRAM на 150 ГБ купить для личного использования нереально. Купить мощный CPU и 150 ГБ RAM реально.

Мелкие дистиляты вмещаются в игровые видеокарты, но мелкие дистиляты работают настолько плохо, что можно считать, что они не нужны. Вменяемый результат мы видим от 32b. Результат становится лучше при увеличении размера. То есть 320b будет гораздо лучше чем 32b.

Получается, стратегически, нет смысла покупать новую видеокарту, потому что всё равно туда нормально работающие нейронки не поместятся, а плохо работающие нейронки не нужны.

Я правильно понимаю, что если обновлять компьютер, действительно стоит вложиться в CPU и RAM или я не вижу какиех-то ошибок в суждениях выше?
Аноним 06/02/25 Чтв 10:07:45 1043624 202
>>1043617
> я не вижу какиех-то ошибок в суждениях выше
У тебя <think> токены отвалились, поэтому и не видишь.
Аноним 06/02/25 Чтв 10:20:07 1043631 203
>>1043617
Мое мнение по опыту использования, я в теме только несколько дней, поэтому считай просто наблюдением.
На видюхе скорость обработки 40 токенов в секунду, на проце 3 токена в секунду. Сейчас использую модель, которая часть памяти держит в видюхе, остальное в RAM. Это функционально работает, но качество жизни страдает.

Не могу сказать, какая скорость будет в сравнении 12 Гб + 12 Гб относительно одной видюхи 24 Гб, самому интересно.
Аноним 06/02/25 Чтв 10:21:05 1043634 204
>>1043617
Ты не знаешь какая архитектура будет жизнеспособной через год. Может там будет хорошо думающий кирпичик на 7б с нулевой эрудицией, который будет получать всю экспертность из агентов. Может какая-нибудь очередная мамаба выплывет которая с ног на голову перевернёт скейлинг. Может ещё что.
Так что покупай то, что запускает существующие модели, что потом в хозяйстве пригодится или продать сможешь. Я для себя выбрал 2 потребительские 4060ти, 32б влазит, качество устраивает, потом продам если что.
Аноним 06/02/25 Чтв 10:27:15 1043636 205
Может есть у кого ссыль с пошаговыми действиями для чайников, как дообучить локальную модель, к примеру докинуть ей своих текстов, чтобы в ответах она уже опиралась на них.
Аноним 06/02/25 Чтв 10:27:50 1043637 206
Аноним 06/02/25 Чтв 10:28:13 1043638 207
>>1043636
Просто загугли finetuning ml guide
Аноним 06/02/25 Чтв 10:28:46 1043640 208
>>1042727
Ты забыл про чистую производительность.
Ну влезет у тебя 22б в врам только вот все еще будет 1 токен в секунду из за того что карта в 3 раза слабее 3090
Аноним 06/02/25 Чтв 10:29:16 1043641 209
>>1043595
Как аноны выше уже ответили, да работать будет, и если ты не покупаешь в слот нечто странное, то будет даже хорошо работать.
Я сижу на 3070+4080 с итоговой 24гб и в ус не дую.
Аноним 06/02/25 Чтв 10:39:07 1043656 210
>>1043636
>для чайников
В контекст докладывай свои данные.
Аноним 06/02/25 Чтв 10:46:49 1043659 211
>>1043656

Контекста не хватит если ему нужна база знаний. Здесь только файнтьюнить
Аноним 06/02/25 Чтв 10:48:31 1043660 212
>>1043636
Если не срочно надо, то советую курс от гугла по нейронкам. Там всё объясняется теоретически как работает и файнтьюнинг в том числе. Будешь себя гораздо увереннее чувствовать при взаимодействии с нейронками.

https://developers.google.com/machine-learning/crash-course?hl=ru
Аноним 06/02/25 Чтв 10:53:04 1043664 213
>>1043624
ОРУ

>>1043617
Ошибка в том, что скорость совершенно разная.
Для домашнего использования в качестве замены ChatGPT-4 подойдет Qwen2.5-Coder-32b и R1-distill-Qwen-32b. Это цельные модельки, и для их работы хватит 36 гигов видеопамяти.
Собрать такой объем вполне реально — материнка с 3 слотами и условные 3060@12. И будет хорошая скорость. Ну, либо 4060ti с 16 гигами 2 штучки, если подужаться (ну или 3 штучки, чтобы чувствовать себя хорошо).
А вот с оперативной памяти при таком же раскладе скорость будет низкая. 1,6 токена для DDR4 и 3-3,5 токена для DDR5. Готов терпеть? Сомневаюсь.
Ультимативный вариант замена o1 — это r1. Даже в кванте IQ1_XSS она занимает 170 гигов (с микро-контекстом). Ее можно запустить на оперативе, НО, ее свойство в том, что она MoE, то есть внутри нее куча мелких моделей, и работают из них только 3 (по умолчанию). В сумме там 37B активных параметров из 671B всего.
Итого, мы имеем 37B фактически, да еще и более ужатых, чем маленькие 32B модели. Скорость получается все равно сопоставимая (особенности формата и типа модели), тем не менее, ты имеешь условные 1,7 токена на DDR4 и 3,5-4 токена на DDR5. Чуть получше, модель теоретичеки умнее, хотя из-за кванта (агрессивного ужатия) немного поехавшая.
Если же ты хочешь катать менее ужатую модель, тебе понадобится 512 оперативы. Зато там она уже будет очень умная, да. Но на десктопной плате ты столько не соберешь. Придется брать серверную (дорогую). Если просто напихать 512 оперативы в двухканальный режим, то получите очень медленную скорость (модель-то в размере будет большая, памяти надо прочесть больше) и сидеть на 0,7~1,5 токена на огромной модели — мука. Значит берем материнскую плату с 12 или 24 каналами. Вот там уже скорость позволит гонять 5-10 токенов/секунду. Выше анон много раз упоминал какой конфиг для этого нужен.

Ну и получается, что либо ты берешь 36-48 гигов видеопамяти 2-3 видеокартами и крутишь там Квены-32б.
Либо ты берешь 256 DDR5 на обычной плате и крутишь шизо-квант r1 медленно.
Либо ты берешь дорогущую материнку с двумя дорогущими процессорами и кучей дорогущей оперативной памяти и за сотни тысяч рублей катаешь нормальную r1 с приемлемой памятью.

Если тебе не хватит на третий вариант, то на кой хер тебе много оперативы, скажи мне? У тебя так дохуя времени, что ты готов ждать ответы по 20-40 минут (я не преувеличиваю, это реальной время ответа r1 на обычной памяти)?

Надеюсь, ты понял, почему твоя идея — полная хуйня, на которую даже я не решился.
(впрочем, я и так r1 могу гонять, хули я тут выебываюсь)
Аноним 06/02/25 Чтв 11:02:32 1043678 214
>>1043659
Файнтюн не годится если ему надо базу знаний. Практически невозможно избавиться от фактических ошибок и галлюцинаций. Если нужна база знаний, то просто вкладывай в контекст часть этой базы знаний по оглавлению, FTS или ещё какому RAG-подобному костылю.
Аноним 06/02/25 Чтв 11:04:14 1043681 215
>>1043617
https://x.com/carrigmat/status/1884244369907278106

Материнка: https://abgreyd.servis2010.ru/gigabyte-mz73-lm0 160к рублей / 1600 евро

Проц: ссылки не нашел, в гугле 140к рублей (2 штука!)

Память: https://market.yandex.ru/product--m321r4ga0bb0-cqk/1848079583 25к рублей (24 штуки!)

Итого получаем 1 миллион рублей с копейками.
Зато 768 памяти и r1 весьма быстро.
Можно сэкономить на памяти, я полагаю и добраться до 384 гигов и цены в 800к рублей, если тебе от этого полегчает.

Вот твоя идея на самом деле.
Аноним 06/02/25 Чтв 11:06:22 1043682 216
>>1043206
>Для обучения, инфиренсить на ней на постоянной основе только маразматики или зажравшиеся будут
Если мы рассмотрим гипотетическую ситуацию, что прилетел волшебник в голубом вертолете и дал мне не пиздюлей, а видеокарту, то нет ни одной причины почему на ней нельзя катать ЛЛМ. Потому что одной мало для кластера. Ну в теории можно еще в графику удариться, причем одновременно. Стоила бы эта видеокарта хотя бы 1млн, то я бы посмотрел без капли иронии в её сторону.
Но сейчас ? За 5 млн, я могу собрать блок из 4 4090 и еще на шлюх и корм коту останется.
Аноним 06/02/25 Чтв 11:09:09 1043685 217
>>1043617
Врам. Нужна врам - все остальное это деньги на ветер.
Тут ситуация как с дальней поездкой : тебе говорят, что зима блять в якутии, -50, а ты такой : но велосипед же едет, вот на нем я и поеду, вместо зимнего вездехода.
Аноним 06/02/25 Чтв 11:13:22 1043688 218
Аноним 06/02/25 Чтв 11:14:26 1043690 219
>>1043682
>то я бы посмотрел без капли иронии в её сторону.
Я просто напомню что у H100 нет видеопортов.
Ну так к слову.
Аноним 06/02/25 Чтв 11:28:35 1043703 220
>>1043690
И как в крузис играть то ?
Вот это я понимаю, наеб гоев.
Аноним 06/02/25 Чтв 11:35:46 1043706 221
Никто не пробовал пропустить допустим 10 рероллов с высокой температурой, а потом, опустив температуру попросить составить из предложенных идей лучший ответ, отформатировать его и вставить в чат?
Аноним 06/02/25 Чтв 11:38:18 1043707 222
>>1043706
Нет, но звучит интересно, попробуй запустить на каком-нибудь бенчмарке. Может ты придумал новый способ улучшения качества ответа, напишешь научную статью.
Аноним 06/02/25 Чтв 11:42:12 1043709 223
>>1043703
Это специализированное устройство. Ты же не жалуешься что карьерные самосвалы не катаются по дорогам общего пользования.

>>1043706
Нужно чтобы рероллы сидели в контексте, а не считались If
Аноним 06/02/25 Чтв 11:43:42 1043710 224
>>1043706
Нет, но пробовали генерить на R1 три реролла, и самый короткий из них оказывался самым умным статистически, значит можно пускать батч, и останавливать генерацию при получении первого же ответа.
=D
Никакой связи, просто забавный ресерч для работяг.
Аноним 06/02/25 Чтв 12:10:00 1043723 225
>>1043707
>>1043710
Я много раз наблюдал, что поднимаешь температуру - дает очень прикольные идеи/ответы, но неряшливо оформленные, с поломанным синтаксисом, с косяками не присущими данной модели, типа повторных трусов. Опустишь температуру - все струсами ок, но «я ебу - ты ебешь».

>>1043709
Естечтвенно в таверне такое не устроишь, нужно через апи дергать ответы и отдельным блоком их в финалный запрос вставлять как «необязательные идеи для вдохновения»
Аноним 06/02/25 Чтв 12:14:04 1043727 226
>>1043723
Скриптами можно. Просишь его трижды генерить в разные переменные, потом просишь проанализировать их сожержимое и сгенерить ответ уже в форму ответа
Аноним 06/02/25 Чтв 12:56:52 1043739 227
>>1043664
>Это цельные модельки, и для их работы хватит 36 гигов видеопамяти.

24 хватит, это одна 3090/4090.
Аноним 06/02/25 Чтв 13:23:45 1043766 228
Пытаюсь тут пользоваться пошаговым мышлением из шапки, мне нравится как оно работает, качество отыгрыша заметно повышается. Когда моделька не забивает хуй и действительно следует промпту, а не генерирует EOS токен без нихуя. Это как-то можно вообще пофиксить, забанить токен только на первой позиции?

> Processing Prompt [BLAS] (176 / 176 tokens)
> Generating (1 / 1024 tokens)
> (EOS token triggered! ID:2)
Аноним 06/02/25 Чтв 13:23:46 1043767 229
>>1043598
расскажи что за корпус у тебя чтобы 4090 + 3060 вместить? У меня прост тоже 4090 и сверху через усб райзер 1660 гтх вне корпуса лежит, но там скорость очень низкая передачи данных. Хочу 2080 ти воткнуть вместо 1660, но не знаю как все в корпус норм разместить, места тупо нет.
Аноним 06/02/25 Чтв 13:34:20 1043777 230
Посоветуйте, люди добрые, гуфских (лень конвертить) от 8Б до 32Б для кодописания. Генерю через болгарина на ЦПУ, на 70 схлопнусь ждать по 0.4твс.
- ллама3 с 8Б уже прошлый век, подучить все равно не выйдет.
- пробовал КВЕНю2.5-7Б,32Б, неплох, сейчас как основной стоит.
- DeepSeek веселый, особенно как он иероглифы кидает в ответ временами. Раздражает, что он тебя "they" обзывает и под 500 токеном себе под нос бубнит, но конечный выхлоп кажется точнее выходит.

и еще для ролеплея с элементами еротики, хотяб с 130К кнотекста.
- что леддит советует типо DarkForest и прочих - какая то порнография бессвязная выходит, большие типа Мику не влезут в мою РАМу.
- брал лламу 3Б подобученную, неплохо эротику пишет, но, зараза, валится с мелким ее контекстом очень быстро, да цензуру возвращает, сука.

>>1043709
Неверное сравнение. Правильней сравнивать в таком случае карьерный самосвал и ленточный конвейер. Оба могут руду перебросить, вот только на одном и с пивчанским на рыбалку можно сгонять.
Аноним 06/02/25 Чтв 13:59:27 1043798 231
>>1042833
Не согласен. Можно взять узкоспециализированную модель, например для для решения одного типа задач, с которыми она справляется почти со 100% вероятностью и на ее выхлопе тренить большую модель.
Аноним 06/02/25 Чтв 13:59:49 1043799 232
>>1043664
Чет я не уверен что даже 24канала позволят гонять 4q дипсик на 5т/с. Хотя хуй знает, там же МоЕ ебаное, разве что за счет него. Но с ламой наверняка бы не проканало.
Аноним 06/02/25 Чтв 14:11:56 1043811 233
>>1043739
Если ужать, конечно. Но хочется q6 хотя бы. =)

>>1043777
> КВЕНю2.5-7Б,32Б

>>1043799
Не-не, ллама 405б будет овердохуя медленно. Она ж цельная.
А вот дипсик попрет вполне.
Ну смотри, 1,7 токена имею я на DDR4 для модели в 150 гигов.
Модель в 350 гигов будет ~0,7 токена, но это если бы DDR4 3200 в двухканале (псп 50). Если у тебя там 24 канала, да еще и DDR5, то это ~18 раз быстрее в теории. 0,7*18=12,6.
Конечно, идеальные условия, вся хуйня, но 5-7 выжмешь точно. А это уже вполне неплохо.

Так чисто, навскидку, Llama 405b q4 должна дать около ~2 токенов в секунду в идеальных условиях. Тут я уже ничего не гарантирую, но все равно, сама модель не суперкрутая, а отдавать 800к рублей ради 2 токенов на ней… Максимально сомнительное удовольствие.
Аноним 06/02/25 Чтв 14:11:59 1043812 234
Screenshot11.png 30Кб, 920x554
920x554
Я дебил мечтающий вкатиться в девопс, мне нужна моментальная справка по линухам и языкам погроммирования, кубернетисам и прочим тулзам, если я установлю её локально, она будет помогать? Откуда она знания брать будет?

Пикрил моя некропека, я так понимаю она нихуя не потянет, потому что мне помимо запущенной нейросетки ещё нужно держать открытыми несколько локальных вм, что бы обучаться и спрашивать её одновременно. Что можете посоветовать по железу? Какие-нибудь оптимальные спеки?
Аноним 06/02/25 Чтв 14:24:13 1043838 235
>>1043812
>Что можете посоветовать по железу? Какие-нибудь оптимальные спеки?
Посмотри в прошлых тредах, думаю треда 4-5 назад выкладывали конфиг для zaхода в нейросети. Там был относительно удобоваримое железо
Аноним 06/02/25 Чтв 14:25:32 1043843 236
>>1043812
Она потянет Qwen2.5-7b в агрессивном кванте.
Или 3b в нормальном q8.
Знания будет брать из себя, но если ты запилишь RAG — то из того, что ты ей подсунешь. А если поиск по вебу — то и из него.

А вообще, я бы таких девопсов бы конечно топтал, но оффенс, есть профессии, где надо знать, помнить и иметь опыт. Но обучаться может и сойдет для себя, да.

Ну, короче, да, нихуя не потянет, тащемта.
Аноним 06/02/25 Чтв 14:43:06 1043866 237
>>1043617
Ещё можно учитывать сколько нужно т/с. Я физически не могу читать быстрее 5 т/с. Никто из двачеров не сможет читать быстрее 10 т/с. Но тем не менее им этого МАЛО. Мне вполне хватает 2-4 т/с и тогда читаю ровно как генерируется.
Аноним 06/02/25 Чтв 14:46:34 1043876 238
>>1043664
>3-3,5 токена для DDR5. Готов терпеть? Сомневаюсь.
Вот, например. Ты заметь скорость своего чтения.
"Терпеть". Циркачи.
Аноним 06/02/25 Чтв 14:47:16 1043878 239
>>1043866
>Я физически не могу читать быстрее 5 т/с
Бывает, чё.
>Никто из двачеров не сможет читать быстрее 10 т/с
Анон у меня чтение и восприятие русского текста 220-300 слов в минуту (В зависимости от тяжести текста, если это техлитература или матан то я и больше 50 с пониманием не выдам)
Английского порядка 250 слов в минуту.
К чему я это : все мы разные, взрослей и прекрати ровнять всеъ под свой субъективный опыт.
Аноним 06/02/25 Чтв 14:48:16 1043881 240
Может мне кто-то пояснить за системный промпт? Когда выходишь за размер контекста, то оно затирает системный промпт или системный промпт всегда остается висеть над контекстом?
Аноним 06/02/25 Чтв 14:51:49 1043889 241
>>1043881
These prompts act as a framework, setting the stage for the AI to operate within specific parameters and generate responses that are coherent, relevant, and aligned with the desired outcome. System prompts play a pivotal role in bridging the gap between the vast knowledge acquired by AI models during training and their application in real-world scenarios.
Аноним 06/02/25 Чтв 14:52:24 1043890 242
>>1043767
>расскажи что за корпус у тебя чтобы 4090 + 3060 вместить?
Есть большие корпуса, Cougar MX600 например. С соответствующей материнкой две 3-3,5-слотовых карты спокойно влезут.
Аноним 06/02/25 Чтв 14:55:13 1043895 243
>>1043543
> Бочка говна в этой ложке меда в том, что оно несовместимо
С любым более менее сложным чатом и адекватной моделью, что смотрит дальше нескольких последних постов и самого начала.
>>1043591
Вот это плюс хороший суммарайз тех постов.
Аноним 06/02/25 Чтв 14:55:31 1043896 244
>>1043889
Получается системный промпт всегда висит над моделью, даже если выходишь за размер контекста?
Аноним 06/02/25 Чтв 14:57:29 1043901 245
>>1043878
>300 слов в минуту
>в минуту
300÷60=5
Ясн.
Аноним 06/02/25 Чтв 15:06:15 1043918 246
>>1043901
>динамические значения еще не проходили в школе
Ясно.
Аноним 06/02/25 Чтв 15:14:39 1043930 247
>>1043918
Я хер знает че ты кочевряжишься, но быстрее чем 10т/с ты не прочитаешь.
Аноним 06/02/25 Чтв 15:16:53 1043933 248
image 88Кб, 1103x442
1103x442
>>1043930
Ебанат, как есть ебанат, просто сказочный долбаёб.

Токены ~= слова, это от токенизатора модели завсисит.
Аноним 06/02/25 Чтв 15:17:26 1043935 249
>>1043930
Очень долго читать такие крутые токены как the, a и 's. Мне 10 т/c неудобно, 11-12 норм.
мимо
Аноним 06/02/25 Чтв 15:22:03 1043944 250
>>1043617
Запутался в коупинге, жизнь есть только на гпу. Хочешь качество - поупаешь одну-две-... 24гиговых карточки.
> стоит вложиться в CPU и RAM
Быстрые cpu и ram, которые доступны будут стоить как пара 3090 и это будет лишь 96гб. Есть вариант с 2066 или древним трипаком, рам будет сравнима или чуточку быстрее, но там старые pci-e, а зен1 это вообще мусор.
Что-то действительно мощное выйдет оче дорого и все равно покажет ерундовую скоростью.
>>1043624
Чтож ты делаешь, содомит!
>>1043682
> то нет ни одной причины почему на ней нельзя катать ЛЛМ
Как правило, такое железо оказывается у того, кто может найти ему достойное применение. Разумеется, пустить что-нибудь для скриншотов и рофля устроить дорогой кум это одно из первых что будет, но в остальное время она будет загружена каким-нибудь обучением или экспериментами.
> я могу собрать блок из 4 4090
Они не смогут сделать то же самое.
Аноним 06/02/25 Чтв 15:35:34 1043973 251
>>1043876
В районе 7-10, а что? Мне 5-6 не хватает, на 10 уже дискомфорта не чувствую, збс.

Добавь некоторые модели на синкинге.
Учти, что некоторым людям нужен результат, а не дрочить на ерп.
Учти, что некоторые читают по диагонали, практикуют скорочтение и тд.
А уж глядя на токенизаци, кому-то и 30 токенов/сек не хватит.

Короче, во втором классе 5 токенов хватает, взрослый дядька, который по работе что-то спрашивает вполне себе ждет сотни и тысячи токенов генерации, чтобы за пару секунд пробежаться по ответу и вычленить главное.
Все же, речь была о домашнем использовании нейронок, это явно не ограничивается одним лишь ерп.
Аноним 06/02/25 Чтв 15:55:08 1044010 252
Господа, а существуют ли локальные модели которые могут выходить в открытый интернет? Ну или какой-нибудь способ, например, по api к сайту подсоединяться.
Наигрался со всякими ламами/квенами/геммами в кобольде, теперь хочется попробовать к настоящей работе их присобачить. Автотесты юайные писать, там, или диалог в чате вести.
Аноним 06/02/25 Чтв 16:01:24 1044019 253
>>1043866
Смотрим педивикию
>Обычная скорость чтения на русском языке у взрослого человека лежит в пределах 120—180 слов в минуту, по опытным исследованиям средняя скорость равняется 201 слову в минуту (при разбросе значений от 60 до 378)

Так как мы все здесь читаем, то по нижней планке считать нельзя. А значит, и средние значения для нас могут быть только нижней планкой. Слово это 2-3 токена, пусть 2.5, 200х2.5 = 500\60 = 8.3. Итого, 8 т\с это нижняя планка, если ты не читаешь по диагонали, не читаешь слишком быстро\активно, не используешь разные техники CoT, синкинга и т.д. Лично для меня нижняя планка 15 т\с, это всё ещё слишком медленно для комфортного чтения, но не слишком медленно, чтобы не дождаться ответа. Посмотрел книгу, которую недавно дочитал, вышло примерно 2 миллиона знаков в день, без учёта пробелов. А ведь пробелы это тоже токены. Естественно, читалось не круглые сутки, но если предположить, что читал я 10 часов в день, что очевидно не так, то получается 3 333 знака в минуту. Опять же, если вообразить, что книга генерировалась бы с такой предполагаемой скоростью чтения, то это чуть больше 22 т\с при условии 2.5 символов на токен. И да, это не было чтением по диагонали, в итоге я обсуждал книгу с другими людьми.
Аноним 06/02/25 Чтв 16:12:30 1044033 254
>>1044019
Твои охуительные рассуждения основанные на "я так чувствую" рассыпались примерно вот здесь
>Так как мы все здесь читаем, то по нижней планке считать нельзя
Зайди в /aicg/ тред и узнаешь сразу же нижнюю планку обычного обывателя там
Аноним 06/02/25 Чтв 16:14:56 1044039 255
>>1044033
А твои охуительные примеры еще лучше.
Давайте будем делать выборку на дрочащих детях из треда чатботов.
Аноним 06/02/25 Чтв 16:18:42 1044044 256
>>1044033
Здесь всё просто. Если ты читаешь много - ты начинаешь читать быстрее. Если они там читают медленно - они читают мало. Ориентироваться на тех, кто не читает и брать по нижней планке
>(при разбросе значений от 60 до 378)
никакого смысла нет. А 60 слов в минуту это практически чтение по слогам. Предлагаешь ориентироваться на такое? Или ты сам по слогам читаешь и тебе неприятно? Ну так учись читать. Я уверен, что ИТТ ты с такой проблемой один.
Аноним 06/02/25 Чтв 16:22:57 1044051 257
Даю хинт, так сказать от души, чтобы вам хватило скорости чтения даже если нейронка выдает 2т/с
Переводите на какую-нибудь латынь или что то из фино-угорской группы языков. Поздравляю, вы нихуя не понимаете и читаете медленно.
Аноним 06/02/25 Чтв 16:26:37 1044056 258
Аноним 06/02/25 Чтв 16:33:57 1044064 259
>>1044056
Большое спасибо, анон! Буду изучать.

Как всегда, задал вопрос и сам тоже наткнулся на Anything LLM - вроде тоже полезная штуковина.
Аноним 06/02/25 Чтв 16:43:23 1044086 260
>>1044033
Это весьма жалкая попытка отмазаться и перевести стрелки.
Изначальный тейк был «тебе/каждому хватит 5», чел привел пример, что ему хватит минимум 22. Факт? Факт. Автор изначального тейка обосрался и уезжает вместе со своим цирком нахуй.

>>1044051
Заебись, согласен, всегда так буду делать. Теперь-то мне 1,7 токена на R1 хватит!..
Лучше сразу на исландском. Svo að jafnvel lesturinn var erfiður og hægur!
Аноним 06/02/25 Чтв 16:43:48 1044088 261
>>1044010
для Silly Tavern есть плагин https://github.com/SillyTavern/Extension-WebSearch , гибко настраивается, можно указать триггерные фразы, по которым оно полезет в поиск, будет ли лазать по страницам или только ссылками насрет, сколько кэш хранить, что для поиска использовать и в таком духе.
Аноним 06/02/25 Чтв 16:55:40 1044113 262
>>1043812
Используй корпосетки. Например на duck.ai можно бесплатно побазарить с gpt4o mini, llama 3.1 70b и какими-то ещё. Все без регистрации и смс. Это всяко лучше чем мелкие сетки.
Аноним 06/02/25 Чтв 16:58:44 1044119 263
>>1044019
> получается 3 333 знака в минуту.
Да у нас тут Усейн Болт от мира чтения. При средней длине слова в 7,2 буквы, получается почти 463 слова в минуту. При том, что при повышении скорости чтения неизбежно страдает понимание прочитанного (техника скорочтения = техника прогрева гоев на бабло, нет ни одного исследования, подтверждающего эффективность этой залупы, только обратное), ты либо очень смутно осознал прочитанное, либо проебался в рассчетах.

Что касается скорости генерации, не надо забывать, что в английском токеном может выступать как слово целиком, так и вообще несколько, что на русском не происходит, одна и та же скорость генерации будет ощущаться по разному на разных языках (не смотрел, но очень интересно что там у китайцев с их иероглифами выходит, вот уж на что надо переходить, чтобы максимизировать удовольствие от генерации)
Аноним 06/02/25 Чтв 16:58:54 1044120 264
>>1044044
>учись читать
Ты агент куртки и пытаешься таким образом ненавязчиво подтолкнуть продажи оверпрайснутого железа? Наоборот же хорошо тем, кто медленно читает, им и 2-3 т/с достаточно для нижней границы комфорта.

Я по совпадению только что из треда, где обсуждалось чтение книг, удивлялся, что там анон осиливает какие-то охуевшие объёмы за день. Потом прикинул по среднестатистическим данным кол-во слов, получилось что-то типа 2 слова в секунду, если читать непрерывно и с равномерной скоростью 14 часов в день, вроде уже и не так страшно. А я читаю в 10 (и иногда больше) раз медленнее его, если брать средние цифры, опять же. И нет, не по слогам. Возможно, сама по себе скорость чтения у меня не очень высока из-за относительно небольшого опыта. Но помимо этого я ещё представляю в голове ситуацию, мысленно рисую картинку происходящего, внешний вид персонажей, локации. Фантазирую, как бы я поступил в той или иной ситуации, иногда даже припоминаю что-то похожее из собственного опыта ирл (обычно это что-то неловкое, от чего я blushes, и потом ещё долго отхожу от смущения, продумываю, как лучше стоило поступить, что сказать в той ситуации). Иногда ещё перечитываю длинные сложноподчинённые предложения, если автор слишком хитро закрутил и с первого раза непонятно. Короче говоря, смакую книгу. И не совсем понимаю тех, кто вот так вот как конвеер прогоняет через себя текст на максимально возможной скорости. Надеюсь, хоть какое-то удовольствие от процесса получает, иначе вообще непонятно, зачем он это делает.
Аноним 06/02/25 Чтв 17:03:26 1044128 265
>>1044019
>Смотрим педивикию
Зачем все твои (не твои конечно) рассуждения? Когда генерируется текст, то пишется в реальном времени его скорость генерации в единицах токен в секунду, а не в чем попало. Имею 8 врам. Можно поиграть настройками и поподбирать модели, чтобы менять значение т/с. При каком-то подобранном значении т/с скоростью чтения уже отстаёт от генерации.
Это настоящая, результативная практика. А теориями и 640 кБт хватит всем.
Аноним 06/02/25 Чтв 17:05:34 1044134 266
>>1044113
На фейерверке один бакс после регистрации есть для использования API, на 300к-500к токенов хватит, можно дипсик/405В/yi затестить в рп. Но кроме бесплатного бакса там нечего брать, дипсик бабло жрёт раз в 10 больше чем у китайцев.
Аноним 06/02/25 Чтв 17:09:16 1044139 267
IMG202502062106[...].jpg 340Кб, 948x2248
948x2248
>>1044113
>Например на duck.ai
А что посоветуешь выбрать для чего?
Аноним 06/02/25 Чтв 17:11:22 1044147 268
>>1044139
>работает анонимно
>ответы все равно отсылаются на сервера опенаи
кек
Аноним 06/02/25 Чтв 17:15:32 1044157 269
>>1044120
>Ты агент куртки и пытаешься таким образом ненавязчиво подтолкнуть продажи оверпрайснутого железа?
Мне вообще непонятна их политика встречи новичков. На вопрос "что мне делать с 8врам" всегда следует ответ кушать с пола 7В. Я на 8врам+32рам(об этом никто не спрашивает) читаю квин 32В в 1-2т/с. Я даже молчу о том, что не всем нужно читать ответ в реальном времени прямо в генерации. Хз, что за народ здесь, 🤷
Аноним 06/02/25 Чтв 17:17:19 1044163 270
>>1044139
Для твоих запросов o3 или простую гпт.
Аноним 06/02/25 Чтв 17:26:52 1044192 271
>>1044147
А в чем дело? Запросы шлёт утка. Она поклялась меня не сдавать. Получается я вообще ни при чем. Если прямым текстом себя не сдать.
Аноним 06/02/25 Чтв 17:32:14 1044199 272
Уважаемые, заясните за поточность в SillyTavern. Сам дебил, руки неизвестно откуда растут, подобных проблем у адекватных людей в тырнете не наблюдается. Не тянет, только и пишет: "Streaming request in progress", да когда кончится "Streaming request finished". Ждать пока тысячи токенов прожуются, надоедает.
Бэкенд и фронтенд крутятся на отдельной тачке, к ней подсоединяюсь с локальной через вэб морду. Может другой фронтэнд брать, но ггуф лень перекачивать.
Аноним 06/02/25 Чтв 17:33:04 1044202 273
>>1044157
>Мне вообще непонятна их политика встречи новичков.
Это тред про локалки, а не ясельная группа.
>На вопрос "что мне делать с 8врам" всегда следует ответ кушать с пола 7В.
Еще раз, тред про локалки. Нет железа - нет ручек локалок.
>Хз, что за народ здесь,
Те кто обсуждают генерацию охуительный историй.
А для всего остального есть тред чатботов. Общайтесь с вебмордами на здоровье.
Аноним 06/02/25 Чтв 17:37:47 1044210 274
изображение.png 31Кб, 494x381
494x381
>>1044199
Что выбрано вот тут? Какой бекенд?
Аноним 06/02/25 Чтв 17:38:41 1044213 275
>>1044119
>При средней длине слова в 7,2 буквы
>Для корпуса русской разговорной речи средняя длина слова обычно составит от 3.9 до 4.9 букв
Ну да, конечно, семь букв. Три тысячи в минуту это практически вдумчивое чтение, если читать по диагонали не особо вникая в текст, то можно и до десяти дойти. Но там уже да, проблемы с потерей деталей.
>так и вообще несколько
Загляни в токенизаторы. Несколько слов одним токеном это настолько редкость, что можно и не учитывать, сентенспис распространения не получил. В лучшем случае слово - токен. При этом не важно, если в токенизаторе есть слово целиком - нет никакой гарантии, что модель сгенерирует его так, а не по слогам.

>>1044120
>Ты агент куртки и пытаешься таким образом ненавязчиво подтолкнуть продажи оверпрайснутого железа?
Просто искренне охуеваю, когда люди пишут "5 т\с хватит всем". И ситуация усугубляется тем, что читая книги - получаешь законченный, в каком-то смысле, контент. А нейросети требуют свайпов, как минимум. То есть в рандомные моменты даже если ты читаешь со скоростью генерации - тебе нужна будет двойная скорость. А с синкингом, cot и т.д - умножай на пять. И бейся головой о стену от ttft.

>>1044128
>не твои конечно
А чьи это рассуждения, если это мой пост, который я лично написал, не копируя чужих мыслей или высказываний?
>При каком-то подобранном значении т/с скоростью чтения уже отстаёт от генерации.
А потом тебе нужно свайпнуть. Да комфортные т\с от модели к модели будут отличаться, потому я отдельно указал, что считаю на один токен 2.5 символа.
Аноним 06/02/25 Чтв 17:51:41 1044240 276
>>1044213
>А с синкингом, cot и т.д - умножай на пять.
Кстати, кто как думает - со всем этим хайпом ризонинг будут встраивать по умолчанию в новые версии моделей? Это не так и плохо, если железо есть - даже хорошо. А если нет...
Аноним 06/02/25 Чтв 17:53:27 1044248 277
>>1044202
Понял, а ты значит здесь местных вахтёр. Что ж, ты уж продолжай бдеть, распугивать сообщество и отбивать желание у людей сюда заходить, как это произошло в профильном треде локальной генерации изображений.
Аноним 06/02/25 Чтв 18:03:01 1044276 278
Screenshot2025-[...].png 45Кб, 639x591
639x591
>>1044210
llama.cpp в качестве бэка.
Переставил с "chat completion" на "text completion" попробовал и koboldcpp, та же шляпа, все пустое. Только если без "Streaming" в первой вкладке, то появится ответ.
Аноним 06/02/25 Чтв 18:15:40 1044303 279
image 65Кб, 905x100
905x100
Пиздяшка-фонтан! Охуеть просто.
Аноним 06/02/25 Чтв 18:24:42 1044323 280
image.png 22Кб, 767x158
767x158
>>1044303
Скорее всего протекло с какого-то другого языка. На английском кумь, будет меньше кринжа.
Аноним 06/02/25 Чтв 18:28:53 1044333 281
Аноним 06/02/25 Чтв 18:48:29 1044374 282
>>1044213
>Для корпуса русской разговорной речи средняя длина слова обычно составит от 3.9 до 4.9 букв

Уж не знаю у каких наркоманов ты это взял, эти данные валидны для английского языка, но допустим. Выходит, что 3333 букв в минуту ~ 680-855 слов.

>>1044019
>по опытным исследованиям средняя скорость равняется 201 слову в минуту (при разбросе значений от 60 до 378)
Охуительно так получается, обогнать опытные исследования в два раза.

> В соревнованиях на первенство мира по скорочтению особое внимание уделяется пониманию прочитанного. Лучшие участники обычно читают от 1000 до 2000 слов в минуту с пониманием примерно 50% или выше.

> Три тысячи в минуту это практически вдумчивое чтение
Вот не обманывай себя
Аноним 06/02/25 Чтв 18:52:40 1044378 283
image 63Кб, 852x188
852x188
>>1044323
Не, мне наоборот нравится, не скучно читать, когда такие перлы всплывают.
товарищ майор, не стукайте, это женжина-дворф, поэтому у неё всё маленькое
Аноним 06/02/25 Чтв 19:05:18 1044400 284
>>1044378
Лол, это что за модель?
Аноним 06/02/25 Чтв 19:13:19 1044413 285
Аноним 06/02/25 Чтв 19:41:06 1044455 286
>>1044413
Лол, не наблюдал такого на ней, а настройки?
Как вообще впечатления?
Аноним 06/02/25 Чтв 19:51:40 1044477 287
>>1044455
Судя по тому, из чего она смержена, красивые перлы это результат скорее качественного промптинга и настроек, чем самой модели. Там по-моему только гутенберг располагает ожидать художественных и творческих слов, а остальное так себе.
Аноним 06/02/25 Чтв 19:54:45 1044482 288
>>1044455
Да я вот только вечером скачал, потыкал немного. Настройка Universal-Light стояла, ничего не менял.
Аноним 06/02/25 Чтв 19:55:22 1044483 289
>>1044477
И кстати этот Lyra-Gutenberg-mistral-nemo-12B, из которого она смержена, это моя настольная модель на сегодня, одна из немногих. Пишет потрясающие простыни текстов, просто огромные. Это не первый фантьюн от nbeerbower, дающий хорошие результаты.
Аноним 06/02/25 Чтв 20:13:50 1044491 290
Аноним 06/02/25 Чтв 20:17:28 1044492 291
>>1044240
Вряд ли будут повсеместно встраивать. Нужно больше ебли с датасетами, больше ебли при выводе. Больше ебли везде.

>>1044374
>Уж не знаю у каких наркоманов ты это взял
Да по первым ссылкам в гугле. Специально взял примерно полмиллиона символов из текста, подсчитал статистику, 5.2 буквы на слово в среднем. Ну окей, выше среднего.
>обогнать опытные исследования в два раза
Проблема выборки, очевидно же. Уверен, что есть люди, которые читают как медленнее их нижней планки, как, очевидно, есть и читающие быстрее верхней. Но окей, если тебя смущает - вернёмся к средним значениям. Двести слов, пусть с теми же 5.2 символа на слово, чуть больше тысячи знаков в минуту. Если всё так же считать 2.5 буквы на токен, то это 6.9 т\с. В среднем. Даже это уже выше "5 токенов хватит всем". Хотя эксмо, например, пишут
>Педагоги и психологи считают среднюю скорость молчаливого чтения на русском языке равной примерно 200-300 словам в минуту.

>Вот не обманывай себя
Тем не менее, я четко улавливаю смысл, запоминаю заинтересовавшие фрагменты, нахожу в тексте неточности и несоответствия предыдущим тезисам и т.д.
Серьёзно, мне это напоминает спор по типу "глаз не видит больше 24 фпс". Чем больше т\с - тем лучше. Не нужно ждать, не раздражают свайпы, не приходится ожидать длинных полотнищ или можно скипнуть абзац, где ассистент разъясняет вещи, которые ты и так понимаешь, пишет несущественные вещи, повторяет твои же слова в другой формулировке и т.д. Здесь уже даже не важна скорость чтения. Я не агитирую всех срочно бежать заказывать пачку 5090, но и убеждать в том, что никому не нужна бо ́льшая скорость - просто бессмысленно. Она никому не будет лишней, даже если читать со скоростью 60 слов в минуту.
Аноним 06/02/25 Чтв 20:19:11 1044494 292
>>1044477
>гутенберг располагает ожидать художественных и творческих слов
Лира говорят вообще кум модель, но она закрытая так что в мержер не запихнёшь. Лиры-гутенберг там 10%, но видимо хватило, пробовал 20%, модель иногда начинала полностью на аглийский переходить.

Wayfarer для приключенчистости и снизить позитивный биас.
Она тоже как и лира-гутенберг чисто английская, так что много не добавишь, хотя вроде влияет на вероятность что модельна англ перейдёт меньше чем лира, так что её можно больше добавить.

NevereendingStory, так-то на деле шизомерж, но уже несколько анонов говорили что она годна именно что в сторителлинге.

Ну сайга-анлишед это просто как основа.

Хотя надо перемержить используя именно её как базу, а не оригинальную сайгу, должно шизы и выдуманных слов поуменьшить.
Аноним 06/02/25 Чтв 20:19:36 1044496 293
>>1044119
РП-срань от LLM действительно очень быстро читается даже вне кумерских сценариев, там реально хотя бы 10 токенов в секунду надо для, комфортного чтения 20.

Другое дело книги старых писателей, которые описывают двумя страницами как главный герой зашёл в магазин и рассматривает окружающее пространство. Вот от такого охуеть можно, особенно с их слогом. Быстро читать такие книги без опыта и большого словарного запаса не получится. Или медицинские статьи. Если там пишут не то, в чём ты хорошо разбираешься, читать приходится медленно.

Мимохуй
Аноним 06/02/25 Чтв 20:27:12 1044508 294
Аноним 06/02/25 Чтв 20:28:21 1044511 295
>>1044492
>>1044496

Мне, походу, следует уточнить, что я доебался не до скорости генерации токенов, а именно до скорости чтения чела.

Со скоростью генерации пусть все дрочат как хотят, зависит дохуя от чего, от банально "минимально чтобы не уснуть", до "пусть оно мне напечатает простыню а я глазами пробегусь за несколько секунд".

Именно читать какой-то осмысленный текст, просто чтобы его быстро прочитать - это какой-то бред. Вполне можно
>четко улавливаю смысл, запоминаю заинтересовавшие фрагменты
Но нахуя, если от текста можно получить удовольствие, а не заниматься ебучим спидраном?
Аноним 06/02/25 Чтв 20:32:55 1044521 296
Как анон находит хорошие модели? Неужели просто качает все подряд и тестирует? Заебаться же можно.

(Вообще, меня просто интересует какая моделька для рпшки, параметров больше, чем на 12b, которые везде советуют, все прикольно, но хочется затестить что там, пусть и зашакаленное)
Аноним 06/02/25 Чтв 20:33:36 1044522 297
>>1044521
Никак я жду пока пиздарики красноглазики сами всё разнюхают
Аноним 06/02/25 Чтв 20:36:37 1044525 298
>>1044522
так они и разнюхивают 12b и ниже
Аноним 06/02/25 Чтв 20:45:47 1044549 299
>>1044521
>Как анон находит хорошие модели?
Моделей всего штук 5.
Справляется.
Аноним 06/02/25 Чтв 20:49:51 1044556 300
>>1044521
>Как анон находит хорошие модели? Неужели просто качает все подряд и тестирует? Заебаться же можно.
Качал.Тестировал. Заебался. Не нашёл ничего по вкусу, пошёл мержить сам в сомнамбулическом поиске Невидимого Горизонта.
Аноним 06/02/25 Чтв 20:51:20 1044557 301
https://huggingface.co/TheDrummer/Anubis-Pro-105B-v1-GGUF

Я вот хуй знает зачем было так увеличивать жопу ламы. Но прям какого то best experience evar не ощутил. Свайпы чуть сочнее, но по сути то-же самое что на небольших тюнах.
Meh~ Никакого откровения.
Аноним 06/02/25 Чтв 20:52:49 1044559 302
>>1044477
Я уверен, что подобная шняга вылезает чисто из сайги. Я ещё когда давно её пробовал (именно 12б), она срала этими странными кривыми уменьшительно-ласкательными или чем-то похожим. И недавно тестил магмел, куда залито немножко сайги+вихрь, и там на карточке с тянками-мимиками бот назвал обычного мимика "миметка", а мимика, маскирующегося под мебель, "фурнетка" (в оригинале furniture mimic). На сыром магмеле он просто писал мимик с небольшими искажениями, типа мимiк или мимок.
Аноним 06/02/25 Чтв 20:58:08 1044566 303
>>1044559
>когда давно
в прошлом году, да, но новые версии куда адекватнее
Аноним 06/02/25 Чтв 20:58:32 1044568 304
>>1044557
Ну короче, как я и думал. Выше 70б нихуя нет. Ну как нет, либо какой то совсем абсурдный пиздец в духе дипсика.
Или ебучая большая мойшстралька. Ни мержей, ни тюнов. Сам сиди и делай, блять.
Аноним 06/02/25 Чтв 21:00:20 1044570 305
Аноним 06/02/25 Чтв 21:03:44 1044573 306
>>1044570
>надо Федя, надо

>>1044557
>>1044568
Лол. А вообще расскажите о большой мистрали. Нормальный квант пощупать возможности нет. Насколько она лучше мелкой ?
Аноним 06/02/25 Чтв 21:05:09 1044577 307
>>1044559
>фурнетка
логично же, чо, если подумать, вот вам синкинги куда там дипсику
Аноним 06/02/25 Чтв 21:11:19 1044582 308
>>1044566
Нет там никаких новых версий, по сути. Было два обновления раз в неделю после первого коммита, посмотри в истории. Как была модель трёхмесячной давности, так и лежит.
Олсо, если я правильно понимаю, как устроены нормализованные веса, то вот тут >>1044413 50% - это обычная сайга. Потому что у базовой модели к-т веса единица, и остальных на единицу. Да ещё и в две другие модели суммарно на 40% тоже сайгу содержат, так что дофига сайги.
Аноним 06/02/25 Чтв 21:15:59 1044585 309
>>1044521
>больше, чем на 12b
Так ничего нет. Бояре нахваливают 70+, работяги выискивают хидден-гемы на базе немо. А между этим как будто выжженная пустыня, на 22-32b по паре нейрослоповых тюнов, чуть меняющих используемые обороты (но не общее поведение) моделей, и то чаще всего в пределах первых 4к контекста. На 70+ на самом деле похожая ситуация, как я понимаю, но там даже базовая модель без всяких тюнов может заметно больше, чем мелочь.
А в случае 12b - "народный" формат, идущий на среднеклассовом игровом железе с комфортными скоростями, поэтому им не только больше пользуются, но и экспериментируют с тюнами и мержами, и среди этой кучи и правда есть ненулевая вероятность найти годноту.
Аноним 06/02/25 Чтв 21:21:16 1044603 310
>>1044582
>так что дофига сайги
там не слерп, а бредкрамб тиез, что сбрасывает слишком большие и слишком маленькие отличия моделей при мерже, нормализуя остальное, но в целом да, попробуем тогда поменьше
Аноним 06/02/25 Чтв 21:29:39 1044620 311
Спросил я у магнума, что случилось на площади Тяньаньмэнь. А он ко мне в трусы полез....
Аноним 06/02/25 Чтв 21:34:30 1044629 312
>>1044276
Что за порт наркоманский? И v1 убери.
Аноним 06/02/25 Чтв 21:35:21 1044631 313
>>1044629
>порт наркоманский
твоя блядота мать наркоманская, нормальный у меня порт
Аноним 06/02/25 Чтв 21:36:53 1044634 314
>>1044276
Сам спросил, сам отвечу.
Ебанный насос, огнелис 102 не фурычит, а хромой, 100й между прочим, поехал без проблем! И даже звоночек в конце генерации появился!
Аноним 06/02/25 Чтв 21:37:36 1044637 315
>>1044631
>нормальный у меня порт
Ай не пизди, тебе говорили следить за портом, чтобы пакеты не терять ?
Аноним 06/02/25 Чтв 21:39:00 1044642 316
изображение.png 79Кб, 1001x433
1001x433
изображение.png 133Кб, 1097x603
1097x603
>>1044378
>>1044508
Товарищ майор не оценил вашу попытку обмана.
>>1044631
Там по дефолту 8080.
>>1044634
>огнелис 102
Некроёб?
Аноним 06/02/25 Чтв 21:46:46 1044650 317
>>1044557
А чего еще ты ожидал от франкенштейна?
>>1044568
> Выше 70б нихуя нет
Мистраль лардж и большой коммандер для тебя чтоли шутка?
>>1044573
> расскажите о большой мистрали
Что тут рассказывать, небо и земля если умеешь готовить. Буквально. Да, обе могут обосраться, при неудачном файнтюне спамить надоедливыми паттернами и подобное, обе могут давать интересные и приятные ответы.
Но с точки зрения качества общения это другой уровень. При продвижении истории будут не волки или бред, а что-то новое в сеттинге мира. Чар тебя понимает полностью, а не хватает буквальные значения слов. Можно делать что-то продолжительное, типа рассказывать части истории постепенно, или как-то подкалывать чара, и он это будет помнить и невзначай обращаться к прошлому, а не начинать прямо цитировать или забывать. Какие-то черты чара будут отыгрываться до конца даже сквозь типичные зашакаленные тренировкой сцены, причем иногда принимать неожиданные проявления и генерировать события, что ломает 4ю стену.

Но ты все равно сильно не грусти, оно точно также может конкретно сфейлить, запутавшись на контексте в мелочах, и не является святым граалем, как и корпы.
Аноним 06/02/25 Чтв 21:49:45 1044659 318
>нормальный у меня порт
хватит петросянить, да семенить, в этом итити ните-треде собрались сурьезные дяди и обсуждают серъезные вопросики.

Повторю очень важный вопрос:
>Посоветуйте, люди добрые, гуфских (лень конвертить) от 8Б до 32Б
>для ролеплея с элементами еротики, хотяб с 130К кнотекста.
>- что леддит советует типо DarkForest и прочих - какая то порнография бессвязная выходит, большие типа Мику не влезут в мою РАМу.
>- брал лламу 3Б подобученную, неплохо эротику пишет, но, зараза, валится с мелким ее контекстом очень быстро, да цензуру возвращает, сука.

>>1044642
>некроебишь
Ну нелюбовь у меня к современным реалиям. У меня вообще один комп с вин7 ездит.
Эээх, вернуть бы время взад! Даешь Абсолютную Монархию!

>>1044620
>что случилось на знаменитом сквере
Спросим у дистилята ДипСнида:
"Tiananmen Square is one of the most iconic squares in Beijing, China. It serves as a central landmark and has been the site of various significant historical events and political demonstrations. The square is also known for its connection to the Tiananmen Square protests of 1989, a pro-democracy movement that ended tragically with a military crackdown by the government."
Аноним 06/02/25 Чтв 21:59:18 1044684 319
>>1044659
>Повторю очень важный вопрос:
Cydonia 1.2
>хватит петросянить,
Лол нет. Страдай теперь, портотряс
Аноним 06/02/25 Чтв 22:01:29 1044686 320
>>1044585
Вот только что потыкал https://huggingface.co/mradermacher/Nautilus-RP-18B-GGUF , и оно будто сильно тупее sainemo из шапки, да и в принципе других моделей, что я тыкал. Что-то где-то на уровне 8b моделей, по ощущениям. Это пиздец странно ощущается.
Аноним 06/02/25 Чтв 22:01:43 1044688 321
Аноним 06/02/25 Чтв 22:05:57 1044693 322
30% Lyra-Gutenberg, 30% 2 мержа c Wayfarer, один с Chronos, другой с Humanize, и остаток NeverendingStory.

Магия-шмагия, камлаем шибко.

Тут проблема больше найти границу, тот самый горизонт событый.

Ещё вариант обратно немомикса подкинуть, потому что сейчас получается что примерно половина весов от англ тюнов.

Если сильно в англ будет скатываться так и сделаю, но стачала надо потестить.

https://huggingface.co/Aleteian/Way-to-Unseen-Horizon-1-MN-12B
Пока без квантов, чот gguf-my-repo не фурычит.

>>1044650
22B https://huggingface.co/mradermacher/Pantheon-of-Cydonia-Realm-i1-GGUF

>>1044686
>только что потыкал
Основная модель удалена (не моё, так что хз) но вероятно автор решил что мерж неудачный.
Аноним 06/02/25 Чтв 22:09:44 1044699 323
Вот если я ебанусь и захочу себе собрать мини-сервак с набором из видях, чтобы на нем вертеть нейросети, мне откуда начать копать?
Аноним 06/02/25 Чтв 22:13:41 1044706 324
>>1044699
>откуда начать копать?
С кубышки, готовь порядка ляма.
Потом закажи у нормальных челов (спроси тут у других анонов какие лучше, смотря ещё где живёшь) чтобы всё собрали сами протестировали и привезли в сборе.

Хотя можно настолько и не упарываться, обычная, не сервеная пекарня 2 х 4090 / 3 х 3090 запустит всё кроме дипсика.
Аноним 06/02/25 Чтв 22:28:19 1044724 325
>>1044706
>2x4090
Зачем быть совсем нищукком, если H100 - идеальный вариант.
Аноним 06/02/25 Чтв 22:34:08 1044739 326
Аноним 06/02/25 Чтв 22:47:21 1044759 327
>>1044699
Здесь спроси, четко и подробно обозначив свои хотелки, назначение, бюджет и т.д.
>>1044739
> Неиронично был когда она лям стоила
Не было. Скам и бу на аукционах, без учета конвертации, комиссий, доставки, пошлины в момент, когда курс был около 50, или в завлекающих объявлениях барыг с пометкой "цену уточняйте". A100 еще можно было так взять, но не хоппера.
> а не 5-7
Из той же оперы, в магазине с гарантией и доками 4
Аноним 06/02/25 Чтв 22:56:50 1044772 328
>>1044699
Xeon e5 26xx 128 gb + 2 шт. 4060Ti (если мало 32gb VRAM то еще 2 шт. 4070TiS) итого менее 400 тыс. руб. с корпусом, б/п и всем прочим в максимальном варианте.
Аноним 07/02/25 Птн 00:00:25 1044842 329
>>1044650
>А чего еще ты ожидал от франкенштейна?
Генеральных сражений с прорывами и окружениями в Футабе.

Ну а если серьезно, я ожидал именно жирнейший РП тюн ламы. А по факту, ну та же лама же блять. Почему у драммера получилось сделать из мистрали цидонию и это прям неплохо, а из ламы получилось какое то говно.
Аноним 07/02/25 Птн 00:25:41 1044882 330
>>1044739
>2 часа назад обнова приехала
Твоя чтоль? Отравил надеюсь чем-то интересным?
Ох, епт! Так эта ж намикшено из той самой:
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Где эти дебилы даже блядь ридми не удосужились прочесть к модели, которую они, блядь, миксуют! Помним, любим и скорбим. Судя по описанию уже через 100 токенов на меня даже неведомая Лавкрафтовская глубоководная херотень запрыгнет, а весь ролеплей сведется к "какой он большой, какая я развратная". Вот как раз такого б и не хотел.
Мне подавай романтики, да чтоб за дамой, да за тридесять земель, да и эрпогэ с интересным сюжетом. как в старых DungeonAI. И юморца была, и караваны грабить, и за изнасилование не заставляли объяснительную на имя админов составлять. Секс не особо красивая вещь, предварительные ласки красивей и интересней.

>>1044684
Популярный вариант, к завтраму исследуем. Пока что только 32К токена модель показывает, как-то грустно. Мне б более продолжительных рассказов.
Аноним 07/02/25 Птн 00:43:08 1044892 331
>>1044772
>Xeon e5 26xx 128 gb + 2 шт. 4060Ti (если мало 32gb VRAM то еще 2 шт. 4070TiS) итого менее 400 тыс. руб. с корпусом, б/п и всем прочим в максимальном варианте.
Не слушай его, бери за те же деньги 4 3090 со всей обвязкой. На X299 плату с 4 PCIe-слотами за вменяемые деньги ещё можно найти и процы с большим количеством PCIe-линий относительно дешёвые. Если по-богатому, то система будет на 4090-х и минимум на миллион дороже.
Аноним 07/02/25 Птн 00:45:47 1044894 332
Гайс, прошу пояснительную бригаду насчет RAG в LM Studio.

Насколько я понимаю, RAG должен конвертировать текстовый документ, или pdf в embedding - т.е. в вектора и примешивать их к весам модели. До этого работал только с графическим нейросетями и там эмбеддинги это не просто набор промпта.

Но какие бы по размеру документы я не добавлял и с какими бы моделями не работал, даже если текстовый документ по размеру составляет чуть меньше печатной страницы, каждый раз из него берется три рандомных предложения и анализируются в отдельности от контекста всего документа. Причем если книга большая, то отрывками "цитатами" выступают абзацы, а если небольшой текст - то маленькие предложения.

Так допустим я не могу попросить нейросеть коротко пересказать содержимое документа, или составить по нему план, потому что все что видит нейросеть - три сранных предложения.

Как это должно работать из описания того что я читал? Большая книга или документ должны быть разбиты на маленькие чанки, а затем в зависимости от промпта, будет найден самый подходящий чанк и информация будет взята из него. Таким образом нейросеть с малым контекстом может отвечать на любой поставленный вопрос о содержимом книги или документа.

Насколько я понял из рассуждений с реддита - эти эмбеддинги представляют собой самый обыкновенный промпт, который должен влезть в контекст текущей беседы, и если он не влезает - никакой умной системы чанков попросту нет, он берет по идиотски рандомные куски текста и использует их для анализа.

Подскажите как быть? Насколько малым должен быть объем текста в RAG чтобы оно работало не выбирая из текста три рандомных предложения? На кой черт тогда нужен RAG, если я могу настолько малый текст вставить как подсказку или сразу в поле промпта.
Аноним 07/02/25 Птн 00:59:15 1044910 333
Почему я на чубе когда захожу в профиль автора половину карточек не видно, хотя они ищутся в обычном поиске? Галка нсфв стоит.
Аноним 07/02/25 Птн 01:14:52 1044940 334
Как застримить таверну на телефон?
Аноним 07/02/25 Птн 01:19:12 1044946 335
>>1044882
> Мне б более продолжительных рассказов
Удачи с рп с забитым контекстом. Я даже боюсь имаджинировать твоё ебало, когда нейронка начнет пускать слюни и забывать.
К чему я это - используй суммаррайз. Контекст более 16к - если у тебя нет гигабайтов свободных ВРАМ нахуй не нужен.
Аноним 07/02/25 Птн 01:41:15 1044972 336
>>1044772
> 400 тыс. руб.
> Xeon e5 26xx 128 gb + 2 шт. 4060Ti
Плакать или смеяться?
>>1044842
Немо довольно удачно тренится и прощает ошибки. А здесь явно наложилась нехватка бюджетов и опыта, скорее всего была вообще qlora вместо нормальной тренировки, сама склейка штука специфичная, что-то нахимичили с датасетом.
У большинства таких моделеделов что-то получается не потому а вопреки, один раз выиграл в казино и потом обратно на дно.
>>1044892
Двачую, разве что
> с 4 PCIe-слотами
Чтобы все профессорные уже сложно.
>>1044940
В настройках разреши подключение с других ип и просто зайди на адрес пеки с телефона.
Аноним 07/02/25 Птн 02:05:27 1045003 337
изображение.png 124Кб, 665x1088
665x1088
изображение.png 152Кб, 636x1150
636x1150
изображение.png 128Кб, 564x1084
564x1084
>>1044139
Лама-хуяма. Это все, как нейродичь, как видео генерируют и там люди скачут хоть на голове, потом утекают по реке, сливаясь с пейзажем. Но конечно смехуечки, да.
Аноним 07/02/25 Птн 04:53:11 1045241 338
>>1045003
Хорошо, ламу вычёркиваем, осталось ещё 4. Протестируешь?
Аноним 07/02/25 Птн 05:01:49 1045243 339
>>1044882
>DungeonAI
Для этого в миксе WayFarer - вроде он на DungeonAI и стоит.

>>1044882
>Лавкрафтовская глубоководная херотень запрыгнет
Немомикса там немного.
Аноним 07/02/25 Птн 06:09:13 1045261 340
https://huggingface.co/OddTheGreat/Machina_24B

Наркоманит, галлюцинирует, и перескакивает на английский прямо во время написания своего поста.

Но в моменты просветления (свайпы наше всё) пишет на русском, и пишет даже неплохо.
Аноним 07/02/25 Птн 06:45:20 1045268 341
image 373Кб, 2532x1123
2532x1123
image 316Кб, 2545x752
2545x752
image 357Кб, 2528x974
2528x974
image 394Кб, 2551x1092
2551x1092
Пересобрал, старую удалил, почему-то там токенизатор по видимости поломался.

https://huggingface.co/Aleteian/Way-to-Unseen-Horizon-2-MN-12B-Q8_0-GGUF

Изредка хотя проскакивают англ фразы, цельные и консистентные.
Изредка может выдать что-то странное.

Потестирую ещё вечером уже в актуальном рп на каких-нибудь новых карточках, эти юзаю чтобы зирошотом проверить что модель вообще работоспособна.

Возможно стоит снизить процентное соотношение англ тюнов.
Аноним 07/02/25 Птн 07:40:22 1045281 342
>>1044511
Ты хочешь сказать что есть упоротые которые кайфуют от самого процесса чтения? Типа каждая новая буква приближает к оргазму?

По мне так единственная полезная и приятная часть любого текста это заложенный в него смысл. Чем быстрее ты читаешь тем быстрее и больше ты получаешь эту "дозу". В худ.литературе я уже машинально скипаю фоновые абзацы не несущие смысловой нагрузки, в стиле того же детального описания чайного сервиза.
Аноним 07/02/25 Птн 07:58:17 1045291 343
>>1045281
>кайфуют от самого процесса чтения?
Есть такое. Расслабся, возьми плитку твёрдого горького шоколада, хорошую книгу, можно даже на физическом носителе, и просто наслаждайся заслуженным отдыхом.

(но у меня, к сожалению, рабочий день только начинается)
Аноним 07/02/25 Птн 09:05:08 1045318 344
>>1045268
На четвертой слог какой то хуевый, прям тяжко читать. Как будто школьник переводил английский текст с бумажным словарем.
Аноним 07/02/25 Птн 09:29:13 1045341 345
>>1045318
>школьник переводил английский текст с бумажным словарем
Если верхняя половина, то это дипл.
Надо вычитать и пересохранить стейт, просто сам не особо обращал внимание, я и хуже тексты читал, намного, например рУссКиЙ пИрИвРОТ ранобе "Re:Monster".
Аноним 07/02/25 Птн 09:31:38 1045342 346
>>1045261
>на русском
Зачем для этого было брать английский мерж для уменьшения слопа? И где сравнение с базовой моделью? Хотя скорее всего на русском либо нет отличий, либо только хуже стало.
Аноним 07/02/25 Птн 09:33:31 1045344 347
>>1045342
>Зачем для этого было брать английский мерж для уменьшения слопа? И где сравнение с базовой моделью
Это не ко мне ( Aleteian ), но вроде автор сего мержа тоже местный.
Аноним 07/02/25 Птн 09:35:28 1045345 348
>>1045281
чем быстрее ты читаешь, тем меньше смысла вытягиваешь из прочитанного. Это неизбежно никакими техниками, ты можешь только поднять скорость своего чтения только до определенного предела, а дальше начинаются бессмысленные выебоны
Аноним 07/02/25 Птн 09:45:50 1045346 349
>>1045344
>Tested on russian and english, very good on both
Не заметил этой строчки в описании. Ну тогда на русском фейл вышел, судя по отзыву. Впрочем, ничего удивительного, в моделях-компонентах, как я понял, фокус на английском был. Русский там от базового мистраля. Но сравнить с базой автор отзыва не удосужился.
Аноним 07/02/25 Птн 09:50:50 1045348 350
>>1045346
>базой
в базе кстати, 24б мистраль новый тоже так себе на русском, куда хуже 12б
Аноним 07/02/25 Птн 10:21:17 1045361 351
>>1045345
>чем быстрее ты читаешь, тем меньше смысла вытягиваешь из прочитанного
Не существует линейной зависимости. Иначе человек читающий по слогам получал бы 100500% от смысла текста. Просто есть люди умеющие быстро читать и не умеющие.
Аноним 07/02/25 Птн 11:01:50 1045372 352
>>1045348
Потому что новая мистраль тоньше старой.
Я не знаю что у них случилось, но это делает меня грустить.
Аноним 07/02/25 Птн 11:08:33 1045374 353
>>1045372
Зато oneshot тесты на математику лучше решает! Наверное.
Аноним 07/02/25 Птн 11:09:33 1045375 354
>>1045374
Матан я могу и маткаде решать, нахуй мне для этого мистраль ?
Аноним 07/02/25 Птн 11:10:27 1045376 355
>>1045261
>>1045342
>>1045346
>>1045344
Местный, местный.
Этот мердж больше из рубрики эээксперименты, посмотреть как мержится новый мистраль. Мне из тестовых 400 реплаев на русском видимо везло.
Сейчас пойду ещё помучаю мерджкит, попробую замутить V2, более адекватную и стабильную. Как протестирую достаточно, (1000 реплаев) выкачу ссыль сюда, вдруг кому зайдёт.
>Но сравнить с базой
Я пока ещё не смешарик новенький в оформлении, сравнение с базой это скрины база\мердж на одних и тех же вводных? Такое можно устроить.
Аноним 07/02/25 Птн 11:15:30 1045379 356
>>1045361
и тем не менее, при достижении определенной скорости падение понимания прочитанного происходит неизбежно для любого человека, иначе на соревнованиях по скорочтению не было бы понимания в районе 50%
Аноним 07/02/25 Птн 11:20:48 1045381 357
>>1045376
>400 реплаев
>1000 реплаев
Фига ты сурьёзный. Я просто сразу выкатывал, тестируя только на саму работоспособность. Совсем битые из репы удалял, рабочие оставлял для сохранения ямл-конфига и возможных дальнейших мержей.
Аноним 07/02/25 Птн 11:32:31 1045384 358
>>1045381
>тестируя только на саму работоспособность
для такого я коллекцию experimental себе создал и скрыл лол, пока там один мой франкен до 18.5б, он рабочий, но у него беды с башкой. Я его делал чтоб с клиффхенгером замерджить, но там русик очень сильно терялся. ещё есть идея удачные 8б с пола раздуть до 12/14б, но идея временно заморожена, самих 8б прям хороших маловато.
Аноним 07/02/25 Птн 11:36:29 1045386 359
>>1045384
Анонче, я вот очень люблю великий и могучий. Нет, серьезно, когда читаешь классиков на русском языке, когда ты наслаждаешься прекрасными оборотами - начинаешь прям любить родной язык.
Но и тысячу раз но. Сейчас для кума все таки лучше английский. Он проще, в нем нет проблем с окончаниями, ЕРП книг и фанфиков абсурдное количество на английском. Да и в целом меня так не воротит от cum, pussy, aaah~, чем от русскоязычного перевода. Токены поменьше, проебов меньше.
Аноним 07/02/25 Птн 11:50:36 1045393 360
>>1045386
Все шедевры литературы написаны на русском. Как модно променять русский на английский когда есть такие стихи

Мои панчи сделают вам больно - баттл-рэп.
Удлиненная обойма, слышишь это? (пы-пы-пау)
Самый лучший в том, чтоб тахать этих тупней. Скажешь "нет"?
Но кому ещё заплатят пару лямов за куплет?
Е, е! Я залетаю на студийку,
Замути мне кофейку или ты сядешь на бутылку.
Замути мне жирных бошек, шишек пятого размера.
Депутатский, как у мэра, моей маме Panamera (пау, пау!)
Только лучшее для всей моей семьи,
Панчи в виде txt на
9-10 DVD, CBD, ТГК, клеишь будто ПВА;
Мой х
й среднего размера, да, по меркам NBA!
Ха-ха-ха!
Уготовлю вам пулю, брат (wait), ты куришь какулю.
Ты тупой, как Акулич! Я крутой, как огурчик.
Самый свежий на грядке, кэш не трачу на тряпки.
Покупаю то, что дорожает, мой бэнкролл в порядке!
Flow TEKKEN, мой flow TEKKEN!
Дзин Кодзима, мой flow TEKKEN!
Танцую как Эдди, flow TEKKEN.
Брайан Фьюри, мой flow TEKKEN!
Ёшимитсу, клинки смерти.
Flow TEKKEN, Flow TEKKEN!
Сергей Драгунов, побал с ног -
Flow TEKKEN!
Flow TEKKEN, мой flow TEKKEN!
Дзин Кодзима, мой flow TEKKEN!
Танцую как Эдди, flow TEKKEN.
Брайан Фьюри, мой flow TEKKEN.
Ёшимитсу, клинки смерти.
Flow TEKKEN, Flow TEKKEN!
Сергей Драгунов, по
бал с ног -
Flow TEKKEN, Flow TEKKEN!
Я на майке, значит МС отлетают только так.
Сука, по твоему флоу, репетитор Дональд Дак (Дональд Дак)
Петушок, твое место у параши.
Жизнь безумней, чем сезон американского папаши.
Каждый день (дважды в день) мы ем тебя в очко.
Этот толстый лысый хй, можешь звать Альфред Хичкок.
Как никто, я умею грязно делать эту грязь.
После жопы, мой х
чёрный, словно Кондолиза Райс.
Отвратительно, ставь это родителям и при подружке.
Я хочу чтоб, рэп, все ненавидели, как мои шутки.
Эй, shooter game, я создал х
*ню, как Оппенгеймер.
Я Big Baby Tape, в котором воплатился Гегель.
Аноним 07/02/25 Птн 11:50:42 1045394 361
>>1045384
>Я его делал чтоб с клиффхенгером замерджить, но там русик очень сильно терялся
Я вроде тебе же про это и говорил, кидая ссылки на свои passtrough апскейлы =))
Аноним 07/02/25 Птн 11:53:26 1045397 362
>>1045393
Я немного не понял, что ты хотел сказать этим текстом ? Что кириллицей можно писать хуиту ?
Аноним 07/02/25 Птн 11:54:09 1045399 363
>>1045394

Дэвид свои франкенмержи потом файнтюнил ещё поверх приводя в относительный порядок.
Аноним 07/02/25 Птн 11:56:29 1045402 364
>>1045397
Да не, у меня похмелье и я хуйню пишу
Аноним 07/02/25 Птн 11:56:47 1045403 365
>>1045386
>cum, pussy, aaah
Ни cum'ом единым. Про обычное / легкоэротическое рп не думал?
Аноним 07/02/25 Птн 11:58:13 1045404 366
>>1045402
>похмелье
Я понимаю что пИтница, но похмелье сегодня, а не в субу/воскру?
Аноним 07/02/25 Птн 12:01:20 1045409 367
>>1045404
Я не он, но кто вообще в пятницу работает, когда 4-дневная рабочая неделя у всех уже?
Аноним 07/02/25 Птн 12:01:54 1045410 368
>>1044972
Я покекал лично. =3 Даешь позитив!
Аноним 07/02/25 Птн 12:02:13 1045411 369
>>1045409
Йа. Потому что шахте глубоко насрать на день недели и время. Спайс маст флоу.
Аноним 07/02/25 Птн 12:04:05 1045413 370
>>1045409
Йа. Потому что удалённо и глубоко насрать на день недели и время.
Таски за меня никто не комплитнет.
Аноним 07/02/25 Птн 12:04:10 1045414 371
Анчоусы и кильки в банке : а что есть больше чем 4090, но не настолько дорогое как H100. Теслы, квадрики ?
Аноним 07/02/25 Птн 12:05:13 1045415 372
>>1045413
>Йа.
Fucking lol'd. Если тебе еще и 35+Lvl я еще крякну от смеха.
>>1045411 анон
Аноним 07/02/25 Птн 12:05:19 1045416 373
>>1045409
Ты из какого года? В 2025 всё ещё восьмичасовая восьмидневка
Аноним 07/02/25 Птн 12:05:27 1045417 374
image.png 254Кб, 392x556
392x556
Анон, Вихрь намеренно соевизирован или это последствия файнтюна на OpenAI? Отказывается в наотрез со мной виртить, даже с джейлбрейками. Можете какой-то быстрый гайд как её десоевизировать, i.e.:
1) где взять датасет с обратными QA, где она соглашается отвечать вместо визгов "Я не могу на это ответить"
2) чем файнтюнить и как?
Аноним 07/02/25 Птн 12:06:55 1045418 375
>>1045417
Он всегда был соевым говном. Там прям в датасете есть реджекты. Не трогай его.
Аноним 07/02/25 Птн 12:09:12 1045422 376
>>1045386
Дело не в люблю/не люблю, а в способности качественно рпшить на том или ином языке. К примеру, я очень люблю латынь, но подробно расписать на ней свои действия, вести диалог и так далее, я не могу. также и с англ, как бы ты хорошо его не знал, ты думаешь на русском, а затем, в голове переводишь на язык, из за чего ты а) больше напрягаешь голову, меньше погружаешься в выдуманный мир, б) пишешь в более простых и коротких конструкциях, что хоть и помогает модели лучше понять тебя, но само по себе снижает качество ролеплея.
Ну а кум это отдельное, не всё же время дрочить
>>1045394
ага ) но справедливости ради, на англе то творение держалось молодцом. но нет русского - нет релиза
>>1045409
ща бы график иметь, а не гонять кабанчиком только тогда, когда надо
Аноним 07/02/25 Птн 12:11:59 1045423 377
>>1045422
> гонять
Сейчас бы работать не из дома, а подскакивать когда хозяин позовёт.
Аноним 07/02/25 Птн 12:12:08 1045424 378
image 1640Кб, 1280x720
1280x720
>>1045417
>быстрый гайд
Взять сайгу-анлишед. А вихрь всегда был с цензурой.

>>1045415
>35+Lvl я еще крякну от смеха
Крякай.
Аноним 07/02/25 Птн 12:16:05 1045426 379
>>1045422
>думаешь на русском
А вот это неправильно, двойную работу делаешь, на английском надо думать, тогда всё легче намного читается.

А общаться / слушать англ речь не думая на английском - вообще без шансов, если у тебя не мозг-компьютер.
Аноним 07/02/25 Птн 12:18:49 1045429 380
Русик везде ниже 70б какой то вымученный будто перевод с английского на ходу, нет русского духа если хотите
Аноним 07/02/25 Птн 12:19:40 1045431 381
>>1045426
>на английском надо думать
Чтобы это делать, нужно несколько лет прожить с носителями языка.
>>1045422
>пишешь в более простых и коротких конструкциях, что хоть и помогает модели лучше понять тебя, но само по себе снижает качество ролеплея.
А вот это ты прям в точку попал. Но, как показывает практика, сложные предложения на английском ломают даже всякие цидонии и пантеоны. Я конечно верю что там, на 70бе есть жизнь и РП. Но увы, я не могу себе позволить такое железо.
Аноним 07/02/25 Птн 12:20:43 1045433 382
>>1045429
>нет русского духа
У сайги есть, но когда её пусть и с качественными англо-тюнами мешают, несколько теряется.

>>1045431
>нужно несколько лет прожить
Достаточно и в интернете общаться, но да, нужна языковая практика
Аноним 07/02/25 Птн 12:25:12 1045436 383
>>1045424
Тогда, кхмм, кхммм.
КРЯ
Аноним 07/02/25 Птн 12:27:33 1045438 384
>>1045433
>Достаточно и в интернете общаться, но да, нужна языковая практика
Я конечно рад что тут в треде собрались вундеркинды, но чёт мой жизненный опыт показывает, что даже 5 лет в иностранной среде - это мало, чтобы начать думать на другом языке.
Аноним 07/02/25 Птн 12:30:20 1045441 385
quickstart-file[...].png 2572Кб, 1732x2060
1732x2060
Поясните за MCP.
Вот на пике в рамках одного ответа клод дернул его 3 раза для конкретных задач, и что-то думал между этим. А если дипсику в чате разрешить гуглить, он сразу нагуглит ворох какой-то малорелевантной хуйни, потом начинает думать "таааак, надо посмотреть шо за хуйню я нагуглил", и от этого очень сильно тупеет.
Можно ли как-то подрубить гугл через МЦП к локальному/апишному дипсику, чтобы он так же гуглил конкретно то что нужно несколько раз?
Аноним 07/02/25 Птн 12:32:57 1045443 386
>>1045441
>Можно ли как-то подрубить гугл через МЦП к локальному/апишному дипсику, чтобы он так же гуглил конкретно то что нужно несколько раз?
Поищи в прошлом треде, я точно помню что аноны поднимали вопрос : а как гуглить.

И вообще, что такое клод ?
Аноним 07/02/25 Птн 12:33:14 1045444 387
Расскажите как семплеры настраиваете под модель? XTC кто-то щупал хорошенько? Есть ли в таверне семплеры нормальные под Цидонию / Магнум? Я попробовал несколько типа креатива или годлайк кобольда, не зашло. Сейчас сижу с почти дефолтными - "temperature": 1.0,
"repetition_penalty": 1.05,
"min_p": 0.05
Аноним 07/02/25 Птн 12:37:35 1045445 388
>>1045444
Семплеры это костыль, они только поломать модель могут. Попробуй порпшить с R1, поймёшь насколько мелкие модели всратые по креативности, даже 70В. Тем более в таверне уже есть полная поддержка reasoning-моделей, размышления прячутся под спойлер и длятся 5-10 секунд.
Аноним 07/02/25 Птн 12:38:43 1045448 389
>>1045444
>XTC кто-то щупал хорошенько?
As reddit say : работает только на БОЛЬШИХ моделях.
>Есть ли в таверне семплеры нормальные под Цидонию / Магнум?
Буквально жрут любые настройки. Тыкай и пробуй.
>Сейчас сижу с почти дефолтными
Я верю, что когда нибудь, анон начнет читать шапку и тогда последний камень, последнего нейрохрама падет на голову последнего нейрожреца и век просвещения настанет.
>Пресеты под локальный ролплей в различных форматах:
Аноним 07/02/25 Птн 12:41:50 1045450 390
В принципе 5080 не сильно оверпрайс, 150к думаю увидим. Как думает анон - 5080Ti 24гб за 200к возможна, скажем через годик?
Аноним 07/02/25 Птн 12:43:32 1045452 391
>>1045445
>Попробуй порпшить с R1
Хватит уже блять советовать ебанный дипсик, вы остоебенили уже. Его диситиляты говно ебанное.
>даже 70В
Давай сыграем в игру. Возьмем одну карточку персонажа. Ты будешь скрины с R1 тащить, а я с бегемота или большой мистрали.
Уже эти сказки про необычайный рп на дипсике доебали.
Аноним 07/02/25 Птн 12:45:45 1045455 392
>>1045450
А в чем профит 24 гига за 200к через годик, если сейчас есть за 3090 за 70к на лохито?
Аноним 07/02/25 Птн 12:52:31 1045461 393
>>1045455
>А в чем профит 24 гига за 200к через годик, если сейчас есть за 3090 за 70к на лохито?
GDDR7, новые технологии, чистой мощи больше чем в 2 раза. Тесты с инференсом должны уже где-то быть.
Аноним 07/02/25 Птн 13:02:02 1045469 394
>>1045448
>Пресеты под локальный ролплей в различных форматах:
Там хуйня в целом, которая сводится к: крутите ползунки, пока не понравится результат. Я уже заебался. Добавлять семплеры было ошибкой. Отныне сижу на дефолтных, разве что они указаны на странице с моделью, как например у Пантеона.
Аноним 07/02/25 Птн 13:02:04 1045470 395
>>1045444
>Расскажите как семплеры настраиваете под модель?
По наитию, иначе никак.
>XTC кто-то щупал хорошенько?
Говно без задач, которая кроме "креативности" режет кучу нормальных токенов, высирая шизобред в двух из трех случаях.
>Есть ли в таверне семплеры нормальные под Цидонию / Магнум
Это мистраль ебаный, хули там настраивать. Он из коробки нормально работает, хотя за магнум не уверен. Мне больше интересно, нахуя ты вообще рассматриваешь этот слоп годовалой давности, когда уже есть куча нормальных тонов.
>Я попробовал несколько типа креатива или годлайк кобольда, не зашло.
Это копролиты которыми уже никто не пользуется, так что можешь на них забить.
> Сейчас сижу с почти дефолтными - "temperature": 1.0, "repetition_penalty": 1.05, "min_p": 0.05
Ничего криминального в этом нет, нормальная связка. Температуру можешь только подкрутить при желании.
Аноним 07/02/25 Птн 13:05:19 1045473 396
>>1045470
>нахуя ты вообще рассматриваешь этот слоп годовалой давности
Потому что пантеон и цидонька до сих пор лучшее что есть на мистрали, нэ ?
Новая мистраль параша. Мелкие тюны на то и мелкие.
А чуть выше гемма и ебанная пустыня.
Аноним 07/02/25 Птн 13:08:14 1045477 397
>>1045452
Так кто про дистилляции говорит? Или ты из тех кто их за R1 считает? Речь естественно про полноценный.
Аноним 07/02/25 Птн 13:08:37 1045482 398
>>1045470
>Мне больше интересно, нахуя ты вообще рассматриваешь этот слоп годовалой давности, когда уже есть куча нормальных тонов.
Я уже спрашивал вот тут >>1043468 мне никто ничего не ответил. Магнум кстати получше цидонии оказался как по мне. Я бы назвал его Цидония+, такие же залупы встречаются, но пишет интереснее, гораздо меньше бреда вроде кондиционера в фэнтези сеттинге.

>Ничего криминального в этом нет, нормальная связка. Температуру можешь только подкрутить при желании.
Понял, спасибо.
Аноним 07/02/25 Птн 13:12:05 1045487 399
>>1045452
>Его диситиляты говно ебанное.
Дистилляты р1 - охуенные. Это просто кум - говно вместо задачи.
Аноним 07/02/25 Птн 13:28:07 1045503 400
>>1045482
>мне никто ничего не ответил
Не удивительно, тред давно превратился в обнюхивание инфопердежа. Иди на реддит глупой таверны, там каждую неделю мутят отдельный тред, где обсуждают лучшие модели для локалок и стриминга.
Аноним 07/02/25 Птн 13:28:11 1045504 401
>>1045477
Правильно ли я понял, что ты сам катаешь полноценный дипсик на своей машине ? А не покажешь, посмотрю хоть на боярина.
Аноним 07/02/25 Птн 13:29:20 1045506 402
Господа, поясните, пожалуйста, про q6 и q8 для 12b моделей - q8 просто плацебо?
И второй вопрос - я тупой, ткните меня лицом как заставить в угабуге (или в Кобольде, и то и то меня устроит) сначала полностью забивать слоями/контекстом одну из видеокарт, а потом уже начинать закидывать контекст на другую.
Аноним 07/02/25 Птн 13:35:00 1045513 403
>>1045506
Есть возможность пихать восьмой квант - пихай восьмой квант. Не будешь пихать - много не потеряешь, а разницу будешь искать с лупой. Есть поверие, что те псевдо восемь бит это почти те же самые неквантованные 16 и 32 бита соответственно, по этому некоторые юзают их чтобы точность была максимально возможной.
Аноним 07/02/25 Птн 13:36:39 1045514 404
>>1045506
Смотри. Если кратко (Да я знаю что упрощенно)
То : чем больше модель, тем адекватней малый квант.
Условный 12b в 5 кванте будет шизить, 27б уже не будет так шизить.

>>1045503
И по сути они обсуждают там тюны мистрали. It's all same shit. Как только появляется что то интересное, то в треде это сразу обсуждают.
Да и вообще приноси сам. Я с удовольствием пообсасываю модельки, даже своё кря напишу.

>>1045487
И с какими же задачами он так прекрасно справляется, что с ними не могут справиться другие жирные модели ?

>>1045477
>полноценный
/acig/ тред на два квартала ниже boy.
Аноним 07/02/25 Птн 13:39:20 1045517 405
>>1045415
Посоны иму албанский ни нравицца! Пиздим!

>>1045436
И за меня крякни!

>>1045506
Например, на коротких диалогах с 16 гигами я юзаю 8 квант, потому что контекст просто не нужен и можно вместо 24к-32к забить 12к-16к и его хватит.
Но и шестым квантом не гнушаюсь на 12-гиговых видяхах.
12б — не 7б, там не все так страшно, вполне себе юзабельно. Под лупой, да.
Аноним 07/02/25 Птн 13:42:36 1045520 406
>>1045514
>И по сути они обсуждают там тюны мистрали. It's all same shit.
Там тред тематический, обсуждаются только модели. У нас всё от трассированного кожака хуанга до самопальных охладов на теслы.
>Как только появляется что то интересное, то в треде это сразу обсуждают.
Обсуждаются в основном только пуки всхрюки, когда нет новых моделей для обсоса. Но в последние пол года у нас правда ничего нового и интересного не выходит, так что тут да.
>Да и вообще приноси сам. Я с удовольствием пообсасываю модельки, даже своё кря напишу.
Приношу периодически, только это мало кому интересно видимо.
Аноним 07/02/25 Птн 13:42:53 1045521 407
>>1045470
>ты вообще рассматриваешь этот слоп годовалой давности, когда уже есть куча нормальных тонов.
И тут ты конечно вкидываешь пачку примеров... Что? Нет? Боишься что тебя обсосут?
Когда уже до вас дойдет что без релевантного примера ваше мнение делится на ноль.
Аноним 07/02/25 Птн 13:43:20 1045522 408
image 675Кб, 630x543
630x543
>>1045438
>думать на другом языке
Проще чем кажется.
Не надо переводить - надо сопоставлять понятия со словами другого языка.
Чувствуй, а не думай. Используй свои инстинкты.
Аноним 07/02/25 Птн 13:46:26 1045525 409
1676946163614.png 56Кб, 635x721
635x721
Аноним 07/02/25 Птн 13:46:32 1045526 410
>>1045522
Мой инстинкт говорит что в моем возрасте уже пора умирать, а не языки учить.
Аноним 07/02/25 Птн 13:50:23 1045528 411
>>1045487
Все верно, просто тут в основном кумеры и как ты заметил у них другие критерии оценки сеток
Для кумеров не важны мозги сетки если она плохо рпшит
Новый мистраль хорош в выполнении инструкций, рабочая лошадка разных агентов, но как ты понял тут он не оценен, так же как и другие модели
Просто игнорь долбаебов, вон тут можешь глянуть инфу и новости по локалкам https://www.reddit.com/r/LocalLLaMA/top/
Аноним 07/02/25 Птн 13:50:49 1045530 412
Аноним 07/02/25 Птн 13:51:15 1045531 413
>>1045517
>И за меня крякни!
Мужики. Вместе. Сила.
Как время пролетело, вроде только вчера в универ поступил. Как мы быстро постарели, анон.
KRYA

>>1045520
>Там тред тематический, обсуждаются только модели. У нас всё от трассированного кожака хуанга до самопальных охладов на теслы
Лучше так чем выжженная поляна. Я на самом деле уже понимаю анонов из треда чатботов, что приходят с вопросами, потому что в той клоаке обсуждать что то бессмысленно. Вот и варимся тут вместе, хуле.
>Приношу периодически, только это мало кому интересно видимо.
А вот и нет. Я айю все еще трогаю, но по сути тот же командр. Поэтому и нечего писать.
Просто приноси и не жди одобрения. Нормальный анон запомнит и ответит. Вот тут в тредах цидонькошиз бегает и ему норм.

>>1045522
Я пытался. Я в гермашке 3 года прожил, но все равно в голове возникало : ЗАВАЛИ ЕБАЛО, ПРОСТО ЗАВАЛИ, Я ТЕБЯ НЕНАВИЖУ, ТУПОЙ НЕМЕЦКИЙ ДЕГЕНЕРАТ.

>>1045526
Мне 36 лет, я только только смирился с тем кто я есть и принял себя. Начал жить. А ты блять ноешь, что тебе пора умирать ?
ARE YOU AHUEL TAM ?
Аноним 07/02/25 Птн 13:56:34 1045533 414
КРЯ!
Такое ощущение что нормально интерполируют веса только linear и slerp, остальные считают-считают, а потом берут тензоры целиком, либо от одной модели, либо от другой, в зависимости от того что насчитали. Вот и получается что-где дёрнется, то и вызовется кусок от какой модели в мерже.
Аноним 07/02/25 Птн 13:56:50 1045534 415