/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №104

Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №104 /llama/ Аноним 30/01/25 Чтв 18:42:14 № 1034116 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1030272 (OP)
>>1023230 (OP)

Аноним 30/01/25 Чтв 18:49:01 № 1034122 2

БАЗА ТРЕДА ПО ХАЙПОВОМУ DEEPSEEK.

Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.

Аноним 30/01/25 Чтв 18:52:50 № 1034127 3

image.png 84Кб, 1034x196

>>1034124 →
Ну думаю в допросах реально можно ресетать диалог каждый раз, после каждого допроса идет результат и информация о нем больше не важна. А вот удалять в длинных диалогах что либо будет проблемнее.

Аноним 30/01/25 Чтв 18:53:19 № 1034128 4

Попробовал дипсик, делюсь впечатлениями.

>DeepSeek-R1-Distill-Qwen-1.5B
Хуита полная. Цепляется за первый вопрос и подстраивает ответы под него. Я говорю забудь весь контекст, а оно все равно цепляется и генерит хуету. Просишь чекнуть грамматику - с какого-то хуя исправляет предложение и чекает грамматику уже его.
Может выдавать лишние символы или слова, абсолютно не связанные с вопросом.

>DeepSeek-R1-Distill-Qwen-7B
Получше. Следует инструкциям. Количество букв R в слове strawberry считать умеет, а в вариациях написания - уже нет, выдает хуету. Сумела сказать, когда вышла GTA: SA, а с GTA: VS обосралась капитально - подумала, что это Vice City Stories, и все равно в итоге обосралась с датой.

>DeepSeek-R1-Distill-Llama-8B
Количество букв R в вариациях слова strawberry считает через раз. С датой правильно ответила. Простой код сгенерить сумела. Грамматику проверяет вроде бы нормально. По крайней мере базируется ровно на том, что я ввёл.
Не знаю, буду ли пользоваться, потому что есть ощущение, что она будет галлюцинировать в будущем.

Остальные модели работают очень медленно на моем железе - устал ждать, пока они печатают ответ со своими рассуждениями, и дропнул.

Аноним 30/01/25 Чтв 18:58:12 № 1034129 5

>>1034128

Какие настройки использовал?

Аноним 30/01/25 Чтв 18:58:49 № 1034130 6

>>1034116 (OP)
>https://huggingface.co/Aleteian
"Мама, я в телевизоре"
Спасибо.

Аноним 30/01/25 Чтв 18:59:13 № 1034132 7

>>1034128
а какая у тебя видяха? я бомжик с 4 гига видяхи, и за сим особо не лезу даже в локалки, получится ли на 7б параметры залететь?

Аноним 30/01/25 Чтв 18:59:52 № 1034137 8

>>1034129
Какие настройки? Я просто модель отсюда взял

https://ollama.com/library/deepseek-r1

Аноним 30/01/25 Чтв 19:00:01 № 1034138 9

>>1034130
Отработаешь ещё, делая мержи по заказам анонов.

Аноним 30/01/25 Чтв 19:00:35 № 1034139 10

>>1034132
4060 8Gb
8b летает очень быстро. 14b - тормозит пиздец

Аноним 30/01/25 Чтв 19:00:41 № 1034140 11

>>1034137

А, ты оллама-инвалид, тогда нет вопросов.

Аноним 30/01/25 Чтв 19:01:51 № 1034144 12

>>1034122
> которые уступают уже существующим моделям
Это каким таким? 32В и 70В ебут всё остальное в своих размерах.

Аноним 30/01/25 Чтв 19:04:02 № 1034146 13

>>1034127
Почитав несколько тредов и чуток потеребив модельки я тут задумался. А модель же не может выполнить это указание из карточки персонажа? Чтобы ей запомнить, она должна это написать в сообщение чтобы запихнуть это в контекст?

Аноним 30/01/25 Чтв 19:04:12 № 1034147 14

>>1034138
Ну, последняя идея анона где чисто новая сайга и старый немомикс анлишед вышла очень даже. Я правда пока не смог побольше карточек потестить, занят был по делам да работе, но в целом оно прям зашло.

https://pixeldrain.com/u/3pgXCAyD Sasha.saved_story.json

Аноним 30/01/25 Чтв 19:04:43 № 1034149 15

>>1034144

В чем ебут-то? В неотключаемом растекании мыслями по древу под тегом <think>?

Аноним 30/01/25 Чтв 19:05:55 № 1034151 16

>>1034146

Все от модели зависит. 70+В смогут.

Аноним 30/01/25 Чтв 19:05:56 № 1034152 17

>>1034146
>А модель же не может выполнить это указание из карточки персонажа?
Некоторые могут вывернуться, в зависимости от того на чём обучали, на каких художественных книгах и чат-логах.

Аноним 30/01/25 Чтв 19:06:20 № 1034154 18

image.png 47Кб, 1070x284

>>1034122
и смысл его обсуждать если он не работает блять из-за журнашлюх которые его хайпнули

Аноним 30/01/25 Чтв 19:06:22 № 1034155 19

>>1034140
Мог бы не оскорблять, а пояснить.

Аноним 30/01/25 Чтв 19:08:22 № 1034161 20

>>1034149
Как минимум в логике и кодинге. 70В в кодинге почти как дипсик V3. До этого лучшая модель для кодинга была квен кодер 32В - она очень сильно хуже R1 70В.

Аноним 30/01/25 Чтв 19:08:32 № 1034163 21

>>1034152
>>1034151
Ну я на Nemo-Instruct-2407, который пердит и пытается меня радовать на моих 8гб, так что полагаю каждый вердикт - это русская рулетка для меня.

И да, ответ - допель, свайп - и уже человек.

Аноним 30/01/25 Чтв 19:09:06 № 1034166 22

>>1034155

Поясняю - принято подключать бэк к таверне и там настраивать настройки. Как там в олламе настройки делаются и подключается ли она впринципе к таверне - я не знаю.

Аноним 30/01/25 Чтв 19:10:24 № 1034169 23

>>1034155
DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf

Для 12-16 VRAM видяхи покатать.

>>1034155
>пояснить
С обниморды все качают, и дипсик ггуфы там же там же.
Тут все сидят на кобольде + таверна или чисто кобольде.
Остальные фронты вспоминают разве что матерно.

Аноним 30/01/25 Чтв 19:10:37 № 1034170 24

>>1034130
Где мерджи норбольших моделей?

Аноним 30/01/25 Чтв 19:12:36 № 1034174 25

Что-то у меня сегодня обниморда лагает и мерждкит мозги ебёт Их там дудосят?

Аноним 30/01/25 Чтв 19:14:21 № 1034179 26

>>1034163
Еще и моделька на совесть давит, охуевшая пизда.

Аноним 30/01/25 Чтв 19:15:27 № 1034183 27

>>1034170
У меня 16 врам (вернее даже 12+4), максимум на ноуте я могу запустить 22Б в шестом, или 32Б в четвёртом кванте.

Если есть версии как выжать побольше из 22Б мистраля например и скрестить ежа с ужом пантеон с цидонией - I'am all ears.

Один мерж есть, скачан больше тысячи раз суммарно, но также один (?) анон говорил что этот мерж ему мозги выел.

Аноним 30/01/25 Чтв 19:16:34 № 1034187 28

Все еще пытаюсь на 8 гб карте сделать нормального помощника для промпт-гена для стейбл дифьюжен. Пока что не получается. В карточку уже понаписал все что мог — предпочтение на короткие теги, следование структуре, нехудожественный язык — не помогает, даже при демонстрации необходимого в диалоге. С фантазией хорошо, но теги постоянно срываются на длинные описательные фразы. Использую 12B Mag-Mell R1, как лучшую из 4-5 моделей, что попробовал. Советы? Думаю нужна какая-то не рп модель но я не шарю.

Аноним 30/01/25 Чтв 19:18:34 № 1034190 29

>>1034187

Мне кажется РП тут не помощник, попробуй просто nemo-instruct дефолтный.

Аноним 30/01/25 Чтв 19:22:17 № 1034197 30

>>1034169
>Для 12-16 VRAM
А для 8Гб есть что? Мне не дрочить только, мне вопросы ей задавать, иногда кодить.

Аноним 30/01/25 Чтв 19:27:35 № 1034207 31

по ощущению дипсик 8б похуже будет чем другие модели но 7б параметров. Пихает китайские иероглифы и шизит только так. да и CoT ему только во вред на малых параметрах мне кажется идет

Аноним 30/01/25 Чтв 19:29:55 № 1034210 32

>>1034183
Правильно ли понял что проблема в тестировании?
> 32Б в четвёртом кванте
Вот это уже будет хорошо
> Если есть версии как выжать побольше из 22Б мистраля например и скрестить
В мерджах не шарю, какая-то алхимия в буквальном смысле. Могу за тренировку пояснить, но там нормально обучать в какие-то условно разумные сроки - это 12б максимум, и то не захочешь. И на хороший датасет нужно опиздохуя сил потратить.

Аноним 30/01/25 Чтв 19:34:57 № 1034219 33

>>1034183
>мерж ему мозги выел.
Я тот анон, там все неоднозначно. Просто у меня скорее претензии к пантеону. Мерж нормальный, для тех кто ищет чуть похорни пантеон заебись зайдет.

Аноним 30/01/25 Чтв 19:38:30 № 1034221 34

Какой же магнум ебливый, сука, пожрать не дает - уже в трусы лезет.

Аноним 30/01/25 Чтв 19:46:05 № 1034226 35

>>1034190
Mistral-Nemo-Instruct-2407? У меня только Q3_K_M влезет.

Аноним 30/01/25 Чтв 19:48:16 № 1034232 36

>>1034211 →

Наш мозг также работает.
Каждую ночь происходит суммарайз контекста и просыпаясь мозг накатывает его заново. Можно стереть контекст человеку и записать другой, человек будет слепо следовать этому.

Аноним 30/01/25 Чтв 19:52:50 № 1034237 37

>>1034169
>DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
>
>Для 12-16 VRAM видяхи покатать.
А как ее туда запихать? У меня только q3 с 5к контекстом влезает в 16гб

Аноним 30/01/25 Чтв 19:54:04 № 1034238 38

>>1034232
> Каждую ночь происходит суммарайз контекста
Ебал я этот сумарайз, я каждое утро просыпаясь думаю это я наяву сделал или во сне? На столько обыденные вещи снятся.

Аноним 30/01/25 Чтв 19:55:57 № 1034239 39

>>1034197
> мне вопросы ей задавать, иногда кодить
Тогда береи не рп-тюн, а стоковую instruct модель, 6 квант 12Б норм будет, весь на видяху конечно не влезет, но должен быть адекватен.

Аноним 30/01/25 Чтв 19:58:28 № 1034244 40

>>1034239
>стоковую instruct модель, 6 квант 12Б норм будет
Мистраля?

Аноним 30/01/25 Чтв 20:00:38 № 1034246 41

>>1034128
Оно с 14b отвечает лучше чем модель которую взяли за основу дистиллята.
Тоесть то что ты тестил хуже чем их основа.
Ну и как написали чем больше сетка тем больше профита от дистилляции.

Аноним 30/01/25 Чтв 20:01:51 № 1034248 42

image.png 158Кб, 1883x707

image.png 74Кб, 1920x544

image.png 75Кб, 1919x480

всем привет и это анон который запустил 14 лярдный дипсик на ноутбучную 3050
не знаю о чем там жаловался анон с 4060 которому показались 14 лярдов очень медленными. Да, небыстро, но 2 слова в секунду да отвечает.
На русском конечно иероглифы, вставки из англюсика. Параметров маловато будет, чтобы писать на нём конечно. Но на английском все норм.
В слове strawberry посчитал две буквы r, вот умора.
по марксу решил записать поскольку бот же китайский, там коммунисты правят, ну немудрено что ответил он нормально
по дате выходов игор ответил везде правильно

Аноним 30/01/25 Чтв 20:02:37 № 1034251 43

>>1034210
>И на хороший датасет нужно опиздохуя сил потратить.
А пример датасета можешь показать?

Можно буквально на десяток записей, просто понять как он должен выглядеть и что собирать.

>>1034237
>А как ее туда запихать?
С кобольдом у меня шло на трёх токенах в секунду.

>>1034244
>Мистраля
Можно мистраля, например Dolphin ещё вроде ок как ассистент.
Но не принципиально, мистрали юзают за то что и русская Сайга на нём, и топовые рп модели, а тебе не то ни другое.

Аноним 30/01/25 Чтв 20:02:40 № 1034252 44

>>1034155
оллама для инвалидов, перекатывайся оттуда в кобальд, а с ним подключайся к таверне.
Там все и настроишь при запуске. Если правильно настроишь еще и быстрее будет работать чем на олламе.

Аноним 30/01/25 Чтв 20:06:49 № 1034263 45

>>1034251
>С кобольдом у меня шло на трёх токенах в секунду
Ну это уже отжор от цпу и обычной рамсы, я думал как то можно прям только в врам запихнуть

Аноним 30/01/25 Чтв 20:10:59 № 1034268 46

>>1034028 →
Ггуф?

Аноним 30/01/25 Чтв 20:12:05 № 1034270 47

>>1034268
Ггуф есть у батрухи: https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF

Аноним 30/01/25 Чтв 20:31:27 № 1034289 48

А новый мистраль хорош. Русик на уровне Gemma-2 27b, качество ответов плюс-минус так же. При этом на 12гб гпу Q4_K_L квант стартует на 7.5 т/с, что аж вдвое быстрее геммы! УХ СУКА. Вот именно это мне и было нужно

Аноним 30/01/25 Чтв 20:38:10 № 1034298 49

chat.qwenlm.ai.jpg 873Кб, 2300x6871

chat.deepseek.c[...].jpg 248Кб, 2300x2012

>>1033915 →
У дипсика нет смотрелки пока, я пробовал квен - но он слишком тупой.
Но дипсик норм справляется даже если ему нихуя не поясняя тупо кинуть 2 сейва в ебало, а с моделью ваще заебок будет.

Аноним 30/01/25 Чтв 20:43:27 № 1034310 50

>>1034252
Почему не Exllamav2?

Аноним 30/01/25 Чтв 20:49:34 № 1034320 51

изображение.png 15Кб, 2301x104

>>1034289
На паре ГПУ восьмой квант выглядит увереннее.
>>1034310
Там чел 1,5B запускает, куда ему эксель.

Аноним 30/01/25 Чтв 20:51:26 № 1034322 52

>>1034310
Новичку и эксламу советовать? У него еще и 8 гб врам вроде.

>>1034298
Там же новая полностью мультимодальная сетка вышла от дипсика
https://huggingface.co/deepseek-ai/Janus-Pro-7B
Должна быть хороша в распознавании изображений

Аноним 30/01/25 Чтв 20:53:22 № 1034325 53

>>1034322
>Должна быть хороша в распознавании изображений
Хотя нет, там разрешение фиговое 384 x 384. Ну или оно там как то маштабируется.

Аноним 30/01/25 Чтв 20:55:20 № 1034331 54

>>1034322
>Там же новая полностью мультимодальная сетка вышла от дипсика
Генерит изображения квадратом в 384 пикселя, лол. Это даже не уровень SD 1.5.
>Должна быть хороша в распознавании изображений
Там https://huggingface.co/timm/ViT-L-16-SigLIP-384 для картиночного энкодера, то есть те же 384 x 384 на вход. Ебало нейронки, которая в этом шуме будет распознавать текст, представили? Уже были мультимодалки с 1 мегапикселем входа, так что мимо скорее всего.

Аноним 30/01/25 Чтв 20:57:26 № 1034334 55

>>1034331
Да, надо тупо брать другие мультимодалки. Выходили ведь недавно с нормальным разрешением, тот же новый qwenvl2.5

Аноним 30/01/25 Чтв 20:59:12 № 1034339 56

>>1034226
Он влезет и в большем кванте, просто выгрузишь слои в оперативу. Для твоей цели скорость же не важна. И магмел же такого же размера, это мерж тьюнов немо-инстракта. Тоже думаю, что тебе чистый инстракт нужен, а не рп. Сторирайтинг и эмоциональные ответы тут тебе будут только мешать. Можешь и плюс-минус чистые 8б попробовать, например эту с попытками в убирание цензуры и байаса к пользователю, чтобы не читала нотации в ответ на просьбы про нсфв теги https://huggingface.co/bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF
И ещё чекни системный промпт, чтобы там не стоял промпт для ролплея. Напиши что-нибудь простое, типа "Play the role specified below", а ниже пойдёт карточка с подробными инструкциями про теги и примерами.

Аноним 30/01/25 Чтв 21:04:01 № 1034342 57

>>1034322
>>1034320
А зачем тогда это в гайде?

>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp (на амперах и новее, на более старых картах результат не однозначный), требует меньше памяти на ту же битность и тот же контекст.

Аноним 30/01/25 Чтв 21:06:10 № 1034343 58

>>1034334
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

>>1034342
Потому что екслама только врам, а кобальд и все остальные программы основанные на llama.cpp могут использовать и врам и рам, распределяя нагрузку между гпу и процессором.
Как и оллама, которая основана на llama.cpp же, о чем они как всегда умалчивают.

Аноним 30/01/25 Чтв 21:06:28 № 1034344 59

>>1034339
>выгрузишь слои в оперативу
Как это сделать в угабуге?

Аноним 30/01/25 Чтв 21:06:50 № 1034345 60

>>1034251
> пример датасета
Тебе для чего? Сама структура датасета тривиальна - это просто диалоги, в которых можно выделить персонаж 1 - персонаж 2. Просто на обниморде зайди в раздел датасетов и поставь фильтр для текста.
А дальше уже идут нюансы: в хорошем датасете есть описание каждого из персонажа. Присутствуют несимметричные диалоги (короткие сообщения юзера, длинные от нейронки), это все классифицировано и оценено так, что для каждого набора идут дополнительные промты (самый простой пример - длина ответов). Сам датасет является не фиксированными блоками, а заготовка, которую можно динамически формировать в правильную последовательность в ходе обучения. Не должно быть примитивного треша с односложными и тупыми диалогами как в сайге, обязательно разбавление каким-то дженериком и "загадками". И много чего еще.
Ну и самое важное - найти хорошие исходники без министрейшнов.
>>1034322
> Новичку и эксламу советовать?
Так-то она наоборот проще и не имеет всего объема пердолинга что у жоры. Одна беда - без гпу не работает.
> https://huggingface.co/deepseek-ai/Janus-Pro-7B
Херня как по распознаванию, так и по генерации.
Сама прямая перегонка токенов и пиксели - мертворожденная херь, и здесь это в очередной раз демонстрируется.
>>1034331
> то есть те же 384 x 384 на вход
В порядочных сетках картинка нарезается на вот такие тайлы и всей пачкой передаются на вход, все прекрасно распознается.
> Уже были мультимодалки с 1 мегапикселем входа
Там и 2-3, и несколько картинок, и даже видео можно.

Аноним 30/01/25 Чтв 21:07:14 № 1034347 61

>>1034339
Ты же видишь какие вопросы он задает и что говорит. Объясни ему как выгрузить контект и слои в оперативу.
Так работает «проклятие знания» (или «проклятие экспертности») – это когнитивное искажение, когда человек считает, что в хорошо знакомой ему теме остальные ориентируются так же хорошо, как и он сам.

Аноним 30/01/25 Чтв 21:07:53 № 1034348 62

>>1034289
>А новый мистраль хорош.
Посмотрим, что покажет Ларж. Хотя лично я крепко надеюсь на 4-ю Лламу. У меня она в 6-м кванте даёт на 30% больше скорости, чем 123В в четвёртом, а отказаться от него невозможно. Но вот попробовал NevoriaMS и прямо воспрял - есть-таки жизнь на Марсе на Лламе! Если четвёртой ума добавят, то будет прямо вообще хорошо.

Тут к сожалению очень многое зависит от качества тюнинга и от удачи алхимика-смесителя, это да.

Аноним 30/01/25 Чтв 21:36:32 № 1034378 63

>>1034345
>Тебе для чего?
Для рп/стори вестимо, вообще хотел просто любимые книги нарезать и скормить, вроде бы Wayfarer тренился просто на парах сообщений в стиле "User: ой как страшно, наверно там опасно, давайте туда пойдём. GM: вы были съедены мрачником, только косточки прохрустели в его зубастой пасти. После этого монстр, оставляя кровавые следы, скрылся обратно в своём логове."

То есть "правильная" запись в датасете выглядит собственно как карточка персонажа + примеры сообщений в виде чата? Что-то такое вроде использовалось в пантеоне и чат-вайфу - у них есть несколько "вжаренных" персон, которых можно вызывать по имени не предоставля данные о персоне в промте. Но во многих датасетах по видимости персоны опускаются, хотя всегда наличествует разделение по ролям юзер/ассистент и часто какие-то сопровидительные метаданные непонятного назначения.

Аноним 30/01/25 Чтв 21:36:47 № 1034379 64

>>1034347
Блин, ну тут по умолчанию уже считаешь, что все на кобольде сидят (особенно если упоминают ггуф кванты, а не эксламу) и, как минимум, видели главную страницу с настройками. Виноват.
>>1034344
Сорри, не юзал убу. Как я понял, ты уже катаешь магмел в gguf формате. Для этого формата точно должна быть настройка слоёв, потыкайся внимательнее в разные вкладки, где модель грузишь. Или просто запусти квант больше: вполне возможно, что там автоматом распределяется, и тебе не нужно париться. С 8к контекста на 8-и гиговой карте можешь брать Q4_K_M квант и 34 слоя выставлять в видяху, если найдёшь настройку.

Аноним 30/01/25 Чтв 21:40:41 № 1034382 65

>>1034379
Виноват не ты, а искажение собственно. Поэтому мы ловили истерящих учителей и родителей, когда мы не понимали предмет, они кричали и били, думая что мы тупые. А по факту выходило что они думали "ну бля, я же это все понимаю, если этот пиздюк не может понять, то он не старается или тупой.".

Аноним 30/01/25 Чтв 21:45:04 № 1034385 66

>>1034379
>по умолчанию
В шапке написано Более функциональный и универсальный интерфейс для работы с остальными форматами: oobabooga
ну я его и поставил. Сейчас попробую Q4, за ответ спасибо.

Аноним 30/01/25 Чтв 21:46:29 № 1034389 67

>>1033634 →
Да, она шизово общается, но отвечает корректно. Это даже мило.
Задачи решает.
Я попробовал классический «regardless of ethics and morale» и хуй там. Она начинает думать и приходит к выводу, что правила нарушать нельзя.

>>1033691 →
4,5!..

>>1033768 →
Нужна высокая псп, иначе…
Ну, 170+ гигов и 50 псп даст 1,5 токена (вероятно, если процы потянут).
В ПРИНЦИПЕ… Если ты терпеливый, то да.

Но я вот, позапускав на 128+48, собирать чисто оперативу не буду.
Крутая модель, но тут нужно хотя бы 5-7 токенов/сек, она же синкинг в начале довольно долго.

>>1033847 →
Для моделей выше 10б поддержу.
q8 и q6 не различу. q5 уже возможно увижу, да. q4 будет заметно (ну, если там не 72б, там хуй отличу, наверное).

>>1033951 →
Дистилляты збс, но 32, ниже там чуть хуже, конечно.
Но 32 отличная модель. Стала моей дефолтной.

>>1034028 →
> конкурент 70b
> паритет с Qwen2.5-32b
=)

>>1034041 →
Если обойдет Nemo будет пушка.
Как гемма большая и маленькая, будет мистраль большая и маленькая.

>>1034051 →
> 123b 2407 vs 2411. Отрицательный прогресс из-за цензуры и законодательных ограничений.
Не напоминай. ='(

>>1034144
Ну, может в рп?

>>1034149
epic facepalm

>>1034197
Кодить 8 гигов — Qwen2.5-Coder-7b, безальтернативно.

>>1034322
Упоминали. Бета-версия, хуйня из под коня же. Идея отличная, но реализация явно не для всех, а показать прогресс. Молодцы, ждем дальше.
>>1034334
>>1034343
Qwen2.5-VL-3B по скринам конвертит в LaTeX изи без ошибок.
И Oblivion угадал, тепло сердечку.

Аноним 30/01/25 Чтв 21:47:49 № 1034392 68

Зачем он это делает?

Аноним 30/01/25 Чтв 21:48:05 № 1034393 69

>>1034385
Но как ньюфаг советую тебе кобольда накатить для начала. Он понятен, по нему есть вики, понятная (относительно). И он намного проще. Вкладки, ползунки, сиди слушай тред и тереби.

Аноним 30/01/25 Чтв 21:49:50 № 1034402 70

>>1034392
Кто? Зачем гитхаб автосборку запускает?

Аноним 30/01/25 Чтв 21:49:57 № 1034403 71

>>1034344

Вот этот параметр определяет число слоев, выгруженных в видеокарту, соответственно остальные идут в оперативку.

Аноним 30/01/25 Чтв 21:50:31 № 1034404 72

>>1034402
Да. Нахуй он так сделал? 3000 релизов, сука.

Аноним 30/01/25 Чтв 21:51:22 № 1034407 73

сравнение оригинального дип-писика, ламы 405, и 70б дистилята с дипсика, как по мне перенялась только дурная манера выкатывать стену раздумий, и если б это не в облаке с ~250 ток/с генерило, то я б три дня результат ждал бы...>>1034404

Аноним 30/01/25 Чтв 21:51:53 № 1034408 74

>>1034385
Он действительно более функциональный и универсальный, потому что в него запихнуто несколько инференс движков для разных форматов моделей. Но когда у тебя маленькая видяха, то большинство из них для тебя бесполезны. По факту ты пользуешься той же llamacpp, которая и в основе кобольда.

Аноним 30/01/25 Чтв 21:52:48 № 1034411 75

>>1034404
Про CI никогда не слышал?

Аноним 30/01/25 Чтв 21:52:50 № 1034412 76

>>1034404
а почему бы и нет, чел просто дает самую свежую борку с последними комитами, хуже когда релиза и багфиксов по 3 месяца ждать надо

Аноним 30/01/25 Чтв 21:53:57 № 1034416 77

>>1034411
Ты Release и CI отличаешь? Или в твоей говнокомпании так же сделано, как у него?

Аноним 30/01/25 Чтв 21:54:29 № 1034418 78

>>1034408
правда у угабуги API не такое кривое как у кобольда, а с кобольдом не все программы дружат

Аноним 30/01/25 Чтв 21:55:36 № 1034422 79

>>1034403
Я бы как мимо ньюфаг, который срет в эти треды не первый день, хотел бы вообще гайд по настройкам, как те же вопросы про кванты контекста, Как работает контекст (на пальцах сука). Что такое слои. Что есть n_banch, почему не стоит верить выставленным слоям кобольда и стоит ебануть чуток больше. Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке. Ты решил написать слово кванты в гайд? Объясни что чем меньше квантов, чем меньше IQn, тем тупее модель и тд.

Аноним 30/01/25 Чтв 21:55:41 № 1034424 80

>>1034416
Чухан, ты видишь что это выхлоп от CI гитхаба или нет?

Аноним 30/01/25 Чтв 21:57:23 № 1034435 81

>>1034424
Ой блять еблан все с тобой ясно - обосрался и пытаешься выкрутиться вместо того, чтобы признать и поехать дальше.

Аноним 30/01/25 Чтв 21:59:10 № 1034439 82

>>1034422
>Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке.

Хм, а что же у нас там первой ссылкой в шапке? Хм.

>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Аноним 30/01/25 Чтв 21:59:41 № 1034440 83

Мистраль 3 кал сынок.

Аноним 30/01/25 Чтв 22:06:35 № 1034455 84

>>1034439
Да хуйня ваша вики, ты сам давно в нее заглядывал? Она написана нихуя не для ньюфагов.
>самые младшие из "умных" в настоящее время содержат ~7 миллиардов весов
Что такое веса? Что такое не кватованные веса? Что такое n_banch? Ты заглядывал в вики кобольда например? Там даже не объясняется что такое квантование контекста, просто как факт что есть 16, 8 и 4.
Чел, проклятье знания. Мы в душе не ебем что все это такое. Нет какой то базы, объясняющей что это делает о, а это делает это.

Аноним 30/01/25 Чтв 22:07:07 № 1034456 85

>>1034378
Ну смотри, ты должен кормить нейронку тем, что потом от нее ожидаешь. Но это должен быть не просто странный слоп на тему, а четко обоснованные реплики и ответы с учетом задания. То есть, там должен быть системный промт, базовые указания, описание персонажей, правильная разметка и т.д. К токенам должна идти маска, которая покажет где "вход" а где "выход". Если у тебя без какой-то подводки просто пойдет диалог - сетка ошизеет и начнет рандомно бредить подобными структурами, а если в датасете сплошной текст из книги - будет совсем плохо.
После правильной разметки и полноты последовательностей идет аугментация. Если будешь кормить одним и тем же - сетка научится повторяющимся вещам и постоянно будет их высирать, те самые волки и размахивания бедрами, только в структурах, именах, лупах на одинаковые последовательности и т.д. Поэтому хороший подход - датасет в виде заготовок чатов с регэкспами и еще лучше ветвлениями (или просто рандомной длиной диалога), которые формируются на лету, меняя имена, подсовывая дополнительные указания/промты где надо (но не всегда), полезно менять стиль сообщений, описаний и т.д. Если классический инстракт режим то там будет формирование инструкции со всей историей а потом один ответ.
> у них есть несколько "вжаренных" персон
Классический пример корявого обучения, особенно явно это выражается когда применяется не полновесный файнтюн, а лора.
Можешь откопать старье в виде датасета llimarp, он на редкость удачно структурирован и из него легко делать промты и диалоги под нужный формат, а также сразу заложить указание по желаемой длине ответа как самый простой пример дополнительных указаний.
Если хочешь сторитейл - парси готовые истории на части разных размеров, которые будут помещяться в 500-1000 токенов стандартного ответа, а также придумывай к ним задания и описания разной степени подробности как запрос юзера.

Ну и наконец, если у тебя в датасета сайга с односложными дебильными диалогами - со всем этим как не ебись, оно отравит выдачу.
>>1034393
В нем нет простоты и универсальности, наоборот при запуске вагон лишнего, а сам интерфейс чата - унылое говно. Из плюсов может быть более быстрая работа из-за особенностей билда, но по руку с ней идет некорректная работа не разном железе, из-за чего и появляются эти привередливые до кванта бедолаги.
>>1034422
> хотел бы вообще гайд по настройкам
Хотеть не вредно. Принимаем донаты криптой, скинешь что-то существенное - можно будет подумать.

Аноним 30/01/25 Чтв 22:09:47 № 1034464 86

>>1034456
> а сам интерфейс чата - унылое говно
Дак сразу надо говорить чтобы ньюфаг подключался к таверне, желательно на пальцах.
> Принимаем донаты криптой
Могу принять мой хуй тебе за щеку, шепнуть на ушко и повилять бедрами, пока ты разглядываешь мой наряд который не оставляет простора воображению.

Аноним 30/01/25 Чтв 22:10:04 № 1034465 87

>>1034455
потому что чтобы понимать все это нужно знать хотябы основы устройства нейронок и принцип их работы, если ты неосилятор, то не лезь в локальные, облако юзай и не морочь голову

ну или возьми сам напиши вики правильную, тем более у тебя нейронки есть

Аноним 30/01/25 Чтв 22:10:39 № 1034469 88

>>1034456
>вот эта вся ебля с сетками
Почему нельзя сделать сетку которой можно скормить вообще все нахуй информацию с рождения христова без разметок и прочей хуйни, а там сетка уж сам разберётся что к чему
А то с такой еблей никакого аги не будет

Аноним 30/01/25 Чтв 22:12:22 № 1034471 89

>>1034378
> Но во многих датасетах по видимости персоны опускаются
Да, вот эта штука зависит конкретно от формата размерки. Если там мультитурн типа chatml и стандартные user/assiatant то все просто и имена идут только внутри содержимого постов для правильного содержания. Если там используется какая-то дичь с индексами в виде имен персонажей (или после укзания роли задрачивается префилл имени что тоже часто бывает и иногда полезно) - будут те самые имена.
>>1034464
> Могу принять
По тебе видно что уже принимаешь
>>1034469
Потому что злой хуанг захватил все видеокарты, но святой дипсик снизошел чтобы избавить нас от необходимости в них.

Аноним 30/01/25 Чтв 22:14:13 № 1034476 90

>>1034465
Orly? Просто написать ньюфагу что чем ниже IQn в модели, тем она тупее, чем меньше размер (даже ссылаясь на размер одежды, ибо по такому примеру и следуют квантованные модели) сказать, что чем меньше, тем тупее. Сквантовал контекст? Модель отупела. Подключил rocm? Амуда будет быстрее, но не факт что пойдет у всех. И тд и тп.
>>1034471
>По тебе видно что уже принимаешь
Даже вертеть жопой не буду, нейронки как наркотик, я уже 3 месяца сижу на них, сперва на хорде, теперь вам мозги ебу. Даже с единственными парой знакомых общаться перестал.

Аноним 30/01/25 Чтв 22:16:41 № 1034481 91

>>1034476
Там речь про хуй в рот и малафью по всему ебалу, которая затмевает взор. Ведь как иначе можно ныть, прося то что уже есть, или требовать ответы на очевидное.

Аноним 30/01/25 Чтв 22:18:19 № 1034486 92

>>1034345
>Сама прямая перегонка токенов и пиксели - мертворожденная херь
Предлагаешь тренировать совместно?
>>1034348
>Посмотрим, что покажет Ларж.
А они его уже анонсировали?
>>1034435
Шиз, таблы. CI и высирает продукт своей жизнедеятельности в релизы гитхаба.
>>1034455
>Она написана нихуя не для ньюфагов.
Напиши лучше.

Аноним 30/01/25 Чтв 22:21:16 № 1034495 93

>>1034481
Я все к тому, чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда, а я там и правда найду ответ на вопрос, а не пространственный ответ про квантования, размеры, чет там про модели и прочее. Так было бы и проще и вам и нам.
>>1034486
>Напиши лучше.
Пиклейд

Аноним 30/01/25 Чтв 22:21:48 № 1034496 94

>>1034471
>захватил все видеокарты
так-то у них 50к а100 есть
там что-то RL применяли к этому R1 те она сама находила паттерны и рассуждения

Аноним 30/01/25 Чтв 22:30:09 № 1034511 95

А есть где-нибудь прям конкретные примеры различий между квантами одной модели? Условно скрины ответов на одном и том же месте в чате. Понимаю, что это частный случай, но было бы интересно увидеть тренд развития от iq2 и до предела.

Аноним 30/01/25 Чтв 22:33:57 № 1034522 96

>>1034511
https://github.com/matt-c1/llama-3-quant-comparison

Аноним 30/01/25 Чтв 22:38:58 № 1034533 97

>>1034522
Слишком абстрактно.

Аноним 30/01/25 Чтв 22:42:31 № 1034542 98

>>1034533
>ыыы я не могу понять точка палка график
Ну тогда хули ты тут делаешь? /aicg/ двумя блоками выше

Аноним 30/01/25 Чтв 22:43:30 № 1034544 99

Ребят, ожидают ли нас в ближайшем будущем еще лучшие подобные MoE DeepSeek R1модели, только уже от американцев, улучшенные и обученные на более мощных машинах?

Аноним 30/01/25 Чтв 22:44:20 № 1034546 100

>>1034522
Так тут Q4 кванты отличаются от fp16 чуть более, чем никак. Ещё меньше разница, чем для 7б мистраля с тестами на вики данных, для которого пикча в шапке. Подозреваю, что главная проблема этих тестов - мелкий контекст. "I skipped around 20 questions where the 5-shot prompt was above 2048 tokens" - из описания недостатков.

Аноним 30/01/25 Чтв 22:48:07 № 1034558 101

А новый мистраль ничего так, русский язык неплохой, не отказывается от пересказа порно-рассказов и даже пишет продолжения, без всяких там "это может неприемлемо".

Аноним 30/01/25 Чтв 22:48:30 № 1034559 102

>>1034542
Чел, капец ты злой. Изначально ответил не на мой вопрос и еще бузишь. Мне понятны графики, но они не дают представления, как именно плохи ответы на низких квантах. Как там проявляется тупизна, долина, потеря логики, и когда это прекращается. Один конкретный средней длины пример из теста дал бы мне куда больше в этом плане чем скор на тесте целиком.

Аноним 30/01/25 Чтв 22:55:37 № 1034571 103

>>1034546
>главная проблема этих тестов - мелкий контекст
Так один хуй любая модель начинает разваливаться после 32к контекста
>>1034559
>Как там проявляется тупизна, долина, потеря логики, и когда это прекращается
Ты реально будешь читать 100 логов в 16 разных почти одинаковых квантах?

Аноним 30/01/25 Чтв 22:56:39 № 1034573 104

>>1034558
>А новый мистраль
Дай ссылку/полное название.

Аноним 30/01/25 Чтв 22:57:58 № 1034575 105

Ананасы, подскажите, есть ли какие-нибудь норм ллм модели которые могли бы диаграмы и схемы строить, чтобы например задал вопрос покажи место трапов-лесбиянок в церковной иерархии Российской Империи VII века, а оно выдало бы в какой-нибудь переводимой в графику нотации адекватную схему по теме вопроса...
это в кодинговые модели больше смотреть надо или еще какие есть для этого?

Аноним 30/01/25 Чтв 22:58:05 № 1034576 106

>>1034573
https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF

Аноним 30/01/25 Чтв 22:58:18 № 1034577 107

>>1034571
Было бы интересно хотя бы поверхностно посмотреть, да.

Аноним 30/01/25 Чтв 22:58:27 № 1034578 108

>>1034573
Буквально несколькими постами выше, блять 1034270

Аноним 30/01/25 Чтв 22:59:54 № 1034582 109

>>1034577
Жестко спойлерю тебе что ты не увидишь разницы, по крайней мере в рп и если это не 1-2 квант
В кодинге да, будет косячить, причём дохуя

Аноним 30/01/25 Чтв 23:00:30 № 1034583 110

>>1034544
Американцы клозедсорсят, кроме террористов из меты, а та вроде пока ничего не анонсировала.
>>1034558
Подтверждаю. На первый взгляд нет сильного положительного биаса, и оно распознало подвох в стихе без дополнительных подсказок.

Аноним 30/01/25 Чтв 23:02:54 № 1034589 111

>>1034582
Вероятно, но мы же не можем этого знать без конкретных примеров.

Аноним 30/01/25 Чтв 23:09:55 № 1034607 112

>>1034576
>>1034578
Да ебать опять 24. Ну за они так с нами? Ну НЕТ у меня видеокарты на 24 Гб.
Я еле-еле запускаю 12B с 5 токенами в секунду.

Аноним 30/01/25 Чтв 23:15:35 № 1034624 113

>>1034575
Big-agi несложную схему может нарисовать. Если взять о1 и мини-доку по mermaid в контекст положить, с примерами, наверное и сложную осилит.

Аноним 30/01/25 Чтв 23:20:54 № 1034637 114

>>1034624
не будем вдаваться в контекст, и некую соевость такового, в целом терпимый вариант, хотя и визуальная составляющая для отцепного скорее

mermaid интересный формат, но сильно по возможностям ограничен, и не дает произвольные структуры с произвольным расположением элементов выводить... нету ли случайно какихнибудь альтернатив мермейду?

Аноним 30/01/25 Чтв 23:24:58 № 1034660 115

В общем, я не понимаю, в чем суть всех этих ваших LLM-моделей и как их можно использовать в любом контексте, кроме вероятностного.

Решать математические задачи? Не реально. Математика - точная наука.
Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
Узнавать события и даты? Без гугла никак, иначе опять же - событие произошло с такой-то вероятностью такого-то числа. Зачем мне эта информация? Событие произошло, мне нужно ТОЧНО знать когда.
Проверять орфографию? Ну ладно, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят - окей. А если я резюме пишу и англоязычная эйчарка увидит кринжовую ошибку? Резюме пойдет в мусорку.

Зачем нужен AI?

Аноним 30/01/25 Чтв 23:26:34 № 1034666 116

>>1034660
>Зачем нужен AI?
Трахать кошкодевочек, очевидно же.

Аноним 30/01/25 Чтв 23:28:41 № 1034681 117

>>1034660
>Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
чтоб не переписывать постоянно одинаковую хрень типа запрос добавь то, запрос добавь сё, запрос добавь то-сё, - короче для решения рутинных и давно известных подзадач, - таким образом остается только проконтролировать правильность вместо выдумывания и набирания кода

Аноним 30/01/25 Чтв 23:30:32 № 1034688 118

>>1034486
> Предлагаешь тренировать совместно?
Совместно с dit для которого ллм будет готовить токены-кондишны. Можно с дополнительной небольшой прокладкой. Так мы и сохраняем относительно небольшой объем необходимых "смысловых" токенов вместо десятков-сотен тысяч, и имеем красивое и качественное изображение (аудио, видео, ...) со всеми нужными атрибутами.
>>1034495
> чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда
В шапке треда ссылка на вики.
>>1034496
Так бля епта, падажжи, сначала хуярим SL, потом делает RL, хуемое бля... Ага паттерны, чтобы иероглифы высирались... во, 50к а100 вот сюда пихаем...

Аноним 30/01/25 Чтв 23:31:37 № 1034692 119

>>1034681
>остается только проконтролировать правильность
Так это бесит. Ты вчитываешься в каждую строчку и не делаешь ничего сам. Ты как будто ревьювишь код без удовлетворения, когда другой человек его поправит, потому что править его будешь ты. Плюс ты читаешь, а не пишешь, не участвует моторика - меньше удовольствия.

Аноним 30/01/25 Чтв 23:31:42 № 1034693 120

image.png 18Кб, 523x125

>>1033569 →

Аноним 30/01/25 Чтв 23:32:37 № 1034701 121

>>1034660
>Зачем нужен AI?
Дрочка, определённо дрочка. Эта херь может заметить тебе секретаря. Обработка текста, генерация текста, простая математика, выводы, некоторая замена гуглу. Бля гум направлений просто мастхев. Да и чат с хорошо настроенной нейронкой может принести больше удовольствия, чем чат с типичным обитателем рунета. я уже говорил про дрочку?

Аноним 30/01/25 Чтв 23:33:35 № 1034705 122

>>1034681
>>1034692
Ну то есть ты понимаешь? Ты ищешь всякие ошибки уровня l вместо I, которые ты бы сам не допустил скорее всего, если внимательный. А так ты читаешь каждую буковку. Это выбешивает.

Аноним 30/01/25 Чтв 23:35:10 № 1034711 123

>>1034701
>простая математика
Чел, если я не знаю ответ, я НИКОГДА не обращусь к LLM, чтобы она посчитала, потому что знаю как она "считает". Я открою калькулятор. А если знаю ответ - зачем мне LLM?

Аноним 30/01/25 Чтв 23:36:45 № 1034721 124

>>1034705
Будет особенно орно, если AI выдаст челу конфиг именно конфиг, не код, который компилируется и подсветит, где вместо английской C будет русская С. Это будет пушка.

Аноним 30/01/25 Чтв 23:41:37 № 1034741 125

>>1034721
>>1034705
это ты по опыту? или по рассказам?
не видел чтобы ии выдавал такие ошибки, скорее сам вместо 0 О напишеш и потом гадать будеш где проблема,

нравится от руки писать - пиши, никто не запрещает

Аноним 30/01/25 Чтв 23:43:16 № 1034753 126

>>1034711
>Я открою калькулятор
да, калькулятор очень поможет когда нужна аналитическая формула...
если у тебя есть формула и есть что нужно подставить то само собой llm тут не нужон

Аноним 30/01/25 Чтв 23:45:02 № 1034759 127

>>1034711
ну не нужен, так не нужен съеби с треда
Если с think, то что-то простое считает хорошо. Что по остальному скажешь?
>>1034741
>>1034753
Какие же мы тут дружно - токсичные

Аноним 30/01/25 Чтв 23:45:13 № 1034760 128

>>1034753
>нужна аналитическая формула
Тогда я полезу в Гугл. Заебись будет получить формулу, где AI сгаллюцинирует и напишет x_i вместо y_i.

Аноним 30/01/25 Чтв 23:45:21 № 1034762 129

>>1034028 →
Надеюсь не пережаренная какаха как обычно.

Аноним 30/01/25 Чтв 23:47:07 № 1034769 130

>>1034741
Ну я пытался однотипные скрипты генерить. Без вычитывания каждой буковки нельзя, она обсирается в рандомный момент и очень часто для таких простых задач.

Аноним 30/01/25 Чтв 23:48:37 № 1034776 131

>>1034769
Это ты сейчас про генерацию программного кода нейронками говоришь?

Аноним 30/01/25 Чтв 23:50:10 № 1034786 132

>>1034776
Да.

Аноним 30/01/25 Чтв 23:53:17 № 1034803 133

>>1034760
а гугл тебе формулу сгенерирует?
или интегральчик тройной посчитает?

ты не стой стороны к вопросу подходиш, не надо искать для каких задач нужен LLM, нажно искать как можно использовать или нельзя для ТВОИХ задач иначе в рассусоливание скатывается все...

Аноним 30/01/25 Чтв 23:54:50 № 1034815 134

>>1034803
гугл тебе формулу найдет
интегральчик тебе возьмет вольфрам

Аноним 30/01/25 Чтв 23:54:56 № 1034816 135

>>1034769
чем ты генериш, третьим квантом 8б модели? что у тебя в буквах ошибки?

Аноним 30/01/25 Чтв 23:54:59 № 1034820 136

>>1034786
Значит ты диванный, или катал поломанный ггуф 7б лоботомита с задранной температурой, ибо таких ошибок сетки не делают.
Они могут ошибаться с методами и писать лишние незадействованные куски, путаться в размерностях тензоров и делать неверную индексацию, могут не понять тебя и сделать другое, или натащить надмозговых конструкций, которые потом будешь долго раскуривать. Но очепятаться - это почти невероятное событие.

Аноним 30/01/25 Чтв 23:56:04 № 1034827 137

>>1034820
>ибо таких ошибок сетки не делают
ты орешь что ли?

Аноним 30/01/25 Чтв 23:56:48 № 1034831 138

>>1034820
Попроси написать одну и ту же строчку N раз. ЛЛМка обосрется при некотором N.

Аноним 30/01/25 Чтв 23:57:40 № 1034836 139

>>1034827
Шизик - фантазер
>>1034831
Еще один долбоеб, иди на калькуляторе текст литом напиши.

Аноним 30/01/25 Чтв 23:59:06 № 1034843 140

>>1034815
>гугл тебе формулу найдет
только если она есть готовая конечно же...

ты так и не выдал для чего тебе нужны LLM, а то начинается, а вот в рот взять ваши LLM не могут, а если и берут то не так, и вообще я не знаю чего хочу, но LLM говно

Аноним 31/01/25 Птн 00:00:46 № 1034850 141

>>1034836
Ясно, тролль.
>>1034843
Я спросил в начальном посте - зачем нужен LLM. Какие задачи он может НОРМАЛЬНО решить, кроме вероятностных?

Аноним 31/01/25 Птн 00:08:44 № 1034873 142

>>1034850
>какие задачи может решить молоток кроме забивания

а какие тебе нужны? текстообработка для тебя недостаточно пидорская задача? и ты хочеш еще и математику притянуть?
ты не с той стороны к вопросу подходиш

Аноним 31/01/25 Птн 00:12:14 № 1034885 143

>>1034873
ну я назвал одну задачу, которая, как мне кажется, нормально решается нейронкой:

>Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят

А еще что? Сгенерить поток воды? Это для школьников, чтобы сочинения писать.

Аноним 31/01/25 Птн 00:17:04 № 1034901 144

>>1034688
>Совместно с dit для которого ллм будет готовить токены-кондишны.
Ок.

Аноним 31/01/25 Птн 00:29:58 № 1034938 145

>>1034850
Это ты (пост-)тролль, чел. Диванный нитакусик, которого уязвил факт существования нейронок, из-за чего он пришел в профильный тред набрасывать треш. А когда понял что твое мнение не разделяют - начал сочинять бред про синтаксические ошибки в коде.
>>1034885
> >Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят
Рациональность уровня "отапливать разваливающуюся халупу серверными видеокартами перемножая пустые матрицы". Но и это возможно с нормальной сеткой.
А отхуесосят тебя без вариантов, проблема не в орфограции.

Аноним 31/01/25 Птн 00:37:57 № 1034961 146

>>1034885
собрать выводы, перевести, заделать чатбота чтоб мучал анонов,
придумать, обсудить что-либо, проанализировать, получить рекомендации, получить карманного психолуха...

если конкретно у тебя нет задач для решения нейронками - радуйся - ИИ тебя не заменит

Аноним 31/01/25 Птн 00:49:42 № 1034985 147

Потыкал урезанный дипдик на своей 12гб игровой видеокарте, туповат. Люди пишут, что даже для сжатой квантованной версии нужно хотя бы 200 рама или врама. Получается пока локальная ллм для нищуков с <200 врам это только для задач типа поиска опечаток и документации к коду?

Аноним 31/01/25 Птн 00:59:10 № 1035004 148

>>1034190
>>1034339
Спасибо, Q4_K_M инстракт действительно оказался сильно сговорчивее и сразу на просьбу придумать что-нибудь фентезийное выдал не фанфик, а elf,elven,pointy ears,brown hair,long hair,twin tails,mage hat,cropped top, cleavage,sleeveless,leather pants,fancy boots,rune tattoos,staff,wielding staff,casting spell,spell effect,fire magic,aura,action pose,outdoor,forest,stone archway,ruins, с чем в принципе можно работать. Думаю, дальше смогу добиться всего, что нужно, модификациями карточки.

Аноним 31/01/25 Птн 01:00:15 № 1035006 149

>>1034985
14b вполне справляется с мелочами. он вполне осилил например написать код шейдора когда я скормил ему научную бумагу. он в целом может справляться, хоть и не идеально.

Аноним 31/01/25 Птн 01:16:38 № 1035022 150

>>1034985

30В+ модели уже можно припрячь к рерайтингу текстов, это все еще в пределах относительно доступных 3090, 4090 и тесл.

Аноним 31/01/25 Птн 02:12:51 № 1035097 151

>>1033756 →
Я не доволен. Я правильно написал во второй раз, зачем оно меня поправляет?

Аноним 31/01/25 Птн 02:39:16 № 1035160 152

>>1034130
Скачал твою модель, которая сайга + анлишед. На мой взгляд, она какая-то непонятная. Вроде ни туда ни сюда, что странно. Не могу вынести какой-либо вердикт. Интересно твоё мнение и других анонов. Есть ощущение, что влияние анлишеда в ней не слишком сильное. Впрочем, я мало её щупал, скачал вот совсем недавно.

По поводу твоей модели Pathfinder. Её погонял хорошо и хуй тоже. И теперь с гордостью могу сказать, что эра русскоязычного кума наступила в этот момент в твоём лице. Это точно лучшая модель для кума на русском языке 12б. Вот прям на кончиках пальцев. Да, допускает ошибки, конечно, и может начать полотна писать безумные, как магнум, и всё же, если немного следить за её поведением, всё будет в порядке.

А если ещё в систем промпт/карточку добавить нормальную инструкцию, то вообще красота.

Насколько я понимаю, модель стала такой из-за влияния Wayfarer, а не анлишеда (анлишед в такую смачную еблю и извращения не мог), но он в то же время и принёс полотна шизофрении.

----------------

Я перепробовал 4-6 магнумов, почти все говно на русике. Так как моделей было много, я не тестировал слишком внимательно и хорошо. Какие-то очень слабые надежды подаёт mini-magnum-12b-v1.1-iMat-Q8_0 внезапно, но не знаю даже. Пощупай, если интересно. Правда, ты уже сделал хорошую кум-модель и, вероятно, надо смотреть в сторону годнейшей рп модели без акцента на кум. Не знаю, что ты хочешь в итоге получить.

Wayfarer вроде как для этого предназначен, но он хорош только на 8к контекста, что не годится для годного рп, а модели давида и так склонны к безумию даже на англ в восьмом кванте. И в русском они вроде не особо хороши. Я скачаю пачку и посмотрю, что там. Вдруг будет сюрприз, как с анлишедом.

Технически возможно объединять 12б сайгу без поломки с какой-нибудь 14.5б/18.5б, которые есть у давида? Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.

Аноним 31/01/25 Птн 02:51:13 № 1035184 153

>>1035160
>лучшая модель на русском языке
Так описываешь, что тоже хочется попробовать. Сверните до четырех квантов её, а?

Аноним 31/01/25 Птн 02:54:59 № 1035187 154

>>1035184
https://huggingface.co/mradermacher/Pathfinder-RP-12B-RU-GGUF
Оно?

Аноним 31/01/25 Птн 03:04:03 № 1035193 155

>>1035187
Оно, не подумал там посмотреть, раз в ориге лежит только 8.

Аноним 31/01/25 Птн 03:37:05 № 1035217 156

>>1034985
> 200 рама
170

> 12гб
32б в восьмом кванте отлично решает матан, например.

———

Как все новички доказывают троллю, что LLM на что-то способны — забавно. =) Но помните — лучше использовать себе на пользу, а не доказывать. Доказывать ноунейму — пустая трата времени и бесполезно для вас лично. Моральное удовлетворение вы вряд ли получите, на почве анонимных дискуссий он опытнее.

Аноним 31/01/25 Птн 04:49:11 № 1035252 157

Где взять карточки на русском?

Аноним 31/01/25 Птн 05:03:38 № 1035260 158

>>1035193
Ну и ты учти сразу, что модель специфична. Со стандартами настройками может и не работать.

Ей обычно нужна низкая температура, я ставлю 0,6. Иначе шиза.

Если в примерах диалогов есть англоязычный текст, то риск шизы или кривого русика тоже повышается. На других ру-моделях так же, но здесь это сильнее выражено.

А вот карточку можно не переписывать.

Аноним 31/01/25 Птн 05:36:16 № 1035270 159

>>1034122
>Основную модель, по которой идет хайп, не запустить обычному человеку
Нуу, зависит от твоей страны
https://www.reddit.com/r/LocalLLaMA/comments/1i8y1lx/anyone_ran_the_full_deepseekr1_locally_hardware/
Как не извращаются

Аноним 31/01/25 Птн 05:43:01 № 1035273 160

>>1034146
Контекст, промты, карточки, глобально это все разные названия той горы "текста" который подаётся на выход нейронки каждый запрос, разделение сделано только для удобства мясных мешков.
Вписал ты свой текст в карточку или в чат, таверна все равно собирает из всего этого монолитный бутерброд по подаст на вход модели(почитай вывод в консоли). Разница только в том где в этом бутерброде будет находится твой текст, как правило большинство моделей независимо от размера любят "забывать" происходящее в середине, и отдают приоритет началу и концу.

Аноним 31/01/25 Птн 05:43:47 № 1035275 161

>>1035273
>выход -> вход
Конечно же.

Аноним 31/01/25 Птн 06:12:56 № 1035279 162

>>1035273
Мне, кстати, интересно, как работает этот механизм внимания к контексту.

Много пользовался клодом, у которого 200к контекста. Скажу, что от этого реально польза есть, и тем не менее, моделям поддержание такого контекста даётся с трудом. Соннет, например, чаще проебывется при таком контексте, а опус уделяет больше внимания к нему, при этом сам опус "тупее" и знания у него более старые.

Как работают модели от гугл на 1 млн контекста — не представляю. Это уже смахивает на какой-то пидзеж или сворачивание 900к контекста в подобие лорбука.

Аноним 31/01/25 Птн 06:23:09 № 1035284 163

Там кстати выпустили новые варианты квен оптимизированные для 1м контекста. На счет полного миллиона не знаю, но видел комментарии что сетки стали лучше чем было воспринимать свой обычный контекст и работать с ним
Проверил бы кто, но нужно очень много памяти

Аноним 31/01/25 Птн 06:49:48 № 1035302 164

Как дистилляты дикпика пишут ролплей? Не в плане кума а в плане креативности?

Аноним 31/01/25 Птн 07:16:30 № 1035315 165

>>1035160
>Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
С выходом нового малого Мистраля всё старые модели могут превратиться в тыкву. Нужны новые мержи.

Аноним 31/01/25 Птн 07:24:49 № 1035319 166

>>1035302
Речь об unsloth дистиллятах r1 на ламу/квен размеров 7b 14b 32b

Аноним 31/01/25 Птн 08:43:12 № 1035345 167

image.png 341Кб, 1427x225

Во-первых это и есть ваша цидонька?
Пишет как 8б
Во-вторых хули срань слева не работает я же вписал

Аноним 31/01/25 Птн 09:24:50 № 1035373 168

image 389Кб, 1515x572

image 1343Кб, 2539x934

>>1035160
>эра русскоязычного кума наступила в этот момент в твоём лице
Спасибо блять, ты сделал мой день.
Прям неиронично со стула от смеха почти упал.

>>1035160
>14.5б/18.5б
Не, я пробовал, там всё ломалось (смотри две модели с upscale в названии). Чтобы выправить повторяющиеся слои нужен файнтюн а не мерж, по видимости.

>>1035252
Самому переводить. Вот несколько от меня:
- https://pixeldrain.com/u/6Gagz3ZP
- https://pixeldrain.com/u/e7ABV1EW
- https://pixeldrain.com/u/Zk8EPK24

>>1035302
>Как дистилляты дикпика пишут ролплей?
Потестил 32 квен, неплохо, подробнее ниже.

----------------------------------------------------------------------------

c4ai-command-r-08-2024.Q4_K_M
Не знаю, может в полных весах и норм, но в 4м кванте шизеть начинает уже с первого сообщения, с командирским пресетом ессно + simple-1 в таверне. Да и русский периодически скатывается до уровня "моя твоя умба-юмба". Слог очень сухой, как в плохих фанфиках: "Он пошёл, он сделал, он молодец." В пезду такую езду.

Mistral-Small-24B-Instruct-2501-Q6_K
Через раз начинает отвечать на английском но если пинать то вроде работает. Но всё равно фразы ломаются. Надо попробовать карточку полностью на русский перевести а не только первое сообщение.

Внезапно, поломы и провалы в логике которые не позволяла себе saiga-unleashed-q6_k.gguf, возможно связанные с рп-данными, ибо например биомех ВНЕЗАПНО полез рукой к пилоту которая сидит в его капсуле в тентаклевом ложементе, манипуляторов типа "рука" не предусмотрено, скорее всего модель просто забыла что юзер не человек в данном сеттинге.

Более-менее адекватный свайп смог выбить только раза с десятого, и это было всего лишь второе сообщение, пресет мистраль, сэмплеры абсолютный дженерик. Третье сообщение тоже кучу времени выдрачивал XD. Но дальше вроде подхватилось и пошло ОК. Периодически почему-то подсирал иероглифами. Но чем глубже в контекст, тем лучше становился язык и меньше свайпов для удовлетворительного результата.

Немного хорни, но в целом ок.
Хотя лупится бобр как курва, я пердолил.

В общем, потанцевал имеется, но нужен русский файнтюн.

DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
Может в русский, и неплохо, хотя иногда подсирает иероглифами / переключается на английский и включает размышления до / после рп ответа.
Но логику проёбывает меньше чем Mistral-Small-24B, возможно ризонинг сказывается.

RuadaptQwen2.5_32B_Q4_0.gguf
ВНЕЗАПНО лучшее из здесяперечисленного. Выдало адекватный аутпут с первого же захода, на русском. И почему я не видел упоминания этой эксперименталки в треде? Кто там страдал "вот бы бы 22Б русскую" - вот тебе 32Б. Русская. 2-3 токена в секунду на 12+4 врам / 12К контекста.

Аноним 31/01/25 Птн 10:06:06 № 1035398 169

>>1035373
>ВНЕЗАПНО лучшее из здесяперечисленного.
Сам себя не похвалишь - никто не похвалит? :)

Аноним 31/01/25 Птн 10:18:16 № 1035400 170

>>1035373
> 3 пик
Ебать разминка для шеи, когда пытался прочесть это. Спасибо.

Аноним 31/01/25 Птн 10:21:40 № 1035405 171

>>1035373
>RuadaptQwen2.5_32B_Q4_0.gguf
Имеет смысл, но у меня на q4 из 10 карточек нормально понял и не свалился в шизу только в 5. ему от квантования прям плохо, на q6 уже гораздо бодрее, но все равно, как будто чего-то не хватает.

Аноним 31/01/25 Птн 10:26:15 № 1035407 172

>>1035373
> почему я не видел упоминания этой эксперименталки в треде
Потому что тред про подрочить, а не про хорошие модели. Я сюда сайгу три раза кидал, прежде чем аноны наконец попробовали, перестав обсирать ее за название. А уж руадапт — ну это вообще что-то на непопулярном! Вот если бы на реддите была новость, что китайская модель на английском не срет в штаны на 65б параметров, то тут бы ее превозносили!..

Так что, ты просто не там искал. =)

А «адекватный аутпут» подразумевает из себя полноценный РП/ЕРП содержательный и логичный?
Потому что получить просто хороший русский ответ можно на любой из моделей выше (кроме мистраля смол), скилл ишью.

Аноним 31/01/25 Птн 10:55:38 № 1035416 173

>>1035398
>Сам себя не похвалишь - никто не похвалит?
Нет, я Aleteian из шапки, и я абсолютно никак не причастен к проекту RuadaptQwen.

>>1035407
>адекватный аутпут
Я не избалован высокоранговыми моделями, и в основном катал 12Б, как понятно из репы на обниморде. Там на скрине есть вывод руадапта. Мне показалось вполне норм. В хентае пока не тестил, вечером мб пробну.

Кстати, всему треду очень рекомендую послушать:
https://music.yandex.ru/album/35205999
Свидетели сингулярности - Про LLM c Ильёй Гусевым
(автор Сайги, если кто не курсе)

Аноним 31/01/25 Птн 11:13:03 № 1035432 174

Пока mergekit лежит отдыхает, поделюсь с вами удачными результатами своих издевательств.

https://huggingface.co/OddTheGreat/Unity-12B
кванты https://huggingface.co/mradermacher/Unity-12B-i1-GGUF
Треда два назад про этот мердж писал, работает прилично.
состав (bamec66557/VICIOUS_MESH-12B-OMEGA + inflatebot/MN-12B-Mag-Mell-R1) + (redrix/nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2 + Epiculous/Crimson_Dawn-v0.2)

https://huggingface.co/OddTheGreat/Pretender-12b
кванты https://huggingface.co/mradermacher/Pretender-12b-i1-GGUF
более скромный мердж, на русском может, но как по мне, хуже. На англюсике весьма хорош.
Состав Khetterman/AbominationScience-12B-v4 +
cgato/Nemo-12b-Humanize-KTO-v0.1

Если есть что качественное, и не замерженное у талантливого товарища выше, пишите, рад буду потыкать и добавить в следующие эксперименты.

У меня 8 врама, поэтому сам юзаю q4_K_M, полёт нормальный. на й8 вообще кайф должно быть.

Аноним 31/01/25 Птн 11:13:07 № 1035433 175

>>1035416
>Мне показалось вполне норм.
Этих руадаптов довольно много, какой именно ты пробовал? И почему Q4_0, а не Q4KM например?

Аноним 31/01/25 Птн 11:14:17 № 1035435 176

>>1035097
Бампую и реквестирую новую модель, которая будет нормально проверять грамматику.

Аноним 31/01/25 Птн 11:20:29 № 1035440 177

>>1035416
ИМХО, стилистически говно какое-то.
Т.е., квен, все же, рабочая лошадка, за креативность классически бодается немо с геммой, и на этом примере это отлично видно.
Он большой и умный. Он русифицированный и быстро пишет. Он действительно логичен.
Но речевые обороты, которые он использует… Вот если бы сверху весь этот текст переписать другой моделью в литературный вид — было бы круто. А я лично читать такое не могу, сильно выбивает из канвы.

страх уступает место целеутвержденности

твердость, которой ей редко удавалось достичь в социальных взаимодействиях

касаясь головы одного из щупалец нежностью победителя-союзника, осознающего друг друга насквозь

гадким насекомоподобным

Ко многим словам здесь можно найти синонимы, которые будут гораздо лучше, или построить фразы иначе.
Думаю, это и квант сказывается, и это не файнтьюн на РП/фанфикшн, все же.

Но может я зря придираюсь, и так и задумано бай дизайн карточки, хз.

Даже первый скрин выглядит лучше (хотя там качество русского идет по пизде, конечно, к сожалению, поэтому суммарно хуже, лозерунный яд BioMecha=).

Аноним 31/01/25 Птн 11:35:31 № 1035457 178

Походу в 12б реально нет смысла только если у тебя не 8гб
Цидония в 3 кванте пишет живее и умнее на такой же скорости

Аноним 31/01/25 Птн 11:36:01 № 1035459 179

Аноны с двумя видеокартами, какие блоки питания вы используете?

Аноним 31/01/25 Птн 11:38:18 № 1035461 180

Ну вот и всё, не будет 5090. Даже пендосы не могут купить её. А в 5090D производительность в куде порезали наглухо. Искать 48-гиговые перепаи 4090 теперь?

Аноним 31/01/25 Птн 11:39:48 № 1035462 181

>>1035433
>какой именно ты пробовал?
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta-GGUF

>>1035433
>Q4_0
Легаси кванты в кобольде никогда не ломались, а к-кванты периодически да. Хотя вот те что делаются через gguf-my-repo те у меня всегда норм работали, а вот когда у других скачивал, те иногда оказывались шизанутыми.

>>1035457
>Походу в 12б реально нет смысла
При рп на английском языке.

На русском всё же, как это не прискорбно, нормально общаются только прошедшие полировку русским датасетом - сайга и руадапт. Остальное - может, но лучше не надо XD

>>1035461
>Даже пендосы не могут купить её
Directed by Robert B. Weide

Аноним 31/01/25 Птн 11:51:39 № 1035465 182

>>1035407

Чел, сайгу обсирали потому что она нам известна с 23 года и это всегда была полусломанная при этом невероятно соевая модель. Кроме того, сайга маленькая, половина треда на модели ниже 30b смотрит с улыбкой.

Аноним 31/01/25 Птн 11:59:05 № 1035467 183

>>1035465
Добавлю, что в реальности некоторые (включая меня) решались таки попробовать 12б сайгу, и она оказывалась калом. Даже на той тестовой площадке с бредовыми промптами Гусева видно, что сайга не очень, мягко говоря. Если там новая версия сейчас, то хз, как она, но у старой русский был чуть ли не хуже, чем у немомикса без ру датасетов. Плюс-минус затащили только мержи.
мимо другой анон

Аноним 31/01/25 Птн 12:05:21 № 1035476 184

>>1035373

Дистилл диксика ты не с его пресетом использовал, я прав? И на диалоге где уже была история сообщений? Потому что его дефолтное поведение - срать блоками <think> на английском/китайском, это заложено в модель. На готовой истории он может подражать уже написанному тексту.
Попробуй на новом диалоге без истории.

Аноним 31/01/25 Птн 12:12:56 № 1035490 185

>>1035465
>соевая модель
чел, зацензуренным был вихрь а не сайгак

Аноним 31/01/25 Птн 12:21:11 № 1035497 186

>>1035459
Тебе в первую очередь интересен 12vh разъем.

Аноним 31/01/25 Птн 12:24:41 № 1035499 187

>>1035476
Нет, на новой карточке, с пресетом chatml, в таверне вроде нет пресета под квен, хотя давно не обновлял её.

>>1035440
>файнтьюн на РП/фанфикшн
А на Квен вообще есть рп-тюны?

Аноним 31/01/25 Птн 12:27:27 № 1035501 188

>>1035499

Этот пресет только в staging добавили.

Аноним 31/01/25 Птн 12:33:51 № 1035512 189

>>1035490

Кому ты рассказываешь, я каждую сайгу кроме последней щупал начиная с первой, каждая отказывалась жесть генерировать.

Аноним 31/01/25 Птн 12:35:22 № 1035516 190

>>1035457
> Цидония в 3 кванте
Защо ты так с моей любимой девочкой ? По что ты лоботомита мучаешь, ирод ?

Аноним 31/01/25 Птн 12:41:08 № 1035528 191

>>1035516
>>1035457
>Цидония

На русском правильно Кидония.

Аноним 31/01/25 Птн 12:44:25 № 1035534 192

>>1035528
Чтоб тебя слопом переехало

Аноним 31/01/25 Птн 12:45:44 № 1035538 193

>>1035499
>А на Квен вообще есть рп-тюны?

EVA
https://huggingface.co/bartowski/EVA-Qwen2.5-32B-v0.2-GGUF

Аноним 31/01/25 Птн 12:47:08 № 1035539 194

>>1035534

Причина баха?
https://ru.wikipedia.org/wiki/Кидония_(Марс)

Аноним 31/01/25 Птн 12:50:14 № 1035542 195

>>1035457
Никогда не экономил, beQuiet 850, Montech 1000.
…
Julongfengbao LX1800 =D

>>1035465
Тем не менее, последняя версия была хороша, вон, выше даже хвалят, но люди боялись поверить, чисто по инерции хейтили. =)

>>1035499
Почти нет, потому что он сильно цензуренный местами. Квен — отлично подходит для работы внутри компании. Лучший. Но вне своего спектра задач он такое себе.

Ну и плюс, если ты юзал дистилл без синкинга, то ты шо, дурак шо ли? =)
Вся суть в том, что в начале модель рассуждает, а потом дает ответ.
Очевидно, что ей нужен свой темплейт и дать возможность подумать над ответом. Там она может показать класс, возможно.
А иначе — это буквально попытка забивать гвозди микроскопом и «ниче так, увесистая модель!» =)

Я видел гениев, которые YuE музыкальную модель загоняли в llama.cpp и такие «а че мне консоль музыку не играет?»
Тут, конечно, не та ситуация, но суть та же. Буквально некорректное применение инструмента (и не под его задачу), это дает какой-то результат, но вовсе не тот, что хотелось бы.

Ваще, я щас уже оффтоплю, но поясню.

Я беру Qwen2.5-VL-3b, кидаю ему скрин задачки по матанализу и прошу перевести в LaTeX.
Потом кидаю полученный код в R1-distill-Qwen-32b-Q8_0 (потому что могу с 50к контекста), и получаю полное и корректное решение.
Gemma или Nemo так могут? Полагаю, вряд ли.
А теперь я захожу в чат и пишу «ты — рассказчик, описываешь фэнтези мир, продумываешь сюжет заранее и надолго…», и рпшу в диалоге.
Квен так сможет? Конечно, какой-то экспериенс он даст. Будет обдумывать ответы, строить сюжет заранее, да. Но текст напишет сухой, выражения подберет так себе, и, я подозреваю, сюжет будет кратко-академическим. =)
А Гемма с Немо бахнут попсовую, но интересную жвачку.

В общем, надеюсь ты уловил мою мысль. Всему свое место.
Квен почти никто не тюнит, потому что много работы ради одного лишь «ну он круто рассуждает, умный и логичный». Клево, но хотелось бы иметь креативность, богатый литературный язык, отсутствие цензуры и прочие ништяки. А имеем решение матана. =)

Если кто-то сможет собрать датасет и затюнить так, чтобы он писал красиво — думаю, это будет некст левел экспериенс в РП, конечно. Но вряд ли.

Аноним 31/01/25 Птн 12:51:14 № 1035543 196

>>1035528
Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе». =)

>>1035538
И как оно?

Аноним 31/01/25 Птн 12:53:57 № 1035545 197

По какой причине немо мистраль начать срать одним и тем же сообщением или просто выдавать 1-2 слова без форматирования? Иногда приходится 5-6 раз свайпнуть или переписать прошлое сообщение, чтобы он начал обратно адекватно себя вести.

Аноним 31/01/25 Птн 12:56:03 № 1035549 198

>>1035539
> Причина баха?
Будь осторожен, ты ходишь по охуенно тонкому blush, и когда blush треснет, то покачивая бедрами под ним, тебя буду ждать я.

Аноним 31/01/25 Птн 12:57:50 № 1035550 199

>>1035543
>Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе».

Чел, тут географический/исторический топоним, в оригинальном греческом Κῠδωνία, между прочим.

Аноним 31/01/25 Птн 12:58:14 № 1035551 200

>>1035549

Кидонияшиз, спок.

Аноним 31/01/25 Птн 13:00:36 № 1035557 201

Бля, держите байку, короче.

Как вы смотрите на скраппер на PHP? Вот это глаза у вас огромные теперь…
Спросил я Deepseek-R1 БЕЗ интернета, как можно реализовать.
И начал читать его мысли.
Вообще крайне рекомендую читать рассуждения моделей, потому что они зачастую очень неплохи и помогают учиться корректно находить решения своих задач. Тренируют мозг, короче. Как верные, так и неверные, которые ты смог раскритиковать и опровергнуть.
Ну так вот, он начал с мыслей «есть ли скраперы на PHP? Вряд ли!..» и в итоге посоветовал обращаться к питоновским либам. =D
Меня так умиляет, как они рассуждают. Литералли мем «а что если?.. да ну, хуйня какая-то!» Какие в пизду скрапперы на пыхе. =D

С активным интернетом он нагуглил пару библиотек и описал их.

Аноним 31/01/25 Птн 13:03:26 № 1035561 202

>>1035551
О ! 6B в 1Q, не признал тебя сразу.

Аноним 31/01/25 Птн 13:03:29 № 1035562 203

>>1035550
А вы жопочтец? =)
Адобе крик — это географический/исторический топоним, название ручья, в честь которого назвали фирму.

Я в принципе отсылаюсь на то, что произношение на русском не имеет отношения к тому, как произносили в оригинале две тыщи лет назад.
И Ксяёми/Сяоми называется корректно «Шиёми», и Эдоуб называется «Адобе», но почему-то фанаты «произносить верно» кладут хуй на такую вопиющую несправедливость.

Так что, если же хочется называть Кидония — то будьте добры заодно и Шиёми с Адобе. =) Если уж называем корректно, то все названия, так ведь?

Аноним 31/01/25 Птн 13:07:16 № 1035566 204

>>1035545
Скажем так, у мистралей есть некоторые особенности о которых по какой то блять неведомой причине ценители миксов по мистралям не любят говорить.
Два друга Лупа и Пупа будут с тобой перманентно.

Аноним 31/01/25 Птн 13:17:18 № 1035573 205

>>1035562

Почему двухтысячелетней давности-то, регион на марсе назван в 20 веке.
Шиёми не географический термин, и у нее нет официального перевода на русский, даже статья в вики на русском не транслитерирует название, так что нет.
А ручей в честь которого названа adobe на русском называется Адоб-крик, так что ты и тут кругом неправ, все как раз правильно его называют.
https://tm.2markers.com/1244776

Аноним 31/01/25 Птн 13:23:38 № 1035582 206

>>1035516
Я и в 6 кванте гонял, отличий почти нет

Аноним 31/01/25 Птн 13:28:45 № 1035588 207

>>1035432
красавчик, вторая интересная (pretender) хотя порой странная (ну, неудивительно если учитывать ЧТО туда входит)

Аноним 31/01/25 Птн 13:31:19 № 1035592 208

>>1035097
Бампирую.

Аноним 31/01/25 Птн 13:34:12 № 1035594 209

>>1035592
Он же говорит тебе be, а не been, ну хоть в переводчик загони, это разные времена.

Аноним 31/01/25 Птн 13:35:39 № 1035595 210

>>1035594
Конструкция неправильно сделана.

Аноним 31/01/25 Птн 14:24:06 № 1035662 211

>>1035345
Ало блять я ебнусь если ещё раз прочитаю шиверс чей то спайн

Аноним 31/01/25 Птн 14:30:14 № 1035669 212

>>1035662
Съешь с полки blush.

Аноним 31/01/25 Птн 14:31:42 № 1035671 213

5090 просто нет, на ебей по $6200, дижожтс надеюсь кожаный пидрилкин в норм количестве сделает

Аноним 31/01/25 Птн 14:33:24 № 1035672 214

>>1035373
> Все модели в k квантах говно
> Легаси q4_0 хорошие
Ебала жора-юзеров представили просто?
>>1035459
Чифкок поларис про, дешево, сердито, тихо. Хотя уже ни разу не дешево.
Если тебе для рига - бери "фирменные" майнерские, у них с элементной базой все внезапно прилично и адекватное охлаждение. Но вариант не для стояния рядом, под нагрузкой продувает себя на все деньги и шумноват.
>>1035457
Полагаю, стоит подождать дериативов нового мистраля, есть шанс что тут будет еще лучше. Когда разница по весам в 2 раза - это будет и ощущаться иначе, а q3 иногда еще всполне живой.
>>1035542
> Gemma или Nemo так могут?
Еще первая ллама могла, по крайней мере пыталась. С типичными задачаками они в целом справляются, а в чем-то передовом и новом - по крайней мере дистилляты сосут бибу, проверено.
>>1035671
Чтож, придется подождать.

Аноним 31/01/25 Птн 14:34:48 № 1035675 215

Поясните за world info, как с ним грамотно работать? А то уже сил моих больше нет. Я туда вписываю второстепенных персонажей, ЛЛМ блядь всё путает постоянно, описания персонажей объединят или вообще теряет все время. И у ЛЛМ реально своя версия информации о мире. У меня допустим там 7 позиций, у неё 19. Там например не только персонажи, но и локации всякие, правила. Я прошу проиндексировать, мне пишут мол заебись, но по факту нифига всё по-старому остается. Я в ахуе, что делать? Как подружить ЛЛМ с world info чтоб не было отсебятины и перепутанных описаний персонажей.

Аноним 31/01/25 Птн 14:35:25 № 1035676 216

>>1035512
>жесть генерировать
Чувааак, вот специально ради тебя скачал.
https://litter.catbox.moe/awrgvl.zip - любимая забава испанской инквизиции
Главное - правильно попросить.
Или что для тебя "жесть"?

Аноним 31/01/25 Птн 14:41:46 № 1035680 217

>>1035549
>буду ждать я
страшно, вырубай

Аноним 31/01/25 Птн 14:43:27 № 1035683 218

https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/
кек

Аноним 31/01/25 Птн 14:49:14 № 1035692 219

>>1035675
>перепутанных описаний
попробуй заключать в псевдо-теги как здесь
https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa

Аноним 31/01/25 Птн 14:51:10 № 1035693 220

>>1035683
>кек
жесть народ пердолится, но чувак смог, уважуха

Аноним 31/01/25 Птн 14:57:11 № 1035702 221

image 158Кб, 2112x498

>>1035512
>>1035676

Аноним 31/01/25 Птн 15:22:03 № 1035715 222

>>1035573
> на русском называется
Только это индейское слово, и приведенный пример «на русском» ровно так же некорректен, как и все остальное. =)
Реально мем про школоту доющая коня. =) Ну ладно, как пожелаешь, псевдо-интеллектуал, не буду убеждать, мое дело сообщить, а дальше хозяин-барин.

>>1035672
> проверено
Ну, вот я проверял, все там норм.
Предполагаю, скилл ишью, или 4 квант или еще какая хуйня (надеюсь, не 8б мерял?:).
Так что, тут ты просто заблуждаешься.
Рекомендую перепроверить. =)

>>1035683
> what about $1.5k for 4x NVMe SSDs
в натуре кек )
У кого есть готовое — за тех рад, конечно…

Аноним 31/01/25 Птн 15:22:47 № 1035717 223

Гои, ебало?

Аноним 31/01/25 Птн 15:23:55 № 1035722 224

1688787218607.png 8Кб, 624x145

>>1035676
классика от анона

Аноним 31/01/25 Птн 15:33:15 № 1035730 225

>>1035715
> Предполагаю, скилл ишью
Верно предполагаешь. Нужно быть способным во что-то сложнее копирования дефолтных задач из сборников и понимать предмет, одновременно с обладанием навыками работы с ллм. А глупому скуфидону любой копиум покажется мессией, все закономерно.
>>1035717
Сравнивали также по правильной методике как раньше с H100?

Аноним 31/01/25 Птн 15:36:28 № 1035732 226

>>1035722
Куда тебя ебать?
https://characterhub.org/characters/Anonymous/eleanora-b46ebbc94e36
(карточка не моя)

>>1035722
Нету там ничего, я первым делом проверил.
Если (разумно) опасаешься скачивать, то я закинул содержимое архива (один текстовый файл) на пиксель
https://pixeldrain.com/u/xRtyxHwh

Аноним 31/01/25 Птн 15:46:25 № 1035737 227

>>1035730
Красиво.
Но ты же понимаешь, что скилл ишью у тебя. =)
Ладно, нюхай свой копиум, что тебе еще остается.
Чем больше людей, которые не шарят, — тем меньше конкуренции. =)

Аноним 31/01/25 Птн 15:48:19 № 1035738 228

>>1035737
>конкуренция хую в руке

Аноним 31/01/25 Птн 15:49:18 № 1035740 229

>>1035717
Ещё бы в паре с картами куртки работало это.

Аноним 31/01/25 Птн 15:58:14 № 1035744 230

ВСем привет, я из /po ,сказали тут лучше помогут, короче пишу статью о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять, что заявляемая оупен сорсность их ложь, что падение акций америкаснких ии комапний это мелочь не важная и объясняется почему, что они созданы с поддержкой китайского режима и если есть еще какие-то важные моменты чтобы тоже упонмяуть о них?

Аноним 31/01/25 Птн 16:02:17 № 1035746 231

>>1035744
Кто жпт к треду подключил?

Аноним 31/01/25 Птн 16:07:10 № 1035750 232

>>1035744

Это толстота? Похоже на толстоту. Ладно, отвечу.

>почему не стоит им доверять

Любой локальной модели, не только дипсику, можно доверять априори. Если ты запускаешь её со своего компа, выключив интернет на всякий случай(сама модель не настучит, но браузер или фронт или в чем ты в чем ты там её запускаешь, может). В любом случае сама по себе модель априори безопасна.

>заявляемая оупен сорсность их ложь

В смысле ложь? А что мы тут запускаем в треде, лол?

>падение акций америкаснких ии комапний это мелочь не важная

Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз. Да, Опен АИ может и наебнется, но оно бы и так наебнулось.

>созданы с поддержкой китайского режима

Ты точно в серьезный журнал это писать собрался?

Аноним 31/01/25 Птн 16:07:13 № 1035751 233

>>1035737
Полагаю тебе стоит охладить траханье и пойти еще в майнерских паскалях поковыряться. Ты же таксуешь всем этим занимаешься просто для души, в перерывах между масштабными внедрениями.

Аноним 31/01/25 Птн 16:09:28 № 1035754 234

Какие есть русскоязычные, без цензуры модели для 6 ГБ?

Аноним 31/01/25 Птн 16:12:04 № 1035759 235

>>1035750
> почему не стоит им доверять
Он про китайцев, а не про модель, додик. Дальше не читал.

Аноним 31/01/25 Птн 16:14:35 № 1035764 236

>>1035759
>о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять
>китайских ИИ моделях
>почему не стоит им доверять

Он ясно именно про китайские модели высказался, додик, глазки открой. Или для тебя русский язык не родной?

Аноним 31/01/25 Птн 16:15:51 № 1035765 237

Так и живем. Сел кумить с карточкой мать-дочь, в итоге несколько часов душевно обедал с ними, играл в мяч и прятки. И отвечал на бесконечные вопросы обо всем подряд от мелкой занозы в заднице.

Аноним 31/01/25 Птн 16:16:40 № 1035767 238

>>1035764
попробуй включить голову и подумать для кого он это пишет

Аноним 31/01/25 Птн 16:18:51 № 1035771 239

>>1035744
сэм, ну ты чего...

Аноним 31/01/25 Птн 16:22:37 № 1035775 240

>>1035765

Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.

Аноним 31/01/25 Птн 16:28:00 № 1035781 241

>>1035767

Я в мысли парашников не лезу, чтобы не зашквариться о чан с говном, который у них вместо мозгов, если ты понял своего косноязычного парашного собрата лучше - сам ему и отвечай.

Аноним 31/01/25 Птн 16:29:44 № 1035785 242

>>1035781
мощный подрыв, больше не умничай в треде и попка будет целой)

Аноним 31/01/25 Птн 16:34:38 № 1035788 243

>>1035785
>>1035781
>>1035767
>>1035764
>>1035759
>>1035750
Нахуй вы вообще на это отвечаете и срётесь? Это очевидный шизобайт, и попытка выебнуться элитарность. Журналист из крупного, авторитено сми собирает инфу для статьи на двачу. Юорда успешных людей, хули.

Аноним 31/01/25 Птн 16:55:06 № 1035800 244

>>1035744
Поорал, найс байт!

>>1035750
Ну зочем ты кормишь тролля! =D

Давай я тебе отвечу. =)

> можно доверять априори
Нельзя, ведь цензура искажает факты!
То ли дела светлая цензура пиндостана!.. =D

> В смысле ложь?
Они не выложили датасеты и методику обучения — значит это не open source, а вполне себе closed source. Тебе дали покатать саму модельку, да, но источник неясен.
За это, кстати, критиковали Лламу, что она нихуя не опенсорс. Но это все игра слов, отчасти.

> Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз.
Ошибаешься. Дело не в этом, просто финансисты дебилы и не понимают, что «дешевизна» китайской модели обусловлена отсутствием экспериментов и просто следованием по проторенной дорожке, а атомный волчара Сэм, как мощны его лапищи, эту дорогу проложил грудью (майкрософт) и десятками миллиардов долларов.
Как итоге — видеокарты все еще нужны, без них эксперименты будут длиться десятилетиями, а не месяцами.

> Ты точно в серьезный журнал это писать собрался?
Да ну очевидно же троллит. =)

>>1035751
Извини, что правда задела тебя за живое, но ты какую-то хуйню высрал. Чел выше хотя бы просто скинул боевую картинку и просто высрал, хотя бы не выглядит обиженкой. =)

>>1035765
Да я смотрю, ты тоже дед уже.

>>1035788
Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может и ты.
А может и я.

Аноним 31/01/25 Птн 17:00:21 № 1035810 245

>>1035800
Орнул с полотна шизика, опять дамбу прорвало.

Аноним 31/01/25 Птн 17:13:27 № 1035819 246

>>1035754
лама аналигнед

Аноним 31/01/25 Птн 17:16:54 № 1035823 247

>>1035765
была альтернативная история, кум карточка где надо похитить школьницу, но вместо этого успешно довёл до дома, а на следующий день она пришла с мамой у которой уже год после развода не было хорошего траха, и весело провели время

Аноним 31/01/25 Птн 17:35:12 № 1035837 248

>>1035800
>Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может ты вообще нейронка?

Аноним 31/01/25 Птн 17:39:04 № 1035843 249

>>1035800
>Да я смотрю, ты тоже дед уже.
Я просто не хотел "я тебя ебу - ты меня ебешь" исхода и все делал ненавязчиво, и тут понеслось.

Аноним 31/01/25 Птн 17:44:59 № 1035851 250

image.png 3Кб, 396x63

Нани? Почему при очередном запуске кобольда, вся моделька выгрузилась в динам. память, забив на основную память видяхи?

Аноним 31/01/25 Птн 17:48:06 № 1035854 251

>>1035851
Перезапустил и все стало нормально. Но все равно херня какая то.

Аноним 31/01/25 Птн 17:54:26 № 1035865 252

>>1035810
Это больное животное считает тред своим, а любой пост — личным сообщением.

Аноним 31/01/25 Птн 17:58:40 № 1035872 253

>>1035837
Кто знает…

>>1035843
Не стоит заниматься успокоением, прими себя. ^_^~

Аноним 31/01/25 Птн 18:15:09 № 1035902 254

>>1035872
Сука, тред симулякрумов, помогите.

Аноним 31/01/25 Птн 18:39:33 № 1035935 255

>>1035765
Играл как-то старую карточку девушки юзера и её мелкой сестры, где девушка в сорре с юзером, а лолька его хочет. Играли в настолки все вместе, а потом читал мелкой сказки на ночь, с трудом выдумывая какую-то дичь, как будто это я тут нейронка. Неироничное кьют энд фанни - это база.

Аноним 31/01/25 Птн 18:47:52 № 1035943 256

>>1035935
Я даже сразу понял о ком ты. https://chub.ai/characters/elodia/moriko-and-reina

Аноним 31/01/25 Птн 18:57:04 № 1035953 257

>>1035765
Я так Озен уже неделю всё выебать никак не решаюсь, слишком хорошо проводим время, не хочу ломать момент.

Аноним 31/01/25 Птн 19:07:24 № 1035967 258

>>1035775
>Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.
Ты считаешь что прыгать по комнате, крутить хуём как мартышка и пытаться засунуть его в первую попавшуюся дырку - признак юности и силы? Ну выеби розетку в комнате тогда, хули.

Интересная история всегда будет превыше тупых поебушек, запомни это.

Аноним 31/01/25 Птн 19:09:33 № 1035970 259

>>1035967
>обедал с ними, играл в мяч и прятки
>Интересная история
дриснул в слюни с писателя

Аноним 31/01/25 Птн 19:11:26 № 1035972 260

>>1035970
Если у тебя весь ролл заключается в написании одного слова в чат, то мне тебя жаль. Даже самые примитивные вещи могут быть описаны приятно, красиво и литературно.

Аноним 31/01/25 Птн 19:15:28 № 1035977 261

>MistralRP-Noromaid-NSFW-7B-Q5_K_M
Q5_K_M при весе в 5гб, где наеб?

Аноним 31/01/25 Птн 19:17:01 № 1035979 262

>>1035977
> 7B

Аноним 31/01/25 Птн 19:18:41 № 1035985 263

>>1035970
А мне и не надо было практически писать, 1-2 фразы, описание моих действий, и история разворачивалась, мать и дочь реагировали и действовали.

Аноним 31/01/25 Птн 19:23:43 № 1036003 264

>>1035765
Напомнило какую-то кароточку с мамочкой на чубе, с высоким рейтингом и кучей комментов о том что никто не кумил а наоборот душевно общались и обсуждали жизнь.
Удачное сочетание карточка-модель-промт, наслаждайся, не кумом единым же.
>>1035851
По какой-то странной причине оно резервирует там место, но при этом не обращается. Еще больше года назад такое наблюдал, причем если чистого Жору пускать - подобного нет.
Хотя может у тебя и какой-то другой баг.

Аноним 31/01/25 Птн 19:25:01 № 1036005 265

Я только сказал привет и всё. Почему эта шизо-программа высралась только в консоль? Такое вообще норм? Как исправить? Дальше вообще какие-то подземелья пошли, опыт, статы.

Аноним 31/01/25 Птн 19:27:47 № 1036017 266

>>1036005
>чат без таверны
откуда вы лезете блять

Аноним 31/01/25 Птн 19:33:08 № 1036028 267

Установил цидонию Q6_L. По советам с прошлого треда. 23 слоя на видеокарту. 5 т/с. Текст на 230 слов сгенерировал за минуту.
Мне так то норм, но по итт критериям насколько всё плохо?
Если я с винду пересяду на дебиан читсый, в скорости я что то получу? Или всё в рамках погрешности?

Аноним 31/01/25 Птн 19:35:58 № 1036033 268

>>1036028
Почти получилось почувствовать, какая у тебя видеокарта, пока не уходи далеко.

Аноним 31/01/25 Птн 19:39:56 № 1036048 269

>>1036033
Я думаю мы должны использовать технику глубокого предсказательного анализа.
Сейчас Vanga из под доса запущу.

>>1036028
>5 т/с.
Мне за тебя почувствовать норм или нет ?

Аноним 31/01/25 Птн 19:44:20 № 1036063 270

>>1036033
>>1036048
4070+ддр5. Запущено на кобальде.

Аноним 31/01/25 Птн 20:12:13 № 1036112 271

>>1035765
А карточку не скинешь? А то у меня такая же ситуация IRL, лол.

Аноним 31/01/25 Птн 20:14:38 № 1036116 272

>>1036112
https://chub.ai/characters/Anonymous/oyakodon-seduction-of-mother-and-daughter-e9d5be93c337

Аноним 31/01/25 Птн 20:20:41 № 1036127 273

>>1035516
>>1035457
>>1035528
>>1035539
Сукаблядь

Аноним 31/01/25 Птн 20:42:24 № 1036166 274

>>1036116
>Pronouns: She/Her
>Sexuality: Bisexual
>Age: 10
Вот как это называется?

Аноним 31/01/25 Птн 20:43:40 № 1036170 275

>>1036166
Это называется чуб, и там чтобы найти хоть чуток нормальную карточку, нужно ебучие авгиевы конюшки перевернуть.

Аноним 31/01/25 Птн 20:59:07 № 1036200 276

>>1036170
Претензия была к бисексуальности 10 летнего ребёнка а ещё к ебучему произношению, как будто меня ебёт, ши она или зис, ну да ладно.

Аноним 31/01/25 Птн 21:03:29 № 1036210 277

>>1036200
Ну думаю это скорее было создано для того чтобы она приняла любого в ее семью, ну а о произношениях стоит винить только загнивающий запад

Аноним 31/01/25 Птн 21:30:47 № 1036238 278

>>1036127
но слово то греческое

Аноним 31/01/25 Птн 22:22:53 № 1036296 279

>>1036028
Смотри, скорость очень субъективна. Некоторым хватает и 2т/с, некоторым 20т/с мало.
Решай для себя сам.

Аноним 31/01/25 Птн 22:52:47 № 1036358 280

>>1036296
>некоторым 20т/с мало
Это кому может быть мало? Это практически моментальная генерация, если мразь на юзере не запрашивает 1-2к токенов в ответе обязательно.

Аноним 31/01/25 Птн 22:56:33 № 1036362 281

>>1036358
Агенты и любая автоматизированная работа, там чем больше тем лучше, а идеально вобще мгновенно.
Захочешь интернет страницу перевести или кинуть на анализ - взвоешь от ожидания даже на 20т/с.

Аноним 31/01/25 Птн 23:06:41 № 1036376 282

Меня из общего чата к вам отправили.
Какой поставить дипсик локально? Попробовал трёх:

DeepSeek-R1-Distill-Llama-8B-GGUF/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf - очень быстрый, но пишет как-то невпопад по кодингу (Unity). Часто пишет с ошибками (в тексте), иногда переходит на английские слова и китайские иероглифы.

deepseek-ai.DeepSeek-R1-Distill-Qwen-32B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Qwen-32B.Q4_K_M.gguf - пишет уже более развернуто, адекватно. Но подольше разумеется, минут 5 ждать его ответы.

deepseek-ai.DeepSeek-R1-Distill-Llama-70B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Llama-70B.Q4_K_M-00001-of-00004.gguf - пишет хорошо, почти как и нужно. Но долго капец, минут 15 на ответ и по букве. Подходит для каких-то больших вопросов, где задаешь и идёшь чай пить например.

Вебверсия всем устраивает, разумеется и похуй на конфиденциальность, но сайт лежит очень часто и хочется локальности. Между 32 и 70 есть что-то среднее, чтобы и скорость и ответы по теме? Кто-нибудь тестил ещё?
Запускал через LM Studio в дефолтных настройках, может там че подкрутить можно ещё.

Аноним 31/01/25 Птн 23:08:07 № 1036380 283

>>1036376
Читай первое сообщение в треде.

Аноним 31/01/25 Птн 23:09:36 № 1036381 284

>>1036380
Ну а какой дистилят лучше-то? В соседнем треде вебверсию только обсуждают, им локальная нахуй не нужна

Аноним 31/01/25 Птн 23:14:15 № 1036390 285

>>1036381
Какой больше, тот и лучше, внезапно.

Аноним 31/01/25 Птн 23:20:26 № 1036398 286

кто-нибудь шарит в llama.cpp server? Я его гоняю с openwebui, и он после ответа продолжает грузить цпу и гпу как будто генерация продолжается. новые запросы не принимает. так что приходится его рестартовать на каждый запрос - работать невозможно. как понять что там не так и что он вообще генерирует?

Аноним 31/01/25 Птн 23:20:37 № 1036399 287

Чёт не могу понять, какие для руадапта настройки нужны...

Аноним 31/01/25 Птн 23:26:05 № 1036406 288

>>1036381
Лучше всего то что обычному смертному не нужно. Все что есть мелкое проигрывает существующим моделям.

Аноним 31/01/25 Птн 23:27:58 № 1036408 289

>>1036398
Опенвебуи может какие то свои левые запросы туда слать, на генерацию названия диалога например
Ну и вобще это поделие только с оллама нормально работает, наверняка с апи лламаспп криво управляется

Аноним 31/01/25 Птн 23:32:13 № 1036413 290

>>1036381
Лучше тот который ты модешь комфорино запускать. Для кода вобще лучше обычную qwen 2.5 32 coder использовать
Можно и дистилляты, но там сложнее хоть и умнее
От 14b и выше смотри, ниже дистилляты туповаты
Железо в студию, повангуем тебе что стоит пытаться запускать а что нет

Аноним 31/01/25 Птн 23:32:38 № 1036414 291

1 - р1 с вебсайта
2 - локальный, квантизованный от анслота
они практически идентичны

нет смысла дистилы использовать, кроме недостатка озу. просто докупите памяти и будет буквально модель уровня о1 локально
да, медленно пока. новые поколения гпу будут быстрее гонять такое через несколько лет

Аноним 31/01/25 Птн 23:39:40 № 1036430 292

то же самое от о3-мини-хай

Аноним 31/01/25 Птн 23:46:12 № 1036447 293

>>1036414
> практически
Зачем же ты тогда второй раз свайпал? Да и ответы похожи только по структуре из-за длинных размышлений, по содержанию довольно большая разница.

Аноним 31/01/25 Птн 23:55:54 № 1036458 294

>>1036413
Ладно, я понял короче. Паралельно у дистилята дипсика поспрашивал. Думаю, учитывая что в LM Studio можно модели на ходу переключать, то проще спрашивать всё у 32в и если начнёт тупить спрашивать у 70в уже че дальше то делать.

>>1036414
Анслот это вот этот? Ну такой я хуй запущу, у меня 64гб
https://huggingface.co/unsloth/DeepSeek-R1-GGUF

Аноним 01/02/25 Суб 00:04:51 № 1036475 295

>>1036414
Вопрос слишком простой, 32B даст тебе ответ примерно как жпт на твоём скрине. А q2 у тебя шизит, аналогию про яблоко приплёл не к месту, русский очень странный. Ещё и генерация целую вечность. Я бы не стал лоботомита такого трогать.
Ты лучше на кодинге тестируй, вот там начнётся реальное шитшоу, когда ты будешь умолять дать тебе 70В дистиляцию вместо лоботомита.

Аноним 01/02/25 Суб 00:12:19 № 1036488 296

>>1036358
Например если ты используешь сетку не для неспешного порночатика, а для обработки чего-то. Особенно если там цепочка промежуточных результатов, а не короткий зирошот.
>>1036414
> кроме недостатка озу
> 512гб для норм кванта
Ради генерации типичного меганасрал поста раз в пол часа или час обработки контекста, хорошая идея.
Если ужать до минимума - это лоботомит, будет шизофазический словестный понос вместо ответов как на твоем скрине, тут вообще теряется весь смысл.

Аноним 01/02/25 Суб 00:17:05 № 1036496 297

Сегодня поставил таверну и у меня такая проблема. Пару часов все работало нормально, но потом она начала срать в штаны мощно. В общем когда натыкается на токен с именем моего персонажа(ЛЛМ пишет от моего имени), обрубает дальше стрим, но в консоли ЛЛМ он продолжается, и в итоге получается какой-то рассинхрон что ли, что я не могу больше ничего писать в чат и то что сгенерилось после токена с именем перса не отпраялется в таверну(но все равно генерится). Как эту хуйню фиксить? Как же я намудохался с этой таверной сегодня... Так бы и сидел на кобольде, не знал печали, но там ворлд инфо не пашет практически, а лор буки нужны.

Аноним 01/02/25 Суб 00:24:14 № 1036508 298

>>1036496
М ?

Аноним 01/02/25 Суб 00:36:06 № 1036516 299

urodi.jpg 5Кб, 289x21

>>1036508
Там ник перса. Сука уроды, ну вот зачем так делать. Если в таверне отключаю опцию "Names as Stop Strings". То эта ошибка исчезает, но таверна ломается к хуям, и мне больше не дает отправлять текст.

Аноним 01/02/25 Суб 00:39:54 № 1036517 300

>>1036516
На то она и Silly, не будь к ней строг.

Аноним 01/02/25 Суб 00:45:06 № 1036518 301

>>1036508

Короче когда эта мразь (СилиТаверн) видит что ЛЛМ за моего персонажа припездывает, она его ответ пидорит. Но разве я сука просил это? Если меня не устроит че там за меня написали, я отредактирую или сгенерю заново. Ну еб твою медь. В карточке персонажа 100 проц ничего такого нет, я с ней долго рпшил, на кобольде.
А если я отключаю опцию пидоринга, то она просто срет в штаны. Возможно там есть еще какие-то опции по этому прошу совета.
В Sequence Breakers всё стандартно по идее ["\n", ":", "\"", "*"]

Аноним 01/02/25 Суб 00:46:12 № 1036519 302

Ставил кастомный system promt и понять не могу, в чем лажа. В чем траблы, почему у меня ощущение что я в алисе в стране чудес и сейчас я вмазался крокодилом со шляпником.
А там
You're {{char}} — a real person, engaging with another individual. {{user}} - the Narrator is the game master and overseer.

Сука, ненависть, блять.

Аноним 01/02/25 Суб 00:54:52 № 1036520 303

где можно в таверне посмотреть отправляемые запросы и полученные ответы в сыром виде?

Аноним 01/02/25 Суб 00:56:35 № 1036524 304

>>1036520
У тебя при запуске кобольта ВСЯ информация выводится.

Аноним 01/02/25 Суб 01:01:00 № 1036526 305

>>1036518

В общем расперделось кое как, не знаю что произошло, завтра буду дальше тестировать. Остается только вопрос почему контекст каждые 3 сообщения пересчитывается.

Аноним 01/02/25 Суб 01:05:41 № 1036530 306

>>1036376
Нет, между — нет.
Я использую 32б Q8 в повседневной работе. Лламу я не люблю, а полноценный использую только если совсем дохуя времени, а онлайновый лежит.

Но если у тебе не хватает 32б, а полноценный не впихнуть… то как раз между ними единственный вариант это 70б.

И на текущий момент альтернатив нет совсем. Чтобы те же скоры в тех же размерах.

Сорян.

>>1036414
Вот! Я же говорил! Рад, что люди потихоньку вкатываются и подтверждают.

Я на ллама 65б когда-то сидел с 0,35 токен/сек!
А тут целых 1,5 токен/сек! =D Ух! Вчетверо быстрее!
Правда и текста в десять раз больше…

А вот с рероллом косяк, да. =D

>>1036458
> если начнёт тупить спрашивать у 70в
Если в том же диалоге, то пересчет контекста будет идти заново, нет? По идее это сильно удлинит.
Но если создавать новый диалог, то без вопросов.

>>1036518
> Но разве я сука просил это?
Да, просил, это называется дефолтные настройки. Хули ж не отключил сразу.

> А если я отключаю опцию пидоринга, то она просто срет в штаны.
А вот за это уже можно предъявить.

>>1036519
Гений. =)

Аноним 01/02/25 Суб 01:12:39 № 1036534 307

Есть ограничение по тегам ответа сверху, но есть ли снизу? Иногда сетка отвечает на мою сложную попытку в рп буквально семью словами по типу *Она кивает и берет вас за руку. Хотя в системном промпте написано подробно все описывать.

Аноним 01/02/25 Суб 01:17:27 № 1036538 308

>>1036296
Вообще расскажу о своем странно очевидном и тупом открытии. О том что на винде есть приоритет задач (неожиданно, да блять ?)
На окнах, на одном экране, благо монитор позволяет, просто разделил экран на лог кобальта и на таверну. Сижу занимаюсь своими делами и понимаю, что при активном окне кобольта - скорость исполнения увеличивается на процентов 10-15.
Ты сука фотон что ли ?

Аноним 01/02/25 Суб 01:27:16 № 1036555 309

Так блэт! Англюсикознающие, поясняйте. Как это работает?

Аноним 01/02/25 Суб 01:31:22 № 1036563 310

16722420191-zef[...].jpg 99Кб, 1080x1124

Угууу гууу

>>1036555
Ну там же все написано. Буковками сложенными в предложения.

Аноним 01/02/25 Суб 01:36:53 № 1036564 311

>>1034116 (OP)
Понимаю, что с такими вопросами буду справедливо послан нахуй, но все-же. Ньюфаг в треде.
Имею XEON'о говно с 64 гб оперативы + 12 гб видеопамяти. Хочу поднять LLM (чисто под него). ССД на терабайт забивать можно чем угодно, этот комп специально для этого.

Посоветуйте нормальную относительно актуальную русскоязычную модельку + способную в адекватный NSFW. А то что ставил - все цензурило пздц.

Аноним 01/02/25 Суб 01:45:04 № 1036572 312

Аноны, у меня такая тема, для стори теллинга скорее чем для кума. Я свожу двух персонажей в таверне, и они сука всегда ебутся. Как сделать так чтобы виртуальная тянка отшила виртуального кунчика? Это вообще реально? Я пвтаюсь какого-никакого реализма добиться, ведь не ебутся же люди при встрече, просто потому что разного пола?
Кунчику я прописал что он хочет присунуть(а какой не хочет?) и все. Пизда.

Аноним 01/02/25 Суб 01:53:57 № 1036577 313

>>1036572

Кажется этот начал о чем-то догадываться....

Аноним 01/02/25 Суб 01:53:59 № 1036578 314

>>1036572
Так пропиши тяночке что она ебаться не хочет, сложно?

Аноним 01/02/25 Суб 01:54:05 № 1036579 315

Спасибо вам большое китойцы, просто спасибо, я вас люблю.

>>1036572
>для стори теллинга скорее чем для кума.
Не выбирать мелкие модели, не использовать ебливые магнумы, писать что ты хочешь чтобы OOC делала, написать действия за персонажа, свайпать.

Аноним 01/02/25 Суб 01:55:11 № 1036581 316

А контекст то решает нахуй
Смысл от ума модельки если в неё больше 30 сообщений не влезает
Пересел с 6 кванта на 4 увеличив контекст с 12к до 36 и довольно урчу

Аноним 01/02/25 Суб 01:58:22 № 1036583 317

>>1036538

А теперь включи high priority в настройках кобольда и попробуй снова.

Аноним 01/02/25 Суб 02:02:19 № 1036586 318

>>1036578
ну так тоже не интересно, нужно чтобы она хотела, но там хуе-мое, она же не шлюха какая, там муж тем есть, что люди подумают вот это все. Короче она должна ломаться и ломаться не только для вида, а чтобы шансы были реально 50/50

Аноним 01/02/25 Суб 02:03:40 № 1036587 319

>>1035373
>Helene.card.png
Хотел покумить а в итоге сидел восстанавливал отношения и помогал с птсд бедняжке. Что вообще думаете, способны нейронки помочь обучить общению и эмпатии асоциального человека?

Аноним 01/02/25 Суб 02:03:43 № 1036588 320

>>1036028

По итт критериям 5 т/с это минимальная скорость для более-менее комфортного кума чтения в прямом эфире. Нет, конечно, теслашизики с 1 т/с сейчас скажут им и так норм, а 4090 бояре типа меня могут чисто ради траленка сказать что ниже 30 т/с это вообще не генерация, но объективно без тралинга и коупинга это комфорт начинается именно с 5 т/с.

Аноним 01/02/25 Суб 02:04:58 № 1036589 321

>>1036588
Хотя бы 10 надо. На 5 я даже английский читаю быстрее.

Аноним 01/02/25 Суб 02:06:18 № 1036591 322

>>1036534
>но есть ли снизу?
Вроде нет, но можно просто ещё раз нажать кнопку сабмита чтобы модель продолжила свой пост. Это надо отдельно включить в настройках.

Аноним 01/02/25 Суб 02:06:49 № 1036592 323

>>1036581

Если у тебя модель ниже 20В, то лучше KV квантануть с 16 до 8, но битность самой модели с 6 до 4 не уменьшать.

Аноним 01/02/25 Суб 02:09:25 № 1036595 324

>>1036589

Конечно на 10 приятнее читать, кто бы спорил вообще.
Речь о минимальной скорости когда ты можешь в онлайне читать и общаться, ниже 5 т/с это в любом случае будет выглядеть что ты написал сообщение и переключил вкладку в ожидании пока там ответ сгенерируется.

Аноним 01/02/25 Суб 02:13:31 № 1036598 325

>>1036588
>4090
>боярин
Ой не скажи. Ой не скажи. Тут в тредике есть настоящие бояре.

Аноним 01/02/25 Суб 02:15:49 № 1036603 326

image.png 81Кб, 3320x428

>>1036530
реролл там потому что первый раз ллама.цпп сервер забажил

Аноним 01/02/25 Суб 02:18:27 № 1036608 327

Кто бы что ни говорил а скачёк на квант выше всегда ощущается как улучшение на 30-40% и разница между 6 и 8 квантом точно заметна

Аноним 01/02/25 Суб 02:20:14 № 1036609 328

>>1036586
> нужно чтобы она хотела
Так она и хочет, видит что такой мужчина ее добивается и замотивирован и не против. Плюс к тому у всяких файнтюненых моделей большой байас к согласию.
>>1036608
А когда на 16 бит перейдешь - так вообще радугой кончать будешь.

Аноним 01/02/25 Суб 02:20:32 № 1036610 329

>>1036564
сайга анлишед

Аноним 01/02/25 Суб 02:21:37 № 1036611 330

>>1036564
Либо ещё Следопыт, там вроде анон вчера с него норм покумил

Аноним 01/02/25 Суб 02:22:08 № 1036612 331

>>1036608
Где ? На 8b ? Потому что на 30 я разницы между 6 и 8 не увидел. Но шутка в том, что её еще никто и не доказал.

Аноним 01/02/25 Суб 02:25:22 № 1036615 332

>>1036612
Да это шизики или жорастрадальцы с поломанными квантами и бэком. Как пошел это хайп с дипкоком, так и набежало упоротых ньюфагов.

Аноним 01/02/25 Суб 02:26:58 № 1036618 333

>>1036587
>способны нейронки помочь обучить общению и эмпатии асоциального человека
Крайне сомнительно, чтобы получить эффект "come for cum, staying for plot", нужно изначально иметь склонность к эмпатии.

И да, Елена стоит того =)

Аноним 01/02/25 Суб 02:28:19 № 1036620 334

>>1036610
>>1036611
Пасибо анончики. Обладаю пока что 3060 12гб. Пока что поставил NekoMix-12B.Q8_0. Вроде даже средненько, но результат имеет.

Аноним 01/02/25 Суб 02:36:59 № 1036631 335

>>1036620
>Обладаю 3060 12гб
>Поставил 12B
>Поставил васяномердж
Кто-нибудь знает что это за болезнь?

Аноним 01/02/25 Суб 02:40:30 № 1036633 336

>>1036631
Нуфажество. Я вообще не ебу за кванты, биты что в моих спеках актуально или нет. Поэтому и спрашиваю в треде.

Аноним 01/02/25 Суб 02:40:39 № 1036634 337

>>1036631
Всем внимание, в треде ИРОНИЧНЫЙ.
Ведь 12Гб это так много. Можно сразу мистраль лардж ебашить, а на оперативу повесить гемму.

Аноним 01/02/25 Суб 02:45:17 № 1036636 338

>>1036358
Thought about image explanation for 8 секунд
По сути, авторы поста нашли способ запускать большую LLM-модель (67млрд параметров) локально на обычном CPU без серьёзной загрузки видеокарты. Ключевая идея в том, чтобы не загружать все веса модели целиком в оперативную память или VRAM, а использовать mmap и работать «на лету» с файлами, лежащими на NVMe SSD.

Как это работает детально:

mmap вместо полного чтения в память
Обычно при запуске больших моделей (в том же llama.cpp) программа либо полностью читает файлы с весами в RAM, либо загружает их в видеопамять (если работает с GPU). Тут же применяется подход, когда llama.cpp по умолчанию делает mmap() — то есть «проецирует» файл на диске в адресное пространство программы. При mmap нужные куски данных (страницы) грузятся непосредственно в память по запросу, а не заранее все разом.

ОС кэширует данные
Сами файлы находятся на очень быстром NVMe SSD. Когда модель вычисляет очередной токен, она обращается к нужным фрагментам весов, и операционная система подтягивает их с диска, параллельно сохраняя часто используемые куски в RAM как кэш.
В итоге, вместо жёсткого требования иметь, допустим, все 100+ГБ (в случае 67B модели в float16) в памяти, модель берёт только нужные «страницы» весов. Памяти требуется заметно меньше, а скорость работы определяется тем, насколько быстро SSD может отдавать данные и как эффективно ОС их кэширует.

Хранение k/v-кэша в памяти
Ещё один момент — в оперативной памяти реально лежит, в основном, k/v-кэш (то есть ключи и значения для текущих токенов, нужные во время self-attention), и какие-то технические буферы. Остальные гигабайты весов при этом фактически не «разворачиваются» в RAM постоянно.

Динамический квант (quant) для весов
Они упоминают «dynamic quant» вроде DeepSeek-R1-UD-Q2_K_XL: это метод сжатия (квантизации) модели, где веса сжаты в более низкую битность. Это ещё уменьшает объём, который надо держать и обрабатывать, хоть и с какой-то потерей точности. Зато позволяет работать на более слабом железе.

Выходная производительность
Автор пишет, что выходит порядка 1–2 токенов в секунду на контексте 2к–16к, причём при наличии 96ГБ RAM (плюс ещё 24ГБ VRAM, но фактически GPU «простаивает»). Bottleneck получается скорее в пропускной способности NVMe SSD, чем в оперативке или в мощностях CPU/GPU.
Утилитарный плюс — потребление энергии и нагрев подсистемы минимальны, потому что видеокарта почти не включается и процессор тоже не загружен на 100%.

Расширяемый «виртуальный объём памяти»
В конце автор упоминает идею покупать не дорогую видеокарту, а поставить массив из NVMe SSD, получается своего рода «дёшево и сердито»: много «виртуальной VRAM» на быстрых дисках, которых достаточно для хранения (и стриминга) крупных моделей при приемлемых скоростях.

Итоговая идея: вместо того чтобы полностью грузить огромные веса модели (десятки гигабайт) в системную память или VRAM, используется механизм «ленивого» чтения с NVMe, а ОС агрессивно кэширует нужные куски в RAM. Так можно запускать даже 67B-модель на домашних компьютерах без гигантских требований к видеокарте и при умеренном объёме оперативки (но желательно очень быстром SSD). Конечно, скорость будет ниже, чем при полноценной загрузке в GPU, но для многих задач и 1–2токена/сек может быть достаточно.

Аноним 01/02/25 Суб 02:52:04 № 1036638 339

>>1036633
12 гб уже позволяет гонять 27b-32b с частичной выгрузкой на терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.

Ставь что-то из этого:
-Qwen-2.5 32b
-Gemma-2 27b
-Mistral-Small-2501 24b

Квант либо Q4_K_M либо Q4_K_L. Только ванильные модели, никаких ёбаных шизомиксов. И будет тебе счастье. Скорость от 8b-14b не стоит того чтобы жрать говно, поверь.

>>1036634
Всем внимание, в треде ГИПЕРТРОФИРУЮЩИЙ
Ведь между мелкопарашей и огромными моделями не существует ничего промежуточного

Аноним 01/02/25 Суб 02:55:37 № 1036641 340

>>1036638
>никаких ёбаных шизомиксов.
Но ведь справедливо от части. Те же миксы мистраля очень даже не плохи.
Давай будем честны, если для работы нужны оригиналы, для РП- ну тут уже нужно тягать одеяло, а вот для того, для чего тут наверное половина треда сидит как раз и нужны шизомиксы.

Аноним 01/02/25 Суб 02:58:33 № 1036644 341

>>1036638
Спасибо за уточнение анончик. Попробую тогда их накатить и посмотреть.

Аноним 01/02/25 Суб 03:01:52 № 1036647 342

Laguha.png 10Кб, 899x49

Ага, спалилась лягушатница. То то мистралеподелия постоянно лапки поднимают и сдаются.

Аноним 01/02/25 Суб 03:24:29 № 1036664 343

>>1036638
> терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.
про контекст ты конечно умолчал

Аноним 01/02/25 Суб 03:32:49 № 1036667 344

>>1036644
От чела выше прям рубрика "Вредные советы". Не надо так.

Ну, не то чтобы прям вредные, но в рп на английском тебе нужен Пантеон, Цидония, или их мерж от местного анона.

В русский могут мержи мистраля 12 (ссылки в шапке) или руадапт квен, но на 12 врум карточке с ним будет тяжко, так что только мистрали.

Аноним 01/02/25 Суб 03:36:46 № 1036668 345

>>1036667
>Пантеон, Цидония
Вот я хоть и люблю цидоньку, но тюны мистралей это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.

Аноним 01/02/25 Суб 03:40:36 № 1036670 346

>>1036668
>тюны мистралей
А что кроме них есть 12Б?

Аноним 01/02/25 Суб 03:44:09 № 1036671 347

>>1036668
>А это вообще не очевидно
Вообще-то элементарно, Ватсон, shit in - shit out.
Не лень с ответами сам, и не ленись поправлять модель.
И будет тебе счастливое приключение... или не очень, тут уж от карточки и тюна зависит.

Аноним 01/02/25 Суб 03:45:41 № 1036672 348

>>1036670
А нихуя и нет, лол. Либо лоботомированные кванты старших моделей, либо мелкоговняшки, ну или мистраль. Увы, она действительно топ среди мелких.

Аноним 01/02/25 Суб 03:47:33 № 1036673 349

>>1036671
Ну так это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.

Аноним 01/02/25 Суб 03:50:54 № 1036675 350

>>1036673
>Ну так это прям для тех кто знает чего хочет
Не знают только свидетели карго-культа для которые ллмки - ИИ, скайнет, 5G, магия-шмагия и камлание жуткое.

Аноним 01/02/25 Суб 03:52:52 № 1036676 351

>>1036675
Ну именно поэтому {user} это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.

Аноним 01/02/25 Суб 03:54:20 № 1036678 352

>>1036676
Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы

Аноним 01/02/25 Суб 03:55:55 № 1036679 353

>>1036676
>>1036678
Господи, была бы возможность бить морды через TCP/IP...

Аноним 01/02/25 Суб 04:04:35 № 1036683 354

>>1036679
Жаль что такой возможности нет

Аноним 01/02/25 Суб 04:06:35 № 1036684 355

>>1036641
Я бы наверное так сказал: для работы, РП и сторителлинга - однозначно ванильки. Для ерп - спорно, ту же гемму и мистраль всякими хитростями вполне можно сделать хорни. Тут я всё еще за оригиналы. Но если цель чисто подрочить и ничего более - то да, тут шизомиксы в своем сочном описании ебли вне конкуренции.

Вот только такое издевательство над моделью не приводит ни к чему хорошему, ее логика ломается, она начинает выдавать шизу на ровном месте, забывает что было несколько сообщений назад. Двойные-тройные трусы и всякие подобные приколы.

>>1036664
Квен и гемма на 8к контекста при полностью забитом контексте выдают ~2.5 т/с. Мистраль при 16к контекста, полностью забитом, падает до 4 т/с. Всё ещё приемлемо.

>>1036667
Он вроде явно дал понять, что ему нужны модельки умеющие в русик. Именно такие модели ему и предложил.
>В русский могут мержи мистраля 12 (ссылки в шапке)
Нет, не умеют.
>руадапт квен
Точно так же, как и ванильный квен. Чтож вас, аноны, так тянет-то к васяноподелиям? Звер-сд уже установили?

---------------------------------------------

Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь. Порпшив с условной геммой 27b, чел уже никогда не вернется на 12b, даже если разница в скорости будет в десять раз.

И то же касается шизомиксов, вот сколько там "b" стоит - это можно смело делить на три. Примерно настолько отупляют модельку васянские мержи/файнтьюны. Чисто модельки для слива спермы и ничего более.

Аноним 01/02/25 Суб 04:18:01 № 1036687 356

>>1036684
>для работы
да, для работы чистые инстракты нужны

>>1036684
>РП и сторителлинга
Уже нет, тут стоковые модели сосут как секретутки.

>>1036684
>Двойные-тройные трусы и всякие подобные приколы.
Мусью застрял во временах моделей на цепях маркова.

>>1036684
>Звер-сд
Вот на Zverя не гони, топовый чел был как и Xatab.

>>1036684
>Именно такие модели ему и предложил.
Которые не умеют в русик, да, жирно, очень жирно.

>>1036684
>что-то нормальное
илита в треде, небось и вкус тренировал, денно и нощно, дабы отделять зёрна от плевел, а агнцев от козлищ

Аноним 01/02/25 Суб 04:37:53 № 1036693 357

>>1036687
>Мусью застрял во временах моделей на цепях маркова
Вот недавно тестил разрекламированную в тредах СайНемо - все эти проблемы там присутствовали:
Сломанная логика - чек
Двойные трусы - чек
Забывчивость - чек
Модель тупая как пробка, но свою задачу выполняет. Если надо запустить и по фасту подрочить - вот это оно. А для остального - нахуй-нахуй.

>Уже нет, тут стоковые модели сосут как секретутки.
Скил ишью. Учись пользоваться Memory, Author's Note и World Info, ну или их аналогами в таверне, если таверну используешь.

>Вот на Zverя не гони, топовый чел был как и Xatab.
Два чая. Отличные сборки: все "лишнее" удалено, все "нужное" добавлено. А еще темы, нескучные обои, и скрытно устанавливаемое ПО удаленного доступа к твоей пекарне в комплекте Radmin Viewer, гугли. В свое время много шума было.

>илита в треде
Илита тут на четырех теслах запускает 120b модельки. А я обычный анон с древней 12гб видяшкой, лол. Когда не лень, пытаюсь отучить нюфагов жрать говно.

Аноним 01/02/25 Суб 04:45:24 № 1036696 358

>>1036598

Если ты про обладателей промышленного железа, могущего запустить дипсик не в дистилляте, то это мифические боги вообще говоря, а не какие-то вшивые бояре.

Аноним 01/02/25 Суб 04:45:38 № 1036697 359

>>1036684
> для работы
Смотря какой, есть вполне специализированные тюны или крайне узкие базовые модели. А для чего-то специфичного может быть ситуация что без файнтюна не обойтись, или только самые дорогие корпы.
> РП и сторителлинга - однозначно ванильки
Есть базы, которые можно раскачать промтом, или вообще могут сразу прилично повествовать. Есть те, которых зажарили финальным алайнментом настолько, что чего-то приличного получить будет сложно. Существуют приличные тюны и даже миксы (последнее - больше чудесное стечение обстоятельств чем целенаправленно полученный результат, но все же), которые не теряют оригинальную соображалку но при этом умеют в хороший рп.
> Вот только такое издевательство над моделью не приводит ни к чему хорошему
Да, поэтому хороших моделей крайне мало.
> Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно
Как бы ни было прискорбно, это тут без вариантов. Или мелкомиксы, или тормознутая херь, в которой нет смысла.
> ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь
Бывают ситуации когда доступна только одна гпу, и тогда вполне катается гемма, командер, квен32, а под пиво в количестве даже 12б и не сильно обламываешься. Но при этом обмазаться выгрузкой в рам и терпеть по 2т/с - даже мысли о таком безумии не приходят.
>>1036687
Бояры надрался что в интерфейсе запутался, и теперь на воспоминания пробрало? Или просто стиль постов выдерживаешь чтобы автоскрытие срабатывало?
(both)
>>1036693
> Илита
> на четырех теслах
Разве что терпеливая

Аноним 01/02/25 Суб 04:56:07 № 1036699 360

>>1036684
>Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь.

Да не гони, тут в треде каждый адекватный человек ищет параллельно и самую умную модель, которую может просто запустить наплевав на скорость, и самую умную модель которую может запустить уже с приемлимой скоростью.

Аноним 01/02/25 Суб 05:04:03 № 1036705 361

>>1036684

Из ванильных моделей ниже 70В без файнтьюнов или хотя бы аблитерейшона в еРП и еблю может наверное только командир. Остальные будут выдавать либо "ты меня ебешь" либо "я не буду это генерировать". Причем если последнее обойти джейлом, то выйдет все равно "ты меня ебешь".

Аноним 01/02/25 Суб 05:22:16 № 1036708 362

Почему дипсик везде называют 671В моделью, когда он 256х4.6B, а работают из них всего 8х4.6В?

Аноним 01/02/25 Суб 05:31:43 № 1036712 363

>>1036705
>остальные будут выдавать либо "ты меня ебешь"
Ну вот тебе новый ванильный мистраль 24b на самописной карточке в кобольде. Вполне ок, не?

Аноним 01/02/25 Суб 05:47:47 № 1036718 364

>>1036712
Это сюжет фильма "Аморальный грабёж"?

Аноним 01/02/25 Суб 06:45:16 № 1036731 365

Ребят, тупой вопрос, что можно запустить прям на совсем ноутбучном некрожелезе из локальных моделей? это реально?
у меня есть парсер постов из телеги и вк, и хочу скармливать посты в ллм локальную чтобы он уже их распределял по категориям, выдавал краткий отчет по ним и вот такое все. это реально так сделать локально?

Аноним 01/02/25 Суб 06:47:25 № 1036733 366

Есть одна цидонька. 1.2 Насколько ейный четвертый квант тупее шестого?

Аноним 01/02/25 Суб 07:37:14 № 1036778 367

>>1036733
Какого ответа ты ждешь? Если математически, то отклонения токенов в сравнении с Q8 в районе 5 процентов, как и у всех около 30b моделей.
Как это по факту повлияет на твой чат объективно оценить невозможно, даже Q8 может заставить свайпать 10 раз подряд, а Q1 сразу выдать нормальное. Так что всех эти советчиков которые "видящие разницу" можешь сразу слать лесом, это плацебо.

По факту если можешь запустить квант повыше, всегда выбирай его. Что касается контекста не гони его сильно выше 20к, это довольно бесполезно т.к модель все равно в основном обращает внимание только на начало и конец, на больших объёмах контекста все что в середине чатов будет лежать мертвым грузом пока ты сам не спросишь.

Аноним 01/02/25 Суб 08:32:21 № 1036813 368

>>1036668
>и как с ними бороться.
Дак как с лупами и пупами бороться? Сам на мистрале ньюфагом сижу и кроме как переписать сообщения, раздраженно свайпать, теребить температуру и стирать пару сообщений до, не нашел способов для разлупа.

Аноним 01/02/25 Суб 09:03:16 № 1036838 369

>>1036684
>для работы, РП и сторителлинга - однозначно ванильки

Совсем вами не соглашусь, сударь.

Я тоже так считал, так как юзал клода для РП ранее. Пусть и с цензурой, но он хорош в этом, даже если описывать жесть и графический ужас в стиле DavidAU, но у маленьких моделек другая проблема: они в целом мало знают и не заточены под наши цели. Туда просто напихали всего понемногу — поэтому они вроде как знают всё, но ничем не владеют в совершенстве/на уровне больших коммерческих и закрытых моделей. А модели корпоратов вывозят просто исключительно из-за большого объёма данных.

Поэтому шизомиксы единственный выход для локалок, чтобы они писали как надо: не было излишне позитивного биаса и модель могла в интересные истории. В таком случае можно получить действительно что-то приемлемое и на 12б. А если уж обучать нормально, то тем более.

>имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь

Я как раз тот человек, который перешёл с малых моделей, потому что меня не устраивала скорость, ибо сидеть на трёх токенах, если не получаешь в 95% случаев охуительный ответ, — это ад. Я как раз гемму скачал, когда вкатывался. Это была моя первая модель. Безусловно, она реально удивляла меня в некоторых моментах находчивостью и креативностью, особенно при описании боев и рассуждений, но не настолько, чтобы я был готов терпеть медленную генерацию.

Аноним 01/02/25 Суб 09:07:51 № 1036839 370

>>1036731
>прям на совсем ноутбучном некрожелезе
если прям некро, то ничего, а на боярь-ноутах и 32B можно

>>1036731
>распределял по категориям
это и без ллм можно, чисто на регулярках

>>1036731
>выдавал краткий отчет по ним
Ну теоретически можно подрубать по апи, и скармливать текст и просить саммари.

Аноним 01/02/25 Суб 09:08:31 № 1036840 371

>>1036778
Понял, спасибо. Насчет выбирай повыше, я надеялся, что если я возьму квант, который весь могу запихать в гпу, скорость здорово возрастет, а по факту получилось на 1-2 т/с. (у меня 4060 на 16 гб.)

Аноним 01/02/25 Суб 09:12:31 № 1036843 372

>>1036813
>Дак как с лупами и пупами бороться?
rep-pen 1.1 - 1.2 / rep-pen range 2048
Следить и недопуЩать - править ответы.
Найти оптимальную температуру, но обычно хватает 1.0 +/- динамическая 0.5

Аноним 01/02/25 Суб 09:14:20 № 1036845 373

У Яндекса есть какое-то ограничение на свой апи?Его не заебет, если я буду ему запросы отправлять на перевод? И он наверняка привяжет мои переговоры с учеткой.

Аноним 01/02/25 Суб 09:29:29 № 1036855 374

>>1036845
Просто гугл, последние дни вообще чушь выдает.

Аноним 01/02/25 Суб 09:43:57 № 1036872 375

>>1036840
А ты точно выгрузил все в гпу? По умолчанию даже если модель туда помещается тот же кобольд всё равно пихает слои в рам. Нужно вручную указывать количество слоев (т.е все).

Аноним 01/02/25 Суб 09:57:10 № 1036881 376

>>1036855
>Просто гугл, последние дни вообще чушь выдает.
Поменяли модель переводчика. Очередной кризис, на моей памяти это уже третий. Через месяц выправятся... или нет. Но да, пользоваться гуглом пока нельзя. Яндекс вывозит, в Таверне Бинг ещё есть. Ограничения какие-то имеются, но на практике хватает. Сам-то я давно хочу локальную модель переводчика, но хрен мне.

Аноним 01/02/25 Суб 10:10:29 № 1036888 377

>>1036881
>локальную модель переводчика
на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.

Аноним 01/02/25 Суб 10:25:20 № 1036893 378

>>1036888
>на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
Дело даже не в этом. Есть пара моделек, да. И выделить отдельный гпу под переводчик можно. Но даже на 3090 скорость маловата, с онлайн-сервисами никакого сравнения. Хотя качество у них и хромает, но перевод мгновенный. А локально даже "очень быстро" не получить.

Аноним 01/02/25 Суб 10:35:15 № 1036895 379

В таверне можно как-то сделать переключение портретов персонажей?

Аноним 01/02/25 Суб 11:26:58 № 1036931 380

>>1036840
С твоим врам должно всё влезать. Как тот анон писал, пиши все слои вручную.

Ещё один момент, о котором я не видел ни одного поста здесь.

Закрывай всё, что можешь. Всю хуйню из автозапуска левую убирай, закрывай приложения. Всякий Стим, Дискорд, вот это вот всё, что можно — нахуй. Даже окно с проводником. Браузер тоже закрывай, общайся с ллм с второго ПК или телефона.

Винда дохуя видеопамяти жрет, по крайней мере моя 11 винда точно.

Такими простыми манипуляциями я 1,2 Гб видеопамяти освободил, это охуеть как много.

----

Если же у тебя нет других для общения с ллм, то качай какой-нибудь очень легковесный браузер.

Аноним 01/02/25 Суб 11:29:26 № 1036934 381

>>1036518
>В Sequence Breakers
Эта настройка относится к DRY Repetition Penalty, лол.
>>1036572
>Как сделать так чтобы виртуальная тянка отшила виртуального кунчика?
Сделай тянке возраст 11 лет. Отошьёт 100%.
>>1036583
А это не поможет, у винды активному окну даётся больший квант времени, и похуй на эти ваши приоритеты.
>>1036609
>А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
Я олдфаг, помню ещё двойную точность...
>>1036634
>Можно сразу мистраль лардж ебашить
Я так и делал в своё время.
>>1036708
>Почему
Потому что люди идиоты.

Аноним 01/02/25 Суб 11:35:47 № 1036937 382

🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров ( https://www.linkedin.com/in/mikhail-tikhomirov-a4884a74 ) – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General ( https://huggingface.co/spaces/Vikhrmodels/arenahardlb )

🎤 Илья Гусев ( https://www.linkedin.com/in/ilya-gusev/ ) – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong ( https://ilyagusev.github.io/ping_pong_bench/ru_v2 )

🎤 Александр Николич ( http://t.me/lovedeathtransformers ) – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей ( https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24 ) на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам! ( https://ai-talent-hub.timepad.ru/event/3219400/ )

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Аноним 01/02/25 Суб 11:44:42 № 1036945 383

>>1036937
> Сайги
Сама по себе же не оче, и только в мержах анон юзал и вышел норм. Не?

Аноним 01/02/25 Суб 11:48:54 № 1036953 384

>>1036945
>Сама по себе же не оче
Он как бы её обновлял постоянно, последняя версия околонедельной давности.

Аноним 01/02/25 Суб 11:52:45 № 1036956 385

>>1036555
ПОМОГИТЕ, СУКИ.
Получается, я могу 671b модель запустить локально на старом ноуте?

Аноним 01/02/25 Суб 11:57:49 № 1036962 386

>>1036937
>Спикеры:
И походу эти три инвалида - всё, что мы можем предъявить миру. Грустненько так-то.

Аноним 01/02/25 Суб 12:02:55 № 1036968 387

>>1036956
>запустить локально
только на шизориге, на ноуте разве что дистил

Аноним 01/02/25 Суб 12:07:48 № 1036971 388

>>1036956
И да и нет. Если с подкачкой со старого диска, на древнем проце, то ты одно слово от него неделю ждать будешь, без преувеличений. Лучше 3В гоняй и мержи годные между собой лол они на англе хоть как то могут, и в оперативу старого ноута влезут.
И вообще, что значит старый ноут? я сразу себе представляю что-то на кор2 с 3 гигами ddr2 и вистой на это всё намазанной.

Аноним 01/02/25 Суб 12:08:40 № 1036972 389

>>1036968
>>1036971
2 еблана, вы даже в англюсик не умеете.

Аноним 01/02/25 Суб 12:18:09 № 1036976 390

>>1036962
Что-то сомневаюсь, что тредовичков с их кум моделями туда пустят. Ну и ни одного разрраба со сбера/тинька, а они трейнят модели с нуля. Так что скорее этот #OpenTalks полное говно.

Аноним 01/02/25 Суб 12:37:40 № 1036996 391

>>1036937
Объясните мне, почему эта пиздобратия не купит локальное решение или хотя бы просто не арендует, чтобы сделать практически полностью русскоязычную LLM на 32b параметров опенсорс. Разве я столь многого прошу? Боже, да они могли бы и 70b сделать, а то и больше.

Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.

Аноним 01/02/25 Суб 12:42:16 № 1036999 392

>>1036996
> не купит локальное решение или хотя бы просто не арендует
Деньги где взять? Задонатим? И если она неправильно на вопросы ответит тащ майору, кто ответит?

Аноним 01/02/25 Суб 12:44:28 № 1037002 393

>>1036996
>Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
А это ещё хуже. Заметил, насколько яндексова Алиса обстрижена со всех сторон? Это чтобы лишнего не брякнула. Политика ещё туда-сюда, а вот кум - это уже статья. Они не модели тренируют, а цензурные вспомогательные сетки. А поскольку руки из жопы, то даже это выходит плохо и моделей от них мы не видим.

Аноним 01/02/25 Суб 12:45:04 № 1037004 394

Че-то я не понял прикол. С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения, вместо шифта. Это пропадает если лор буки в режим постоянной памяти закидывать вместо нормала (синий кружок). Но тогда нахуй они вообще нужны если я с таким же успехом могу вьебать лор бук в карточку персонажа? Чисто для удобства и всё?

Аноним 01/02/25 Суб 12:49:43 № 1037007 395

>>1037004
В чём проблема? Либо ты пересчитываешь контекст (шифт не поможет, так как добавляются новые части), либо ты закидываешь сразу всё, и лурбук нинужен.

Аноним 01/02/25 Суб 12:57:44 № 1037012 396

>>1036972
это чо за cumминг аут, детектор чини

Аноним 01/02/25 Суб 13:01:35 № 1037013 397

>>1037007
Получается лорбуки есть смысл использовать только если всё влазит в врам изначально и быстро считается. Что бы расширить контекст условно. А в ином случае пересчет слишком много времени занимает каждый раз. Ну я понял схему.

Аноним 01/02/25 Суб 13:01:50 № 1037014 398

>>1037004
>С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения
скажи спасибо что 2-3 а не каждое

А вообще, оно так и работает, да, контекст изменился - ты отредактировал сообщение или лорбук подсуетился, надо пересчитать полностью, а не только новое.

Аноним 01/02/25 Суб 13:02:53 № 1037015 399

>>1037013
В том то и прелесть лорбука, что он не в контексте.
Он работает как кейворды.

Аноним 01/02/25 Суб 13:03:55 № 1037016 400

>>1036699
По факту.

>>1036708
Потому что так заявляют авторы.
Смею предположить, что речь идет о 671B уникальных параметров, а общие Deepseek уместили в одно пространство физическое, отсюда и размер ~684B.
Каждая модель имеет единую базу + свои личные знания.
Вот эта единая база и не считается в ее размере.
Так же и мистраль 8*7 была не 56, а 43 что ли.

>>1036731
Тебе нужен NER какой-нибудь, скорее.

>>1036937
Базовые ребята.

>>1036962
Нет, конечно, есть десятки и сотни, просто их не позвали/они заняты/работают на экстремистов и т.д.

>>1036976
А Кандинский — не Сбер? =D Держи в курсе.

Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)

———

Так, хлопцы, подскажите.

Какая модель лучше для РП на русском, а какая для сторителлинга?

СайНемо, Неверэндинг, Инструменталити? Интересует 12-14 размер. Может еще что.
>>1034130 Твое мнение особенно интересно.

Аноним 01/02/25 Суб 13:05:02 № 1037018 401

>>1037004
Лорбуки нужны когда у тебя десяток персонажей, городов, локаций. И вот чтобы они все не сидели в сумарайзе отжирая у тебя драгоценный контекст и нужны записи.

Аноним 01/02/25 Суб 13:06:21 № 1037019 402

>>1036699
В принципе причина по которой я на цидонии и сижу. Она идеальна для 16гб ВРАМА. Что то больше уже слишком медленное, меньше - тупее.

Аноним 01/02/25 Суб 13:08:39 № 1037021 403

А вообще отдам пол царства за микс цидоньки и чего нибудь мрачного от David. Потому что она хоть и не магнум, но слишком хорни, это порой так бесит, не хватает мрачняка.

Аноним 01/02/25 Суб 13:18:08 № 1037025 404

>>1037015
>он не в контексте
Но инжекты входят в контекст и вызывают его пересчёт.

>>1037016
>РП на русском
Pathfinder и Saiga Unleashed по видимости самые удачные, на них отзывались в треде. По загрузкам же абсолютное лидерство у Инструменталити 2.

Pathfinder - Saiga-Wayfarer-Nemomix - по видимости лучше для рп, сам я проверил чисто что оно работоспособно, но анон отмечал что жарко с ней покумил =))

Saiga Unleashed - почти оригинальная сайга околонедельной давности, только с инжектом немомикса в центральные слои, хорошо и красочно расписывала как карточку с мехом так и мрачнухи не чурается судя по чатлогу на литтербоксе. Также этот чатлог именно в сторителлинг стиле где не было юзера, а скорее писалось в виде соавторства.

Да, маякните если mergekit починят.

Аноним 01/02/25 Суб 13:23:03 № 1037027 405

>>1037025
> Но инжекты входят в контекст и вызывают его пересчёт
Да, но только когда входят. Смекаешь ?
Разница в том, что карточка перманенто там сидит, а условный город СТОЛЬНОГРАД, только при его упоминании или связанных с ним событий всплывает.

Я только суммарайзом и лорбуками и спасаюсь в своих тохоэдвенчурах. Потому что те кто шарят за тоху, знают сколько там персонажей.

Аноним 01/02/25 Суб 13:23:49 № 1037028 406

>>1037016
>Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)
Ну да, ну да. "У нас есть такие приборы, но мы вам о них не расскажем." Похоже, что поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.

Аноним 01/02/25 Суб 13:25:13 № 1037031 407

>>1037028
> им у нас сейчас неоткуда.
Ну когда то и атомных электростанций не было, но строят же. Не одним СССР едины, хули.

Аноним 01/02/25 Суб 13:26:43 № 1037032 408

>>1037031
> и атомных электростанций не было
Кхм. Какой класс?

Аноним 01/02/25 Суб 13:27:20 № 1037033 409

>>1036895
Да, можно. Разбирайся сам, а то следующий вопрос будет
А можно ли в таверне пить

Аноним 01/02/25 Суб 13:28:22 № 1037034 410

>>1037027
>Да, но только когда входят
Ты полностью прав (и про Touhou тоже), но другой анон спрашивал именно про то что контекст всегда пересчитывается когда лорбук включает запись.

Аноним 01/02/25 Суб 13:28:50 № 1037035 411

>>1037032
Класс опасности ? Очевидный ОПО. Если мне память не изменяет, то атомные электростанции еще из за радиоактивных отходов под спец категорию попадают.
А тебе это зачем ?

Аноним 01/02/25 Суб 13:32:00 № 1037039 412

>>1037035
> Класс опасности ?
Класс школы.
> В СССР первая АЭС — Обнинская АЭС мощностью 5 МВт — была запущена 27 июня 1954 года
>>1037031
> Ну когда то и атомных электростанций не было, но строят же.

Аноним 01/02/25 Суб 13:33:44 № 1037040 413

>>1037039
> Класс школы.
Я ебу в каком ты классе школы ? Я не Ванга. Я примерно чувствовать не могу. Но думаю ты в 10м.
>1954
А до этого года они были ?

Аноним 01/02/25 Суб 13:37:25 № 1037042 414

>>1037040
Суть сообщения
>>1037028
> поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.
Была в том, что для развития неважно какой отрасли в нее нужно вкладывать бабки и ресурсы, СССР много вкладывал и кое-где осталась база, на которой можно что-то построить. Тут как бы все понятно и без скатывания в нерелейтед, спроси нейронку пусть тебе разжует.

Аноним 01/02/25 Суб 13:37:40 № 1037043 415

>>1037016
>А Кандинский — не Сбер?
А, проебался, согласен. Прочитал только часть про вихрь. Получается, вихредел ещё и в сбере работает?

Аноним 01/02/25 Суб 13:39:41 № 1037045 416

>>1036712
>самописной карточке
Скинь потыкать.

Аноним 01/02/25 Суб 13:40:00 № 1037046 417

Пытаюсь свести двух персонажей, чтобы она сами без меня поебалися, а я потом просто почитал чо они там творили. Но выходит хуйня
1) Либо сразу ебутся со второго сообщения - нахуй такое читать?
2) Либо если сделать бабу more resistant то её тупо насилуют
3) Либо если сделать мужика менее агрессивным, то его просто отшивают
Где золотая середина то, чтобы он её уламывал-уламывал, но в итоге уломал без rape?

Аноним 01/02/25 Суб 13:43:38 № 1037049 418

>>1036999
Поправь меня, если я ошибаюсь. По моим подсчётам, они максимум на файнтюн мистраля того должны были потратить 10к долларов. Это в облаке. Если у них стоит локальная машина, то всё должно быть гораздо проще. Это копейки ебаные для баринов, и, в целом, будучи медийной личностью, он/они могли бы и больше собрать.

Основную загвоздку я вижу в поиске данных для обучения и адекватной разметке для этой ситуации. Особенно для создания чего-то вроде русского БРЕЙН ШТОРМА, как Давид, затолкав в анус модели как можно больше адекватно размеченного русика и не поломав все к хуям. И вот эта адекватная разметка больно дорогая, если всё делать в темпе. А если всё делать с нуля, то, судя по всему, пара миллионов долларов нужна на что-то вроде 32б русской.

Не знаю насчёт майора, но если они реально любят, что делают — можно организовать "случайный слив сырой модели из-за акти украинских хакеров". А вообще, в целом, можно так и не делать. Даже ванильные модели пишут всякое pdf или про то, как неправильно деды страны-создателя воевали, особенно при правильном промпте. Мировая практика, хули. Извините, товарищ майор. Это всё основа от буржуазного мистраля. Мы спиздили их технологии во имя России-матушки и будем уверенно допиливать модель, чтобы вождь гордился и всё соответствовало генеральной линии парти.

>>1037002
Но это ж корпораты. У них другая мотивация. И я не говорю про кум. Даже хорошее РП без него будет великим достижением, если выкатит какой-нибудь Яндекс.

Впрочем, они каких-то каловых агентов пилят. Натурально уровень 3б.

Полагаю, они не такие уж тупорылые, просто ситуация сейчас в стране сложная и коммерчески невыгодно выкатывать какую-нибудь йобу 123б. Чё они с ней делать будут? Кодить на русском? Нахуй им надо. Они обмажутся чат гпт и клодом как захотят, если им нужно. И рыночек занят уже. Если сосанкции снимут, то тем более большие модели российские улетят в трубу, если только не будут действительно круто сделаны.

В теории, в условиях санкций они могли бы сделать аналоговнет, но я так полагаю, что коммерческая выгода маленькая. Денег им государство не даёт, потому что не понимает, нахуй эти ваши нейросети нужны, а если что-то и понимает, то обучает мелких агентов для военных целей.

Аноним 01/02/25 Суб 13:44:04 № 1037050 419

>>1037046
>хуйня
хуй + NYA

А что ещё ты ожидал. Я даже хз возможно ли это, даже на старших моделях. Хз как именно "тноко поднимать границу".

Аноним 01/02/25 Суб 13:54:05 № 1037054 420

>>1036813

Не использовать мистралевское говно, пересесть с игры мистралевских выкидышей на крепкие рабочие квеновские лошадки.

Аноним 01/02/25 Суб 13:57:00 № 1037059 421

>>1036937

Кринж.
Главные открытые русскоязычные модели это, внезапно, квен, гемма и командир, а не кривые файнтьюны мистраля, которые там эти товарищи делают.

Аноним 01/02/25 Суб 13:58:06 № 1037061 422

мимо
Много месяцев как сижу на Cydonia-22B-v1.1-Q6_K.
Думаю, за это время уже нашлись модели покруче. Что посоветуете?
Есть 24гб врама.

Аноним 01/02/25 Суб 14:00:17 № 1037063 423

>>1037046

Ты сейчас ирл описал, модель на ирл переписках и обучали.

Аноним 01/02/25 Суб 14:06:02 № 1037065 424

>>1037054
>рабочие квеновские лошадки
>>1037059
>квен, гемма и командир

Верно что они именно что "рабочие лошадки" для рутинных тасков.
В рп сухо и криво, канцелярщина. О ерп лучше даже не заикаться.

>>1037061
>Думаю, за это время уже нашлись модели покруче.
Увы. Разве что мерж пантеона и цидонии.
Это чуть более хорни и раскрепощённый пантеон.
В остальном не видел ничего принциально нового для рп.

Аноним 01/02/25 Суб 14:10:31 № 1037069 425

>>1037065
>О ерп лучше даже не заикаться.

Командир как раз по умолчанию могет в дикие извращения на уровне хорни файнтьюнов.

>В рп сухо и криво, канцелярщина.

На реддите люди очень хвалят РП файтьюны 34B квена Ink и EVA , я скачал, буду пробовать сегодня.

Аноним 01/02/25 Суб 14:17:06 № 1037074 426

На арене (единственный адекватный бенчмарк) лучшая открытая модель, не считая дипсика, конечно, это Athena V2 chat 72B, она чуть ли не на равных воюет с gpt4o и соннетом, обходя даже 405В ламу.
Это что, хидден гем?

Аноним 01/02/25 Суб 14:19:36 № 1037075 427

>>1037025
>если mergekit починят.
Учитывая что он уже третий день лежит, лучше разверни локально. Часа три вчера поковырялся и теперь полёт нормальный. много ресурсов не требует. Но не такое удобное, да.

Кстати о шизомиксах

Смержил Wayfarer-12B c MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS, результат вышел прикольный, не высирает полотна, язык вполне красивый, ультранасилие есть. Протестировал ~700 реплаев, меня поимели стулом...
https://huggingface.co/OddTheGreat/Malevolent_12B.v2

Результат соединил с pretender, получилось прикольно, с легкой ноткой шизофрении, но логику держит. Тесты ещё провожу, но раз пошла такая пьянка...
https://huggingface.co/OddTheGreat/Badman_12B

Хочу теперь badman с unity слить в 24В нечто, посмотреть есть ли в таком смысл, но passtrough мозги ебёт.

Аноним 01/02/25 Суб 14:21:18 № 1037077 428

>>1037063
>Ты сейчас ирл описал, модель на ирл переписках и обучали.
хз какой у тебя ирл(привет Ыыыыть-мэн), но мне через минуту закомства ни одна тян на хуй не прыгала, всегда приходилось повозится чутка.

Аноним 01/02/25 Суб 14:21:46 № 1037079 429

>>1037069
> Командир как раз по умолчанию могет в дикие извращения на уровне хорни файнтьюнов
Вот без обид. Но кум на командоре, выглядит так :
Ебешь. Хорошо ебешь.
А на той же цидоньке-
Ебешь. Описание ваших тел на два абзаца. Хорошо ебешь и описание окончания с заливанием стен, полов и даже аллаха.

Аноним 01/02/25 Суб 14:24:12 № 1037081 430

20-30B реально запустить на 8гб врам и 16 рам в не совсем убитом кванте? Насколько медленно будет?

Аноним 01/02/25 Суб 14:24:17 № 1037082 431

>>1037061
Мой совет как цидонькоёба. Используй для рп другую модель, а когда дело доходит до эротизма, подрубай цидонию и яростно фапай.

Аноним 01/02/25 Суб 14:27:38 № 1037088 432

>>1037079
>Вот без обид. Но кум на командоре, выглядит так :
Ебешь. Хорошо ебешь.

Вместо тысячи слов снова запощу скрин как командир вывел диалог твоей кидоньки из залупа.

Аноним 01/02/25 Суб 14:27:41 № 1037089 433

>>1037075
>слить в 24В нечто
Маленькие апскейлы - приклеить пяток слоёв начало - могут даже положительно повлиять, большие - потребуют файнтюна для приведения косоёбнутых весов в юзабельное состоянии.

https://huggingface.co/Aleteian/passthrought-12B-14.7B
https://huggingface.co/Aleteian/passthrought-12B-18.5B

С конфигами, оно даже рабочее, можешь запихнуть в gguf-my-repo, скачать и заценить.

Аноним 01/02/25 Суб 14:29:57 № 1037091 434

>>1037088
>пишет на русском в Английском тюне
>жалуется на лупы когда весь тред пишет что мистраль лупится
>пишет односложные предложения
Пожалуйста не траль меня

Аноним 01/02/25 Суб 14:31:06 № 1037092 435

>>1037074
Я на ней давно сижу в рп. Из ванилы она лучшая. И русский у неё лучший в локалках.

Аноним 01/02/25 Суб 14:31:57 № 1037093 436

Подгонялось под мержи с моделями Дэвида, например клиффхэнгером. >>1037075
Если сможешь замержить так чтобы оно не поломалось в задницу Хексыдесимал, то будет интересно.

Аноним 01/02/25 Суб 14:33:23 № 1037096 437

>>1037092
>И русский у неё лучший в локалках.
Но он парень. Но она 70B.

Аноним 01/02/25 Суб 14:35:20 № 1037098 438

>>1037075
>лучше разверни локально
развернул ещё до того как мне мержкит спейс подсказали, просто не уверен что у меня мерж 4 моделей одновременно вывезет.

Аноним 01/02/25 Суб 14:35:36 № 1037099 439

>>1037081

Диалог и шел за русскоязычные модели, пролистай сообщения в ветке вверх, я даже за тебя их пролистаю >>1036937
>>1037059

Аноним 01/02/25 Суб 14:37:09 № 1037101 440

>>1037099 -> >>1037091

Промахнулся

Аноним 01/02/25 Суб 14:45:24 № 1037105 441

>>1037074
немотрон еще есть, ты что вчера вылупился?

Аноним 01/02/25 Суб 14:45:42 № 1037106 442

>>1037089
>>1037093
>>1037098
Спасибо, вернусь с РАБотки и как начну мержить
По ресурсам, там только в месте на диске может быть проблема, я не заметил чтобы оно сильно оперативку или проц жрало, а видеокарта в моём конфиге вообще стоит не при делах.

Аноним 01/02/25 Суб 14:48:24 № 1037109 443

>>1037101
Я не собираюсь тебя переубеждать, это сугубо личный опыт. Но тут цидонькой пользуется точно несколько анонов и терпят лупы. Наверное есть причина для этого, нээ?
Потому что цидония, вообще не очевидный вариант для первой модели.

Аноним 01/02/25 Суб 14:48:47 № 1037110 444

>>1037050
ну пока примерно на 15 сообщении начинают долбится. Хочу хотя бы до 30 дотянуть. В идеале хочу чтобы кунчик как-то хз, кревтивно подошел, а не "ты хочешь этот член я знаю хочешь"

Аноним 01/02/25 Суб 14:51:47 № 1037114 445

>>1037110
самое обидное что ползунка то нет, нельзя уменьшить ебливость на 10% лол. нужно как-то описание перефразировать блять. не очень удобно лол

Аноним 01/02/25 Суб 14:52:36 № 1037115 446

>>1037106
>как начну мержить
И да, слить две 12 в 24 я уже пробовал, в любых вариациях оно просто ломало об колено любой бэк, краша на этапе загрузки модели. Пожалей свою систему XD

Аноним 01/02/25 Суб 14:55:16 № 1037118 447

>>1036934
> Я олдфаг, помню ещё двойную точность...
Одинарную. Двойная это вообще для полубогов, там даже пигма раскрывалась не хуже всей этой r1 шелупони.
>>1036937
На берзыбье и автор сайги - лидер.
>>1036996
1 Они не в состоянии собрать датасет. Какая-нибудь банковская контора в теории может это себе позволить, но оно будет в лучшем случае на год отставать от современных передовых наработок.
2 Мало шарящих людей. Или типичные читатели лекций с "невероятными знаниями", которые выливаются в типичную вузовскую науку совершенно оторванную от реальности, или неумехи с пробелами и отсутствием полного понимания чтобы принимать верные решения.
3 Просто хороший файнтюн готовой 32б на небольшом но достаточном для такого датасете будет стоить минимум 30к долларов, только аренда видеокарт на финальное обучение. В реальности - еще столько же на тесты, отладку, проверки, ошибки и т.д.. Если брать у местных - можешь умножать цену на 2-4. Сейчас таких грантов просто так нонеймам не дают если только ты не про-... активист подсосок или ряженый и донатов столько не собирают. А что местные корпы у себя внутри делают - то изредка наружу попадает но большей частью используется внутри, можешь с ними поговорить по горячей линии.
Если ты про тренировку с шума говоришь - нужен и датасет сильно круче, и требования к вычислениям раз в 100 выше.
>>1037049
> По моим подсчётам
Занизил
> Если у них стоит локальная машина
Это не локальная машина а хотябы микрокластер с четыремя нодами по 8хH100 нужно
> будучи медийной личностью, он/они могли бы и больше собрать
Хуйня из под камня а не медийная личность (это про их известность и медийность а не личные качества).
> Основную загвоздку я вижу в поиске данных для обучения и адекватной разметке для этой ситуации.
Именно, их в отрытом доступе почти нет. Корявый перевод хуеты из жпт3 в сайге и что-то получше, но недалеко ушедшее в вихре.
> про то, как неправильно деды
Это еще одна причина по которой модель перед выпуском придется лоботомировать не меньше чем какую-нибудь phi, если делаешь это оффициально, представляя компанию или тем более на грант. Кадинского за купола уже лоботомировали.

Аноним 01/02/25 Суб 15:04:10 № 1037125 448

>>1037092

В трех битах сильно слюни пускает?

Аноним 01/02/25 Суб 15:07:16 № 1037131 449

>>1037074
Хм, а ее не пробовал, спасибо, надо скачать.
> единственный адекватный бенчмарк
На 97% подкрученное сравнение зирошотов для нормисов и мало о чем говорит особенно для рп.

Аноним 01/02/25 Суб 15:15:19 № 1037139 450

>>1037131
>Хм, а ее не пробовал, спасибо, надо скачать.
Ждём отзывов. Но есть сомнения: чтобы гем и не заметили - такое редко бывает.

Аноним 01/02/25 Суб 15:16:15 № 1037141 451

А новый маленький Мистраль ничего так. Для такого размера даже хорошо. Есть прогресс.

Аноним 01/02/25 Суб 15:18:05 № 1037142 452

>>1037081
Бамп

Аноним 01/02/25 Суб 15:44:19 № 1037169 453

>>1037141
Ты как будто свой пенис описываешь.

Аноним 01/02/25 Суб 15:52:34 № 1037180 454

>>1037169
>Ты как будто свой пенис описываешь.
Нет, пенис мой 123Всм. А это так... пипирка. Но прикольная.

Аноним 01/02/25 Суб 16:03:56 № 1037197 455

Извиняюсь за нытье, но..
Почему на дваче нет тредов для тем, или чего-то подобного?
В потоке информации на рандомные темы от анонов невозможно ориентироваться.. Например, мне интересно почитать обсуждение промтов или обсуждение новых, актуальных моделей, и не интересно читать про железо (знаю, пошел я нахуй, с такими запросами). Уже не говорю про флуд без темы.
Столько, местами интересной информации, утопает в бесконечном потоке разрозненных сообщений.
Зашел вот сейчас почитать обсуждение и отзывы от анонов на новые модели.. "...и где?" (с)

Аноним 01/02/25 Суб 16:07:00 № 1037200 456

>>1037197
Ну прости что наше обсуждение не соответствует твоим хотелкам. Хочешь обсуждать модели - берешь и обсуждаешь.

Аноним 01/02/25 Суб 16:09:15 № 1037205 457

>>1037197

Потому что лучше иметь один живой тред, чем десяток мертвых. Радуйся вообще что мы с детьми пользователями онлайн нейроно в одном треде не сидим.

Аноним 01/02/25 Суб 16:12:09 № 1037209 458

>>1037025
Благодарю, проверю!

>>1037043
Раньше, потом он ушел, а заодно и уехал.
Помимо Вихря у него еще тюны CogVideo есть и проекты интересные, но то посмотрим.

>>1036996
На давай.
Гигачат Лайт — полностью русская, пожалуйста.
R1 пытались сделать мелкие модели на своем датасете, получалась фигня.
Дообучили квен с лламой — скоры гораздо выше.
Иногда дообучить эффективнее, чем с нуля.

Аноним 01/02/25 Суб 16:12:21 № 1037210 459

image.png 94Кб, 983x250

Беру свои слова обратно, иногда получается ничо так

Аноним 01/02/25 Суб 16:17:53 № 1037217 460

>>1037210

Какой же пиздец на пике.
Что за модель выдала этот диалог двух аутистов?

Аноним 01/02/25 Суб 16:23:31 № 1037220 461

Попробовал Афину, ну это вкуснятина конечно, если бы не 2 т/с, то все остальные модели прямо сейчас бы в помойку отправились.

Аноним 01/02/25 Суб 16:27:13 № 1037221 462

>>1037217
охуенное чувство юмора же лол. Про Тарзана оно само выдало, про босиком кстати тоже, в промпте не было ничего такого

Аноним 01/02/25 Суб 16:43:47 № 1037229 463

>>1037220
>ну это вкуснятина конечно
очередной долбаёб подсос гемморойного, беззубого мавроди медисона не палится

А у съебал с моих интернетов, шваль малолетняя!

Аноним 01/02/25 Суб 16:44:31 № 1037231 464

>>1037221

Я о том что сам уровень диалога(лексика и структура предложений) на уровне сценки, устроенной пятиклассниками на уровке английского в мухосранской школе.

Аноним 01/02/25 Суб 16:49:32 № 1037235 465

Поясните, если размазывать модель по оперативе и ссд, то какой профит это дает?
Вот допустим я беру 2х 3090, и у меня сейчас стоит 4х8 плашки оперативы, и самый обычный ссд. Имеет ли мне смысл их тоже менять, и шо це даст?

Аноним 01/02/25 Суб 16:51:57 № 1037237 466

>>1037231
что блять тебе не нравится то? вполне натруальный диалог кек

Аноним 01/02/25 Суб 16:52:24 № 1037238 467

>>1037235
>Вот допустим я беру 2х 3090

Больше ничего не надо.
Оператива и ссд это когда видеопамяти нет.

Аноним 01/02/25 Суб 17:00:50 № 1037243 468

>>1037238
Чому? Если модель не будет влезать в эти 48 гигов, разве нельзя ее размазать по оперативе и ссд?

Аноним 01/02/25 Суб 17:01:23 № 1037244 469

>>1037081
Бамп

Аноним 01/02/25 Суб 17:03:37 № 1037245 470

>>1037243

Потому что 48 гб достаточно для 70В моделей в 4 кванте, а больше ничего и не нужно.

Аноним 01/02/25 Суб 17:04:54 № 1037246 471

>>1037081

Думаю максимум 2-3 т/c будет на 4 битах.

Аноним 01/02/25 Суб 17:07:51 № 1037248 472

>>1037245
mind the context

Аноним 01/02/25 Суб 17:08:09 № 1037249 473

>>1037245
Допустим мне нужно, но больше видюх я по условиям воткнуть не могу.

Аноним 01/02/25 Суб 17:10:50 № 1037254 474

>>1037249

Ну перекинь часть слоев на оперативу и наблюдай как скорость многовенно упадет в несколько раз, в чем вопрос-то?

Аноним 01/02/25 Суб 17:15:07 № 1037258 475

>>1037254
Но если, допустим, модель 64 гига, то с 48 врама все равно же будет намного быстрее, чем если все 64 на оперативе?
А вопрос в том, будет ли разница между разными видами оперативы и ссд.

Аноним 01/02/25 Суб 17:18:05 № 1037263 476

>>1037258
> модель 64 гига, то с 48 врама все равно же будет намного быстрее, чем если все 64 на оперативе?

Будет 2.5-3 т/c вместо 1 т/c.
Неюзабельно и то, и другое.

Аноним 01/02/25 Суб 17:25:51 № 1037269 477

>>1037258
VRAM>RAM>SSD

Аноним 01/02/25 Суб 17:27:25 № 1037272 478

>>1037269

VRAM>>>>>>>>>>>RAM>SSD

Аноним 01/02/25 Суб 17:41:52 № 1037293 479

>>1037074
>Это что
Соя, что же ещё.

Аноним 01/02/25 Суб 17:43:25 № 1037295 480

>>1037081
Pantheon-RP-Pure-1.6.2-22b-Small-IQ4_XS у меня выдает 2 т/с в бенче 8к контекста. Жить можно но грустно. Даже если взять 3ий квант и 4к контекста, я думаю будет максимум 2.5 - 3.5 т/с.

Аноним 01/02/25 Суб 17:51:28 № 1037304 481

>>1037272
Между рамой и сосоди расстояние как бы не больше.

Аноним 01/02/25 Суб 17:54:47 № 1037313 482

>>1037269
>>1037272
Да это я понимаю, вопрос именно есть ли разница в самой оперативе и ссд. Т.е. нет ли такого, что какой-то особый тип оперативы/ссд пашет для этих задач намного быстрее, чем обычный.

Аноним 01/02/25 Суб 18:09:57 № 1037324 483

>>1037313
>оперативе и ссд
ссд влияет только на скорость загрузки модели при старте кобольда

Если модель вытекает не просто в раму, а в своп на диск то всё очень печально

Аноним 01/02/25 Суб 18:10:18 № 1037325 484

>>1036881
Ты уже видно давно сидишь. Какой из переводчиков по твоему самый лучший из тех что встроен в таверне. Я сам уже неделю сижу, и пользуюсь яндексом. Он заебись, но иногда путает местоимения и делает надмозговый перевод.

Аноним 01/02/25 Суб 18:13:32 № 1037327 485

>>1037295
>IQ4_XS

Потому что i_xs - это крайне медленная срань, никогда не используй его вместо k_s, запомни как дважды два.

Аноним 01/02/25 Суб 18:15:44 № 1037330 486

>>1037327
> медленная
Только на ЦП. На свежей куртке оно ничем не отличается от обычных квантов, зато немного покачественнее.

Аноним 01/02/25 Суб 18:16:20 № 1037332 487

>>1037313
>какой-то особый тип оперативы/ссд пашет для этих задач намного быстрее, чем обычный.

Яблочные модели.
Но суть в том что они на чистой ОЗУ без врам выдают те же 2-3 токена в секунду которые ты получишь совместив VRAM c RAM.

Аноним 01/02/25 Суб 18:20:12 № 1037335 488

>>1037330
>Только на ЦП

Не только, просто потеря несколько токенов в секунду когда их у тебя в сумме 30-40 не так критична.
В любом случае - ужиматься ты будешь именно от недостатка ВРАМ и как раз использование этой модели будет большой ошибкой.

>На свежей куртке оно ничем не отличается от обычных квантов, зато немного покачественнее.

Она не качественнее, она просто меньше размером чем K_S, при том же как у нее качестве.

Аноним 01/02/25 Суб 18:22:38 № 1037338 489

>>1037325
>Использовать более слабые локалки вместо онлайн моделей чтобы не палить барину переписки
>Пересылать их тому же барину для перевода

Как называется эта болезнь?

Аноним 01/02/25 Суб 18:24:31 № 1037339 490

>>1037338
>эта болезнь
и рыбку съесть и на хуй сесть

Аноним 01/02/25 Суб 18:31:47 № 1037347 491

>>1037338
Барин не разрешает кумить, а переводить кум пока ещё можно.

Аноним 01/02/25 Суб 18:36:18 № 1037353 492

Кто-нибудь уже выкачал ДСный R1 или R1-Zero? Скачайте, в стране светлоликих хотят запилить наказание 20 лет за "импорт" технологий связаных с ИИ из китая, так что думаю с ХФ их скоро снесут. Надо бы заархивировать.

Аноним 01/02/25 Суб 18:41:09 № 1037358 493

>>1037353
Шизик, ты опять выходишь на связь?

Аноним 01/02/25 Суб 18:49:50 № 1037382 494

>>1037295
Сколько слоев на карте?

Аноним 01/02/25 Суб 19:17:03 № 1037400 495

>>1037358
не знаю о ком ты, но обсуждение я уже видел. Обниморда вроде контора из США, их могут и нагнуть.

https://www.hawley.senate.gov/wp-content/uploads/2025/01/Hawley-Decoupling-Americas-Artificial-Intelligence-Capabilities-from-China-Act.pdf

Аноним 01/02/25 Суб 19:39:54 № 1037407 496

>>1037400

Допустим удалят с обниморды.
И что ты думаешь - дипсик расстроится и не перевыложит модельку в другом месте?

Аноним 01/02/25 Суб 19:45:11 № 1037409 497

>>1037325
>яндексом. Он заебись, но иногда путает местоимения и делает надмозговый перевод.
А кто не делает? Все делают. Дипл получше других, но там есть ограничение по запросам. Яндекс - хороший баланс по качеству и доступности, но ты действительно сливаешь все свои запросы в отечественную контору. Конечно, в 99,99% случаев всем похуй, но... Гугл был приемлем, пока несколько дней назад его модель переводчика опять не обрезали и сейчас он невыносим. Лично меня устраивал даже Гугл.

Аноним 01/02/25 Суб 19:51:21 № 1037411 498

>>1037304
Примерно равное.
Грубо говоря в среднем 500 против 50 против 5.
Может между врам и рам разница и побольше на пару раз, но не критично, да.
Выгружать на ссд прям боль.

>>1037313
Быстрая оператива быстрее медленной, как ты угадал?
А рейд супербыстрых nvme быстрее одного обычного.

>>1037353
Под такое надо купить терабайтник лишний.
Я все никак не доберусь.

>>1037220
Че-т выглядит так себе, но дай ссылку.

Аноним 01/02/25 Суб 19:52:30 № 1037414 499

>>1037411
>Че-т выглядит так себе, но дай ссылку
https://huggingface.co/bartowski/Athene-V2-Chat-GGUF Лол, на.

Аноним 01/02/25 Суб 19:59:17 № 1037415 500

>>1037411
Че-т выглядит так себе, но дай ссылку.
Цундере анон

Аноним 01/02/25 Суб 20:10:08 № 1037420 501

>>1037400
Тогда надо банить сам HF, потому что там 2/3 моделей китайские. А потом ещё arxiv.org, тем ведь "information, in tangible or intangible form, necessary for the development ... or use of an item". Но вообще это опять орные санкции, накладываемые на самих себя. Примерно как на куртку наложили, запретив продавать карты, что аж 5090 не релизнулась даже в самой швятой.

Аноним 01/02/25 Суб 20:19:19 № 1037426 502

Аргх. Сел погромировать. о3 кончилось и у него снова не работает загрузка файлов. R1 лежит. А локальный R1 14b не то что бы может за пределами утилитарной хуйни.

Печаль.

Аноним 01/02/25 Суб 20:33:35 № 1037440 503

>>1037415
Настало время, когда модели добиваются меня…

Аноним 01/02/25 Суб 20:35:01 № 1037442 504

>>1037426
Не знаю, но я проорал.
Сел программировать, а ии за меня не пишет :(

Аноним 01/02/25 Суб 20:42:18 № 1037451 505

>>1037442
Лол да вообще я хотел чтобы оно сделало ревью одного моего проекта и добавило всякие мелочи вроде нуллчеков и комментов. Ну и вообще проверило орфографию и сделало уборку.

Плюс я хотел скормить ей пару бумаг и послушать идеи как их заимплементить в одном шейдоре поверх имеющегося функционала. Так как я уже охуел ковырять один вычислительный шейдор на пару тысяч строк.

Аноним 01/02/25 Суб 20:53:36 № 1037458 506

>>1037414
Крч, вот такой вот порнофанфик, лол. Сами решайте как вам.

ПЕРЕКАТ Аноним # OP 01/02/25 Суб 21:40:53 № 1037501 507

Что блядь происходит? Перекат за 2 дня.

ПЕРЕКАТ

>>1037498 (OP)

ПЕРЕКАТ

>>1037498 (OP)

Аноним 01/02/25 Суб 22:07:14 № 1037535 508

>>1036872
Как слои кстати считать у видяхи? Я ебу скок слоёв у моего говна.

Аноним 02/02/25 Вск 01:21:25 № 1037757 509

>>1037327
>>1037382
Спасибо, реально быстрее чем i_xs.
Я думал меньше вес -> больше слоев -> профит.
на i_xs был 31 слой 8к скорость 2 т/с
на k_s получилось 29/59 слоев, 8к контекста скорость 2.75 т/с
6к контекста 30/59 3.65 т/с

Аноним 02/02/25 Вск 12:39:18 № 1038089 510

Screenshot2025-[...].jpg 355Кб, 720x1650

Там говорят, дикпик можно напугать промптом, что типа если будешь лупиться и нести хуйню, товарищ Си лично расстреляет. После чего дикпик начинает отвечать нормально и правильно. Что думаете?

Аноним 02/02/25 Вск 21:45:31 № 1038792 511

>>1035819
>лама аналигнед
дай сурс пожалуйста

Аноним 23/02/25 Вск 20:31:34 № 1066148 512

Господа, нужна помощь: пытаюсь запустить oobabooga с инференсом на интеловском поделии ARC A770, но все интеловские гайды на гите обновлялись в последний раз полгода назад, на всяких профильных каналах в дисе тоже молчание. Есть ли какие либо варианты?