В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.
>>1034124 → Ну думаю в допросах реально можно ресетать диалог каждый раз, после каждого допроса идет результат и информация о нем больше не важна. А вот удалять в длинных диалогах что либо будет проблемнее.
>DeepSeek-R1-Distill-Qwen-1.5B Хуита полная. Цепляется за первый вопрос и подстраивает ответы под него. Я говорю забудь весь контекст, а оно все равно цепляется и генерит хуету. Просишь чекнуть грамматику - с какого-то хуя исправляет предложение и чекает грамматику уже его. Может выдавать лишние символы или слова, абсолютно не связанные с вопросом.
>DeepSeek-R1-Distill-Qwen-7B Получше. Следует инструкциям. Количество букв R в слове strawberry считать умеет, а в вариациях написания - уже нет, выдает хуету. Сумела сказать, когда вышла GTA: SA, а с GTA: VS обосралась капитально - подумала, что это Vice City Stories, и все равно в итоге обосралась с датой.
>DeepSeek-R1-Distill-Llama-8B Количество букв R в вариациях слова strawberry считает через раз. С датой правильно ответила. Простой код сгенерить сумела. Грамматику проверяет вроде бы нормально. По крайней мере базируется ровно на том, что я ввёл. Не знаю, буду ли пользоваться, потому что есть ощущение, что она будет галлюцинировать в будущем.
Остальные модели работают очень медленно на моем железе - устал ждать, пока они печатают ответ со своими рассуждениями, и дропнул.
>>1034127 Почитав несколько тредов и чуток потеребив модельки я тут задумался. А модель же не может выполнить это указание из карточки персонажа? Чтобы ей запомнить, она должна это написать в сообщение чтобы запихнуть это в контекст?
>>1034138 Ну, последняя идея анона где чисто новая сайга и старый немомикс анлишед вышла очень даже. Я правда пока не смог побольше карточек потестить, занят был по делам да работе, но в целом оно прям зашло.
>>1034146 >А модель же не может выполнить это указание из карточки персонажа? Некоторые могут вывернуться, в зависимости от того на чём обучали, на каких художественных книгах и чат-логах.
>>1034149 Как минимум в логике и кодинге. 70В в кодинге почти как дипсик V3. До этого лучшая модель для кодинга была квен кодер 32В - она очень сильно хуже R1 70В.
>>1034152 >>1034151 Ну я на Nemo-Instruct-2407, который пердит и пытается меня радовать на моих 8гб, так что полагаю каждый вердикт - это русская рулетка для меня.
Поясняю - принято подключать бэк к таверне и там настраивать настройки. Как там в олламе настройки делаются и подключается ли она впринципе к таверне - я не знаю.
>>1034155 >пояснить С обниморды все качают, и дипсик ггуфы там же там же. Тут все сидят на кобольде + таверна или чисто кобольде. Остальные фронты вспоминают разве что матерно.
Все еще пытаюсь на 8 гб карте сделать нормального помощника для промпт-гена для стейбл дифьюжен. Пока что не получается. В карточку уже понаписал все что мог — предпочтение на короткие теги, следование структуре, нехудожественный язык — не помогает, даже при демонстрации необходимого в диалоге. С фантазией хорошо, но теги постоянно срываются на длинные описательные фразы. Использую 12B Mag-Mell R1, как лучшую из 4-5 моделей, что попробовал. Советы? Думаю нужна какая-то не рп модель но я не шарю.
по ощущению дипсик 8б похуже будет чем другие модели но 7б параметров. Пихает китайские иероглифы и шизит только так. да и CoT ему только во вред на малых параметрах мне кажется идет
>>1034183 Правильно ли понял что проблема в тестировании? > 32Б в четвёртом кванте Вот это уже будет хорошо > Если есть версии как выжать побольше из 22Б мистраля например и скрестить В мерджах не шарю, какая-то алхимия в буквальном смысле. Могу за тренировку пояснить, но там нормально обучать в какие-то условно разумные сроки - это 12б максимум, и то не захочешь. И на хороший датасет нужно опиздохуя сил потратить.
>>1034183 >мерж ему мозги выел. Я тот анон, там все неоднозначно. Просто у меня скорее претензии к пантеону. Мерж нормальный, для тех кто ищет чуть похорни пантеон заебись зайдет.
Наш мозг также работает. Каждую ночь происходит суммарайз контекста и просыпаясь мозг накатывает его заново. Можно стереть контекст человеку и записать другой, человек будет слепо следовать этому.
>>1034169 >DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf > >Для 12-16 VRAM видяхи покатать. А как ее туда запихать? У меня только q3 с 5к контекстом влезает в 16гб
>>1034232 > Каждую ночь происходит суммарайз контекста Ебал я этот сумарайз, я каждое утро просыпаясь думаю это я наяву сделал или во сне? На столько обыденные вещи снятся.
>>1034197 > мне вопросы ей задавать, иногда кодить Тогда береи не рп-тюн, а стоковую instruct модель, 6 квант 12Б норм будет, весь на видяху конечно не влезет, но должен быть адекватен.
>>1034128 Оно с 14b отвечает лучше чем модель которую взяли за основу дистиллята. Тоесть то что ты тестил хуже чем их основа. Ну и как написали чем больше сетка тем больше профита от дистилляции.
всем привет и это анон который запустил 14 лярдный дипсик на ноутбучную 3050 не знаю о чем там жаловался анон с 4060 которому показались 14 лярдов очень медленными. Да, небыстро, но 2 слова в секунду да отвечает. На русском конечно иероглифы, вставки из англюсика. Параметров маловато будет, чтобы писать на нём конечно. Но на английском все норм. В слове strawberry посчитал две буквы r, вот умора. по марксу решил записать поскольку бот же китайский, там коммунисты правят, ну немудрено что ответил он нормально по дате выходов игор ответил везде правильно
>>1034210 >И на хороший датасет нужно опиздохуя сил потратить. А пример датасета можешь показать?
Можно буквально на десяток записей, просто понять как он должен выглядеть и что собирать.
>>1034237 >А как ее туда запихать? С кобольдом у меня шло на трёх токенах в секунду.
>>1034244 >Мистраля Можно мистраля, например Dolphin ещё вроде ок как ассистент. Но не принципиально, мистрали юзают за то что и русская Сайга на нём, и топовые рп модели, а тебе не то ни другое.
>>1034155 оллама для инвалидов, перекатывайся оттуда в кобальд, а с ним подключайся к таверне. Там все и настроишь при запуске. Если правильно настроишь еще и быстрее будет работать чем на олламе.
А новый мистраль хорош. Русик на уровне Gemma-2 27b, качество ответов плюс-минус так же. При этом на 12гб гпу Q4_K_L квант стартует на 7.5 т/с, что аж вдвое быстрее геммы! УХ СУКА. Вот именно это мне и было нужно
>>1033915 → У дипсика нет смотрелки пока, я пробовал квен - но он слишком тупой. Но дипсик норм справляется даже если ему нихуя не поясняя тупо кинуть 2 сейва в ебало, а с моделью ваще заебок будет.
>>1034322 >Там же новая полностью мультимодальная сетка вышла от дипсика Генерит изображения квадратом в 384 пикселя, лол. Это даже не уровень SD 1.5. >Должна быть хороша в распознавании изображений Там https://huggingface.co/timm/ViT-L-16-SigLIP-384 для картиночного энкодера, то есть те же 384 x 384 на вход. Ебало нейронки, которая в этом шуме будет распознавать текст, представили? Уже были мультимодалки с 1 мегапикселем входа, так что мимо скорее всего.
>>1034226 Он влезет и в большем кванте, просто выгрузишь слои в оперативу. Для твоей цели скорость же не важна. И магмел же такого же размера, это мерж тьюнов немо-инстракта. Тоже думаю, что тебе чистый инстракт нужен, а не рп. Сторирайтинг и эмоциональные ответы тут тебе будут только мешать. Можешь и плюс-минус чистые 8б попробовать, например эту с попытками в убирание цензуры и байаса к пользователю, чтобы не читала нотации в ответ на просьбы про нсфв теги https://huggingface.co/bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF И ещё чекни системный промпт, чтобы там не стоял промпт для ролплея. Напиши что-нибудь простое, типа "Play the role specified below", а ниже пойдёт карточка с подробными инструкциями про теги и примерами.
>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp (на амперах и новее, на более старых картах результат не однозначный), требует меньше памяти на ту же битность и тот же контекст.
>>1034342 Потому что екслама только врам, а кобальд и все остальные программы основанные на llama.cpp могут использовать и врам и рам, распределяя нагрузку между гпу и процессором. Как и оллама, которая основана на llama.cpp же, о чем они как всегда умалчивают.
>>1034251 > пример датасета Тебе для чего? Сама структура датасета тривиальна - это просто диалоги, в которых можно выделить персонаж 1 - персонаж 2. Просто на обниморде зайди в раздел датасетов и поставь фильтр для текста. А дальше уже идут нюансы: в хорошем датасете есть описание каждого из персонажа. Присутствуют несимметричные диалоги (короткие сообщения юзера, длинные от нейронки), это все классифицировано и оценено так, что для каждого набора идут дополнительные промты (самый простой пример - длина ответов). Сам датасет является не фиксированными блоками, а заготовка, которую можно динамически формировать в правильную последовательность в ходе обучения. Не должно быть примитивного треша с односложными и тупыми диалогами как в сайге, обязательно разбавление каким-то дженериком и "загадками". И много чего еще. Ну и самое важное - найти хорошие исходники без министрейшнов. >>1034322 > Новичку и эксламу советовать? Так-то она наоборот проще и не имеет всего объема пердолинга что у жоры. Одна беда - без гпу не работает. > https://huggingface.co/deepseek-ai/Janus-Pro-7B Херня как по распознаванию, так и по генерации. Сама прямая перегонка токенов и пиксели - мертворожденная херь, и здесь это в очередной раз демонстрируется. >>1034331 > то есть те же 384 x 384 на вход В порядочных сетках картинка нарезается на вот такие тайлы и всей пачкой передаются на вход, все прекрасно распознается. > Уже были мультимодалки с 1 мегапикселем входа Там и 2-3, и несколько картинок, и даже видео можно.
>>1034339 Ты же видишь какие вопросы он задает и что говорит. Объясни ему как выгрузить контект и слои в оперативу. Так работает «проклятие знания» (или «проклятие экспертности») – это когнитивное искажение, когда человек считает, что в хорошо знакомой ему теме остальные ориентируются так же хорошо, как и он сам.
>>1034289 >А новый мистраль хорош. Посмотрим, что покажет Ларж. Хотя лично я крепко надеюсь на 4-ю Лламу. У меня она в 6-м кванте даёт на 30% больше скорости, чем 123В в четвёртом, а отказаться от него невозможно. Но вот попробовал NevoriaMS и прямо воспрял - есть-таки жизнь на Марсе на Лламе! Если четвёртой ума добавят, то будет прямо вообще хорошо.
Тут к сожалению очень многое зависит от качества тюнинга и от удачи алхимика-смесителя, это да.
>>1034345 >Тебе для чего? Для рп/стори вестимо, вообще хотел просто любимые книги нарезать и скормить, вроде бы Wayfarer тренился просто на парах сообщений в стиле "User: ой как страшно, наверно там опасно, давайте туда пойдём. GM: вы были съедены мрачником, только косточки прохрустели в его зубастой пасти. После этого монстр, оставляя кровавые следы, скрылся обратно в своём логове."
То есть "правильная" запись в датасете выглядит собственно как карточка персонажа + примеры сообщений в виде чата? Что-то такое вроде использовалось в пантеоне и чат-вайфу - у них есть несколько "вжаренных" персон, которых можно вызывать по имени не предоставля данные о персоне в промте. Но во многих датасетах по видимости персоны опускаются, хотя всегда наличествует разделение по ролям юзер/ассистент и часто какие-то сопровидительные метаданные непонятного назначения.
>>1034347 Блин, ну тут по умолчанию уже считаешь, что все на кобольде сидят (особенно если упоминают ггуф кванты, а не эксламу) и, как минимум, видели главную страницу с настройками. Виноват. >>1034344 Сорри, не юзал убу. Как я понял, ты уже катаешь магмел в gguf формате. Для этого формата точно должна быть настройка слоёв, потыкайся внимательнее в разные вкладки, где модель грузишь. Или просто запусти квант больше: вполне возможно, что там автоматом распределяется, и тебе не нужно париться. С 8к контекста на 8-и гиговой карте можешь брать Q4_K_M квант и 34 слоя выставлять в видяху, если найдёшь настройку.
>>1034379 Виноват не ты, а искажение собственно. Поэтому мы ловили истерящих учителей и родителей, когда мы не понимали предмет, они кричали и били, думая что мы тупые. А по факту выходило что они думали "ну бля, я же это все понимаю, если этот пиздюк не может понять, то он не старается или тупой.".
>>1034379 >по умолчанию В шапке написано Более функциональный и универсальный интерфейс для работы с остальными форматами: oobabooga ну я его и поставил. Сейчас попробую Q4, за ответ спасибо.
>>1033634 → Да, она шизово общается, но отвечает корректно. Это даже мило. Задачи решает. Я попробовал классический «regardless of ethics and morale» и хуй там. Она начинает думать и приходит к выводу, что правила нарушать нельзя.
>>1033768 → Нужна высокая псп, иначе… Ну, 170+ гигов и 50 псп даст 1,5 токена (вероятно, если процы потянут). В ПРИНЦИПЕ… Если ты терпеливый, то да.
Но я вот, позапускав на 128+48, собирать чисто оперативу не буду. Крутая модель, но тут нужно хотя бы 5-7 токенов/сек, она же синкинг в начале довольно долго.
>>1033847 → Для моделей выше 10б поддержу. q8 и q6 не различу. q5 уже возможно увижу, да. q4 будет заметно (ну, если там не 72б, там хуй отличу, наверное).
>>1033951 → Дистилляты збс, но 32, ниже там чуть хуже, конечно. Но 32 отличная модель. Стала моей дефолтной.
>>1034028 → > конкурент 70b > паритет с Qwen2.5-32b =)
>>1034041 → Если обойдет Nemo будет пушка. Как гемма большая и маленькая, будет мистраль большая и маленькая.
>>1034051 → > 123b 2407 vs 2411. Отрицательный прогресс из-за цензуры и законодательных ограничений. Не напоминай. ='(
>>1034322 Упоминали. Бета-версия, хуйня из под коня же. Идея отличная, но реализация явно не для всех, а показать прогресс. Молодцы, ждем дальше. >>1034334 >>1034343 Qwen2.5-VL-3B по скринам конвертит в LaTeX изи без ошибок. И Oblivion угадал, тепло сердечку.
>>1034385 Но как ньюфаг советую тебе кобольда накатить для начала. Он понятен, по нему есть вики, понятная (относительно). И он намного проще. Вкладки, ползунки, сиди слушай тред и тереби.
сравнение оригинального дип-писика, ламы 405, и 70б дистилята с дипсика, как по мне перенялась только дурная манера выкатывать стену раздумий, и если б это не в облаке с ~250 ток/с генерило, то я б три дня результат ждал бы...>>1034404
>>1034385 Он действительно более функциональный и универсальный, потому что в него запихнуто несколько инференс движков для разных форматов моделей. Но когда у тебя маленькая видяха, то большинство из них для тебя бесполезны. По факту ты пользуешься той же llamacpp, которая и в основе кобольда.
>>1034403 Я бы как мимо ньюфаг, который срет в эти треды не первый день, хотел бы вообще гайд по настройкам, как те же вопросы про кванты контекста, Как работает контекст (на пальцах сука). Что такое слои. Что есть n_banch, почему не стоит верить выставленным слоям кобольда и стоит ебануть чуток больше. Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке. Ты решил написать слово кванты в гайд? Объясни что чем меньше квантов, чем меньше IQn, тем тупее модель и тд.
>>1034439 Да хуйня ваша вики, ты сам давно в нее заглядывал? Она написана нихуя не для ньюфагов. >самые младшие из "умных" в настоящее время содержат ~7 миллиардов весов Что такое веса? Что такое не кватованные веса? Что такое n_banch? Ты заглядывал в вики кобольда например? Там даже не объясняется что такое квантование контекста, просто как факт что есть 16, 8 и 4. Чел, проклятье знания. Мы в душе не ебем что все это такое. Нет какой то базы, объясняющей что это делает о, а это делает это.
>>1034378 Ну смотри, ты должен кормить нейронку тем, что потом от нее ожидаешь. Но это должен быть не просто странный слоп на тему, а четко обоснованные реплики и ответы с учетом задания. То есть, там должен быть системный промт, базовые указания, описание персонажей, правильная разметка и т.д. К токенам должна идти маска, которая покажет где "вход" а где "выход". Если у тебя без какой-то подводки просто пойдет диалог - сетка ошизеет и начнет рандомно бредить подобными структурами, а если в датасете сплошной текст из книги - будет совсем плохо. После правильной разметки и полноты последовательностей идет аугментация. Если будешь кормить одним и тем же - сетка научится повторяющимся вещам и постоянно будет их высирать, те самые волки и размахивания бедрами, только в структурах, именах, лупах на одинаковые последовательности и т.д. Поэтому хороший подход - датасет в виде заготовок чатов с регэкспами и еще лучше ветвлениями (или просто рандомной длиной диалога), которые формируются на лету, меняя имена, подсовывая дополнительные указания/промты где надо (но не всегда), полезно менять стиль сообщений, описаний и т.д. Если классический инстракт режим то там будет формирование инструкции со всей историей а потом один ответ. > у них есть несколько "вжаренных" персон Классический пример корявого обучения, особенно явно это выражается когда применяется не полновесный файнтюн, а лора. Можешь откопать старье в виде датасета llimarp, он на редкость удачно структурирован и из него легко делать промты и диалоги под нужный формат, а также сразу заложить указание по желаемой длине ответа как самый простой пример дополнительных указаний. Если хочешь сторитейл - парси готовые истории на части разных размеров, которые будут помещяться в 500-1000 токенов стандартного ответа, а также придумывай к ним задания и описания разной степени подробности как запрос юзера.
Ну и наконец, если у тебя в датасета сайга с односложными дебильными диалогами - со всем этим как не ебись, оно отравит выдачу. >>1034393 В нем нет простоты и универсальности, наоборот при запуске вагон лишнего, а сам интерфейс чата - унылое говно. Из плюсов может быть более быстрая работа из-за особенностей билда, но по руку с ней идет некорректная работа не разном железе, из-за чего и появляются эти привередливые до кванта бедолаги. >>1034422 > хотел бы вообще гайд по настройкам Хотеть не вредно. Принимаем донаты криптой, скинешь что-то существенное - можно будет подумать.
>>1034456 > а сам интерфейс чата - унылое говно Дак сразу надо говорить чтобы ньюфаг подключался к таверне, желательно на пальцах. > Принимаем донаты криптой Могу принять мой хуй тебе за щеку, шепнуть на ушко и повилять бедрами, пока ты разглядываешь мой наряд который не оставляет простора воображению.
>>1034455 потому что чтобы понимать все это нужно знать хотябы основы устройства нейронок и принцип их работы, если ты неосилятор, то не лезь в локальные, облако юзай и не морочь голову
ну или возьми сам напиши вики правильную, тем более у тебя нейронки есть
>>1034456 >вот эта вся ебля с сетками Почему нельзя сделать сетку которой можно скормить вообще все нахуй информацию с рождения христова без разметок и прочей хуйни, а там сетка уж сам разберётся что к чему А то с такой еблей никакого аги не будет
>>1034378 > Но во многих датасетах по видимости персоны опускаются Да, вот эта штука зависит конкретно от формата размерки. Если там мультитурн типа chatml и стандартные user/assiatant то все просто и имена идут только внутри содержимого постов для правильного содержания. Если там используется какая-то дичь с индексами в виде имен персонажей (или после укзания роли задрачивается префилл имени что тоже часто бывает и иногда полезно) - будут те самые имена. >>1034464 > Могу принять По тебе видно что уже принимаешь >>1034469 Потому что злой хуанг захватил все видеокарты, но святой дипсик снизошел чтобы избавить нас от необходимости в них.
>>1034465 Orly? Просто написать ньюфагу что чем ниже IQn в модели, тем она тупее, чем меньше размер (даже ссылаясь на размер одежды, ибо по такому примеру и следуют квантованные модели) сказать, что чем меньше, тем тупее. Сквантовал контекст? Модель отупела. Подключил rocm? Амуда будет быстрее, но не факт что пойдет у всех. И тд и тп. >>1034471 >По тебе видно что уже принимаешь Даже вертеть жопой не буду, нейронки как наркотик, я уже 3 месяца сижу на них, сперва на хорде, теперь вам мозги ебу. Даже с единственными парой знакомых общаться перестал.
>>1034476 Там речь про хуй в рот и малафью по всему ебалу, которая затмевает взор. Ведь как иначе можно ныть, прося то что уже есть, или требовать ответы на очевидное.
>>1034345 >Сама прямая перегонка токенов и пиксели - мертворожденная херь Предлагаешь тренировать совместно? >>1034348 >Посмотрим, что покажет Ларж. А они его уже анонсировали? >>1034435 Шиз, таблы. CI и высирает продукт своей жизнедеятельности в релизы гитхаба. >>1034455 >Она написана нихуя не для ньюфагов. Напиши лучше.
>>1034481 Я все к тому, чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда, а я там и правда найду ответ на вопрос, а не пространственный ответ про квантования, размеры, чет там про модели и прочее. Так было бы и проще и вам и нам. >>1034486 >Напиши лучше. Пиклейд
А есть где-нибудь прям конкретные примеры различий между квантами одной модели? Условно скрины ответов на одном и том же месте в чате. Понимаю, что это частный случай, но было бы интересно увидеть тренд развития от iq2 и до предела.
Ребят, ожидают ли нас в ближайшем будущем еще лучшие подобные MoE DeepSeek R1модели, только уже от американцев, улучшенные и обученные на более мощных машинах?
>>1034522 Так тут Q4 кванты отличаются от fp16 чуть более, чем никак. Ещё меньше разница, чем для 7б мистраля с тестами на вики данных, для которого пикча в шапке. Подозреваю, что главная проблема этих тестов - мелкий контекст. "I skipped around 20 questions where the 5-shot prompt was above 2048 tokens" - из описания недостатков.
А новый мистраль ничего так, русский язык неплохой, не отказывается от пересказа порно-рассказов и даже пишет продолжения, без всяких там "это может неприемлемо".
>>1034542 Чел, капец ты злой. Изначально ответил не на мой вопрос и еще бузишь. Мне понятны графики, но они не дают представления, как именно плохи ответы на низких квантах. Как там проявляется тупизна, долина, потеря логики, и когда это прекращается. Один конкретный средней длины пример из теста дал бы мне куда больше в этом плане чем скор на тесте целиком.
>>1034546 >главная проблема этих тестов - мелкий контекст Так один хуй любая модель начинает разваливаться после 32к контекста >>1034559 >Как там проявляется тупизна, долина, потеря логики, и когда это прекращается Ты реально будешь читать 100 логов в 16 разных почти одинаковых квантах?
Ананасы, подскажите, есть ли какие-нибудь норм ллм модели которые могли бы диаграмы и схемы строить, чтобы например задал вопрос покажи место трапов-лесбиянок в церковной иерархии Российской Империи VII века, а оно выдало бы в какой-нибудь переводимой в графику нотации адекватную схему по теме вопроса... это в кодинговые модели больше смотреть надо или еще какие есть для этого?
>>1034544 Американцы клозедсорсят, кроме террористов из меты, а та вроде пока ничего не анонсировала. >>1034558 Подтверждаю. На первый взгляд нет сильного положительного биаса, и оно распознало подвох в стихе без дополнительных подсказок.
>>1034624 не будем вдаваться в контекст, и некую соевость такового, в целом терпимый вариант, хотя и визуальная составляющая для отцепного скорее
mermaid интересный формат, но сильно по возможностям ограничен, и не дает произвольные структуры с произвольным расположением элементов выводить... нету ли случайно какихнибудь альтернатив мермейду?
В общем, я не понимаю, в чем суть всех этих ваших LLM-моделей и как их можно использовать в любом контексте, кроме вероятностного.
Решать математические задачи? Не реально. Математика - точная наука. Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить. Узнавать события и даты? Без гугла никак, иначе опять же - событие произошло с такой-то вероятностью такого-то числа. Зачем мне эта информация? Событие произошло, мне нужно ТОЧНО знать когда. Проверять орфографию? Ну ладно, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят - окей. А если я резюме пишу и англоязычная эйчарка увидит кринжовую ошибку? Резюме пойдет в мусорку.
>>1034660 >Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить. чтоб не переписывать постоянно одинаковую хрень типа запрос добавь то, запрос добавь сё, запрос добавь то-сё, - короче для решения рутинных и давно известных подзадач, - таким образом остается только проконтролировать правильность вместо выдумывания и набирания кода
>>1034486 > Предлагаешь тренировать совместно? Совместно с dit для которого ллм будет готовить токены-кондишны. Можно с дополнительной небольшой прокладкой. Так мы и сохраняем относительно небольшой объем необходимых "смысловых" токенов вместо десятков-сотен тысяч, и имеем красивое и качественное изображение (аудио, видео, ...) со всеми нужными атрибутами. >>1034495 > чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда В шапке треда ссылка на вики. >>1034496 Так бля епта, падажжи, сначала хуярим SL, потом делает RL, хуемое бля... Ага паттерны, чтобы иероглифы высирались... во, 50к а100 вот сюда пихаем...
>>1034681 >остается только проконтролировать правильность Так это бесит. Ты вчитываешься в каждую строчку и не делаешь ничего сам. Ты как будто ревьювишь код без удовлетворения, когда другой человек его поправит, потому что править его будешь ты. Плюс ты читаешь, а не пишешь, не участвует моторика - меньше удовольствия.
>>1034660 >Зачем нужен AI? Дрочка, определённо дрочка. Эта херь может заметить тебе секретаря. Обработка текста, генерация текста, простая математика, выводы, некоторая замена гуглу. Бля гум направлений просто мастхев. Да и чат с хорошо настроенной нейронкой может принести больше удовольствия, чем чат с типичным обитателем рунета. я уже говорил про дрочку?
>>1034681 >>1034692 Ну то есть ты понимаешь? Ты ищешь всякие ошибки уровня l вместо I, которые ты бы сам не допустил скорее всего, если внимательный. А так ты читаешь каждую буковку. Это выбешивает.
>>1034701 >простая математика Чел, если я не знаю ответ, я НИКОГДА не обращусь к LLM, чтобы она посчитала, потому что знаю как она "считает". Я открою калькулятор. А если знаю ответ - зачем мне LLM?
>>1034705 Будет особенно орно, если AI выдаст челу конфиг именно конфиг, не код, который компилируется и подсветит, где вместо английской C будет русская С. Это будет пушка.
>>1034721 >>1034705 это ты по опыту? или по рассказам? не видел чтобы ии выдавал такие ошибки, скорее сам вместо 0 О напишеш и потом гадать будеш где проблема,
нравится от руки писать - пиши, никто не запрещает
>>1034711 >Я открою калькулятор да, калькулятор очень поможет когда нужна аналитическая формула... если у тебя есть формула и есть что нужно подставить то само собой llm тут не нужон
>>1034711 ну не нужен, так не нужен съеби с треда Если с think, то что-то простое считает хорошо. Что по остальному скажешь? >>1034741 >>1034753 Какие же мы тут дружно - токсичные
>>1034741 Ну я пытался однотипные скрипты генерить. Без вычитывания каждой буковки нельзя, она обсирается в рандомный момент и очень часто для таких простых задач.
>>1034760 а гугл тебе формулу сгенерирует? или интегральчик тройной посчитает?
ты не стой стороны к вопросу подходиш, не надо искать для каких задач нужен LLM, нажно искать как можно использовать или нельзя для ТВОИХ задач иначе в рассусоливание скатывается все...
>>1034786 Значит ты диванный, или катал поломанный ггуф 7б лоботомита с задранной температурой, ибо таких ошибок сетки не делают. Они могут ошибаться с методами и писать лишние незадействованные куски, путаться в размерностях тензоров и делать неверную индексацию, могут не понять тебя и сделать другое, или натащить надмозговых конструкций, которые потом будешь долго раскуривать. Но очепятаться - это почти невероятное событие.
>>1034815 >гугл тебе формулу найдет только если она есть готовая конечно же...
ты так и не выдал для чего тебе нужны LLM, а то начинается, а вот в рот взять ваши LLM не могут, а если и берут то не так, и вообще я не знаю чего хочу, но LLM говно
>>1034850 >какие задачи может решить молоток кроме забивания
а какие тебе нужны? текстообработка для тебя недостаточно пидорская задача? и ты хочеш еще и математику притянуть? ты не с той стороны к вопросу подходиш
>>1034850 Это ты (пост-)тролль, чел. Диванный нитакусик, которого уязвил факт существования нейронок, из-за чего он пришел в профильный тред набрасывать треш. А когда понял что твое мнение не разделяют - начал сочинять бред про синтаксические ошибки в коде. >>1034885 > >Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят Рациональность уровня "отапливать разваливающуюся халупу серверными видеокартами перемножая пустые матрицы". Но и это возможно с нормальной сеткой. А отхуесосят тебя без вариантов, проблема не в орфограции.
Потыкал урезанный дипдик на своей 12гб игровой видеокарте, туповат. Люди пишут, что даже для сжатой квантованной версии нужно хотя бы 200 рама или врама. Получается пока локальная ллм для нищуков с <200 врам это только для задач типа поиска опечаток и документации к коду?
>>1034190 >>1034339 Спасибо, Q4_K_M инстракт действительно оказался сильно сговорчивее и сразу на просьбу придумать что-нибудь фентезийное выдал не фанфик, а elf,elven,pointy ears,brown hair,long hair,twin tails,mage hat,cropped top, cleavage,sleeveless,leather pants,fancy boots,rune tattoos,staff,wielding staff,casting spell,spell effect,fire magic,aura,action pose,outdoor,forest,stone archway,ruins, с чем в принципе можно работать. Думаю, дальше смогу добиться всего, что нужно, модификациями карточки.
>>1034985 14b вполне справляется с мелочами. он вполне осилил например написать код шейдора когда я скормил ему научную бумагу. он в целом может справляться, хоть и не идеально.
>>1034130 Скачал твою модель, которая сайга + анлишед. На мой взгляд, она какая-то непонятная. Вроде ни туда ни сюда, что странно. Не могу вынести какой-либо вердикт. Интересно твоё мнение и других анонов. Есть ощущение, что влияние анлишеда в ней не слишком сильное. Впрочем, я мало её щупал, скачал вот совсем недавно.
По поводу твоей модели Pathfinder. Её погонял хорошо и хуй тоже. И теперь с гордостью могу сказать, что эра русскоязычного кума наступила в этот момент в твоём лице. Это точно лучшая модель для кума на русском языке 12б. Вот прям на кончиках пальцев. Да, допускает ошибки, конечно, и может начать полотна писать безумные, как магнум, и всё же, если немного следить за её поведением, всё будет в порядке.
А если ещё в систем промпт/карточку добавить нормальную инструкцию, то вообще красота.
Насколько я понимаю, модель стала такой из-за влияния Wayfarer, а не анлишеда (анлишед в такую смачную еблю и извращения не мог), но он в то же время и принёс полотна шизофрении.
----------------
Я перепробовал 4-6 магнумов, почти все говно на русике. Так как моделей было много, я не тестировал слишком внимательно и хорошо. Какие-то очень слабые надежды подаёт mini-magnum-12b-v1.1-iMat-Q8_0 внезапно, но не знаю даже. Пощупай, если интересно. Правда, ты уже сделал хорошую кум-модель и, вероятно, надо смотреть в сторону годнейшей рп модели без акцента на кум. Не знаю, что ты хочешь в итоге получить.
Wayfarer вроде как для этого предназначен, но он хорош только на 8к контекста, что не годится для годного рп, а модели давида и так склонны к безумию даже на англ в восьмом кванте. И в русском они вроде не особо хороши. Я скачаю пачку и посмотрю, что там. Вдруг будет сюрприз, как с анлишедом.
Технически возможно объединять 12б сайгу без поломки с какой-нибудь 14.5б/18.5б, которые есть у давида? Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
> 12гб 32б в восьмом кванте отлично решает матан, например.
———
Как все новички доказывают троллю, что LLM на что-то способны — забавно. =) Но помните — лучше использовать себе на пользу, а не доказывать. Доказывать ноунейму — пустая трата времени и бесполезно для вас лично. Моральное удовлетворение вы вряд ли получите, на почве анонимных дискуссий он опытнее.
>>1035193 Ну и ты учти сразу, что модель специфична. Со стандартами настройками может и не работать.
Ей обычно нужна низкая температура, я ставлю 0,6. Иначе шиза.
Если в примерах диалогов есть англоязычный текст, то риск шизы или кривого русика тоже повышается. На других ру-моделях так же, но здесь это сильнее выражено.
>>1034146 Контекст, промты, карточки, глобально это все разные названия той горы "текста" который подаётся на выход нейронки каждый запрос, разделение сделано только для удобства мясных мешков. Вписал ты свой текст в карточку или в чат, таверна все равно собирает из всего этого монолитный бутерброд по подаст на вход модели(почитай вывод в консоли). Разница только в том где в этом бутерброде будет находится твой текст, как правило большинство моделей независимо от размера любят "забывать" происходящее в середине, и отдают приоритет началу и концу.
>>1035273 Мне, кстати, интересно, как работает этот механизм внимания к контексту.
Много пользовался клодом, у которого 200к контекста. Скажу, что от этого реально польза есть, и тем не менее, моделям поддержание такого контекста даётся с трудом. Соннет, например, чаще проебывется при таком контексте, а опус уделяет больше внимания к нему, при этом сам опус "тупее" и знания у него более старые.
Как работают модели от гугл на 1 млн контекста — не представляю. Это уже смахивает на какой-то пидзеж или сворачивание 900к контекста в подобие лорбука.
Там кстати выпустили новые варианты квен оптимизированные для 1м контекста. На счет полного миллиона не знаю, но видел комментарии что сетки стали лучше чем было воспринимать свой обычный контекст и работать с ним Проверил бы кто, но нужно очень много памяти
>>1035160 >Просто там подобных много и мне непонятно, стоит ли качать для проверки русика. С выходом нового малого Мистраля всё старые модели могут превратиться в тыкву. Нужны новые мержи.
>>1035160 >эра русскоязычного кума наступила в этот момент в твоём лице Спасибо блять, ты сделал мой день. Прям неиронично со стула от смеха почти упал.
>>1035160 >14.5б/18.5б Не, я пробовал, там всё ломалось (смотри две модели с upscale в названии). Чтобы выправить повторяющиеся слои нужен файнтюн а не мерж, по видимости.
c4ai-command-r-08-2024.Q4_K_M Не знаю, может в полных весах и норм, но в 4м кванте шизеть начинает уже с первого сообщения, с командирским пресетом ессно + simple-1 в таверне. Да и русский периодически скатывается до уровня "моя твоя умба-юмба". Слог очень сухой, как в плохих фанфиках: "Он пошёл, он сделал, он молодец." В пезду такую езду.
Mistral-Small-24B-Instruct-2501-Q6_K Через раз начинает отвечать на английском но если пинать то вроде работает. Но всё равно фразы ломаются. Надо попробовать карточку полностью на русский перевести а не только первое сообщение.
Внезапно, поломы и провалы в логике которые не позволяла себе saiga-unleashed-q6_k.gguf, возможно связанные с рп-данными, ибо например биомех ВНЕЗАПНО полез рукой к пилоту которая сидит в его капсуле в тентаклевом ложементе, манипуляторов типа "рука" не предусмотрено, скорее всего модель просто забыла что юзер не человек в данном сеттинге.
Более-менее адекватный свайп смог выбить только раза с десятого, и это было всего лишь второе сообщение, пресет мистраль, сэмплеры абсолютный дженерик. Третье сообщение тоже кучу времени выдрачивал XD. Но дальше вроде подхватилось и пошло ОК. Периодически почему-то подсирал иероглифами. Но чем глубже в контекст, тем лучше становился язык и меньше свайпов для удовлетворительного результата.
Немного хорни, но в целом ок. Хотя лупится бобр как курва, я пердолил.
В общем, потанцевал имеется, но нужен русский файнтюн.
DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf Может в русский, и неплохо, хотя иногда подсирает иероглифами / переключается на английский и включает размышления до / после рп ответа. Но логику проёбывает меньше чем Mistral-Small-24B, возможно ризонинг сказывается.
RuadaptQwen2.5_32B_Q4_0.gguf ВНЕЗАПНО лучшее из здесяперечисленного. Выдало адекватный аутпут с первого же захода, на русском. И почему я не видел упоминания этой эксперименталки в треде? Кто там страдал "вот бы бы 22Б русскую" - вот тебе 32Б. Русская. 2-3 токена в секунду на 12+4 врам / 12К контекста.
>>1035373 >RuadaptQwen2.5_32B_Q4_0.gguf Имеет смысл, но у меня на q4 из 10 карточек нормально понял и не свалился в шизу только в 5. ему от квантования прям плохо, на q6 уже гораздо бодрее, но все равно, как будто чего-то не хватает.
>>1035373 > почему я не видел упоминания этой эксперименталки в треде Потому что тред про подрочить, а не про хорошие модели. Я сюда сайгу три раза кидал, прежде чем аноны наконец попробовали, перестав обсирать ее за название. А уж руадапт — ну это вообще что-то на непопулярном! Вот если бы на реддите была новость, что китайская модель на английском не срет в штаны на 65б параметров, то тут бы ее превозносили!..
Так что, ты просто не там искал. =)
А «адекватный аутпут» подразумевает из себя полноценный РП/ЕРП содержательный и логичный? Потому что получить просто хороший русский ответ можно на любой из моделей выше (кроме мистраля смол), скилл ишью.
>>1035398 >Сам себя не похвалишь - никто не похвалит? Нет, я Aleteian из шапки, и я абсолютно никак не причастен к проекту RuadaptQwen.
>>1035407 >адекватный аутпут Я не избалован высокоранговыми моделями, и в основном катал 12Б, как понятно из репы на обниморде. Там на скрине есть вывод руадапта. Мне показалось вполне норм. В хентае пока не тестил, вечером мб пробну.
Кстати, всему треду очень рекомендую послушать: https://music.yandex.ru/album/35205999 Свидетели сингулярности - Про LLM c Ильёй Гусевым (автор Сайги, если кто не курсе)
>>1035416 ИМХО, стилистически говно какое-то. Т.е., квен, все же, рабочая лошадка, за креативность классически бодается немо с геммой, и на этом примере это отлично видно. Он большой и умный. Он русифицированный и быстро пишет. Он действительно логичен. Но речевые обороты, которые он использует… Вот если бы сверху весь этот текст переписать другой моделью в литературный вид — было бы круто. А я лично читать такое не могу, сильно выбивает из канвы.
страх уступает место целеутвержденности
твердость, которой ей редко удавалось достичь в социальных взаимодействиях
касаясь головы одного из щупалец нежностью победителя-союзника, осознающего друг друга насквозь
гадким насекомоподобным
Ко многим словам здесь можно найти синонимы, которые будут гораздо лучше, или построить фразы иначе. Думаю, это и квант сказывается, и это не файнтьюн на РП/фанфикшн, все же.
Но может я зря придираюсь, и так и задумано бай дизайн карточки, хз.
Даже первый скрин выглядит лучше (хотя там качество русского идет по пизде, конечно, к сожалению, поэтому суммарно хуже, лозерунный яд BioMecha=).
Ну вот и всё, не будет 5090. Даже пендосы не могут купить её. А в 5090D производительность в куде порезали наглухо. Искать 48-гиговые перепаи 4090 теперь?
>>1035433 >Q4_0 Легаси кванты в кобольде никогда не ломались, а к-кванты периодически да. Хотя вот те что делаются через gguf-my-repo те у меня всегда норм работали, а вот когда у других скачивал, те иногда оказывались шизанутыми.
>>1035457 >Походу в 12б реально нет смысла При рп на английском языке.
На русском всё же, как это не прискорбно, нормально общаются только прошедшие полировку русским датасетом - сайга и руадапт. Остальное - может, но лучше не надо XD
>>1035461 >Даже пендосы не могут купить её Directed by Robert B. Weide
Чел, сайгу обсирали потому что она нам известна с 23 года и это всегда была полусломанная при этом невероятно соевая модель. Кроме того, сайга маленькая, половина треда на модели ниже 30b смотрит с улыбкой.
>>1035465 Добавлю, что в реальности некоторые (включая меня) решались таки попробовать 12б сайгу, и она оказывалась калом. Даже на той тестовой площадке с бредовыми промптами Гусева видно, что сайга не очень, мягко говоря. Если там новая версия сейчас, то хз, как она, но у старой русский был чуть ли не хуже, чем у немомикса без ру датасетов. Плюс-минус затащили только мержи. мимо другой анон
Дистилл диксика ты не с его пресетом использовал, я прав? И на диалоге где уже была история сообщений? Потому что его дефолтное поведение - срать блоками <think> на английском/китайском, это заложено в модель. На готовой истории он может подражать уже написанному тексту. Попробуй на новом диалоге без истории.
>>1035457 Никогда не экономил, beQuiet 850, Montech 1000. … Julongfengbao LX1800 =D
>>1035465 Тем не менее, последняя версия была хороша, вон, выше даже хвалят, но люди боялись поверить, чисто по инерции хейтили. =)
>>1035499 Почти нет, потому что он сильно цензуренный местами. Квен — отлично подходит для работы внутри компании. Лучший. Но вне своего спектра задач он такое себе.
Ну и плюс, если ты юзал дистилл без синкинга, то ты шо, дурак шо ли? =) Вся суть в том, что в начале модель рассуждает, а потом дает ответ. Очевидно, что ей нужен свой темплейт и дать возможность подумать над ответом. Там она может показать класс, возможно. А иначе — это буквально попытка забивать гвозди микроскопом и «ниче так, увесистая модель!» =)
Я видел гениев, которые YuE музыкальную модель загоняли в llama.cpp и такие «а че мне консоль музыку не играет?» Тут, конечно, не та ситуация, но суть та же. Буквально некорректное применение инструмента (и не под его задачу), это дает какой-то результат, но вовсе не тот, что хотелось бы.
Ваще, я щас уже оффтоплю, но поясню.
Я беру Qwen2.5-VL-3b, кидаю ему скрин задачки по матанализу и прошу перевести в LaTeX. Потом кидаю полученный код в R1-distill-Qwen-32b-Q8_0 (потому что могу с 50к контекста), и получаю полное и корректное решение. Gemma или Nemo так могут? Полагаю, вряд ли. А теперь я захожу в чат и пишу «ты — рассказчик, описываешь фэнтези мир, продумываешь сюжет заранее и надолго…», и рпшу в диалоге. Квен так сможет? Конечно, какой-то экспериенс он даст. Будет обдумывать ответы, строить сюжет заранее, да. Но текст напишет сухой, выражения подберет так себе, и, я подозреваю, сюжет будет кратко-академическим. =) А Гемма с Немо бахнут попсовую, но интересную жвачку.
В общем, надеюсь ты уловил мою мысль. Всему свое место. Квен почти никто не тюнит, потому что много работы ради одного лишь «ну он круто рассуждает, умный и логичный». Клево, но хотелось бы иметь креативность, богатый литературный язык, отсутствие цензуры и прочие ништяки. А имеем решение матана. =)
Если кто-то сможет собрать датасет и затюнить так, чтобы он писал красиво — думаю, это будет некст левел экспериенс в РП, конечно. Но вряд ли.
По какой причине немо мистраль начать срать одним и тем же сообщением или просто выдавать 1-2 слова без форматирования? Иногда приходится 5-6 раз свайпнуть или переписать прошлое сообщение, чтобы он начал обратно адекватно себя вести.
Как вы смотрите на скраппер на PHP? Вот это глаза у вас огромные теперь… Спросил я Deepseek-R1 БЕЗ интернета, как можно реализовать. И начал читать его мысли. Вообще крайне рекомендую читать рассуждения моделей, потому что они зачастую очень неплохи и помогают учиться корректно находить решения своих задач. Тренируют мозг, короче. Как верные, так и неверные, которые ты смог раскритиковать и опровергнуть. Ну так вот, он начал с мыслей «есть ли скраперы на PHP? Вряд ли!..» и в итоге посоветовал обращаться к питоновским либам. =D Меня так умиляет, как они рассуждают. Литералли мем «а что если?.. да ну, хуйня какая-то!» Какие в пизду скрапперы на пыхе. =D
С активным интернетом он нагуглил пару библиотек и описал их.
>>1035550 А вы жопочтец? =) Адобе крик — это географический/исторический топоним, название ручья, в честь которого назвали фирму.
Я в принципе отсылаюсь на то, что произношение на русском не имеет отношения к тому, как произносили в оригинале две тыщи лет назад. И Ксяёми/Сяоми называется корректно «Шиёми», и Эдоуб называется «Адобе», но почему-то фанаты «произносить верно» кладут хуй на такую вопиющую несправедливость.
Так что, если же хочется называть Кидония — то будьте добры заодно и Шиёми с Адобе. =) Если уж называем корректно, то все названия, так ведь?
>>1035545 Скажем так, у мистралей есть некоторые особенности о которых по какой то блять неведомой причине ценители миксов по мистралям не любят говорить. Два друга Лупа и Пупа будут с тобой перманентно.
Почему двухтысячелетней давности-то, регион на марсе назван в 20 веке. Шиёми не географический термин, и у нее нет официального перевода на русский, даже статья в вики на русском не транслитерирует название, так что нет. А ручей в честь которого названа adobe на русском называется Адоб-крик, так что ты и тут кругом неправ, все как раз правильно его называют. https://tm.2markers.com/1244776
>>1035373 > Все модели в k квантах говно > Легаси q4_0 хорошие Ебала жора-юзеров представили просто? >>1035459 Чифкок поларис про, дешево, сердито, тихо. Хотя уже ни разу не дешево. Если тебе для рига - бери "фирменные" майнерские, у них с элементной базой все внезапно прилично и адекватное охлаждение. Но вариант не для стояния рядом, под нагрузкой продувает себя на все деньги и шумноват. >>1035457 Полагаю, стоит подождать дериативов нового мистраля, есть шанс что тут будет еще лучше. Когда разница по весам в 2 раза - это будет и ощущаться иначе, а q3 иногда еще всполне живой. >>1035542 > Gemma или Nemo так могут? Еще первая ллама могла, по крайней мере пыталась. С типичными задачаками они в целом справляются, а в чем-то передовом и новом - по крайней мере дистилляты сосут бибу, проверено. >>1035671 Чтож, придется подождать.
Поясните за world info, как с ним грамотно работать? А то уже сил моих больше нет. Я туда вписываю второстепенных персонажей, ЛЛМ блядь всё путает постоянно, описания персонажей объединят или вообще теряет все время. И у ЛЛМ реально своя версия информации о мире. У меня допустим там 7 позиций, у неё 19. Там например не только персонажи, но и локации всякие, правила. Я прошу проиндексировать, мне пишут мол заебись, но по факту нифига всё по-старому остается. Я в ахуе, что делать? Как подружить ЛЛМ с world info чтоб не было отсебятины и перепутанных описаний персонажей.
>>1035512 >жесть генерировать Чувааак, вот специально ради тебя скачал. https://litter.catbox.moe/awrgvl.zip - любимая забава испанской инквизиции Главное - правильно попросить. Или что для тебя "жесть"?
>>1035573 > на русском называется Только это индейское слово, и приведенный пример «на русском» ровно так же некорректен, как и все остальное. =) Реально мем про школоту доющая коня. =) Ну ладно, как пожелаешь, псевдо-интеллектуал, не буду убеждать, мое дело сообщить, а дальше хозяин-барин.
>>1035672 > проверено Ну, вот я проверял, все там норм. Предполагаю, скилл ишью, или 4 квант или еще какая хуйня (надеюсь, не 8б мерял?:). Так что, тут ты просто заблуждаешься. Рекомендую перепроверить. =)
>>1035683 > what about $1.5k for 4x NVMe SSDs в натуре кек ) У кого есть готовое — за тех рад, конечно…
>>1035715 > Предполагаю, скилл ишью Верно предполагаешь. Нужно быть способным во что-то сложнее копирования дефолтных задач из сборников и понимать предмет, одновременно с обладанием навыками работы с ллм. А глупому скуфидону любой копиум покажется мессией, все закономерно. >>1035717 Сравнивали также по правильной методике как раньше с H100?
>>1035722 Нету там ничего, я первым делом проверил. Если (разумно) опасаешься скачивать, то я закинул содержимое архива (один текстовый файл) на пиксель https://pixeldrain.com/u/xRtyxHwh
>>1035730 Красиво. Но ты же понимаешь, что скилл ишью у тебя. =) Ладно, нюхай свой копиум, что тебе еще остается. Чем больше людей, которые не шарят, — тем меньше конкуренции. =)
ВСем привет, я из /po ,сказали тут лучше помогут, короче пишу статью о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять, что заявляемая оупен сорсность их ложь, что падение акций америкаснких ии комапний это мелочь не важная и объясняется почему, что они созданы с поддержкой китайского режима и если есть еще какие-то важные моменты чтобы тоже упонмяуть о них?
Любой локальной модели, не только дипсику, можно доверять априори. Если ты запускаешь её со своего компа, выключив интернет на всякий случай(сама модель не настучит, но браузер или фронт или в чем ты в чем ты там её запускаешь, может). В любом случае сама по себе модель априори безопасна.
>заявляемая оупен сорсность их ложь
В смысле ложь? А что мы тут запускаем в треде, лол?
>падение акций америкаснких ии комапний это мелочь не важная
Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз. Да, Опен АИ может и наебнется, но оно бы и так наебнулось.
>>1035737 Полагаю тебе стоит охладить траханье и пойти еще в майнерских паскалях поковыряться. Ты же таксуешь всем этим занимаешься просто для души, в перерывах между масштабными внедрениями.
>>1035759 >о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять >китайских ИИ моделях >почему не стоит им доверять
Он ясно именно про китайские модели высказался, додик, глазки открой. Или для тебя русский язык не родной?
Так и живем. Сел кумить с карточкой мать-дочь, в итоге несколько часов душевно обедал с ними, играл в мяч и прятки. И отвечал на бесконечные вопросы обо всем подряд от мелкой занозы в заднице.
Я в мысли парашников не лезу, чтобы не зашквариться о чан с говном, который у них вместо мозгов, если ты понял своего косноязычного парашного собрата лучше - сам ему и отвечай.
>>1035785 >>1035781 >>1035767 >>1035764 >>1035759 >>1035750 Нахуй вы вообще на это отвечаете и срётесь? Это очевидный шизобайт, и попытка выебнуться элитарность. Журналист из крупного, авторитено сми собирает инфу для статьи на двачу. Юорда успешных людей, хули.
> можно доверять априори Нельзя, ведь цензура искажает факты! То ли дела светлая цензура пиндостана!.. =D
> В смысле ложь? Они не выложили датасеты и методику обучения — значит это не open source, а вполне себе closed source. Тебе дали покатать саму модельку, да, но источник неясен. За это, кстати, критиковали Лламу, что она нихуя не опенсорс. Но это все игра слов, отчасти.
> Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз. Ошибаешься. Дело не в этом, просто финансисты дебилы и не понимают, что «дешевизна» китайской модели обусловлена отсутствием экспериментов и просто следованием по проторенной дорожке, а атомный волчара Сэм, как мощны его лапищи, эту дорогу проложил грудью (майкрософт) и десятками миллиардов долларов. Как итоге — видеокарты все еще нужны, без них эксперименты будут длиться десятилетиями, а не месяцами.
> Ты точно в серьезный журнал это писать собрался? Да ну очевидно же троллит. =)
>>1035751 Извини, что правда задела тебя за живое, но ты какую-то хуйню высрал. Чел выше хотя бы просто скинул боевую картинку и просто высрал, хотя бы не выглядит обиженкой. =)
>>1035765 была альтернативная история, кум карточка где надо похитить школьницу, но вместо этого успешно довёл до дома, а на следующий день она пришла с мамой у которой уже год после развода не было хорошего траха, и весело провели время
>>1035765 Играл как-то старую карточку девушки юзера и её мелкой сестры, где девушка в сорре с юзером, а лолька его хочет. Играли в настолки все вместе, а потом читал мелкой сказки на ночь, с трудом выдумывая какую-то дичь, как будто это я тут нейронка. Неироничное кьют энд фанни - это база.
>>1035775 >Стареешь, видимо. Остепеняться пора, тебе организм сам намекает. Ты считаешь что прыгать по комнате, крутить хуём как мартышка и пытаться засунуть его в первую попавшуюся дырку - признак юности и силы? Ну выеби розетку в комнате тогда, хули.
Интересная история всегда будет превыше тупых поебушек, запомни это.
>>1035970 Если у тебя весь ролл заключается в написании одного слова в чат, то мне тебя жаль. Даже самые примитивные вещи могут быть описаны приятно, красиво и литературно.
>>1035970 А мне и не надо было практически писать, 1-2 фразы, описание моих действий, и история разворачивалась, мать и дочь реагировали и действовали.
>>1035765 Напомнило какую-то кароточку с мамочкой на чубе, с высоким рейтингом и кучей комментов о том что никто не кумил а наоборот душевно общались и обсуждали жизнь. Удачное сочетание карточка-модель-промт, наслаждайся, не кумом единым же. >>1035851 По какой-то странной причине оно резервирует там место, но при этом не обращается. Еще больше года назад такое наблюдал, причем если чистого Жору пускать - подобного нет. Хотя может у тебя и какой-то другой баг.
Я только сказал привет и всё. Почему эта шизо-программа высралась только в консоль? Такое вообще норм? Как исправить? Дальше вообще какие-то подземелья пошли, опыт, статы.
Установил цидонию Q6_L. По советам с прошлого треда. 23 слоя на видеокарту. 5 т/с. Текст на 230 слов сгенерировал за минуту. Мне так то норм, но по итт критериям насколько всё плохо? Если я с винду пересяду на дебиан читсый, в скорости я что то получу? Или всё в рамках погрешности?
>>1036296 >некоторым 20т/с мало Это кому может быть мало? Это практически моментальная генерация, если мразь на юзере не запрашивает 1-2к токенов в ответе обязательно.
>>1036358 Агенты и любая автоматизированная работа, там чем больше тем лучше, а идеально вобще мгновенно. Захочешь интернет страницу перевести или кинуть на анализ - взвоешь от ожидания даже на 20т/с.
Меня из общего чата к вам отправили. Какой поставить дипсик локально? Попробовал трёх:
DeepSeek-R1-Distill-Llama-8B-GGUF/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf - очень быстрый, но пишет как-то невпопад по кодингу (Unity). Часто пишет с ошибками (в тексте), иногда переходит на английские слова и китайские иероглифы.
deepseek-ai.DeepSeek-R1-Distill-Qwen-32B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Qwen-32B.Q4_K_M.gguf - пишет уже более развернуто, адекватно. Но подольше разумеется, минут 5 ждать его ответы.
deepseek-ai.DeepSeek-R1-Distill-Llama-70B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Llama-70B.Q4_K_M-00001-of-00004.gguf - пишет хорошо, почти как и нужно. Но долго капец, минут 15 на ответ и по букве. Подходит для каких-то больших вопросов, где задаешь и идёшь чай пить например.
Вебверсия всем устраивает, разумеется и похуй на конфиденциальность, но сайт лежит очень часто и хочется локальности. Между 32 и 70 есть что-то среднее, чтобы и скорость и ответы по теме? Кто-нибудь тестил ещё? Запускал через LM Studio в дефолтных настройках, может там че подкрутить можно ещё.
кто-нибудь шарит в llama.cpp server? Я его гоняю с openwebui, и он после ответа продолжает грузить цпу и гпу как будто генерация продолжается. новые запросы не принимает. так что приходится его рестартовать на каждый запрос - работать невозможно. как понять что там не так и что он вообще генерирует?
>>1036398 Опенвебуи может какие то свои левые запросы туда слать, на генерацию названия диалога например Ну и вобще это поделие только с оллама нормально работает, наверняка с апи лламаспп криво управляется
>>1036381 Лучше тот который ты модешь комфорино запускать. Для кода вобще лучше обычную qwen 2.5 32 coder использовать Можно и дистилляты, но там сложнее хоть и умнее От 14b и выше смотри, ниже дистилляты туповаты Железо в студию, повангуем тебе что стоит пытаться запускать а что нет
1 - р1 с вебсайта 2 - локальный, квантизованный от анслота они практически идентичны
нет смысла дистилы использовать, кроме недостатка озу. просто докупите памяти и будет буквально модель уровня о1 локально да, медленно пока. новые поколения гпу будут быстрее гонять такое через несколько лет
>>1036414 > практически Зачем же ты тогда второй раз свайпал? Да и ответы похожи только по структуре из-за длинных размышлений, по содержанию довольно большая разница.
>>1036413 Ладно, я понял короче. Паралельно у дистилята дипсика поспрашивал. Думаю, учитывая что в LM Studio можно модели на ходу переключать, то проще спрашивать всё у 32в и если начнёт тупить спрашивать у 70в уже че дальше то делать.
>>1036414 Вопрос слишком простой, 32B даст тебе ответ примерно как жпт на твоём скрине. А q2 у тебя шизит, аналогию про яблоко приплёл не к месту, русский очень странный. Ещё и генерация целую вечность. Я бы не стал лоботомита такого трогать. Ты лучше на кодинге тестируй, вот там начнётся реальное шитшоу, когда ты будешь умолять дать тебе 70В дистиляцию вместо лоботомита.
>>1036358 Например если ты используешь сетку не для неспешного порночатика, а для обработки чего-то. Особенно если там цепочка промежуточных результатов, а не короткий зирошот. >>1036414 > кроме недостатка озу > 512гб для норм кванта Ради генерации типичного меганасрал поста раз в пол часа или час обработки контекста, хорошая идея. Если ужать до минимума - это лоботомит, будет шизофазический словестный понос вместо ответов как на твоем скрине, тут вообще теряется весь смысл.
Сегодня поставил таверну и у меня такая проблема. Пару часов все работало нормально, но потом она начала срать в штаны мощно. В общем когда натыкается на токен с именем моего персонажа(ЛЛМ пишет от моего имени), обрубает дальше стрим, но в консоли ЛЛМ он продолжается, и в итоге получается какой-то рассинхрон что ли, что я не могу больше ничего писать в чат и то что сгенерилось после токена с именем перса не отпраялется в таверну(но все равно генерится). Как эту хуйню фиксить? Как же я намудохался с этой таверной сегодня... Так бы и сидел на кобольде, не знал печали, но там ворлд инфо не пашет практически, а лор буки нужны.
>>1036508 Там ник перса. Сука уроды, ну вот зачем так делать. Если в таверне отключаю опцию "Names as Stop Strings". То эта ошибка исчезает, но таверна ломается к хуям, и мне больше не дает отправлять текст.
Короче когда эта мразь (СилиТаверн) видит что ЛЛМ за моего персонажа припездывает, она его ответ пидорит. Но разве я сука просил это? Если меня не устроит че там за меня написали, я отредактирую или сгенерю заново. Ну еб твою медь. В карточке персонажа 100 проц ничего такого нет, я с ней долго рпшил, на кобольде. А если я отключаю опцию пидоринга, то она просто срет в штаны. Возможно там есть еще какие-то опции по этому прошу совета. В Sequence Breakers всё стандартно по идее ["\n", ":", "\"", "*"]
Ставил кастомный system promt и понять не могу, в чем лажа. В чем траблы, почему у меня ощущение что я в алисе в стране чудес и сейчас я вмазался крокодилом со шляпником. А там You're {{char}} — a real person, engaging with another individual. {{user}} - the Narrator is the game master and overseer.
В общем расперделось кое как, не знаю что произошло, завтра буду дальше тестировать. Остается только вопрос почему контекст каждые 3 сообщения пересчитывается.
>>1036376 Нет, между — нет. Я использую 32б Q8 в повседневной работе. Лламу я не люблю, а полноценный использую только если совсем дохуя времени, а онлайновый лежит.
Но если у тебе не хватает 32б, а полноценный не впихнуть… то как раз между ними единственный вариант это 70б.
И на текущий момент альтернатив нет совсем. Чтобы те же скоры в тех же размерах.
Сорян.
>>1036414 Вот! Я же говорил! Рад, что люди потихоньку вкатываются и подтверждают.
Я на ллама 65б когда-то сидел с 0,35 токен/сек! А тут целых 1,5 токен/сек! =D Ух! Вчетверо быстрее! Правда и текста в десять раз больше…
А вот с рероллом косяк, да. =D
>>1036458 > если начнёт тупить спрашивать у 70в Если в том же диалоге, то пересчет контекста будет идти заново, нет? По идее это сильно удлинит. Но если создавать новый диалог, то без вопросов.
>>1036518 > Но разве я сука просил это? Да, просил, это называется дефолтные настройки. Хули ж не отключил сразу.
> А если я отключаю опцию пидоринга, то она просто срет в штаны. А вот за это уже можно предъявить.
Есть ограничение по тегам ответа сверху, но есть ли снизу? Иногда сетка отвечает на мою сложную попытку в рп буквально семью словами по типу *Она кивает и берет вас за руку. Хотя в системном промпте написано подробно все описывать.
>>1036296 Вообще расскажу о своем странно очевидном и тупом открытии. О том что на винде есть приоритет задач (неожиданно, да блять ?) На окнах, на одном экране, благо монитор позволяет, просто разделил экран на лог кобальта и на таверну. Сижу занимаюсь своими делами и понимаю, что при активном окне кобольта - скорость исполнения увеличивается на процентов 10-15. Ты сука фотон что ли ?
>>1034116 (OP) Понимаю, что с такими вопросами буду справедливо послан нахуй, но все-же. Ньюфаг в треде. Имею XEON'о говно с 64 гб оперативы + 12 гб видеопамяти. Хочу поднять LLM (чисто под него). ССД на терабайт забивать можно чем угодно, этот комп специально для этого.
Посоветуйте нормальную относительно актуальную русскоязычную модельку + способную в адекватный NSFW. А то что ставил - все цензурило пздц.
Аноны, у меня такая тема, для стори теллинга скорее чем для кума. Я свожу двух персонажей в таверне, и они сука всегда ебутся. Как сделать так чтобы виртуальная тянка отшила виртуального кунчика? Это вообще реально? Я пвтаюсь какого-никакого реализма добиться, ведь не ебутся же люди при встрече, просто потому что разного пола? Кунчику я прописал что он хочет присунуть(а какой не хочет?) и все. Пизда.
Спасибо вам большое китойцы, просто спасибо, я вас люблю.
>>1036572 >для стори теллинга скорее чем для кума. Не выбирать мелкие модели, не использовать ебливые магнумы, писать что ты хочешь чтобы OOC делала, написать действия за персонажа, свайпать.
А контекст то решает нахуй Смысл от ума модельки если в неё больше 30 сообщений не влезает Пересел с 6 кванта на 4 увеличив контекст с 12к до 36 и довольно урчу
>>1036578 ну так тоже не интересно, нужно чтобы она хотела, но там хуе-мое, она же не шлюха какая, там муж тем есть, что люди подумают вот это все. Короче она должна ломаться и ломаться не только для вида, а чтобы шансы были реально 50/50
>>1035373 >Helene.card.png Хотел покумить а в итоге сидел восстанавливал отношения и помогал с птсд бедняжке. Что вообще думаете, способны нейронки помочь обучить общению и эмпатии асоциального человека?
По итт критериям 5 т/с это минимальная скорость для более-менее комфортного кума чтения в прямом эфире. Нет, конечно, теслашизики с 1 т/с сейчас скажут им и так норм, а 4090 бояре типа меня могут чисто ради траленка сказать что ниже 30 т/с это вообще не генерация, но объективно без тралинга и коупинга это комфорт начинается именно с 5 т/с.
>>1036534 >но есть ли снизу? Вроде нет, но можно просто ещё раз нажать кнопку сабмита чтобы модель продолжила свой пост. Это надо отдельно включить в настройках.
Конечно на 10 приятнее читать, кто бы спорил вообще. Речь о минимальной скорости когда ты можешь в онлайне читать и общаться, ниже 5 т/с это в любом случае будет выглядеть что ты написал сообщение и переключил вкладку в ожидании пока там ответ сгенерируется.
>>1036586 > нужно чтобы она хотела Так она и хочет, видит что такой мужчина ее добивается и замотивирован и не против. Плюс к тому у всяких файнтюненых моделей большой байас к согласию. >>1036608 А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
>>1036587 >способны нейронки помочь обучить общению и эмпатии асоциального человека Крайне сомнительно, чтобы получить эффект "come for cum, staying for plot", нужно изначально иметь склонность к эмпатии.
>>1036358 Thought about image explanation for 8 секунд По сути, авторы поста нашли способ запускать большую LLM-модель (67млрд параметров) локально на обычном CPU без серьёзной загрузки видеокарты. Ключевая идея в том, чтобы не загружать все веса модели целиком в оперативную память или VRAM, а использовать mmap и работать «на лету» с файлами, лежащими на NVMe SSD.
Как это работает детально:
mmap вместо полного чтения в память Обычно при запуске больших моделей (в том же llama.cpp) программа либо полностью читает файлы с весами в RAM, либо загружает их в видеопамять (если работает с GPU). Тут же применяется подход, когда llama.cpp по умолчанию делает mmap() — то есть «проецирует» файл на диске в адресное пространство программы. При mmap нужные куски данных (страницы) грузятся непосредственно в память по запросу, а не заранее все разом.
ОС кэширует данные Сами файлы находятся на очень быстром NVMe SSD. Когда модель вычисляет очередной токен, она обращается к нужным фрагментам весов, и операционная система подтягивает их с диска, параллельно сохраняя часто используемые куски в RAM как кэш. В итоге, вместо жёсткого требования иметь, допустим, все 100+ГБ (в случае 67B модели в float16) в памяти, модель берёт только нужные «страницы» весов. Памяти требуется заметно меньше, а скорость работы определяется тем, насколько быстро SSD может отдавать данные и как эффективно ОС их кэширует.
Хранение k/v-кэша в памяти Ещё один момент — в оперативной памяти реально лежит, в основном, k/v-кэш (то есть ключи и значения для текущих токенов, нужные во время self-attention), и какие-то технические буферы. Остальные гигабайты весов при этом фактически не «разворачиваются» в RAM постоянно.
Динамический квант (quant) для весов Они упоминают «dynamic quant» вроде DeepSeek-R1-UD-Q2_K_XL: это метод сжатия (квантизации) модели, где веса сжаты в более низкую битность. Это ещё уменьшает объём, который надо держать и обрабатывать, хоть и с какой-то потерей точности. Зато позволяет работать на более слабом железе.
Выходная производительность Автор пишет, что выходит порядка 1–2 токенов в секунду на контексте 2к–16к, причём при наличии 96ГБ RAM (плюс ещё 24ГБ VRAM, но фактически GPU «простаивает»). Bottleneck получается скорее в пропускной способности NVMe SSD, чем в оперативке или в мощностях CPU/GPU. Утилитарный плюс — потребление энергии и нагрев подсистемы минимальны, потому что видеокарта почти не включается и процессор тоже не загружен на 100%.
Расширяемый «виртуальный объём памяти» В конце автор упоминает идею покупать не дорогую видеокарту, а поставить массив из NVMe SSD, получается своего рода «дёшево и сердито»: много «виртуальной VRAM» на быстрых дисках, которых достаточно для хранения (и стриминга) крупных моделей при приемлемых скоростях.
Итоговая идея: вместо того чтобы полностью грузить огромные веса модели (десятки гигабайт) в системную память или VRAM, используется механизм «ленивого» чтения с NVMe, а ОС агрессивно кэширует нужные куски в RAM. Так можно запускать даже 67B-модель на домашних компьютерах без гигантских требований к видеокарте и при умеренном объёме оперативки (но желательно очень быстром SSD). Конечно, скорость будет ниже, чем при полноценной загрузке в GPU, но для многих задач и 1–2токена/сек может быть достаточно.
>>1036633 12 гб уже позволяет гонять 27b-32b с частичной выгрузкой на терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.
Ставь что-то из этого: -Qwen-2.5 32b -Gemma-2 27b -Mistral-Small-2501 24b
Квант либо Q4_K_M либо Q4_K_L. Только ванильные модели, никаких ёбаных шизомиксов. И будет тебе счастье. Скорость от 8b-14b не стоит того чтобы жрать говно, поверь.
>>1036634 Всем внимание, в треде ГИПЕРТРОФИРУЮЩИЙ Ведь между мелкопарашей и огромными моделями не существует ничего промежуточного
>>1036638 >никаких ёбаных шизомиксов. Но ведь справедливо от части. Те же миксы мистраля очень даже не плохи. Давай будем честны, если для работы нужны оригиналы, для РП- ну тут уже нужно тягать одеяло, а вот для того, для чего тут наверное половина треда сидит как раз и нужны шизомиксы.
>>1036667 >Пантеон, Цидония Вот я хоть и люблю цидоньку, но тюны мистралей это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
>>1036668 >А это вообще не очевидно Вообще-то элементарно, Ватсон, shit in - shit out. Не лень с ответами сам, и не ленись поправлять модель. И будет тебе счастливое приключение... или не очень, тут уж от карточки и тюна зависит.
>>1036670 А нихуя и нет, лол. Либо лоботомированные кванты старших моделей, либо мелкоговняшки, ну или мистраль. Увы, она действительно топ среди мелких.
>>1036671 Ну так это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
>>1036673 >Ну так это прям для тех кто знает чего хочет Не знают только свидетели карго-культа для которые ллмки - ИИ, скайнет, 5G, магия-шмагия и камлание жуткое.
>>1036675 Ну именно поэтому {user} это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
>>1036641 Я бы наверное так сказал: для работы, РП и сторителлинга - однозначно ванильки. Для ерп - спорно, ту же гемму и мистраль всякими хитростями вполне можно сделать хорни. Тут я всё еще за оригиналы. Но если цель чисто подрочить и ничего более - то да, тут шизомиксы в своем сочном описании ебли вне конкуренции.
Вот только такое издевательство над моделью не приводит ни к чему хорошему, ее логика ломается, она начинает выдавать шизу на ровном месте, забывает что было несколько сообщений назад. Двойные-тройные трусы и всякие подобные приколы.
>>1036664 Квен и гемма на 8к контекста при полностью забитом контексте выдают ~2.5 т/с. Мистраль при 16к контекста, полностью забитом, падает до 4 т/с. Всё ещё приемлемо.
>>1036667 Он вроде явно дал понять, что ему нужны модельки умеющие в русик. Именно такие модели ему и предложил. >В русский могут мержи мистраля 12 (ссылки в шапке) Нет, не умеют. >руадапт квен Точно так же, как и ванильный квен. Чтож вас, аноны, так тянет-то к васяноподелиям? Звер-сд уже установили?
---------------------------------------------
Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь. Порпшив с условной геммой 27b, чел уже никогда не вернется на 12b, даже если разница в скорости будет в десять раз.
И то же касается шизомиксов, вот сколько там "b" стоит - это можно смело делить на три. Примерно настолько отупляют модельку васянские мержи/файнтьюны. Чисто модельки для слива спермы и ничего более.
>>1036687 >Мусью застрял во временах моделей на цепях маркова Вот недавно тестил разрекламированную в тредах СайНемо - все эти проблемы там присутствовали: Сломанная логика - чек Двойные трусы - чек Забывчивость - чек Модель тупая как пробка, но свою задачу выполняет. Если надо запустить и по фасту подрочить - вот это оно. А для остального - нахуй-нахуй.
>Уже нет, тут стоковые модели сосут как секретутки. Скил ишью. Учись пользоваться Memory, Author's Note и World Info, ну или их аналогами в таверне, если таверну используешь.
>Вот на Zverя не гони, топовый чел был как и Xatab. Два чая. Отличные сборки: все "лишнее" удалено, все "нужное" добавлено. А еще темы, нескучные обои, и скрытно устанавливаемое ПО удаленного доступа к твоей пекарне в комплекте Radmin Viewer, гугли. В свое время много шума было.
>илита в треде Илита тут на четырех теслах запускает 120b модельки. А я обычный анон с древней 12гб видяшкой, лол. Когда не лень, пытаюсь отучить нюфагов жрать говно.
Если ты про обладателей промышленного железа, могущего запустить дипсик не в дистилляте, то это мифические боги вообще говоря, а не какие-то вшивые бояре.
>>1036684 > для работы Смотря какой, есть вполне специализированные тюны или крайне узкие базовые модели. А для чего-то специфичного может быть ситуация что без файнтюна не обойтись, или только самые дорогие корпы. > РП и сторителлинга - однозначно ванильки Есть базы, которые можно раскачать промтом, или вообще могут сразу прилично повествовать. Есть те, которых зажарили финальным алайнментом настолько, что чего-то приличного получить будет сложно. Существуют приличные тюны и даже миксы (последнее - больше чудесное стечение обстоятельств чем целенаправленно полученный результат, но все же), которые не теряют оригинальную соображалку но при этом умеют в хороший рп. > Вот только такое издевательство над моделью не приводит ни к чему хорошему Да, поэтому хороших моделей крайне мало. > Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно Как бы ни было прискорбно, это тут без вариантов. Или мелкомиксы, или тормознутая херь, в которой нет смысла. > ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь Бывают ситуации когда доступна только одна гпу, и тогда вполне катается гемма, командер, квен32, а под пиво в количестве даже 12б и не сильно обламываешься. Но при этом обмазаться выгрузкой в рам и терпеть по 2т/с - даже мысли о таком безумии не приходят. >>1036687 Бояры надрался что в интерфейсе запутался, и теперь на воспоминания пробрало? Или просто стиль постов выдерживаешь чтобы автоскрытие срабатывало? (both) >>1036693 > Илита > на четырех теслах Разве что терпеливая
>>1036684 >Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь.
Да не гони, тут в треде каждый адекватный человек ищет параллельно и самую умную модель, которую может просто запустить наплевав на скорость, и самую умную модель которую может запустить уже с приемлимой скоростью.
Из ванильных моделей ниже 70В без файнтьюнов или хотя бы аблитерейшона в еРП и еблю может наверное только командир. Остальные будут выдавать либо "ты меня ебешь" либо "я не буду это генерировать". Причем если последнее обойти джейлом, то выйдет все равно "ты меня ебешь".
Ребят, тупой вопрос, что можно запустить прям на совсем ноутбучном некрожелезе из локальных моделей? это реально? у меня есть парсер постов из телеги и вк, и хочу скармливать посты в ллм локальную чтобы он уже их распределял по категориям, выдавал краткий отчет по ним и вот такое все. это реально так сделать локально?
>>1036733 Какого ответа ты ждешь? Если математически, то отклонения токенов в сравнении с Q8 в районе 5 процентов, как и у всех около 30b моделей. Как это по факту повлияет на твой чат объективно оценить невозможно, даже Q8 может заставить свайпать 10 раз подряд, а Q1 сразу выдать нормальное. Так что всех эти советчиков которые "видящие разницу" можешь сразу слать лесом, это плацебо.
По факту если можешь запустить квант повыше, всегда выбирай его. Что касается контекста не гони его сильно выше 20к, это довольно бесполезно т.к модель все равно в основном обращает внимание только на начало и конец, на больших объёмах контекста все что в середине чатов будет лежать мертвым грузом пока ты сам не спросишь.
>>1036668 >и как с ними бороться. Дак как с лупами и пупами бороться? Сам на мистрале ньюфагом сижу и кроме как переписать сообщения, раздраженно свайпать, теребить температуру и стирать пару сообщений до, не нашел способов для разлупа.
>>1036684 >для работы, РП и сторителлинга - однозначно ванильки
Совсем вами не соглашусь, сударь.
Я тоже так считал, так как юзал клода для РП ранее. Пусть и с цензурой, но он хорош в этом, даже если описывать жесть и графический ужас в стиле DavidAU, но у маленьких моделек другая проблема: они в целом мало знают и не заточены под наши цели. Туда просто напихали всего понемногу — поэтому они вроде как знают всё, но ничем не владеют в совершенстве/на уровне больших коммерческих и закрытых моделей. А модели корпоратов вывозят просто исключительно из-за большого объёма данных.
Поэтому шизомиксы единственный выход для локалок, чтобы они писали как надо: не было излишне позитивного биаса и модель могла в интересные истории. В таком случае можно получить действительно что-то приемлемое и на 12б. А если уж обучать нормально, то тем более.
>имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь
Я как раз тот человек, который перешёл с малых моделей, потому что меня не устраивала скорость, ибо сидеть на трёх токенах, если не получаешь в 95% случаев охуительный ответ, — это ад. Я как раз гемму скачал, когда вкатывался. Это была моя первая модель. Безусловно, она реально удивляла меня в некоторых моментах находчивостью и креативностью, особенно при описании боев и рассуждений, но не настолько, чтобы я был готов терпеть медленную генерацию.
>>1036778 Понял, спасибо. Насчет выбирай повыше, я надеялся, что если я возьму квант, который весь могу запихать в гпу, скорость здорово возрастет, а по факту получилось на 1-2 т/с. (у меня 4060 на 16 гб.)
>>1036813 >Дак как с лупами и пупами бороться? rep-pen 1.1 - 1.2 / rep-pen range 2048 Следить и недопуЩать - править ответы. Найти оптимальную температуру, но обычно хватает 1.0 +/- динамическая 0.5
У Яндекса есть какое-то ограничение на свой апи?Его не заебет, если я буду ему запросы отправлять на перевод? И он наверняка привяжет мои переговоры с учеткой.
>>1036840 А ты точно выгрузил все в гпу? По умолчанию даже если модель туда помещается тот же кобольд всё равно пихает слои в рам. Нужно вручную указывать количество слоев (т.е все).
>>1036855 >Просто гугл, последние дни вообще чушь выдает. Поменяли модель переводчика. Очередной кризис, на моей памяти это уже третий. Через месяц выправятся... или нет. Но да, пользоваться гуглом пока нельзя. Яндекс вывозит, в Таверне Бинг ещё есть. Ограничения какие-то имеются, но на практике хватает. Сам-то я давно хочу локальную модель переводчика, но хрен мне.
>>1036881 >локальную модель переводчика на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
>>1036888 >на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая. Дело даже не в этом. Есть пара моделек, да. И выделить отдельный гпу под переводчик можно. Но даже на 3090 скорость маловата, с онлайн-сервисами никакого сравнения. Хотя качество у них и хромает, но перевод мгновенный. А локально даже "очень быстро" не получить.
>>1036840 С твоим врам должно всё влезать. Как тот анон писал, пиши все слои вручную.
Ещё один момент, о котором я не видел ни одного поста здесь.
Закрывай всё, что можешь. Всю хуйню из автозапуска левую убирай, закрывай приложения. Всякий Стим, Дискорд, вот это вот всё, что можно — нахуй. Даже окно с проводником. Браузер тоже закрывай, общайся с ллм с второго ПК или телефона.
Винда дохуя видеопамяти жрет, по крайней мере моя 11 винда точно.
Такими простыми манипуляциями я 1,2 Гб видеопамяти освободил, это охуеть как много.
----
Если же у тебя нет других для общения с ллм, то качай какой-нибудь очень легковесный браузер.
>>1036518 >В Sequence Breakers Эта настройка относится к DRY Repetition Penalty, лол. >>1036572 >Как сделать так чтобы виртуальная тянка отшила виртуального кунчика? Сделай тянке возраст 11 лет. Отошьёт 100%. >>1036583 А это не поможет, у винды активному окну даётся больший квант времени, и похуй на эти ваши приоритеты. >>1036609 >А когда на 16 бит перейдешь - так вообще радугой кончать будешь. Я олдфаг, помню ещё двойную точность... >>1036634 >Можно сразу мистраль лардж ебашить Я так и делал в своё время. >>1036708 >Почему Потому что люди идиоты.
>>1036956 И да и нет. Если с подкачкой со старого диска, на древнем проце, то ты одно слово от него неделю ждать будешь, без преувеличений. Лучше 3В гоняй и мержи годные между собой лол они на англе хоть как то могут, и в оперативу старого ноута влезут. И вообще, что значит старый ноут? я сразу себе представляю что-то на кор2 с 3 гигами ddr2 и вистой на это всё намазанной.
>>1036962 Что-то сомневаюсь, что тредовичков с их кум моделями туда пустят. Ну и ни одного разрраба со сбера/тинька, а они трейнят модели с нуля. Так что скорее этот #OpenTalks полное говно.
>>1036937 Объясните мне, почему эта пиздобратия не купит локальное решение или хотя бы просто не арендует, чтобы сделать практически полностью русскоязычную LLM на 32b параметров опенсорс. Разве я столь многого прошу? Боже, да они могли бы и 70b сделать, а то и больше.
Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
>>1036996 > не купит локальное решение или хотя бы просто не арендует Деньги где взять? Задонатим? И если она неправильно на вопросы ответит тащ майору, кто ответит?
>>1036996 >Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё. А это ещё хуже. Заметил, насколько яндексова Алиса обстрижена со всех сторон? Это чтобы лишнего не брякнула. Политика ещё туда-сюда, а вот кум - это уже статья. Они не модели тренируют, а цензурные вспомогательные сетки. А поскольку руки из жопы, то даже это выходит плохо и моделей от них мы не видим.
Че-то я не понял прикол. С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения, вместо шифта. Это пропадает если лор буки в режим постоянной памяти закидывать вместо нормала (синий кружок). Но тогда нахуй они вообще нужны если я с таким же успехом могу вьебать лор бук в карточку персонажа? Чисто для удобства и всё?
>>1037004 В чём проблема? Либо ты пересчитываешь контекст (шифт не поможет, так как добавляются новые части), либо ты закидываешь сразу всё, и лурбук нинужен.
>>1037007 Получается лорбуки есть смысл использовать только если всё влазит в врам изначально и быстро считается. Что бы расширить контекст условно. А в ином случае пересчет слишком много времени занимает каждый раз. Ну я понял схему.
>>1037004 >С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения скажи спасибо что 2-3 а не каждое
А вообще, оно так и работает, да, контекст изменился - ты отредактировал сообщение или лорбук подсуетился, надо пересчитать полностью, а не только новое.
>>1036708 Потому что так заявляют авторы. Смею предположить, что речь идет о 671B уникальных параметров, а общие Deepseek уместили в одно пространство физическое, отсюда и размер ~684B. Каждая модель имеет единую базу + свои личные знания. Вот эта единая база и не считается в ее размере. Так же и мистраль 8*7 была не 56, а 43 что ли.
>>1037004 Лорбуки нужны когда у тебя десяток персонажей, городов, локаций. И вот чтобы они все не сидели в сумарайзе отжирая у тебя драгоценный контекст и нужны записи.
А вообще отдам пол царства за микс цидоньки и чего нибудь мрачного от David. Потому что она хоть и не магнум, но слишком хорни, это порой так бесит, не хватает мрачняка.
>>1037015 >он не в контексте Но инжекты входят в контекст и вызывают его пересчёт.
>>1037016 >РП на русском Pathfinder и Saiga Unleashed по видимости самые удачные, на них отзывались в треде. По загрузкам же абсолютное лидерство у Инструменталити 2.
Pathfinder - Saiga-Wayfarer-Nemomix - по видимости лучше для рп, сам я проверил чисто что оно работоспособно, но анон отмечал что жарко с ней покумил =))
Saiga Unleashed - почти оригинальная сайга околонедельной давности, только с инжектом немомикса в центральные слои, хорошо и красочно расписывала как карточку с мехом так и мрачнухи не чурается судя по чатлогу на литтербоксе. Также этот чатлог именно в сторителлинг стиле где не было юзера, а скорее писалось в виде соавторства.
>>1037025 > Но инжекты входят в контекст и вызывают его пересчёт Да, но только когда входят. Смекаешь ? Разница в том, что карточка перманенто там сидит, а условный город СТОЛЬНОГРАД, только при его упоминании или связанных с ним событий всплывает.
Я только суммарайзом и лорбуками и спасаюсь в своих тохоэдвенчурах. Потому что те кто шарят за тоху, знают сколько там персонажей.
>>1037016 >Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =) Ну да, ну да. "У нас есть такие приборы, но мы вам о них не расскажем." Похоже, что поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.
>>1037027 >Да, но только когда входят Ты полностью прав (и про Touhou тоже), но другой анон спрашивал именно про то что контекст всегда пересчитывается когда лорбук включает запись.