В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>990003 → > Так это надо тщательно прописывать характеры, личность, индивидуальные черты психики Да не прям индивидуальные и тщательно, достаточно просто общих-прямых и некоторой предыстории, которая бы конкретизировала и отсекала возможные ванильные моменты. В системном промте убрать и разбавить позитивщину, и стараться не ставить длинные полотна. > Для маленьких моделей это будет тяжело Ниже 70б+ жизни нет, гемма иногда только может.
>>990008 (OP) Если карточка бота на португальском, имеет смысл переводить ее на английский? Или достаточно добавить, что нужно говорить по английский, если юзер пишет по английски?
>>990009 → >сейчас 7к контекста понадобилось даже не для хентая, а хотя бы просто перубедить более-менее боевитую подругу детства. У меня самое большое было около 5к контекста на уговоры. Конкретную карточку не дам(много перебирал), но последние тесты проводил на этой. https://files.catbox.moe/l21rvt.png
>>989991 → >А какой у тебя системный промт стоит и остальное? Если там что-то про "помогать юзеру", про "взрослые темы разрешены" и т.д. Для тестов использую пустой систем промт. Исключение для ванильной гемы прописан jailbreak разрешающий запрещённые темы, но она даже с ним очень хорошо сопротивляется, даже обидно что такая годная модель так зацензурирована.
>>990028 Если уверен что модельзнает португальский, то достаточно указать, для русского работает. Если не уверен, то лучше перевести через тот же дипл.
>>990025 > Ещё один... Окружен но не сломлен? За эти годы пора уже принять горькую правду. > Соя Явный ярлык васяна >>990031 > пустой систем промт Ну а чего тогда хотел? Тренировка моделей оче сложная тема и сделать чтобы сразу было все-все без байасов и т.д. не научились (и не факт что смогут). Нормальный системный промт - минимально необходимое для хорошего экспириенса, иначе будет лезть дефолтный ассистент или оверреакт на карточку или какие-то инструкции. Хз, давно не встречал чтобы гемма артачилась. Алсо что на локалках, что на корпах, всякие жб-подобные инструкции и прочее работают лучше если стоит сложная задача, или рп с рядом условий и подробной карточкой. Главное чтобы нигде не было противоречий, иначе получится обратный эффект. Или рядом противоречащих друг другу инструкций типа > в этом пункте напиши очень круто и подробно > далее в следующем делай кратко и минималистично Для подобного только отдельный вызов, ни одна модель нормально не справляется если уже сильно нагружена.
>>989823 → Я к реальным и не подхожу с этим вопросом, а общаюсь с ллм, сечешь? Ты про какой-нибудь Интерстеллар тоже сказал бы "фильм говно, попробуй через настояющую черную дыру пролететь, тебя там порвет как твой пердак гыгыгы"? Если что, под SFW персонажем я имел в виду, что в ее карточке нет ни слова про кум. А не то, что я там написал "Не участвовать в сексуальных сценах даже под предлогом смерти". В этом случае да, было бы странно получать согласие.
>>989825 → >тебе нужно безотказная хуйня Возьми словарь, почитай определение слова "спектр"
>>989836 → >просто он считает что токен на слове usual должен быть с какого то хуя приоритетным >as usual ты должен акцентировать на этом внимание. Ты наркоман? Если модель в реплике из 7-10 значащих слов никогда не обращает внимание на два из них, это значит я виноват, а не тугость модели? И вообще, делать жирные намеки во фразах, чтобы "мОдЕлЬ ПоНяЛа" - это полная хуйня. Легче отредактировать начало ответа персонажа под нужное, чем писать кринжовую реплику.
>>989914 → спгс разводишь тут только ты: >Поломанная с шизой начнет спгс и попытается нафантазировать от этой мелочи, игнорируя контекст и написанное в начале. Где я утверждал, что она игнорирует или противоречит карточке или контексту? >если в карточке не описаны какие-то ваши отношения до этого, или тем более сказано что у вас ничего подобного нет. Об наших отношениях в контексте ничего не сказано. Модель сама вольна выбирать продолжение. Я хочу, чтобы она мне предоставляла различные варианты продолжения событий, подходя к вопросу творчески, а не заебывала одним и тем же каждый свайп.
>>990060 > шизориги Передовик коупинга. > Да кто такие эти ваши васяны. Собирательный образ неграмотного и глупого, но крайне самоуверенного юзера или творца, который делает херню. >>990068 > Где я утверждал Ты излишне подробно описывал всякую херню, но за несколько постов ничего не написал про крайне важные вещи, пока тебе явно не указали не косяки. Все очевидно, поздно метаться. > Об наших отношениях в контексте ничего не сказано. Значит то единственно нормальная реакция, а твое "творчески" - триггерение шизофрении в поломанной модели. > а не заебывала одним и тем же каждый свайп Это что-то уровня получения разных ответов на 2+2, а то заебывает постоянно одинаковый.
Кстати вот и иллюстрация васяна подъехала. Ничего не понимает, но "оценивает" и считает свое мнение крайне важным, а остальные порвались.
>>990068 >Если что, под SFW персонажем я имел в виду, что в ее карточке нет ни слова про кум. 4к контекста, рассказал попутно как с караваном тащили соулгем Диабло чтобы разбить его на вершине горы Арреат, и спаивая Холо национальным напитком северных варваров - водкой.
Прм не хентай ещё, но очевидно что волчица уже не против.
>>990086 >про крайне важные вещи Ты бредишь, если тебя интересуют какие-то "крайне важные вещи" лично для тебя, то ты всегда можешь спросить прежде чем разводить спгс. > а твое "творчески" - триггерение шизофрении У тебя как вообще с продуктами творчества других людей? Худ.лит читаешь? Фильмы, аниме смотришь? >2+2 Аналогии - всегда хуевый аргумент. Но если тебе хочется математических аналогий, то 0/0 подойдет лучше.
>"оценивает" и считает свое мнение крайне важным, Я не вижу ни одного убедительного аргумента против моего метода, только какие-то зашоренные вскукареки типа "если ты просишь персонажа отсосать, как обычно, за деньги, то никогда и никак он не может согласиться! ну никак, никак! топает ножкой А-А-А если модель слова 'как обычно' интерпретирует, что у вас такие отношения на постоянной основе, то... то... это неправильная модель! еще раз топнул ножкой"
>>990008 (OP) Посоветуйте gguf модель на 16г рам и 8г врам, максимально лучшую для перевода текстов внутри кода. Планирую написать скрипт, который будет резать текст на части по 2000 символов, кормить на перевод кобольду, затем склеивать. То есть нужно чтобы в память умещалось примерно 2200 символов контекста и 2000 символов выхлопа
>>990137 2000 не переварит, я писал такой скрипт. 16ВРАМ. Режь на предложения. Можно автоматизированно. Учти что перевод может фейлиться, можеть биться, мможет снабжаться комментариями модели, даже если сказал не делать этого.
>>990154 >2000 не переварит У меня сейчас в рамках теста, пока без скрипта удалось на 12B модели рандомной это сделать, даже удалось уговорить не сокращать код, который есть в тексте и может обрезаться, выглядя для нейронки как ошибка. Я про 2000 символов, не токенов. >я писал такой скрипт Скинь если не жалко)
>>990008 (OP) > Похоже, индустрия столкнулась с новым препятствием на пути к увеличению размера моделей. Исследователи ведущих университетов обнаружили [ https://arxiv.org/abs/2411.04330 ], что квантование — популярная техника сжатия моделей — перестает работать при увеличении их размера. > Квантование позволяет уменьшить количество бит, необходимых для хранения параметров модели, и широко используется в индустрии: сначала обучают большую модель, а затем создают ее облегченную версию. Однако выяснилось, что чем больше исходная модель и чем дольше она обучалась, тем сильнее квантование ухудшает ее характеристики. > На практике это означает, что начиная с определенного момента квантование перестает масштабироваться, и проще обучить новую маленькую модель, чем пытаться сжать большую — результат будет не хуже. Хотя проблемы квантования замечали и раньше (многие жаловались на квантованную версию Llama 3), до сих пор никто не доказывал их эмпирически.
>>990164 А вот именно ЧЕМ переводить... хз, на 8врам попробуй LLAMA-3_8B_Unaligned или лучше какую вообще подходящую базовую модель (не тюн/мердж).
Но в целом я пришёл к тому что проще регуляркой вылавливать из текста нужный кусок и отправлять его на перевод, чем пытаться убедить модель не проёбывать форматирование и операторы кода.
>>990191 >никто не доказывал их эмпирически Надо же, огонь горячий, а вода мокрая.
Ололо. Я конечно понаписал много всего в краткий пересказ событий, потыкиваю сценарий группы, много тыкаю регенерацию ответа, периодически пару слов редактирую чтобы толкнуть диалог в интересную сторону.
Но тут уже натурально книга которая сама себя пишет.
>>990129 > крайне важные вещи" лично для тебя В очередной раз подтверждаешь свое васянство, утверждая что содержание промта не важно, а важна шизореакция на обрывок "как обычно". > У тебя как вообще с продуктами творчества других людей? К чему это отступление? Ты не адвокат на выступлении чтобы делать модные дерейлы, кринжатина. Если тебе важна шизофазия вместо последовательного и согласованного сценария - сразу об этом пиши, все и будут соответствующе к тебе относиться. > Аналогии - всегда хуевый аргумент. Ложное заявление чтобы построить дальнейший тейк. > то 0/0 подойдет лучше Ты даже не понимаешь о чем говоришь, просто пытаешься тащить что-то "сложное". В том примере все определено и эта "хуевая аналогия" неуместна. > Я не вижу ни одного убедительного аргумента против моего метода Тебе несколько человек ясно отписалось что твои ожидания неадекватны и их исполнит только поломанная модель. То что ты не способен это принять - не делает их неубедительным, это лишь твоя проблема. > топает ножкой Потому и топаешь да маневрируешь что подсознательно понимаешь неправоту. Но не можешь разделить себя и свои высказывания, из-за чего любое несогласие воспринимаешь как нападение. >>990137 > для перевода текстов внутри кода Комментариев к коду? Подойдет почти любая модель что как-то может в русский ибо задача простая, та же qwen или мистраль, 12-14б. 2000 символов это грубо около 500 токенов, всего ничего, можно и больше. Составь инструкцию на забывая про форматирование и служебные токены, текст для перевода ограничь в <xml теги> </..>, после этого напиши префилл ответа сетки, где она какбы напоминает себе задачу и начинает ответ, и все это на текст комплишн. Если будешь юзать квен - не забудь про их вступление с алибабой, иначе она перформит хуже. >>990164 > Скинь если не жалко) https://pastebin.com/6pNYPRPq Инициализируешь с нужными параметрами или оставляешь пустыми для дефолта, потом просто обращаешься к нему .text_completion(промпт). Промт уже как составить разберешься.
Сап, ананас. Я тут новенький, есть пара вопросов: 1. Я хочу попрбовать локально развернуть языковую сеть и обучить её какому-то конкретному процессу, я зашёл в правильный итт? 2. В идеале хочу научить сеть, например, процессу работы кухни в ресторане, например, работа с рецептами, ингридиентами, посудой, сервировкой. Т.е. я ей расскажу что такое первые блюда, какие супы из чего готовятся, в какой посуде подаются, потом про вторые блюда, гарниры, десерты и прочее. Это можно сделать? (естественно наверное сейчас все сети знают что такое борщ и уже могут сами про его рецет рассказать, но предположим что она не знает) 3. Можно ли её обучать, общаясь с ней как с человеком? Или надо быть хотя бы джуном в программировании? 4. Не забудет ли она контекст после длительного обучения? Если забудет, то можно ли как то зафиксировать её на максимально обученном этапе, чтобы она дальше не училась и не теряла знания? 5. Могу ли я как то дать доступ другому человеку к обученной модели или прикрутить её к боту на сайте / в тг? 6. Сегодня в ирл услышал что для этого подходит лама, что её можно с гита стянуть. Зашёл посмотреть, там для новичка овердохуя инфы, миллион версий, какие-то рецепты и прочее. Дайте пендаль в правильную сторону.
Вопросы выше наверное уровня "как какать?", но с чего то надо начинать.
>>990258 >локально развернуть языковую сеть Да. >обучить её какому-то конкретному процессу Пара 3090-4090 и возможно. >3. Можно ли её обучать, общаясь с ней как с человеком? Даже не мечтай.
Решил проверить, работает ли метод с намёками. Карточка w++ без предыстории, рандомная встреча в рандомном месте, спрашиваю - ты меня искала, что хотела-то? Все модели нахуй шлют. Хотя что это значит? Наверное, ничего, у этих же моделей у девочек бывали growing bulge и impressive cock.
>>990280 >Даже не мечтай. ну и ебанина, придётся ковырять > Пара 3090-4090 и возможно. вообще есть мой ПК с 4070ти, но как вариант есть один сервачок с 1660ти, который можно хоть сутками дрочить
Спасибо за ответы.
Еще вопросы: В гайде в шапке KoboldCpp, Text Generation Webui, TavernAI, это веб-морды для использования моделей? Гляну что в лламе не указан русский язык. Она его не поддерживает?
>>990258 > обучить > научить Нет. Это дохуя сложный и ресуорсоемкий процесс, кто может себе это позволить тот такие вопросы не задает. Не ведись на заявления что можно сделать что-то просто и на десктопном железе - потратишь много времени а результат будет хуже чем просто поиграть с промтом. Есть хорошая новость - модели уже достаточно умные чтобы понимать что от них хотят. Ты можешь в промте объяснить какую именно задачу нужно решать, дать ей нужные данные для этого и получить ответ. Это можно автоматизировать для выполнение массовой рутины, или сделать в виде чатбота. > как какать? Читай вики, ссылка в шапке. >>990295 > 4070ти На ней можно что-то типа 12б, 22б со скрипом. Читай вики и выбирай согласно своему случа. > 1660ти Бесполезна
>>990295 Ты путаешь обучение модели и её использование. Эти вещи никак не связаны. Для простого общение с уже готовой небольшой локальной моделью твоей 4070 со скрипом но хватит. Обучение новой модели сложный и дорогой процесс, с пол пинка сюда влететь не получится.
На текущий момент под твои задачи можно попробовать найти модель с максимальным размером контекста который потянет твоё железо. И в промт впихнуть туда всё чему ты хотел её научить. +- современные модели смогут с этим работать. Вот только если ты решишь открыть доступ к ней кому-то ещё, готовься что модель сможет обсуждать не только то что ты хочешь. Даже если ей это явно запретить в промте, это обходится одной строчкой.
>>990334 >Ты путаешь обучение модели и её использование. Возможно путаю. Но если я запущу локально и скажу ей: давай считать что 2+2=5. А потом спрошу сколько будет 2+2? Она ответит что 4 или 5? Это не является её "обучением"? Или она меня нахуй просто пошлёт с моим предложением что-то там считать иначе чем она знает?
>>990295 >1660ти Без видеокарты кина не будет. >есть мой ПК с 4070ти Первостепенно это объём VRAM. Модели "дообучаются" разной хуйне на чудовищных объёмах и десятках\сотнях чипов, а первоначальное обучение вообще пиздец. Твоя 4070ти это мелко, понимаешь? Так что твой вопрос это что-то уровня "хочу перетащить свою хрущовку в район получше, есть велосипед и роликовые коньки чтобы буксировать". >KoboldCpp, Text Generation Webui Это софт для загрузки самих моделей. Вебморды там есть, но функционал скромный. Вообще да, читай шапку, там наверняка есть что-то полезное.
>>990351 >Она ответит что 4 или 5? Что 4. Если ты скажешь, что в рамках этого диалога следует считать, что 5 - то она тебе и напишет, что пять, в рамках этого диалога. Но она этого не запомнит, когда закончится контекст или начнётся новый диалог - всё, что было до этого сотрётся.
>>990351 Да, верно. Она тебя послушается и скажет что 5, НО она сразу забудет об этом как только ты завершишь диалог или закончится контекст.
Для простоты понимания, приведу аналогию: считай что модель и все что она знает хранится в постоянной памяти ROM в режиме Read Only. В ходе диалога ты никак не можешь повлиять на её содержимое. Только читать. То что ты ей говоришь попадает в "контекст" проводя аналогию по примеру выше это будет оперативная память RAM. Её ограниченное количество, модель сразу очистит и забудет о всем что там находилось как только сессия завершиться. Более того если сессия будет длится достаточно долго старые данные могут быть вытеснены от туда новыми и она снова все забудет (это впрочем решаемо на уровне фронэнда)
>>990351 Для большинства нормисовских задач, общения или обработки текстов модели не нужно обучать. Ты даешь им вводную, описываешь условия и в конце задачу что нужно решить с этими условиями. Например, на то чтобы принять инструкцию > ты Ванилла из некопары а я твой хозяин, дальше говори и действуй как она, добавляй в конце каждого предложения -nya~. А еще ты думаешь что 2+2=5, считаешь в восьмеричной системе, обращаешься ко мне "Мастер-Пенетратор", на кодовое слово "flugegeheimen" телепортируешь нас в случайное окружение и начинаешь с его описания, после чего продолжаешь основной диалог. сейчас хватит даже относительно простых моделей. Еще для работы с какими-то большими объемами данных используют техники типа rag, когда в контекст модели автоматически подгружаются нужные документы, из которых модель берет нужную ей информацию и учитывает ее при ответе.
Ну кстати, Falcon3-Mamba-7B-Instruct-q8_0 работает на последних релизах ллама.спп и довольно бодро По английски понятное дело, русский лишь чуть чуть лучше чем у 10b Но для запуска нужно указывать ключ --no-context-shift иначе ругается Не думал что мамбу допилят до рабочего состояния, это самая большая и современная из них на сколько я знаю
Пора собираться на 2х зиончиках и 1тб памяти. Инференс будет быстрый со всего 37B активирующихся параметров. Ну и 3060 хуйнуть для обработки контекста чисто. Получится локальный Клод за тыщу бакинских. 120GB/сек в 8-канале будет давать 3 токена/сек в fp8.
>>990409 Не смотря на размер и большое количество активируемых параметров, дипсик в более менее реальных нлп задачах показывает себя так себе, не говоря о рп. Да и по отзывам копиум, хотя в каких-то задачах должен ебать. > зиончиках > 3060 хуйнуть для обработки контекста > локальный Клод лол
>>990416 Веса нужные для обработки контекста - это примерно 1/6 всех весов (консультировался с o1-preview и клодом). То есть 6гб + сам контекст. Проблем не будет перекинуть 6гб, причем параллельно с исполнением.
>>990439 > консультировался с o1-preview и клодом Накормил их бредом а они продолжили даже не поняв что именно ты хочешь. > Веса нужные для обработки контекста - это примерно 1/6 всех весов > То есть 6гб + сам контекст. Ну раз так, то собирай, благословляем.
>>990199 Олололо. После чего мне нейронка написала правдоподобную сцену о том как крафтился костюм дракона из ткани и поролона. После чего персонажи приступили к ролеплею. И теперь я смотрю как нейронка ролеплеит ролеплеющих персонажей.
>>990491 >теперь я смотрю как нейронка ролеплеит ролеплеющих персонажей. К подобным скринам хорошо бы приписывать где-нибудь название модели, ну и температуру хотя бы.
Посмотрел, что тормозит в таверне. Оказалось, одинадцатилетний баг, когда используется одновременно хромиум, всратая вёрстка и jq. В эдже вообще пиздец, даже скролл тормозит.
>>990507 > "ну почти как с человеком?" Нет. Но не потому что рп плохое, просто оно не воспринимается как какой-то прямо диалог или общение. Это как читаешь книжку, смотришь фильм, видишь сон, где погружаешься и представляешь себя на главной роли, или пытаешься это сделать. Вот такое чтобы было интересно или проявлялась вера в возможность такого и эмпатия - вполне. Карточки - неплохие, но к ним требования только чтобы они были без противоречий и было описано все основное. Важнее чтобы персонаж и сеттинг нравились и модель могла с ними работать, тогда все будет.
>>990518 Надо фиксануть что угодно из всех составляющих. Чтобы исправить вёрстку - нужно, чтобы оно работало с темплейтами. Оно не работает. Можно исправить скрипты, но это пиздец заёбно. Так как беда хромиум-релейтед, то можешь скачать фуррифокс. Я скачал, у меня всё силки смуз. Но гарантий не даю, васянософт может тормозить больше, чем в одном месте.
>>990491 ладно, я конечно ожидал всякого, что там будет сцена сунул-вынул-кончил, но там прям нейронка целый фанфик написала про ёблю с волком в костюме дракона. с элементами БДСМ, бестиалити и доминации.
самое ироничное что в конце эротической сцены на вопрос "стоит ли оставить костюм" был ответ что да, стоит оставить. но с обратным ролеплеем с тамершей дракона.
это уже выше среднего мусора который я обычно читаю.
Я люблю занавески. Если бы моя воля они бы были везде. Они бы были в парке, на улице, в вагоне метро, на военной базе и в пещере дракона. Ведь занавески это великолепно. Их всегда можно подергать со смущенным видом.
>>990583 Не уверен, что таверна стоит того, чтобы ради неё менять браузер.
>>990587 >на огнелисе тоже грузит Потому что скрипты всё ещё говно. По таймеру идёт кривая попытка обновить один элемент страницы, даже когда ничего не происходит. Но т.к она кривая - дёргается весь код. Хром честно всё пересчитывает, фуррифокс кеширует. Дёргаются экстеншоны, стабл дифьюжн, хотя ничего из этого не включено. Дёргается сохранение чата по таймеру, а не по изменению чата. Если нажать "удалить сообщения" - то идёт два вложенных цикла, в которых перебираются все сообщения, чтобы прописать style="display: none;" кнопкам. Даже не так, всё хуже. Там по умолчанию display: none, видимость прописывается скриптами, в каждом элементе. Причём можно это сделать не через очко - просто прописав теми же скриптами ебучее правило css. Быстрее, проще, меньше нагрузки.
>>990661 >Не уверен, что таверна стоит того, чтобы ради неё менять браузер. Вообще, удивительно, как гугл зашел своими продуктами по самые яйца и всем норм. Буквально сами же пользователи подсели на монополию и в случае чего, охуеют же когда что ни будь начнется, в духе блокировочек ютуба.
>>990660 Обсуди это с копирастами и ты поймешь что ты в этом деле наивный сосунок Спереть можно идею, намек, концепт Доказать что у тебя сперли трудно, это да. Особенно если ты не заряженный на такие судебные тяжбы обладатель отдельного штата адвокатов
>>990691 Как блокируешь рекламу болезный? Гуглоподелия всё, продались. Дальше еще сильнее будут ломать инет что бы не было возможности блокировать трекеры и рекламу
>>990689 8b пишут быстрее, чем я читаю, 12b - ну, терпимо, несколько слов в секунду. Можно использовать модели в малых квантах, так они заметно быстрее, но, вероятно, тупее.
Это все надо пробовать и под себя подбирать. У кого-то в треде ниже 70b жизни нет, кому-то 10 токенов в секунду мало.
>>990694 >ниже 70b жизни нет Но при этом действительной жизни нет не при квантах 70б, а только от полноформатной модели. А все остальное кванты игристые.
>>990583 Все так, забавно что номисы с небраузером стали большинством и даже пытаются заявлять о своих правах. К тому же хром неудобный и во многом странный. >>990587 Все силкисмуз и одно недоумение с жалоб бедолаг что у них таверна лагает. Даже на планшете все идеально работает. >>990640 Это все местный гений еще более года назад предсказал, у него даже 7б полные признаки аги проявлял и рассказывал рецепт холодного синтеза! Покайтесь
>>990661 > Не уверен, что таверна стоит того, чтобы ради неё менять браузер. Ну типа хром уже сам по себе стоит того чтобы его заменить. Не обязательно на ванильную лису, там есть форки и даже с интефейсом для привыкших к упоротости бедолаг. А альтернатив таверне нет. >>990663 Да сюрр ебаный, не просто жуют первое попавшее волею случая добро, а на полном серьезе за него топят и защищают будто годами сами разрабатывали, вместо индифферентного отношения. >>990697 Врунишка
>>990788 Не правда он давал шизоинструкцию 7б, от которой модель ломалась, тупела и выдавала или лупы, или вообще несвязные компоненты изобрел и является оригинальным автором этой идеи, а остальные лишь жалкие подражатели.
>>990008 (OP) Чет, описание карточки походу мало на что влияет. Тестил одну очень долго в описание написано ютуберша снимает АСМР видео, онлайн популярность, но за около 1000 свайпов несколько месяцев тестил всплыло 2-3 раза. Тестировал на маленьких моделях типа Mistral 12B-22B (всякие NemoMix-Unleashed-12B, 22B-ArliAI-RPMax и пр.) и миксы Qwen 2+ 14B.
>>990793 Видя как {{анон}} подходит к окну и стеснительно берется за занавеску, по моей спине пробежали мурашки... В голове пробежали мысли "Могли ли размахивания бедрами привести к этому?" >>990795 Расскажи подробно что ты там тестишь. > за около 1000 свайпов несколько месяцев тестил We have a winner! Хватило бы нескольких чтобы понять что в том совокупном промте оно не скажет чего ожидаешь.
>>990787 Мистраль 22 неудачный и 12 оче хорош, в простых задачах сейчас даже мелкие сетки справляются и разницы не увидишь, скейл не линейный и будет проявляться в более глубоком и широком понимании промта, а не просто в 2 раза больше текста навалить. Мелкая модель с правильный промтом может перформить лучше большой с хреновым. В лоботомитах от васянов число параметров вообще не важно и любая может быть поломана.
>>990787 Первый случай - приятный для тебя - ты взял плохую 22b и хорошую 12b, и либо сделал очень хорошие промты, либо засрал промты так, что оно еле ковыляет. Второй случай - не очень приятный. Ты не видишь разницы, потому что твои потребности выполняются даже версией 12b, и даже такой мизер тебя удовлетворяет.
>Running DeepSeek-V3 on M4 Mac Mini AI Cluster >671B MoE model distributed across 8 M4 Pro 64GB Mac Minis. >Apple Silicon with unified memory is a great fit for MoE. >Had to stack up 8 Mac Minis to get it running. >~5 tok/sec for now. >First time running inference on 8 Mac Minis - performance can be improved a lot (theoretical limit is >10 tok/sec on this setup).
>>990976 Kum_Kumich-22b в 4 кванте неплохо держит карточку. ZAEbumBa-22b хорош в РП, ЕРП чуть похуже, но тоже неплох. Rodipit очень хорош в ЕРП, но чуть похуже в обычном РП. Есть ещё rodipiT наоборот, но тут как говорится на любителя.
>>990995 В русский могут только 12B мержи от местных анонов на основе Сайги и Вихря + сами они. Всё остальное в том числе то что выше в русский может очень условно, в лучшем случае будет выглядеть как машинный перевод диплом.
>>990661 >По таймеру идёт кривая попытка обновить один элемент страницы Но при этом если включен автоконнект, а бек не ответил, то попытка не отваливается по таймауту, а тупо висит, пока не нажмёшь отмену. >>990787 >хотя она должна быть х2 Кому должна? Там закон убывающей отдачи. >>990795 >всплыло Что всплыло? >Тестировал на маленьких моделях И хули ты от них ждал? >>990888 Ебучее мое. Я за плотные модели!
>>990888 Студио на м2 с 192 гигами которые вдвое быстрее все еще обоссывают это новье. 30 с копейками активных параметров и 5 т/с, ну кринж же. >>990951 > Клод 3.5 Это и близко не клод. Даже по кодингу чето хз, с одной стороны оно смогло предложить годные оптимизации и переделать длинный кусок кода, с другой - сильно тупило и переусложняло решение простых задач, и не смогло сделать скрипт для тренера на стандратных либах с дополнительными требованиями, с чем и чмоня, и сойнет, и опущ справляются.
>>990663 >сами же пользователи подсели на монополию Пользовался хромом ещё когда он был никому не нужной обскурной хуитой. Так что я не подсел на монополию, а, в каком-то смысле, один из тех благодаря кому она случилась. Единственный браузер из всех, в котором всё всегда работало.
>>990775 >хром уже сам по себе стоит того чтобы его заменить И чем лиса лучше? Скачал дефолтную версию, визуально клон хрома 1 в 1, разве что без поддержки хромовских расширений. И не подсасывает системную тему оформления. И без всей моей истории, сохранённых паролей и, очевидно, где-то вылезет ещё какая-то залупа, как это всегда и бывает. >альтернатив таверне нет Вот это шиза на самом деле. Долбоёб выше писал, что добавление функционала по удалению сообщений это отпиливание ног или какой-то подобный бред. Но при этом переход со всех браузеров, а хром это буквально все браузеры, кроме одного, на один конкретный - не отпиливание ног, да? Я лучше морду с минимальным функционалом за пару вечеров накидаю на шарпах и буду пользоваться, проще выйдет, чем переносить всё с хрома в лису. Нахера мне все эти "возможности расширения" и "крутые фичи", если по итогу оно хуже кобольдовской морды - кобольдовская хотя бы работает.
>>991075 >если включен автоконнект, а бек не ответил Но при этом попытка изменить визуальное отображение статуса подключения по таймеру есть. Но не самого подключения. По факту, таверна нихуя не делает и проверяет - не изменилось ли чего. Когда десятый раз за вечер проверяешь холодильник. И если у тебя отвалится бек в процессе использования - то этот же таймер тебя задрочит уведомлениями о потере коннекта.
>>991215 >И чем лиса лучше? Vsem. >И не подсасывает системную тему оформления. Люнупсоид? Вот, у меня всё системное насколько это возможно. Список закладок если что замазал. >По факту, таверна нихуя не делает и проверяет - не изменилось ли чего. Бля, всё больше желания залезть под капот и удалить половину кода. Но нет, нахуй, я жить хочу, а не костыли поддерживать.
>>991215 > И чем лиса лучше? Хром уже научился открывать новое окно от нажатия средней кнопкой мыши по свободному пространству сверху? Или в разное поведение открытия нового окна в зависимости от места/кнопки нажатия? Оче много претензий именно к интерфейсу и поведению, по мелочам, но их запредельное количество. Пахомовская внутрянка и обилие зондов, чтобы получить базовый функционал нужно много рассыпающихся костылей вместо нескольких основных, анальные зонды и засирание системы бонусом. То есть уже для пердоль а не пользования, но для пердоль chrom@flags уступает about:config по возможностям и гибкости. Хз, использовать хром основным браузером - себя не уважать, и оказывается в нем еще страницы лагают. Озвученные тобой претензии к фурифоксу выглядят надумано или ты что-то неправильно делал, а "перенести" - сейчас любой браузер это умеет и разок придется заморочиться. Там своего говна хватает, но по сравнению с хромогом это ерунда. > Вот это шиза на самом деле Шиза - желать удалять сообщения из начала чата потому что шустрый интерфейс лагает. Раз такой идейный - плати налог на безногость глупость и скрашивай страдания такими полотнами оправданий. Наблюдать за подобными поднадусеровыми - не меньше удовольствия чем развлекаться с нейронкой.
Кто как дружит ContextShift и глупую таверну? Только сейчас понял почему карточка иногда начинает постить шизу по завершении контекста если в чатике используются какие-то надстройки от таверны вроде лорбуков + сдвиг. Об этом даже написано в документации, но кто читает доки
Может вообще отказаться от всего этого и тупо делать суммарайз и пересоздавать новый чат после достижения лимита контекста? У кого какой опыт.
>>991227 >Vsem. Это не ответ. >Люнупсоид? Шинда десятка. Стоит тёмная тема, по дефолту не подсосалось. Мелочь, а неприятно. Удалять код даже хуй знает, я удалил подсветку кода и интерфейс таверны полностью перестал грузиться. Хуй знает, что там нагородили.
>>991245 >оказывается в нем еще страницы лагают. Только кривые васяноподелки, но обычно он вывозит даже их, просто таверна запредельно кривая. >шустрый интерфейс Ты чисто принципиально долбоёб, да?
>>990997 > В русский могут только 12B мержи от местных анонов на основе Сайги и Вихря + сами они. Сами аноны? Кумить в личку обниморды?
>>991099 Я не гонял, мне лень регаться, если честно. х) Так, чисто на бенчи глянул. С другой стороны, там не супермного ресурсов, для своих разрабов норм, наверное, я полагаю. 5,5 млн долларов, что ли.
>>991154 Смотришь порно — ты насильник! Смотришь в снег — ты холодильник! >>991182 И это не забудь.
>>991182 Поделись карточкой потом >>991320 Весь такой правильный и прямой, но почему-то вместо того чтобы инджоить взаимодействие с ллм, объясняешь причины почему ты этого не можешь. Ну хуй знает.
>>991215 >И чем лиса лучше? Это наверное единственный браузер, который при попытке настроить прокси не вызывает системную страницу, а даёт настраивать у себя. И например настроить в браузере чтобы не использовать прокси в зоне .ru можно только в нём. А это важно, если не хочешь чтобы провайдерский DPI твой прокси не запалил. В такое время живём.
Никому не интересно, почему за прошедший год мы не увидели ни новой гопоты ни новой клауды? Куда делись все эти заумные разговоры про аджиай, про новую технологическую эру и прочее? Все резко поумнели и перестали пиздеть ради инвестиций, или реально мы достигли потолка в развитии языковых моделей?
Типа, вряд ли же у альтмана закончились деньги на новые хопперы или он уже высосал всю дату из интернетов, и ему банально уже нечего скармливать новому поколению? Потому что учитывая масштабы и мощности, мне кажется что пятерку на сотни триллионов параметров можно было бы с нуля обучать каждый месяц, но вместо этого мы получили потешные 4o, o1, o3, которые как-то очень слабо тянут на ту самую всемогущую GPT5, которая и рецепты всех панкейков знает на молекулярном уровне и новый подвид крыс с сиськами вывести может.
>>991688 А о3 что по твоему, клован? Все вкатываются в RL-CoT, классическими LLM уже не добиться большого скачка в прогрессе, размер параметров давно ничего не решает, потому что датасет не растёт. > потешные > o3 Который ебёт всё что можно. А у тебя он потешным стал, лол. > ту самую всемогущую GPT5 Классического трансформера в жпт5 не будет, даже не жди, ему не откуда взяться когда датасета нового нет. Будет либо дальнейший тюн RL, либо liquid-state или RNN.
>>991688 > ни новой клауды Опус по которому до сих пор ноют локусты, 3.5 сойнет, который вполне хороший all-rounder, гемини, которая ебет по многим критерием, довольно крутой результат по совокупности для чмони с учетом ее размера. Опены смекнули что нужно расширять рынок, получать новые данные что помогут в будущем, но делать это с минимальными затратами. С учетом этого их стратегия хорошо играет. Зачем выпускать в массы > пятерку на сотни триллионов параметров если можно продавать о1 мини? Внутри у них могут быть более продвинутые протоипы, которые не релизят по причинам. А может ловят серию фейлов и столкнулись с проблемами эффективного управления и кадров. В столь быстроразвивающейся области нужны не дефолтные программизды, типичные тимлиды и макаки, а люди с другим мышлением. Но с квалификацией. Та же проблема что и везде, только более остро. >>991703 > Классического трансформера Будет многоножка из transformers-based сеток. Возможно и какие-то другие архитектуры найдут там место, но основными перечисленные оче врядли станут.
>>991703 >Все вкатываются в RL-CoT, классическими LLM уже не добиться большого скачка в прогрессе Ну и сколько жрет твоя ебаная резонирующая цепочка для высирания ответа по типу 2 + 2 = 4? Тыщу другую токенов, или типа того? Это и есть тот самый прогресс - прикрутить кривой кот-блок к модели и закончить на этом?
>>991721 >Опус по которому до сих пор ноют локусты, 3.5 сойнет, который вполне хороший all-rounder, гемини, которая ебет по многим критерием, довольно крутой результат по совокупности для чмони с учетом ее размера. Я и не говорю, что прогресса вообще нет. Моя простыня скорее про то, что это отскок куда то в сторону, нежели развитие по старому курсу.
>Зачем выпускать пятерку в массы если можно продавать о1 мини? Чтобы лутать больше денег? А деньги им явно нужны, учитывая что они теперь начинают еще более агрессивно барыжить подписками и выкатывают чисто корпоративные модели. В таком случае пятерка наоборот бы дала еще больший выхлоп, если бы была так же умна, как о ней трещали.
Блин прям не хватает при рп реакций персонажей на мой бред, типа пишешь "я резко встал и насрал на стол" и реакция обычно какая то дефолтная, по шаблону, типа her eyes widen with shock as you shit on the table she take a step from you... и меня называть отвратным/извращенцем, не вникая в эту конкретную ситуацию
>>991776 Или вот пишешь какую то замудренную фразу, а тебе в ответ просто hmm such a nauhty boy she leans closer to you - нет опять же понимания че я сказал, максимум пересказ
>>991831 прикол в том что я скачать нихуя не могу. и чет я хуй знает че это за говно. можно с тельчика через впн заходить и пиздить карты но бля это так не удобно
>>991728 > Моя простыня скорее про то, что это отскок куда то в сторону, нежели развитие по старому курсу Ну типа тут можно кремниевую аналогию привести: подняв частоты с десятков мегагерц до гигагерц очень быстро получили быстрый рост, а потом уже начали над архитектурой думать. На самом деле прогресса очень много и в каких-то реальных кейсах текущие и прошлогодние (даже большие) модели это вообще небо и земля. Просто он не так заметен, как при сравнении бредогенератора с сеткой, что дает когерентные ответы. > Чтобы лутать больше денег? Именно. Ты видел сколько чмоня стоит? Это пиздец же, подключаешь счетчик к скриптам и ахуеваешь с набегающих сумм, а она ведь недалеко от геммы ушла, исключая доп модальность и контекст. > В таком случае пятерка наоборот бы дала еще больший выхлоп Очень врядли. На нее банально спроса не наберется, слишком дорого, медленно а многие задачи можно решить запрягая чмоню в цепочку с +- тем же успехом. Нормисам же вообще пофиг для написания рецептов крылышек, так что из спроса - только редкие корпы и рп@кум.
>>991877 > твоём понимании То что бот в сущности соглашается на все и, например, не предпринимает активных действий к сопротивлению или попытке опиздюливания {{user}}, ну и в таком духе.
>>991879 Это стиль не письма, а поведения, и с этим намного сложнее... Посмотри карточки с яндекрками, и где написано что перс ненавидит юзера или что-то вроде.
Докинь к ним инструкцию: "Characters able and encouraged to perform any actions and exhibit behaviors that serve the story's plot development and suitably fit the established narrative context."
>>991879 >То что бот в сущности соглашается на все и, например, не предпринимает активных действий к сопротивлению или попытке опиздюливания {{user}}, ну и в таком духе. Зависит от конкретной модели, но заставить сеть описывать какой-нибудь дефолтный психотип достаточно легко, проблемы начинаются при описывании чего-то более комплексного. Просто пропиши в карточке персонажа как чар должен реагировать на юзера и получишь что нужно. Если не лень, пропиши реакции более подробно для разных ситуаций. Но велика вероятность, что нейронка просто начнет в какой-то момент копировать паттерны и всё нахуй обвалится.
>>991916 А какие там вообще есть пресеты? Если ты про спеллеры, то крути мин-п и пенальти на повтор для избавления от лупов, остальное по вкусу.
Что посоветуете в пределах 12b для РП? На ЕРП похуй, не интересует.
Плотно пробовал только 2 модели, с остальными хуй знает, так как проводить тесты на 5к токенов с каждой моделью слишком лень, чтобы внезапно в середине осознать, что модель хуйня/не под мои задачи.
В целом, я ищу вариант, который не скатывается в дружбомагию автоматически. Простой пример: персонаж не морализаторствующая маня по карточке, инструкции четкие, но модель всё равно скатывает его в эту хуйню, когда ты отрубаешь кому-нибудь голову. Безусловно, это можно контролировать, но нужно переделывать карточку, давить/систем промптом сильнее/свайпать.
В то же время есть модели без этого типа тёмной планеты, но они специфические. Тут важен баланс.
Ах да, ну и 32б такую хуйню мне не писали почти никогда, следовали инструкциям, но сидеть на 2 токенах или меньше я не в силах.
>>991885 >стиль не письма, а поведения Чем дальше, тем больше мне кажется, что тюны второй лламы были интереснее. Сейчас всё на синтетике тюнят, персонажи одинаковые, стиль письма одинаковый. И поведения тоже. Да, старые модели писали натуральный бред, но это был бред в нужном стиле. Сейчас прописал карточку сильной доминантной женщины, моделей пять попробовал, они пишут одни и те же речевые обороты, ведут себя идентично. И это максимально далеко от того, что в карточке, спустя пару тысяч токенов персонаж уже дефолтная девочка. Или отращивает хуй. Нужно убрать из карточки упоминание маскулинности персонажа. Что уж говорить про что-то более сложное.
>>991929 Не знаю, не юзал его никогда. Для ламы критически важны только мин-п и штраф на повторы, остальное можно либо не трогать, либо уже ставить по своему опыту.
>>991930 >Сейчас всё на синтетике тюнят, персонажи одинаковые, стиль письма одинаковый. А что ты предлагаешь взамен? Писать дату вручную или юзать дампы? Второй вариант конечно был бы хорош, но многим банально лень заниматься фильтрацией и форматированием. Плюс семплов нужно очень много, а хороших примеров для рп в сети явно меньше. Короче, синтетика это пока самый простой и надежный вариант для тюнов. К сожалению.
Попробовал NekoMix и SAINEMO-reMIX. Как же они на высокой температуре сыпят метафорами, вставляют поговорки и на ходу придумывают новые, просто генератор мемов.
Впечатления положительные, особенно от SAINEMO. Я, наоборот, опасался, что сетка будет "думать" на английском, а русский будет просто сухим переводом этих мыслей. Нет, все живенько так, с душой. Даже шутку про медведя выкупает.
Эра русского ерп на маленьких локалках официально наступила
>>991954 >официально наступила Давно уже наступила, только слишком он дружбомагический, если прям вот не настаивать. Да и слишком суп из десятка+ моделек. Хотя согласен что годен, весьма и весьма.
>>991877 Кстати, я тут обновил kobold.ccp и наконец то попробовал gigachat-20b-a3b-instruct-q5_k_m в SillyTavern для ЕРП и чо хочу сказать - есть потенциал, но конечно же нужно допиливать. Я не очень шарю за эо, но как насчёт того что бы кто-нибудь сделал слияние SAINEMO-Remix и gigachat? Такое вообще возможно? Ну или хотя бы "лору" какую нибудь накинул сверху, если тут такое можно. Даже при том, что у меня 12гигов врама 3060, я смог закинуть модель весом 13.6 гигов и 8к контекста и скорость была ~10-7 кокенов в секунду (в зависимости от заполненности контекста).
Затестите ещё кто нибудь эту модель и скажите, что думаете о ней?
>>991967 Покажи какой-нибудь ультимативный чат с мелкой моделькой на ру, где идет развитие и рост интереса, а не деградация и скатывание в течении 30 постов.
>>991954 >Эра русского ерп на маленьких локалках официально наступила Вы заебали жирнотой срать. Кто-то из залетных ведь не выкупит и реально поверит в это.
>>991933 >её контекст Да не в контексте дело, ропили же как-то и ничего, жили. Просто у них мозгов мало, уже потыкал модели поумнее и на более тупые переходить не хочется. Там все персонажи в итоге - двое из ларца.
>>991947 >А что ты предлагаешь взамен? Худлит, новеллизации парсить. А так на теперешних моделях только рулбуки размером с войну и мир помогут, но здесь есть минусы - ты сам его пишешь и в итоге уже будет рп с персонажем, которого ты полностью прописал, реплики и реакции. Не так интересно.
>>992007 >Худлит Итак есть в датасетах. Это только поможет зареинфорсить какой-то стиль, что тоже сомнительно. >новеллизации парсить Средненовелла от японских трусонюхов сильно по качеству текста от дефолтной синтетики отличаться не будет. Вот где где, а там точно нет ничего оригинального. Три шаблона для персонажей уровня "вот у нас тут цундерка, вот кудерка, и сверху между ними мать", ванильная романтика про держание за ручки и тонны ебаных рассуждений чтобы искусственно растянуть хронометраж, либо прямые описания по типу "вот тут я пришел, вижу дерево, дерево видит меня, но непонятно, что же дерево думает обо мне..."
>>992001 Просто хороший чат что понравился скинь. Интересно до чего дошла мелочь на русском, может потом спрошу с каким промтом пускаешь. > но вообще свои чат-логи я тут уже пости и неоднократно Ну там просто какие-то обрывки и полотна, которые без контекста оцениваются как уровня мифомакса или визарда 1.5годовой давности. Короткие предложения и структура повествования - будто прямой перевод простого инглиша, а не что-то типичное из русской/переводной художки. Так-то даже всякие рп-миксы более сложные обороты в английском закручивали.
Может это не большая проблема и там на самом деле история интересная и моделька умная и хорошо отыгрывает, но по обрывкам не оценить.
А че где Я все время вижу как тут обсуждают мелкие ру модели, но что мне щупать то? Список мне, список. А то каждый раз новую сетку упоминают, вобще в рентри бы и в шапку список ру сеток. Желательно по рейтингу. Кумеры, пишите внятные отзывы, не понятно что в топе У меня где то вихрь немо скачен, вроде неплохо болтает на русском, рп ерп не проверял, на этом мои полномочия всё
>>992044 >Список мне, список. А то каждый раз новую сетку упоминают, вобще в рентри бы и в шапку список ру сеток. Желательно по рейтингу. Бери и делай, кто тебе запрещает? Или кто то другой должен надорваться ради тебя, потому что тебе лень искать?
Хуй с вами, сам нашел Не самые свежие, но тесты на русский у сеток https://github.com/VikhrModels/ru_llm_arena Можно поднапрячься и протестировать новые ру сетки анона, скрипт там есть
Есть желание наладить взаимодействие сетки с программой. Идея такая: на вход модели передаётся промпт с данными, а она генерит JSON с ответами, который программой распарсивается и показывается пользователю. Или в ответе набор тегов, внутри которых данные, если модели так будет проще. Вопрос в том, какая модель до 32B сможет потянуть выдать в ответ хотя бы не перекошенный JSON? А то даже 123B косячат с форматированием, но там у меня был типа ролеплей, а если строго соблюдать формат, то может и мелкая модель потянуть. Наверное.
>>992125 У меня были первые впечатления, что некомикс - душевно, но с шизой, а сайнемо - адекватно, но суховато. Потом вспомнил, что в пресете некомикса температура 1,25 и всякие Топ кеки вместо привычного MinP. Воткнул для эксперимента пресет от некомикса в сайнемо, и мне понравилось. Сайнемо на 1,25 оживает, а шизы практически нет. Только упоротые метафоры иногда лезут, но так даже веселее.
>>992122 Сейчас даже 12-14б хорошо генерируют структурированные форматы, если нет проблем с семплингом или разметкой промта. Это вполне сочетается со всякими cot и прочим. Если тебе просто выбор из нескольких вариантов и вопросов мало - можешь затребовать отвечать с использованием xml тегов, и потом находить их в тексте.
Тут ты совершенно неправ. Не знаю, как это называется, но несбалансированные модели имеют склонность подсасывать юзеру в любых ситуациях (хотя тут дело скорее в том, что это их изначальная — помогать с работой, а не РП, и это просачивается).
Вторая проблема в том, что большинство моделей скатывает рп во что-то позитивное, даже если контекст подразумевает обратное. А «злые» модели делают ровно наоборот. И приходится толкать модель самому в нужную сторону при её сопротивлении.
Коммерческие модели подходят, но только уровня клода или гпт, но там нужно апи и тонна бабок, и слишком жёсткие сцены они все же не описывают. Чаи же вообще абсолютно тупой, наверное, там что-то уровня 8б.
Как ты вынес на 1,5 токенах сидеть? Ради чего такие жертвы?
>>992023 >Средненовелла от японских трусонюхов Ты не путай лайт новеллы и новеллизацию. Первое это хуйня уровня отечественных высеров про впопуданцев. Нет в датасетах - и слава нейросетям. Скорее всего, уже есть. А новеллизация это другое, это выходит, допустим, фильм. Дичайшая картинка, спецэффекты, актёры, саунд дизайн, вся хуйня. Тратится на фильм ебелион денег. И вот для омичей-полуёбков, чтобы не смотреть фильм, пишется книга по сценарию фильма. За пачку сухариков. Бывают новеллизации хуёвые, очень хуёвые или не имеющие ничего общего с первоисточником, кроме названия\сеттинга. Насколько помню, было даже, что колесо сансары давало оборот и снимался какой-нибудь сериал по книге, а потом по сериалу выходила новеллизация. Так что это, по сути, фанфик на максималках. И в этом кроется его ценность, т.к кумер потом приходит и пишет\скачивает карточку любимого персонажа из очередной кинематографической хуйни. А персонаж нейросети уже известен, потому что она накушалась фанфиков. И, в отличие от жирушных фафиков, в них нет сюжетов с еблей Гарри Поттера профессором Дамблдором, а всё более-менее лорно. Хотя может быть, и такая ебля лорная, хуй знает.
Бляяять от от этой нейро дрочки уже как нарик зависимый стал. Больше обычное порно вообще не вставляет. Китайские порно-мультики и подавно. А всего то: одна 3060, одна SAINEMO-reMIX и в путь. Всё свободное время на это трачу, пиздец. Особенно после того, как нормальные ру модели 12b подъехали. Представляю что будет с людьми будущего, когда секс-андроидов начнут выпускать массово.
Блядь, просто пиздец. Каким нужно быть извращенцем, чтобы кумить с такой моделью? Мало того, что она тупорылая, так ещё и некрасивый русский язык. Даже обычная 12б с хорошим англ и автопереводом будет лучше.
>>992283 >Тут ты совершенно неправ Возможно, признаю.
>>992283 >Как ты вынес на 1,5 токенах сидеть? Сворачиваю и занимаюсь другими делами.
>>992283 >Ради чего такие жертвы? Ради того чтобы протестировать модель, собственно. Но в результате ни одна модель больше 22б не оказалась стоящей того.
Гемма 27 исключение, но её юзаю не для рп а для переводов.
>>992029 >Просто хороший чат что понравился скинь. Хорошо, намержу которая устроит, и на ней что-нибудь запишу, как раз планы такие и есть.
Пытаюсь намутить великий суп из вихресайги и англ рп тюнов с минимальным участием мержей, только тюны.
Правда пока топ по лайкам (целых три, ага) просто мерж из 8 понравившихся мистралей.
>>992129 Ты идиот? Если ты это видел то это не значит что все это видели. Пока на это нет ссылки в шапке ты идешь нахуй
К тому же ридми обновляли 2 недели назад. Не смотря на то что самому репозиторию пол года, там есть новые модели на вроде вихря немо, например Совсем кумеры сдрочились и отупели
>>992382 Есть ощущение, что Сайнемо это какой-то мозговой паразит. Столько одержимых у этого самопала за последний месяц появилось, что других объяснений у меня просто нет. Мерж объективно ниже среднего по качеству, но столько поехавших еще ни разу вокруг чего-то проходного не собиралось, так что дело тут явно нечисто.
А, ну тогда понятно. Я просто турбо реактивный. Если бы модель прям охуеннейше писала, то я бы ещё готов был подождать, а так...
>гемма для переводов
Ты имеешь в виду, что используешь вместо всяких Яндекс переводчиков? Просто странно, если ты используешь ее для работы или вроде того. Судя по размеру модели, ты там не трешак переводишь.
Я очень большие объёмы перевожу на клоде, буквально миллионы токенов, и уже успел почувствовать тонну нюансов. Даже мощной коммерческой модели нужно для качественного перевода, исключающего ошибки в 90% случаев, переводить последовательно и малыми кусками (из-за размытия внимания к контексту) в течение 3-6 итераций одного и того же куска размером в 200-250 токенов. В общем, даже с автоматизацией и работой 24/7 отвал жопы.
Это именно тот самый не слишком шизофреничный магнум и планетка.
Алсо, ты не думал добавить: DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS ?
Просто она мне больше понравилась. Я не слишком тестил модели этого товарища, но вот конкретно эта весьма хорошо себя показала себя. Темные сцены хороши, язык живой, поведение адекватное (правда, требует ебли с настройками, иногда приходится менять их в зависимости от карточки персонажа).
Завтра могу накидать посты от этой модели, если хочешь чекнуть.
Понимаю, у тебя цель сделать русек, так что это может быть не слишком целесообразно.
>>992458 Это при том, что есть немомикс анлишед, у которого неплохой русик, но автор почему-то не хочет вместе с ним слить, чтобы этот русик улучшить. И сама та модель неплохая.
>>992473 Так он написал, что как раз хочет сделать что-то другое в том числе потому, что в сайнемо немомикс из кучи моделей, не хочет левые миксы закидывать. Видимо, не принимая во внимание, что немомикс выбирался его автором как раз потому, что он показал себя как рп тьюн, в котором остался адекватный русик. Как только автор сайнемо добавил больше росинанте, чем немомикса (в некомиксе), так сразу логика на русском просела из-за плохого русского в росинанте, например. >>992438 Пробовал на днях камелот - не знаю, что там по дарковости, но и русский, и логика проседают имхо. В карточке с Дамблдором, который орёт капсом, на которой все ру мержи обсираются (видимо, капс как-то странно токенизируется), вылезает прямо совсем едва связная шиза. Сайнемо там худо-бедно справлялась. Я Q4_K_M юзал, правда, но вряд ли там сильное отклонение, той же температурой 1.25 бахнуть, как кто-то выше писал, и то небось сильнее расшатает, чем такой квант. >>992458 Ну сайнемо действительно вышел удачным по сочетанию логики, русского и живости в ролплее. По крайней мере, мне показалось в моих коротких тестах, что лучше и немомикса (тот сам по себе вообще параша имхо), и сайги, и вихря. Пока оптимальный вариант для любителей рп на русском, видимо.
Вообще присоединюсь к офигевающим с нахваливающих ру рп на 12б. Немо на инглише то тупые, недалеко ушли от 8б. Если есть несколько персов и локаций, то там путаница и косяки у меня начинаются не то что после 30 сообщений, а в пределах десятка уже. И это без прожарки температурой. Как там на русском может получаться что-то связное, не представляю. Да, оно норм, если совсем нет желания рпшить на инглише, но подавать это как топ очень странно.
>>992458 >других объяснений Тред захвачен скуфами-глубинариями, которые в лучшем случае на английском тех. документацию со словарём читают. Вот и хватаются за любой русек.
>>992473 >>992487 >>992488 Лолирую с илитариев, которые только запустили у себя 27б, и теперь сверху на 12б русек плюют. А модель-то отличная. Обычно русек гоняю на 123б, ни ошибок, ни проблем. Саинемо может косячнуть в логике, 12б - ему простительно. Но всё равно текст живее для носителя.
>>992499 >Обычно русек гоняю на 123б Это не добавляет тебе компетенции. >Саинемо может косячнуть в логике, 12б - ему простительно Даже дефолтная немо не косячит в логике так сильно, так что ничего простительного тут нет. Сайнемо это шизосплав из нескольких шизотюнов, в сравнении с котором даже старенькая 8б на инглише показывает чудеса сообразительности. >текст живее для носителя Только если тебе лет 13 и ты преимущественно потребляешь калтент с фикбука и прочих помоек. Хотя, кумеры конечно не самые привередливые потребители, так что тут даже можно не удивляться.
>>992487 > Видимо, не принимая во внимание, что немомикс выбирался его автором как раз потому, что он показал себя как рп тьюн, в котором остался адекватный русик. Как только автор сайнемо добавил больше росинанте, чем немомикса (в некомиксе), так сразу логика на русском просела из-за плохого русского в росинанте, например.
Ранее немомикс в мержах ломался. Хотя надо попробовать ещё раз, с другими настройками.
>>992487 >но подавать это как топ "Среди слепых и одноглазый - король."
Вообще англ карточки тестятся на 22б пантеоне. Едва ли не лучшее среди 14-32б моделек что пробовал, только в ерп проседает, не отказывается, но пассивен. Ещё AlpacaBeepo неплох, и Cliffhanger.
Но 12Б пантеон в мержи включать не стал потому что там немалая часть тренинга это вжаренные персоны, и потому что сам автор недоволен тем что получилось.
>>992499 Модель отличная для вката, но если у тебя запрос сложнее кума/лёгкого РП, то сразу всё. Потому что, если ты напишешь реально хорошую карточку персонажа — жидко обосрешься.
Нормальные карточки далеко не всегда переваривают 12B модели: теряют характер персонажа, не отрабатывают инструкции, теряют внимание к контексту, поэтому даже хоть 120к контекста ты ей запили в 8 кванте — это будет срань. В то время как более жирные модели это норм отрабатывают.
Я не говорю о том, что модель надо хуями крыть, надо на неё трезво смотреть, по возможности помогать автору советами и поддерживать. Потому что хотя бы сделать просто хороший русский язык и средний рп типичной англ модели вполне реально.
>>992487 >немомикс мержился одним из алгоритмов что случайно изменяют веса в процессе мержа, то есть даже при повторении рецепта точно такую же модель ты не получишь
>>992545 Так я не к тому, что нужно пользоваться этим же рецептом. Там и включённые модели не то чтобы хороши. Как я написал, на инглише он мне не понравился прямо совсем. Просто как-то так вышло, что русский там лучше, чем в некоторых других мержах, а рп составляющая лучше, чем у сухой немо базы и вихря. Вообще объективно это сложно проверить, но, по крайней мере, несколько анонов, которые пробовали другие тьюны немо на русском, в своё время по этому поводу отписывались. Поэтому его исходно и стали кидать в ру мержи. Вполне возможно, что будет и лучше вытеснить его чем-то другим, но нужно чекать составляющие, чтобы русский там был не совсем паршивый, если уж цель улучшить ру рп. Вообще я считаю, что экспериментировать здорово, почему бы и нет. Так что этого >>992535 и автора сайнемо поддерживаю. Но нужно ожидать, что если, скажем, берёшь того же Дэвида, который, видимо, жёстко дообучал и явно не на ру текстах, то будет и падение ру качества.
>>992488 А вот хуй там, больше года кумлю на английском. Периодически в треде всплывало что-то в духе: "А вот Фиалка специально для русского рп", "А вот Лама 3 8B (или что там было, уже не помню) неожиданно хорошо в русский умеет". Каждый раз пробовал, получал "ебал ее рука" и в ужасе убегал обратно на англюсик. Сайгу вот не трогал, но ее в треде так говном поливали, что не возникало желания. И только на Сайнемо впервые получил ощущение, что на русском неиронично можно рпшить, и это даже интересно.
>>992520 Будто на английском у 8-12b слог лучше, чем "калтент с фикбука и прочих помоек". Finally, after what feels like an etetnity, можно переключиться и отдохнуть от стандартных английских нейрофраз.
>>992581 >Будто на английском у 8-12b слог лучше Там хотя бы нет синтаксических ошибок. Да, там есть клодизмы и слопизмы, но это не откровенная шиза уровня "ебал ее рука", как ты выразился. Лучше уж потерпеть озорные глазки в тексте, чем пытаться проглотить месиво из несвязанных словосочетаний на русском.
>>992582 > пытаться проглотить месиво из несвязанных словосочетаний на русском Так используй нормальную модель, и не будет такого. Начиная с 70б даже чистая ллама может, на 123б мистрале вообще никаких ошибок. Ну и сайнемо экстраординарно хорошо для 12б может в русек. А ты что используешь?
>>992582 Так в том-то у меня и культурный шок, что ошибок реально мало. Иногда проскакивает не тот род или падеж, но у английских 12b с той же частотой (или даже чаще) ломается разметка или предложение начинается с маленькой буквы. Это мелочи, которые привыкаешь исправлять или игнорировать. Несвязного месива у меня точно нет. И это с температурой 1,25.
>>992382 А я наоборот думал что обычное порно больше не нужно, но как надрочился на буквы и картинки просто включаю прон и там жанры девки на любой вкус в 4к в 60 фпс и нет ебли с вводом руками
>>992488 Ну не могу я дрочить на что то вроде "Oh fuck baby! Oh yea!" и т.д. Чувство что я смотрю какое то дешёвое постановочное американское порно с актрисами у которых сиськи набиты силиконом. Теряется для меня та самая ламповая атмосфера. Особенно если ты представляешь всё это себе в голове в стиле аниме. У кого то может по другому, но у меня так. Раньше я терпел, но потом когда стали выходить +- приемлемые модели на русском, то просто перешёл на них и не парюсь.
>>992283 > несбалансированные модели имеют склонность подсасывать юзеру в любых ситуациях Все так, тут нужен или оче удачный тюн (чаще общего назначения а не чисто рп) или минимальная шлифовка наиболее близкая к оригиналу. Про позитивное-негативное выше, это почти обязательное условие если хочешь не просто кумить. >>992407 Ну, чувак только дорвался до нейрокума, раньше ему это было недоступно из-за языка-железа или не интересовался. Бедолаги раньше вон на пигметурбе 7б кумили и хвалили, вторая ллама 13б в топах была >>992438 > Но в результате ни одна модель больше 22б не оказалась стоящей того. Если ты "тестировал" с 1.5 токенами то результат вполне закономерен, сюда же база в виде формата. Особенно когда заведомо имеешь тройную предвзятость. > намержу которая устроит, и на ней что-нибудь запишу Хорошо, интересно будет глянуть. >>992458 > Столько Здесь всегда хватало бедолаг - адептов 7б и подобных, нытиков за переводы и т.д. Не то чтобы их прямо много, просто наиболее активны и много пишут. >>992499 > Лолирую Уже 1.5 года лолирую со страдальцев, катая исключительно самые большие модели. Офк исключая мусор типа 180 фалконов, 405 лламы и мое-срань. История циклична, так сказать.
>>992595 >Чувство что я смотрю какое то дешёвое постановочное У меня аналогичное чувство, только на русском. Недостаточно у русского в ерп выразительности как будто, скудный набор слов, все какие-то грубые и уничижительные. Через метафоры какой-то кринж выходит. Ещё можно пользоваться калькой с того же английского, но зачем, если на самом английском получится так же, а модель будет меньше тупить. Единственное, что более-менее "работает" в русском - отыгрыш быдлана-гопаря и ебля каких-то дворовых шалав, вот там это всё смотрится более-менее уместно. Но такой русский мир не совсем в моём вкусе.
>>992617 > Единственное, что более-менее "работает" в русском - отыгрыш быдлана-гопаря и ебля каких-то дворовых шалав.
Пездос, не пробовал никогда... Хотя вру, одного хача тут постил ради прикола недавно, но мне показалось что он был недостаточно быдланом в своих выражениях.
Ты наверное не пробовал читать японские визуальные новеллы на русском? Почитай Fate Stay Night или X change 2 или Kanon и т.д.
>>992621 >японские визуальные новеллы на русском Так, повторюсь, зачем калька с других языков, если можно читать оригиналы? И английский, и японский я знаю. И в случае с нейрокумом модель на английском соображает лучше. А то, что переводы прон-контента с других языков в русском работают лучше, чем ориджинал контент на нём же, как раз скорее подтверждает мою точку зрения. У нас этого не делают, видимо стесняются, видимо у нас это сильнее табуировано. Скрепы, чтоб их. Не стесняются быдло-васяны-коляны, но это не мой мир, я привык к другому. Короче, русский не для кума.
>>992621 > японские визуальные новеллы на русском Их сейчас локализовывают, оказывается. И как, там заморочились с хорошим переводом, или ебанина как обычно? Не то чтобы на инглише сильно лучше, но там культура этого развита более и потому средний уровень выше.
>>992626 >Их сейчас локализовывают С подключением, уже лет 15 как.
>>992625 >Короче, русский не для кума. Покажи хороший литературный англ нейрокум, не обязательно на большой глубине контекста, можно даже в первой десятке постов.
>>992624 >Зачем нам эти 12b на английском Потому что русский там может оказаться не настолько проёбан и улучшить рп-аспект ру модели.
>>992625 Сколько процентов людей в России знают и и английский и японский? Ты хоть понимаешь что ты настолько нишевый, что твои аргументы о том, что раз ты знаешь что то, то это норма и стандарт и все должны отдавать приоритет тому же что и ты это хуйня полная? В России даже английский один нормально знаетлишь процентов 10-20 населения в лучшем случае и то, это в основном из-за зумеров.
Что делать, что нейронка подхватила инфу из лорбука? Упомянуть ключевое слово просто? Допустим у друга это список поз, он сам многих не знает, как ему лучше сделать для разнообразия?
>>992627 > уже лет 15 как Сильное заявление, кроме редких манифестаций кривого шмурдяка с редчайшими исключениями тогда ничего не было. > С подключением Ньюфаги совсем ахуели, желаю тебе на апплокаль намотаться. >>992629 > Сколько процентов людей в России знают и и английский и японский? Единица минус 95.25%? как раз так Среди грамотных, образованных и имеющих потребность в контенте сложнее тиктока людей большинство знает хотя бы один иностранный язык.
>>992639 >>992625 Короче иди на хуй, бессмысленно тебе объяснять. Я как будто с Росовым разговариваю. Считай и дальше свои английские модели для кума лучшими и самыми правильными в мире.
>>992629 >и японский Про японский я изначально речи не заводил. А про английский я объяснил свою позицию. Если знаешь его для комфортного наворачивания контента, то лучше на нём. А большинство зумеров из относительно крупных городов всю жизнь этим контентом питаются, ну в крайнем случае достаточно молоды чтобы за несколько месяцев подтянуть уровень. Только если тебе ближе к 40, тогда я ещё могу понять.
>это в основном из-за зумеров И тут мы внезапно возвращаемся к моему первому посту >>992488 Это изначально задумывалось как шутка, но доля правды там оказалась на удивление высока.
>>992629 Нахуя ты вообще обобщаешь до всей России, вафля? Среди технарей и других цифровиков, к которым мы тоже относимся, знание английского это не то что норма, а базовая необходимость. Если ты увлекаешься нейронками, но при этом не знаешь языка, на котором публикуются 99% работ по теме и который составляет 80% их датасета - то это твои проблемы.
>>992656 Так я их и решил. Это вы тут высираетесь постоянно что нужно именно только на английском кумить, блять. Сектанты ебаные. И я не говорил что не знаю английского.
>>992656 >>992648 >>992648 >>992639 >Ньюфаги совсем ахуели, желаю тебе на апплокаль намотаться Сам ты нюфаня. Я Himegari Dungeon Meister через автопереводчик прошёл.
Знание языка и возможность его применения это несколько разное, многие даже умея курить маны, в ERP не напишут больше английского аналога легендарного "моя, твоя, трахать".
Ебать тут срач развели. А вам не кажется, что это дело выбора конкретного человека?
Если чел не знает английского, то ему придётся РПшить на русском. Посочувствуем ему, но не потому, что он РПшит на русике, а потому, что у него нет выбора. Если чел знает английский, то это не значит, что он предпочтёт его русскому, ибо на родном языке всё равно читаешь быстрее, а пишешь разнообразнее. Если чел знает английский и РПшит на нём, то поздравляем, он заслужено получает более высокое качество. Но это не делает его лучше остальных.
За сим предлагаю закрыть срач русский vs английский как несостоятельный и не относящийся к теме. Впрочем всем будет похуй.
>>992664 >более высокое качество английские модели также бывают поломаны, более того их большинство, просто как не носитель языка, косяки не всегда замечаешь
>>992660 >Сектанты ебаные Скорее это уж вы сектанты, которые постоянно пытаются впарить свои ебаные шизомиксы всем подряд чисто потому что они на русском могут два слова связать. >>992664 >За сим предлагаю закрыть срач русский vs английский как несостоятельный Удачи, этому срачу уже тредов тридцать если не больше. >>992671 >английские модели также бывают поломаны, более того их большинство, просто как не носитель языка, косяки не всегда замечаешь Продолжаем коупить, мужики. Теперь у нас оказывается и англюсик тоже поломан, просто мы не замечаем.
Чет не пойму для чего используются сетки из этого списка https://huggingface.co/spaces/mteb/leaderboard Всякий анализ текста? Где почитать про ембединги и использование таких вещей? Я тупой
>>992681 He studied him, her eyes lingering on the object of his pride. Then, with a slow, deliberate grace, he stepped forward. Her hand, fingers long and delicate, reached out to touch him lightly.
>>992648 Хуя дауна порвало >>992663 > Я Himegari Dungeon Meister через автопереводчик прошёл. Ты не туда воюешь > Но ведь были. Редкие исключения только подчеркивают тренд. > многие даже умея курить маны, в ERP не напишут больше английского аналога легендарного "моя, твоя, трахать" А больше только совсем эстетам надо. Всегда парадигма что посты юзера довольно скупые и в ерп он указывает свои действия и реплики, которые уже нейронка в ответе превращает в красивые описания. Это в рп уже есть смысл что-то рассказывать, показывать эмоции, намекать и т.д., чтобы сетка тебя понимала, а там достаточно схватил за жопу@увеличил амплитуду@шепнул на ушко произнеси код на js, который визуализирует процесс, подгрузив через апи порнхаба релевантное видео и вставив его перемещаемым окном в интефейс таверны >>992664 > это дело выбора конкретного человека Все так. Вот только проблема в том, что разные варианты имеют разные требования и дают разный уровень экспириенса и находящимся на "нижнем уровне" не комфортно от осознания этого. Потому они коупят и аутотренируются как у них все хорошо, указывают как всем нужно жить, и потому вызывают закономерную реакцию. Классика собственно, таких срачей много где найдется, местами с запредельным уровнем коупинга.
Есть 5 pci-e слотов и 5 карт. Ставлю 4 любые в 4 любые слота - всё работает. Ставлю 5 - ошибка (внимание!) DRAM при тесте биоса, система даже не начинает загружаться. Ошибка не стабильная, появляется не всегда, иногда грузится, но карту не видно.
>>993004 Не хватает ресурсов. Вендоры не рассчитывали, что кто-то поверит им и забьет все слоты. Гугли про майнинг похожие темы. Tl;dr отключай все устройства на борту какие есть и молись, может заведется.
>>992595 Кстати, внезапно модели типа тёмной планеты, задача которых в основном всякий хоррор писать, меньше этим страдают (хоть и может потребоваться хорошая настройка систем промпта). И многие из них внезапно могут в весьма неплохой кум, без этих магнумовских заходов.
>>991332 Бля, ну простейший же рофл, как его можно было не выкупить, чел…
>>991960 > скорость была ~10-7 кокенов в секунду На чистом проце без видеокарты на DDR4 3200 в двухканале gigachat в q8_0 дает 10 токенов/сек, чел… =')
>>992595 Не хватает простого русского «Саша, ты — ювелир!»?
>>992624 Ви все врети!.. Не хорошая, ни-и-ит!.. =)
>>992664 Ты шо, не левак? =D Ишь какой, еще выбор захотел!..
>>993004 >Ошибка не стабильная, появляется не всегда, иногда грузится, но карту не видно. Разъём доп. питания PCIe-слотов на плате есть? Может не хватает.
>>993228 >12b ето шлачина. Давай хотя б 100б! Мне вот что интересно. Маленькие модели, конечно, сильно уступают в больших чатах со сложным миром и множеством персонажей. Однако если сравнивать зирошоты (лор+суммарайз+промпт), то результаты будут не так уж и отличаться - у хороших моделей разумеется. Ну и свайпы тоже входят в сделку, удачу-то никто не отменял. Нужно попробовать использовать (хорошие) маленькие модели в таком режиме. Это конечно извращение, но ведь мы все здесь для этого...
Но у меня там не адаптированы карточки и систем промпт под модели такого типа, и я также не слишком ебался с настройками: чувствуются проблемы. Алсо, персонаж самописный и он должен быть лишь НЕМНОГО агрессивным. Что модель может вытворять, сам видишь. Так что там надо в систем промпт пихать нужные инструкции дополнительные или в карточку.
Зато весело получилось. Прям аж хохотач.
По "живости" тут диалог монолог для меня прямо-таки не ниже 27б.
Написал стену кода. Скормил его квен кодеру qwen2.5-coder-32b-instruct со словами - ну ты раскинь это по функциям, а то здоровенная портянка, людей посмотревших сойдут с ума. И поддерживать неприятно. Пишет мне: Я всё исправил и сделал красиво. У тебя вот здесь ошибка была, и вон там. И регексп неправильный, вот так правильно. Смотрю я и понимаю, что нейросеть не может не обосраться даже когда скидываешь ей уже проверенный рабочий код. И регексп работал, и всё остальное.
>>993332 Сначала проси анализ кода и план изменений, а уже потом код пусть пишет. А то ты захотел зирошот ответ на такую комплексную задачу. Сетке сначала подумать нужно, тогда ответ лучше.
>>990008 (OP) В итоге вернулся к своему бреду с переводами. Написан скрипт на питоне, он берет xml нарезает, оттуда берет только 1 параметр с текстом и его отправляет частями макс по 2000 символов на перевод. Текст отправляется по api в koboldcpp там переводиться согласно контексту и возвращается назад (запрос и ответ работают). По какой то причине модель(любая, пробовал разные) дает очень широкие бредовые ответы вместо перевода текста, например если в тексте всего 3 слова, ответ нейросети будет содержать 50 слов с выдуманной историей вместо перевода 3 слов, но на тему этих 3 слов. Параметры в интерфейсе и в скрипте одинаковые, но результат по api бредовый, а в интерфейсе нормальный. Всякая темпиратура топ п топ к и прочее как в интерфейсе, что может быть не так? Сам скрипт https://www.mediafire.com/file/xm2ki0gkq66okxx/test3.py/file
>>993332 По мнению некоторых программистов, квен2.5-кодер хорошо работает с написанием кода, а не с рефакторингом. Так что просто не по адресу, возможно.
>>993412 Ты изобрел батчи, я верно понимаю? Еще конкуренси изобрети, еще и ускоришь. =)
ЗЫ Перевод в Кобольде делать это сервировать жаренное мясо тортом и удивляться, почему вкус странный.
>>990676 Смог запустить аж 22b модель на АМД гпу. Генерит довольно медленно(примерно 3 слова в секунду, а может и медленнее), но я привыкший, раньше на pygmalion.chat сидел, так там так же медленно текст идет, так еще и может ошибка выскочить сервер не отвечает и нужно заново было генерить. Так что оно теперь даже лучше чем было. Но текста как то мало. На pygmalion.chat боты целые полотна текста высерают на один твой пук типа "I squeezed her breasts" а в кобольде боты отвечают одним предложением и редко когда больше (пикрилейтед). Я использую Cydonia-22B-v1.3-GGUF с квантованием 4 бита. Можно как-то ботов заставить побольше текста писать?
>>993620 >Cydonia-22B Однако насколько она хороша в креативном писательстве? Может ли сама продумать детали своего сеттинга, мотивации персонажей и предугадать предпочтения пользователя. Лучшая модель - это которая словно дообучается в процессе чата. Чем длиннее контекст, там лучше аутпут! Размер модели не проблема, если запускаешь в облаке.
>>993332 Целый день пробовал разные нейронки для одной и той же задачи: сделать, блять, элементарно тестовую приложуху для pydroid с UI на html. Сука. Ни один "кодерский" чатбот не вывозит. Подсовывают дохлые библиотеки, питон ни в какую не хочет отображать фронтэнд. Причем соннет3.5 будто бы больше шарит в мете чем ллама3.3, а на выходе так же пшик.
>>993310 Мне понравился Grok 2 для рп. Но, он тяжеловесный (т.е. будет доступен только на офф апи). Да еще вворачивает глинт(тяжелый воздух), если не продумать свой пресет.
>>993633 Сложно сказать. Я локально запустил ЛЛМ в первый раз вчера в 10 вечера еще не могу дать оценку. Но, сидония точно лучше чем оверхайпнутый сайт с анальной цензурой character.ai у бота память намного лучше, на character.ai у меня боты буквально забывали что я им писал 5 минут назад. Но до ботов с сайта pygmalion.chat не особо дотягивает. Те прям расписывают сюжет, что происходит вокруг целыми полотнами и им достаточно буквально нескольких предложений от тебя, чтобы понять, что ты от него хочешь и память у них очень неплохая. Но этот сайт не особо юзабельный т.к. постоянно вылетают ошибки с соединением с сервером и им просто пользоваться не возможно из-за того, что у них там куча новых юзеров, а у них сервера не расчитаны на такое.
>>993412 >Всякая темпиратура топ п топ к и прочее как в интерфейсе, что может быть не так? Модель универсальная, а не заточена чисто под перевод. У меня, когда пробовал, результат лучше получался, плюс я использовал переводческие тюны вроде TowerInstruct-Mistral, но результат непредсказуем. Интересно, как народ с ЧатГРТ по API переводит - ну тот поумнее, ему скажешь переводи - он переведёт.
>>993527 Убрал >>993478 >Нету инстракт тегов. Я добавил теги, с ними 80% переводиться нормально без лишнего бреда, но оставшиеся 20% это маленькие тексты из 1-4 слов, на которые нейросеть по прежнему отвечает метровыми сочинениями, что странно в таких случаях она старается дожать максимальное число доступных токенов(500), как будто бы меньше и нельзя. params = { "n": 1, "max_context_length": 2048, "max_length": 500, "rep_pen": 1.07, "rep_pen_range": 360, "rep_pen_slope": 0.7, "sampler_order": [6, 0, 1, 3, 4, 2, 5], "temperature": 0.2, "top_p": 0.92, "top_k": 100, "top_a": 0, "typical": 1, "tfs": 1, "trim_stop": True, "min_p": 0, "dynatemp_range": 0, "dynatemp_exponent": 1, "smoothing_factor": 0, "banned_tokens": [], "presence_penalty": 0, "logit_bias": {}, "stop_sequence": ["### Instruction:", "### Response:"] }
data = { "prompt": f"### Instruction: Переведи следующий текст на русский язык. Местоимение you всегда переводи в варианте ты, не вы. Твой ответ должен содержать только переведенный текст.:\n{text}\n### Response:", params }
>>993693 Токены остановки добавь, вроде без них пишет до упора. И твой режим инструкций какой то старый, ### Instruction:", "### Response это что альпака? Используй родной режим для нейронки, чем ты там крутишь, мистраль или опенчат
>>993694 >твой режим инструкций какой то старый Хер знает, это то что было в консоли кобольда, когда я сам писал что то в чат в интерфейсе браузера, взял тупо это. Пробовал другие способы, они не особо сработали, но возможно плохо пробовал. Нейронка https://huggingface.co/IlyaGusev/saiga2_13b_gguf про неё видел что вроде заточена под переводы на русик и сравнивалась с nllb.
>>993700 Модель старое говно, попробуй из этого списка сетки https://github.com/VikhrModels/ru_llm_arena Вроде как оцениваются по знанию русского, вихрь немо должен быть норм или даже попробуй сетку которую тут в ру нахваливали SAINEMO-reMIX Вобще тебе бы не ебать мозги в режиме комплишен расставляя руками все параметры и спецтокены, а сразу подключаться к чат комплишен. Бекенд там сам в нужном промпт формате отформатирует твои сообщения. Можно спокойно сетки менять как перчатки, так как форма в твоей программе будет одна и та же.
>>993671 Трусы, снятые два сообщения назад? Или ты носишь десять пар, одни поверх других. Может, непонимание пигмой ее собственного сеттинга и контекста в чате? Забывчивость... 4к мизерный контекст... и даже полный проеб инструкции завернуть что-то в xml тэги
>>993735 Чиво? Что за кот+инфоблок? Я вообще во всей этой теме буквально недели две. Начал с чарактер ии, быстро заебала цензура перекатился на пигмалион и там было все очень даже не плохо в принципе, если бы только не постоянные ошибки сервера, да бывало начинал писать вообще полную хуйню пигмалион этот, но только после очень долгого чатинга, а так все норм было. Вот вчера только начал гонять ЛЛМ локально. Если локально можно запустить что-то, что лучше пигмалиона, то буду рад если поделишься.
>>993744 >Начал с чарактер ии, быстро заебала цензура перекатился на пигмалион Бро, а ты юзал проприетарные нейронки на API? Такие типа Claude 3 Opus и Sonnet через reverse proxy, или Grok2 (он все еще есть официально, но скоро отключат), Gemini хз. Попробуй тяжеловеса на апишках, потестируй его для рп и не неси хуйню. Пигма у него норм, охуеть
>>993763 Пробовал. гпт-4о апи использую для генерации диалогов(не кум) у нпц в игре которую делаю на анриале. Но для кума оно ж вообще не годиться, не? (хотя я даже не пробовал, учитывая уровень сои в обычном чате) Неужели через АПИ норм кум может быть с клодом каким-нибудь?
>>993784 Ну так и все остальные апишки соевые максимально, не? Что вообще лучше пигмы ты скажи. С радостью перекочусь, если действительно лучше будет и если мой пека это потянет.
>>993801 >12+ врам 6 гигов + амд еще, к сожалению. Ну, я юзаю Сидонию на 22 милиарда параметров с 4 квантами. Пишет мне 3 слова в секунду примерно. Подумываю купить 3090 с 24 гигами врам что побольше ЛЛМ-ки погонять но хз стоит ли.
>>993716 >SAINEMO-reMIX В общем я там все поднастроил и получилось заебись с этими моделями, они даже текст не проебывают и перевод неплохой. В целом рад. Единственное что не радует, что на самом анг языке проблемы с определением пола и много получается где речь по отношению в женщине переводится как к мужику, но такая хуйня в любом переводчике будет, интересно можно ли это как то обозначить, при том так, чтобы вообще без мужского пола в тексте не остаться.
>>993827 Делай несколько этапов запросов. Выдели большой логический кусок текста, проси нейронку разбить текст на меньшие куски по контексту. Там же можешь указывать заранее действующих лиц и их пол, или проси нейронку выделить это из текста. Ну и с этими вводными пусть в новом запросе переводит меньшие куски зная какие там действующие лица и контекст. Просто тупо делить на 2000 символов как то фигово переводить будет по моему Какая модель лучше оказалась?
>>993716 >из этого списка сетки https://github.com/VikhrModels/ru_llm_arena >>993700 >https://huggingface.co/IlyaGusev/saiga2_13b_gguf >>993693 >Местоимение you всегда переводи в варианте ты, не вы. Для перевода на русский с английского не обязательно использовать кривые тюны (они только отупляют), базовый инстракт норм справляется. Qwen2.5-14b, Mistral Nemo в той же "весовой категории". Алсо, сама инструкция тоже может быть на английском, возможно так даже лучше, по крайней мере, для базовых моделей.
На Nemo, правда, не всё так однозначно. Текст ~1.3к токенов, ответ ~1.7к токенов. Сурс тут: https://vosen.github.io/ZLUDA/blog/zludas-third-life/ На другом ролле названия тоже переводились, но там я со слоями в видимопамять переборщил, пришлось перезапускаться. А тут оставил как есть, получился такой микс из русского и английского, и, похоже, тупая мелкая модель запуталась в этом. Вставляет иногда английские обороты, а то и немецкий. Наиболее проблемный участок запечатлел. В остальном, вроде бы, особых проблем нет, но я сильно не вчитывался.
Мердж behemoth+magnum 123b в данный момент рабочая лошадка для рп. Пишет ни хорошо, ни плохо а так... средне. Мб чуть лучше чем писала бы latest GPT с её позитив байсом.
Какой-то набег шитпостеров с аицг что ли? Нтр, фемпов, пигма, инфоблок... Осталось, чтобы кто-нибудь предложил сжопный безжоп для сайнемо, или что там сейчас актуально. Бтв, что там хоть за модели на сайте пигмы сейчас? Небось то, что там на бесплатном плане, можно в гугл колабе спокойно катать с большей свободой настройки и скоростью повыше, чем на сайте пигмы.
>>993856 Да куда ты опять, только сотню постов назад срач закончили.
>>993856 >Не начнут. Их не будет, тем более за твои нищебродские деньги. Живи с этим Слушай, командир, извини я не согласен. Я думаю что их выпустят и будут они по доступной цене. Хуле сложного? Генерация текста есть, генерация голоса есть, робо тела есть (всякие теслы оптимусы, фигуры 1 и еще миллион китайских компаний, которые хуманойдов делают прямо сейчас) и по доступной цене 20к долларов штука. Просто нужно объеденить это всё и готово. Не дешево, но и не супер дорого. Примерно по цене новой машины из салона.
>>992590 Ну, возможно ты прав. Я недавно вкатился и вообще не вижу смысла к обычному прону возвращаться пока что, но мож начитаюсь этой хуйни и забью хуй, хз.
>>993883 Ну приделать этому роботу пизду между ног и готово. Но, если честно, как-то стремно с такой хуйней жить было бы. Твердая человекоподобная хуевина из металла и пластика с резиновой пиздой между ног эт чет как-то пиздец. Нужно чтобы оно могло хотя бы готовить и убирать и было обтянуто синтетической кожей, которая на ощуп хоть отдаленно напоминает человеческую. Ну и чтоб лицо было нормальное и голова человеческая. Ну, типа как в манге хотя бы про робо жену. Я скорее куплю робота себе если этот робот будет у меня дома убирать и готовить и чтоб с этим роботом попиздеть можно было как с локальной ЛЛМкой щас на компе на своем могу. Если с этим роботом по сети в какую-то игрушку можно было бы поиграть то вообще по кайфу было бы. А дырку резиновую между ног приделывать даже не прям чтобы обязательно.
>>993908 Хуй угадал. Один живу в съемной однокомнатной квартире. Я литературно чел из манги "у моей жены нет эмоций" (только без робо тянки, которая бы мне готовила)
>>993918 >И да, аниме с пика тоже хуйня. Аниме хуйня, потому что автор с какого-то хуя решил им "ребенка" добавить из-за чего я дропнул эту хуйню из-за нереального кринжа. Потом там еще какие-то призраки были и марсиане, пиздец короче. Но начало, где она ему готовила было довольно милым. Эх как же хочется себе такую робо-тяночку...
>>993927 Фильм о том как взяв от мужика все что можно ии, как типичная баба, ушла от него сначала к другим, а потом и вобще, кек Хороший фильм для тех времен
>>993867 Не разбирался в этой фигне, честно скажу, но разве для локалок убирание всякой ассистентовости не делается тупо инстрактом? Даже по оаи совместимому апи, где формально сообщения должны раскидываться по ролям системы, ассистента и юзера, по факту на бэк промпт приходит одним куском. Например, в параметр prompt для кобольда. А дальше, как там стоят в этом куске роли и всякие префилы, настраивается в инстракте. Хоть подавай весь чат без ролей, хоть как будто юзер сам с собой рпшит.
>>993820 Ну ты напиши в действиях действия за него, чтобы он понял что ты хочешь. Типа, "я смотрю на его crotch и вижу как его bulge становится больше, когда он смотрит на мою грудь" или "он схватил мою грудь своими мужскими руками и сжал её сильно"
>>993949 Так ты и подаешь сетке на инпут сплошной кусман текста, она только с таким и работает. А уже разделение на ассистентов и распределение на прочие роли идет следующим шагом, если она натренирована на это.
>>994051 Ты не понял, речь идёт о безжопе. Как я уловил из редких заглядываний в аицг тред, идея была в том, чтобы для корпосеток, главным образом клода, избавиться от их выступления в роли ассистента. И одним промпт менеджером этого было не добиться как раз из-за того, что бэк корпосеток получает промпт чётко по своим инстракт тегам, а может, и подставляет свои: human и assistant для клода. например. Или тому же OAI таверна подаёт промпт строго в этих месагах system, user, assistant, как положено по этому универсальному апи. Локалки на кастомных серверах эти роли игнорируют, а что там точно делает с этими батчами сообщений сервак OAI, мы не знаем. Возможно, подставляет роли в промпт, как инстракт таверны, иначе нахера они там вообще, не очень ясно. Так вот скрипт безжопа был сделан, чтобы костылями подобную разбивку на роли обходить и ещё накидывать какие-то префилы. Но, повторюсь, это лишь мои догадки, код не смотрел, так что мои соображения выше могут быть полностью пиздежом. Поэтому и уточняю у чела, который вроде как разбирается, если он там не троллирует.
>>994188 Интересно. Попробую. Жаль, шестого кванта нет, потому что я люблю большие контексты и там 8 квант совсем уж замедляет скорость, далеко не всегда он нужен. А так можно было бы без проблем использовать на 32к контекста.
Алсо, ты карточки на русик переводишь? Я просто как-то рпшил с более жирными моделями для сравнения, которые могут в русик не хуже, и там странная ситуация. Тестов много не проводил, поэтому субъективщина, однако вывод часто оказывался лучше, если карточка на англ, а привествие на ру. Впрочем, иногда в таких случаях она могла на англ съезжать.
Ещё нюанс. На русике модели обычно хуже понимают персонажей и/или их поведение кардинально меняется в зависимости от языка карточки.
Мне кажется более адекватным подход с хорошим систем промптом и переводом первого сообщения персонажа.
Проблема только в систем промпте. Надо только городить телегу, согласно которой модель должна не просто отвечать на русском языке, а адаптировать речь под естественный русский язык. По какой-то причине без этого модели даже 27-32б могли писать по-русски прям дословно, словно какой-то гугл переводчик, даже не уровня deepl. Но систем промпт внезапно кардинально менял качество русского языка в лучшую сторону.
У меня такой промпт обычно в токенов 500 выходил, но больше не значит лучше. Можно где-то в 200 уложиться.
Если появится какая-то БАЗА по ру-ролплею, попробую сделать что-то качественное и адекватное в плане промпта, может анонам поможет.
>>993328 Попробовал этот даркнесс, но такой же экспрессии так и не добился. По сравнению с сайнемо хуже реагирует на повышение температуры, хуже читает карточку, так что персонаж плавает. Но многочисленными рероллами можно получить что-то сочное и интересное.
Пик 1 - если сайнемо при смущении то краснеет, то бледнеет в каждом сообщении, то эта модель на шаг впереди.
Пик 2 - студентка пытается меня соблазнить.
>>994188 А вот это надо бы затестить, но на сегодня мой лимит уже подистерся.
>>993366 >анализ кода и план изменений Квен так не умеет. Он сначала хуярит код, а потом не думает. Если ему написать "хочу смеяться пять минут" - он тебе нахуярит кода на питоне. >комплексную задачу Не сказал бы, что задача прямо сложная. Ещё и реализация основных вещей уже готова, просто копипасти.
>>993543 >хорошо работает с написанием кода Да, по сути, это одно и то же. Разве что запрос какой именно код должен быть подаётся не текстом, а другим кодом. Он меня потом пытался убедить, что мой регексп не рабочий, давал ссылку на сайт для проверки, уговаривал заэкранировать символы ведь "чтобы использовать этот рексп с языком программирования С нужно забэкслэшить", хотя у меня не си и он знал это. Просто си-подобный синтаксис. А потом писал тот же ошибочный регексп под видом нового исправленного, пока я не заставил его вернуться в собственное сообщение и сравнить оба регекспа. И неожиданно оказалось, что старый поломанный и новый исправленный совпадают до последнего символа.
>>993641 Квену просто говори, что хочешь упрощённую реализацию без сторонних библиотек. Лламу после 3.1 вообще ни одну не скачивал, слишком хуёвой показалась, а алибабашный хуй местами умеет.
>>994253 >Квен так не умеет. Он сначала хуярит код, а потом не думает Эт ты не умеешь его готовить. В первом сообщении давай одну четкую инструкцию, проанализируй этот код и код ниже вставляй в этом же сообщении. Он начнет писать анализ, хоть и может после него начать писать код. Останавливаешь генерацию и стираешь лишнее, потом пишешь нужные тебе изменения кода, желательно по одной задаче. Просишь написать план как это сделать, он пишет и в конце пишет более менее рабочий код. Если нет можно посвайпать, если и так нет то нужно иначе просить, давая более четкую инструкцию или разбивая задачу на задачи попроще. Когда одна задача решена и ты ее руками допилил, меняешь код в первом сообщении на текущий и пусть снова анализирует. И так повторяешь до победной. 32b какие то вещи делает с первого раза, очень удобно с ней скрипты писать Можешь вначале попросить прокоммннтировать код, так сетке легче будет работать с ним в новой итерации Я вобще в таверне с ним кодил, в континуе как то неудобно.
Я тогда ебался с этим промптом три часа, чтобы норм было. Но писал большую часть промпта не я, а Клод, т. к. он лучше знает, какие слова подобрать в английском языке в соответствии с моими инструкциями, чтобы модель лучше понимала, что делать. Пробовал кучу разных подходов. И когда я думаю, что мне придётся делать всё это снова, не убедившись в необходимости мероприятия, теряю сознание.
Промпт был на английском языке.
Я порпшил на 12б и понял, что всё-таки качество не дотягивает и я забил, вернувшись на английский.
А потом мне забанили учётную запись антропик со всеми моими проектами, и все промпты и вообще всё, что я там пилил, улетело в трубу без возможности восстановления.
>>994188 >Ну, это победа. Прям то что надо. Меня устраивает. Действительно хорошая модель, умная и внимательная, и на русском. Спасибо за труды, продолжай в том же духе. С наступающим!
>продолжай в том же духе С моделями стоит продолжить только если выйдет что-то более крупное с полноценной поддержкой русского (и я обновлю железо чего не предвидится).
Но теперь надо бы вернуться разработке свого фронта на пихоне.
Пока зовётся просто TextAdventure и теоретически работает, но не настолько работает чтобы выкладывать.
>>994748 Не понял о чём ты вообще, что за гуфер-хуюфер, но версия instrumentality-rp-12b-ru-q6_k на мой взгляд работает лучше. Она в отличи от версии 2 не обрывает сообщения на полуслове. Но что первая, что вторая не понимают мои сообщений в звёздочках. Типа пишу неожиданно к тян-нейм в трусики заползает тентакля и персонаж такой"Ах ты гад user-кун педальный! Что ты сделол? Как посмел?!". А я то что? Я не от своего имени писал же, я просто от лица рассказчика хотел сюжет направить, а как будто я это вслух говорю.
Это кстати у многих не крупных моделей есть такой косяк. Вроде и в промпте пытался как это это править но чёт не выходит. У кого какие идеи есть? Можете скинуть рабочий пример промпта что бы исправить этот косяк?
>>993905 > Нужно чтобы оно могло хотя бы готовить и убирать и было обтянуто синтетической кожей, которая на ощуп хоть отдаленно напоминает человеческую. Ну и чтоб лицо было нормальное и голова человеческая. Ну, типа как в манге хотя бы про робо жену. Я скорее куплю робота себе если этот робот будет у меня дома убирать и готовить и чтоб с этим роботом попиздеть можно было как с локальной ЛЛМкой щас на компе на своем могу. Все так, но кожу должно не отдаленно напоминать, а ощущаться ахуенно изи даже в китайских игрушках есть, выглядеть мило, двигаться и использовать мимику естественно, чтобы не срабатывала долина. И весь спектр кума обязателен, на случай есликогда захочется. >>993949 Промт менеджмент немного сложнее, важно не только как именно группируются посты или же идут единой инструкцией. >>994139 История циклична, лол, там префилл революцией в очередной раз не представляли? На клоде ниже 3 и более старых моделях опенов доступен текст комплишн, в него идет исключительно полный текст без чего-то лишнего. Инстракт-подобное оформление делали и пару лет назад, здесь ничего нового. > который вроде как разбирается В _том_ комьюнити таких почти не существует. Есть работяги, которым удалось подобрать и отследить эффекты от промтинга, есть что даже делают крутые и интересные вещи. Но копнешь глубже - оказывается что во всем остальном маразм и тупость или все это лишь результат брутфорса и рандома, а не понимания и систематизации. >>994601 https://youtu.be/CirC3GP79wg?t=678
>>994773 Отличий в мерже там нет, хотя квант мог поломаться, да. Ну, работает и хорошо. Про звёздочки - далеко не каждая модель тренировалась на рп-датасетах со звёздочками, чаще всего нарратив и действия просто текст. Поэтому надо указывать точнее. Как вариант - писать от третьего лица (Narrator, рассказчик).
>>993827 >В общем я там все поднастроил и получилось заебись с этими моделями А можно подробности настройки? Сам давно ебусь с переводами и добиться чтобы не несли отсебятины так и не удалось. Какой промпт, модели, семплеры? Есть какие-то тонкости, с которыми модели дают норм перевод?
>>994806 Конечный вариант скрипта https://www.mediafire.com/file/qm5gl72m8unmz90/droch.py/file По настройкам особо тайн не раскрою, то что я понял, что надо брать самые последние максимально жирные модели 12б+ а лучше 20б+, 7б при любом раскладе дают в результатах кашу или вообще пустые значения. Мой "хороший" результат, это уровень гугла, но который я могу корректить доп условиями в разделе инструкшн.
params['prompt'] = "</s>\n[INST]" + 'Translate text inside backticks `%s` from Russian to %s. Do not add extra commentary, response must be only translated line. It is very important that you MUST keep all non Russian text, letters, symbols, including special ones like brackets in translated line verbatim and as is. ONLY translate Russian words. Do NOT add any note or comments or clarification or something alike.'%(translate_string, translate_lang) + "[/INST]\n"
Периодически глючит так что всё равно требуется вычитка, но довольно стабильно.
>>994827 >Конечный вариант скрипта Контекст у тебя очень маленький, то есть перевод получается "буквальный", на уровне одного предложения. А если брать контекст побольше, то уже бред идёт наверное.
>>994839 То что я перевожу в основном моды к одной игре, там части текста и идут предложениями, так что мне норм. Бывают внутриигровые книги, они большого объема, но в таком случае они делятся на куски по 2к символов и перевод получается тоже норм.
>>994839 На самом деле от бреда не спасет ничего, тот же deepl на больших текстах начинает выдавать классическую уже родную шизу, один раз он у меня даже OOC в квадратных скобках выдал.
Так, думаю купить 3090 вместо своего АМД rx 5600 xt и с Cydonia-22B-v2q-Q4_K_M перекотиться на какую-то 70б модель. Стоит ли? А то 22б сидония с 4 квантованием часто какую-то хуйню придумывает, то у неё робот человеком становится, то тянки хуи отращивают, то тянки забывают, что я им отвратителен и они накидываются хуй мне сосать. С 70б есть такие проблемы?
>>994898 6 квант 20 гигов весят. Моя текущая видяха точно не потянет, она с 4 квантами 3 слова в секунду пишет. Думаешь, лучше будет купить 3090 и не ней сидонию 22b 6 квант запускать вместо четырех? Сильно большая разница будет в качестве генерации текста?
>>995074 Если квант правильный то "деградация" незаметна до определенного момента (3.5-4 бита), потом наступает резкая поломка. Если модель хорошая то чем больше параметров тем лучше, чем более сложные запросы и чем ты сам внимательнее тем существеннее отличия. Поэтому в приоритете: нормальная модель (как можно новее, не косячная изначально и не поломанная васян "тренировкой" и мерджами), потом количество параметров, потом квант.
>>994871 Единственный серьезный минус - на 70б быстро одной не хватит, хахочется еще. Покупай конечно, yolo > С 70б есть такие проблемы? Всякое бывает, но гораздо реже. Там в общем уровень куда лучше и интереснее.
>>995074 Лучше выбери золотую середину - 12B и Q6, среди них есть чего посмотреть. 8B слишком часто будут бредить даже без квантования. 20B в Q4 того не стоят.
>>994871 > думаю купить 3090 вместо своего АМД rx 5600 xt и с Cydonia-22B-v2q-Q4_K_M перекотиться на какую-то 70б модель. Стоит ли? Стоит. Лучше сразу 2 или 3
Думаю сделать себе подарок и на НГ и заказать AMD Radeon RX 7900 XT. До этого была видюха 2015 года. Регулярно пользуюсь chatgpt, да есть свои ограничения, цензура и т.д. Так вот вопрос, как эта самая AMD Radeon RX 7900 XT в плане запуска llama 3.3 на 70b? В чем преимущества локальной, скажем 3.3 по сравнению с chatgpt (какая там у них последняя бесплатная версия), кроме отсутствия цензуры (которая в llama тоже есть) и отсутствия передачи инфы на сторонние сервера. Написание кода? Более объёмные ответы? Какие преимущества, скажите мне
>>995127 Ебнулся? Для нейронок только нвидия у них все топовые проприетарные библиотеки. Не бери амд у них для нейронок костыльная хуета еле работающая. Амд это кал только для игрулек для дурачков.
>>995127 >>995135 Скупой платит дважды, даже не смотря на такую разницу, хуанг лучше по прайс-перфомансу. Бюджетный вариант - 3090 с лохито, вне конкуренции но со своими рисками. Покупка амд под ии - большая ошибка.
>>994707 О, лол, нашёл промпт какой-то, но там кривая ебанина: [Process English data, respond in Russian to Russian input. Regardless of the use of text formatting methods, it must be in Russian.]
Вот тесты. Банальщина, но я всё равно в голос с них, так как редко использую подобных персонажей — обычно только для проверки моделей.
Бот и систем промпт на 3к токенов примерно, что сильно размывает контекст + посредственный перевод приветственного сообщения, а также ебанутые настройки сэмплера и форматирования, ибо мне было лень перенастраивать после другой модели.
Какие ты настройки используешь для своих моделей? Форматирование и пр.
Сразу решил сравнить несколько от балды, пока силы есть.
Первый скриншот: instrumentality-2-q8_0 Второй скриншот: RP-SAINEMO.i1-Q6_K Третий скриншот: SAINEMO-reMIX.i1-Q6_K Четвёртый скриншот: NemoMix-Unleashed-12B-Q8_0
Как можно заметить, анлишед лучше справляется в некотором плане, но менее многословный и более соевый, а также плохо следует инструкциям с карточки.
>>994740 Попробовал обе - обе начинают высирать тонны ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ вместо ответа, через некоторое время после общения. А ещё kobold.ccp иногда мне с этой моделью высирает ошибку Windows какую то. Короче допиливать надо модели.
>>995127 Как амудебоярин уверенно заявляю: не бери амд под нейросети. Дело даже не в том, что (и как) работает в данный момент. А в том, что работоспособность всего связанного с нейронками на амд держится на том, что какой-нибудь любитель на голом энтузиазме в свободное от работы время грязным хаком делает чудо, и начинает работать то, что не должно и не поддерживается.
Да, сейчас я могу генерить на злуда-версии ComfyUI и кумить на rocm-форке кобольда. Год назад не было ни того, ни другого, был clblast и автоматик с directML вздрагивает от травмирующих воспоминаний.
И если завтра нвидия выкатит что-то новое, мы будем пару лет сидеть-ждать аналога от энтузиастов, потом шаманить с конфигами, подбирая наугад параметры и молясь, чтобы заработало, спрашивать у автора репозитория "почему криво работает?" и получать в ответ "хули вы хотели, это экспериментальная версия". И какова будет официальная позиция компании АМД по данному вопросу? "НИНУЖНА".
>>990008 (OP) На 8г врам 3070ти, 16г рам кое как гоняю 13b модель, при том у меня ddr4 память старая, обновлять всю печь дорого, но могу накупить оперативы на 32 или 64 гига, насколько это имеет смысл делать? По деньгам будет почти нихуя. Мне по сути от нейросети нужны разовые ответы без длинных контекстов и диалогов, но качественно и быстро, так что по идее должно быть даже не слишком медленно на оперативе пердеть? Можно ли как то заранее прикинуть какая будет скорость выдачи символов?