Кто-нибудь умеет в нейронные сетки?
Spisany wot Zkir dnja 25 September 2024 w rěči Russian (Русский). POslednja aktualizacija 26 September 2024Кто-нибудь умеет в нейронные сетки?
Кажется, технологии созрели в достаточной степени для того, чтобы генерить нейросетками хотя бы двумерные изображения зданий по словесным описаниям, сделанными из тегов.
Я попробовал Кадинского. Рисует он неплохо, но архитектурная терминология для него ничего не значит, и в добавок он считать не умеет.
Промт: “Здание железнодорожного вокзала в псевдорусском стиле четыре этажа, акварель.”
Неплохо. И правда напоминает провинциальный вокзал, но искусственный мозг не понимает, что у здания должен быть вход. (А у вокзала еще и обязательно с двух сторон, хе-хе.) Требование про четыре этажа проигнорировано.
Промт: Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель.
Искусственный мозг не понимает ни что такое “нарышкинское барокко”, ни что такое “шатровая церковь”.
Промт: Восьмиэтажный жилой дом в стиле сталинский ампир, акварель.
Уже ясно, что считать мы не умеем, но по крайней мере у здания есть карнизы (внушительный карниз – элемент стиля ампир). На подъезде какая-то надпись, похоже хотелось нарисовать гостиницу :)
Кажется, это всё можно улучшить обучающей выборкой. Возьмется кто?
Diskusija
Komentar wot luiswoo spisany dnja 27. September 2024 17:14
Можно попробовать Flux https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell (быстрее и хуже) https://huggingface.co/black-forest-labs/FLUX.1-dev (медленней, красивше и скорей всего сделает пять куполов и восемь этажей в каком-то своём стиле; 12 миллиардов параметров и все дела.)
Тут https://civitai.com ещё можно модельки потыкать, если баллов хватит.
Кроме самостоятельной дрессировки нейросетки, навряд ли есть какие-то ещё реальные варианты.
Komentar wot luiswoo spisany dnja 27. September 2024 17:23
Сталинский ампир глазами дева:
Пятикупольная церковь (он же):

Komentar wot luiswoo spisany dnja 27. September 2024 17:37
Ну и вокзал в каком-то стиле (он же):
Komentar wot Zkir spisany dnja 27. September 2024 20:48
А что, симпатичненько. Дом просто хорош, если он этажности соответствует. Церковь жутко эклектична, какая-то смесь барокко с модерном. Вокзал замечательный, даже есть пути и есть платформа. Лестница к путям правда абсурдна :)
Вот и нужен кто-то, кто в этом понимает хотя бы немного и готов этим заняться.
Со своей стороны, готов заняться обучающей выборкой. Собственно, 3dcheck это она и есть. Изображения можно повытягивать с викидаты, temples.ru и sobory.ru. надеюсь они поделятся, для такой-то цели.
Komentar wot luiswoo spisany dnja 27. September 2024 23:35
На сколько я знаю, полноценное обучение графических нейронок для обычных обывателей — что-то запредельное по оборудованию и деньгам. Если есть что-то на уровне nvidia 4090 (плюс-минус — для локального запуска flux-dev она не предел мечтаний, со слов пробовавших), то можно обучить лору (LoRA) стилю, сталинскому ампиру, к примеру. Один стиль — одна лора. Хотя мог наврать — не специалист. Stable Diffusion менее требовательная, но и менее точная.
Из сравнительно халявных ещё есть https://www.bing.com/images/create? — Dalle 3 от щедрот мелкомягких (нужна учётка майкрософт и заход из “белой” страны). Но тут уже без варианта локальной установки.
Komentar wot Zkir spisany dnja 29. September 2024 12:44
А что, очень симпатично. Во всяком случае это барокко, хотя ни разу не нарышкинское.
За наводку на Flux большое спасибо. У меня даже получилось запустить его локально. Но моей 4070Ti даже генерация одного изображения занимает 4 минуты – на flux_schnel. На flux-dev 50 итераций занимает 40 минут.
Страшно представить сколько может занять переобучение :) Видимо 4070Ti не совсем аналог 4090 …
Можно конечно добавить в процесс прямо так, и ждать когда выйдет 5090 :D
Komentar wot luiswoo spisany dnja 29. September 2024 13:03
На flux_schnel можно в разы уменьшать количество шагов, если не ошибаюсь — у меня в принципе не запуститься.
Komentar wot Zkir spisany dnja 29. September 2024 13:51
Да, но на flux_schnell по умолчанию всего 4 четыре шага, так что уменьшить можно самое большее в раза четыре :)
schnell на одном шаге генерит что-то типа эскиза, хотя и довольно приличного, а dev только разноцветные пиксели. Так что походу 50 шагов там не зря))
red brick orthodox church with belltower in pseudo-russian style, watercolor num_inference_steps=1
Еще может где-то есть натасканная image2image сетка, чтобы генерировать акварель по множеству фотографий одного здания?
Komentar wot luiswoo spisany dnja 29. September 2024 15:10
Где-то читал, что ему, в принципе достаточно пяти шагов. В принципе, нейросетка после условного экватора по шагам, добавляет только детали.
Не знаю, разве что здесь https://civitai.com/search/models? (можно скачивать, можно запускать на сервере, за тугрики), но это буквально описание тренировки лоры. Можно потренироваться на котиках — Stable Diffusion. Тут https://youtu.be/Iw87bNvAgTI буквально десяток, другой фотографий нужно для тренировки лоры, а акварель SD реализует в меру своей убогости (я сильно подозреваю, что множество фотографий нужно с одного направления (полусферы?), как лицо человека, иначе будет ужас). Вот https://civitai.com/models/67585/architecturele-corbusier (тут есть лоры и чекпоинты — без понятия, чем они различаются) к примеру лора, которая делает архитектуру аля Ле Корбюзье, что бы поиграться.
=D На моём процессоре только аудосетки запускать, и то не все.
Komentar wot luiswoo spisany dnja 29. September 2024 15:25
Вот https://civitai.com/models/803456/architectural-sketching лора для flux-dev-a Architectural Sketching.
Komentar wot Zkir spisany dnja 29. September 2024 20:51
Хорошо, теперь осталось овдупиться куда и как эти лоры подсовывать. Ну ничего, посмотрю ютубчик, может там дяденька объяснит :)
Акварель, если что, нужна не сама по себе, а чтобы было понятно что это фантазии художника. Изображения фотореалистичного качества, но не имеющие никакого отношения к реальности, да еще якобы на основе осм, на пользу человечества явно не пойдут.
Komentar wot luiswoo spisany dnja 30. September 2024 01:54
Можно потыкать палочкой в SD и перетренированные модели на его основе здесь: https://aqualxx.github.io/stable-ui/ (кроме Civitai). Пока ещё все не разбежались. Хотя, если лора для флукса будет тренироваться разумное время, то лучше с SD особо не связываться — это боль от её тупости и промты со скобочками и весам, пляски с бубном, чёрная магия с километрами негативных промтов. Не бесполезна, но крови попьёт.
Komentar wot Zkir spisany dnja 30. September 2024 23:06
Потренироваться на котиках совет хороший, я пожалуй им воспользуюсь)) Если я уж сам в это ввязываюсь, то надо понять что к чему.
Вот пишут что есть урезанная версия flux, которая должна запускаться даже на 6GB VRAM
https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4
А вот как ее подсунуть в питон, не пишут. Есть идеи на эту тему?
Komentar wot luiswoo spisany dnja 1. October 2024 04:22
Моё дело предупредить. Интересно будет глянуть на результаты муч.. трудов с SD. Про разницу между ванильной SD и отрихтованной:
Флукс для примера и промт
Первозданная SD (2.1, не 1.5)
ICBINP (на SD 1.5)

Komentar wot Zkir spisany dnja 4. October 2024 19:01
Значиццо так. Скачал почти три тысячи (2 879) фотографий зданий. Куда их теперь подсовывать? :D
Komentar wot luiswoo spisany dnja 4. October 2024 19:20
А как там с фотографиями одного здания?
Komentar wot Zkir spisany dnja 4. October 2024 23:59
Докладываю. Викидата устроена по принципу один объект – одно здание (эту базу я сейчас и скачал).
Много фотографий одного объекта с разных сторон в разных ракурсах в разные годы есть на Temples.ru/Sobory.ru. Делать какого-то паука, который бы скачивал фото с этих ресурсов я не хочу, пока не станет яснее что с ними делать.
Вот пример: Смольный собор, Санкт-Петербург.
Komentar wot luiswoo spisany dnja 5. October 2024 02:47
В общем, а надо ли https://civitai.com/images/32880937 ? Лора обучалась на этих https://disk.yandex.ru/d/yg471wZDkdufmw изображениях, честно взятых с яндекса, для SDXL (и на ней основанных) Фактически по дефолту и её тренировка заняла 50 минут и стоила 500 базов. Характеристики тут https://civitai.com/models/825436/smolny-cathedral
Komentar wot luiswoo spisany dnja 5. October 2024 02:57
Почему-то на промт (Witches’ Sabbath under the full moon, with (Smolny Cathedral:0.9) in the background, oil painting) слабо реагирует:
Komentar wot luiswoo spisany dnja 5. October 2024 03:26
Обращаю внимание на не убиваемый заборчик и объект перед входом.
Лора сильно давит на результат, не пойму как снизить, вообще без упоминания собора:
Komentar wot luiswoo spisany dnja 5. October 2024 14:54
PS. Наверное лору можно обучить тегами показывать здание с любой стороны — были бы фотографии. У набора фото лоры выше не было фото с хорошей боковой проекции фасада справа и она немного косит асимметрией на втором фото. Ну возможно из-за этого.