Кто-нибудь умеет в нейронные сетки?
Käyttäjä Zkir kirjotti tämän 25. Septembera 2024 kielellä Russian (Русский) Last updated on 26. Septembera 2024.Кто-нибудь умеет в нейронные сетки?
Кажется, технологии созрели в достаточной степени для того, чтобы генерить нейросетками хотя бы двумерные изображения зданий по словесным описаниям, сделанными из тегов.
Я попробовал Кадинского. Рисует он неплохо, но архитектурная терминология для него ничего не значит, и в добавок он считать не умеет.
Промт: “Здание железнодорожного вокзала в псевдорусском стиле четыре этажа, акварель.”
Неплохо. И правда напоминает провинциальный вокзал, но искусственный мозг не понимает, что у здания должен быть вход. (А у вокзала еще и обязательно с двух сторон, хе-хе.) Требование про четыре этажа проигнорировано.
Промт: Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель.
Искусственный мозг не понимает ни что такое “нарышкинское барокко”, ни что такое “шатровая церковь”.
Промт: Восьмиэтажный жилой дом в стиле сталинский ампир, акварель.
Уже ясно, что считать мы не умеем, но по крайней мере у здания есть карнизы (внушительный карниз – элемент стиля ампир). На подъезде какая-то надпись, похоже хотелось нарисовать гостиницу :)
Кажется, это всё можно улучшить обучающей выборкой. Возьмется кто?
Discussion
Kommentti käyttäjältä luiswoo 27. September 2024 klo 17.14
Можно попробовать Flux https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell (быстрее и хуже) https://huggingface.co/black-forest-labs/FLUX.1-dev (медленней, красивше и скорей всего сделает пять куполов и восемь этажей в каком-то своём стиле; 12 миллиардов параметров и все дела.)
Тут https://civitai.com ещё можно модельки потыкать, если баллов хватит.
Кроме самостоятельной дрессировки нейросетки, навряд ли есть какие-то ещё реальные варианты.
Kommentti käyttäjältä luiswoo 27. September 2024 klo 17.23
Сталинский ампир глазами дева:
Пятикупольная церковь (он же):

Kommentti käyttäjältä luiswoo 27. September 2024 klo 17.37
Ну и вокзал в каком-то стиле (он же):
Kommentti käyttäjältä Zkir 27. September 2024 klo 20.48
А что, симпатичненько. Дом просто хорош, если он этажности соответствует. Церковь жутко эклектична, какая-то смесь барокко с модерном. Вокзал замечательный, даже есть пути и есть платформа. Лестница к путям правда абсурдна :)
Вот и нужен кто-то, кто в этом понимает хотя бы немного и готов этим заняться.
Со своей стороны, готов заняться обучающей выборкой. Собственно, 3dcheck это она и есть. Изображения можно повытягивать с викидаты, temples.ru и sobory.ru. надеюсь они поделятся, для такой-то цели.
Kommentti käyttäjältä luiswoo 27. September 2024 klo 23.35
На сколько я знаю, полноценное обучение графических нейронок для обычных обывателей — что-то запредельное по оборудованию и деньгам. Если есть что-то на уровне nvidia 4090 (плюс-минус — для локального запуска flux-dev она не предел мечтаний, со слов пробовавших), то можно обучить лору (LoRA) стилю, сталинскому ампиру, к примеру. Один стиль — одна лора. Хотя мог наврать — не специалист. Stable Diffusion менее требовательная, но и менее точная.
Из сравнительно халявных ещё есть https://www.bing.com/images/create? — Dalle 3 от щедрот мелкомягких (нужна учётка майкрософт и заход из “белой” страны). Но тут уже без варианта локальной установки.
Kommentti käyttäjältä Zkir 29. September 2024 klo 12.44
А что, очень симпатично. Во всяком случае это барокко, хотя ни разу не нарышкинское.
За наводку на Flux большое спасибо. У меня даже получилось запустить его локально. Но моей 4070Ti даже генерация одного изображения занимает 4 минуты – на flux_schnel. На flux-dev 50 итераций занимает 40 минут.
Страшно представить сколько может занять переобучение :) Видимо 4070Ti не совсем аналог 4090 …
Можно конечно добавить в процесс прямо так, и ждать когда выйдет 5090 :D
Kommentti käyttäjältä luiswoo 29. September 2024 klo 13.03
На flux_schnel можно в разы уменьшать количество шагов, если не ошибаюсь — у меня в принципе не запуститься.
Kommentti käyttäjältä Zkir 29. September 2024 klo 13.51
Да, но на flux_schnell по умолчанию всего 4 четыре шага, так что уменьшить можно самое большее в раза четыре :)
schnell на одном шаге генерит что-то типа эскиза, хотя и довольно приличного, а dev только разноцветные пиксели. Так что походу 50 шагов там не зря))
red brick orthodox church with belltower in pseudo-russian style, watercolor num_inference_steps=1
Еще может где-то есть натасканная image2image сетка, чтобы генерировать акварель по множеству фотографий одного здания?
Kommentti käyttäjältä luiswoo 29. September 2024 klo 15.10
Где-то читал, что ему, в принципе достаточно пяти шагов. В принципе, нейросетка после условного экватора по шагам, добавляет только детали.
Не знаю, разве что здесь https://civitai.com/search/models? (можно скачивать, можно запускать на сервере, за тугрики), но это буквально описание тренировки лоры. Можно потренироваться на котиках — Stable Diffusion. Тут https://youtu.be/Iw87bNvAgTI буквально десяток, другой фотографий нужно для тренировки лоры, а акварель SD реализует в меру своей убогости (я сильно подозреваю, что множество фотографий нужно с одного направления (полусферы?), как лицо человека, иначе будет ужас). Вот https://civitai.com/models/67585/architecturele-corbusier (тут есть лоры и чекпоинты — без понятия, чем они различаются) к примеру лора, которая делает архитектуру аля Ле Корбюзье, что бы поиграться.
=D На моём процессоре только аудосетки запускать, и то не все.
Kommentti käyttäjältä luiswoo 29. September 2024 klo 15.25
Вот https://civitai.com/models/803456/architectural-sketching лора для flux-dev-a Architectural Sketching.
Kommentti käyttäjältä Zkir 29. September 2024 klo 20.51
Хорошо, теперь осталось овдупиться куда и как эти лоры подсовывать. Ну ничего, посмотрю ютубчик, может там дяденька объяснит :)
Акварель, если что, нужна не сама по себе, а чтобы было понятно что это фантазии художника. Изображения фотореалистичного качества, но не имеющие никакого отношения к реальности, да еще якобы на основе осм, на пользу человечества явно не пойдут.
Kommentti käyttäjältä luiswoo 30. September 2024 klo 01.54
Можно потыкать палочкой в SD и перетренированные модели на его основе здесь: https://aqualxx.github.io/stable-ui/ (кроме Civitai). Пока ещё все не разбежались. Хотя, если лора для флукса будет тренироваться разумное время, то лучше с SD особо не связываться — это боль от её тупости и промты со скобочками и весам, пляски с бубном, чёрная магия с километрами негативных промтов. Не бесполезна, но крови попьёт.
Kommentti käyttäjältä Zkir 30. September 2024 klo 23.06
Потренироваться на котиках совет хороший, я пожалуй им воспользуюсь)) Если я уж сам в это ввязываюсь, то надо понять что к чему.
Вот пишут что есть урезанная версия flux, которая должна запускаться даже на 6GB VRAM
https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4
А вот как ее подсунуть в питон, не пишут. Есть идеи на эту тему?
Kommentti käyttäjältä luiswoo 1. October 2024 klo 04.22
Моё дело предупредить. Интересно будет глянуть на результаты муч.. трудов с SD. Про разницу между ванильной SD и отрихтованной:
Флукс для примера и промт
Первозданная SD (2.1, не 1.5)
ICBINP (на SD 1.5)

Kommentti käyttäjältä Zkir 4. October 2024 klo 19.01
Значиццо так. Скачал почти три тысячи (2 879) фотографий зданий. Куда их теперь подсовывать? :D
Kommentti käyttäjältä luiswoo 4. October 2024 klo 19.20
А как там с фотографиями одного здания?
Kommentti käyttäjältä Zkir 4. October 2024 klo 23.59
Докладываю. Викидата устроена по принципу один объект – одно здание (эту базу я сейчас и скачал).
Много фотографий одного объекта с разных сторон в разных ракурсах в разные годы есть на Temples.ru/Sobory.ru. Делать какого-то паука, который бы скачивал фото с этих ресурсов я не хочу, пока не станет яснее что с ними делать.
Вот пример: Смольный собор, Санкт-Петербург.
Kommentti käyttäjältä luiswoo 5. October 2024 klo 02.47
В общем, а надо ли https://civitai.com/images/32880937 ? Лора обучалась на этих https://disk.yandex.ru/d/yg471wZDkdufmw изображениях, честно взятых с яндекса, для SDXL (и на ней основанных) Фактически по дефолту и её тренировка заняла 50 минут и стоила 500 базов. Характеристики тут https://civitai.com/models/825436/smolny-cathedral
Kommentti käyttäjältä luiswoo 5. October 2024 klo 02.57
Почему-то на промт (Witches’ Sabbath under the full moon, with (Smolny Cathedral:0.9) in the background, oil painting) слабо реагирует:
Kommentti käyttäjältä luiswoo 5. October 2024 klo 03.26
Обращаю внимание на не убиваемый заборчик и объект перед входом.
Лора сильно давит на результат, не пойму как снизить, вообще без упоминания собора:
Kommentti käyttäjältä luiswoo 5. October 2024 klo 14.54
PS. Наверное лору можно обучить тегами показывать здание с любой стороны — были бы фотографии. У набора фото лоры выше не было фото с хорошей боковой проекции фасада справа и она немного косит асимметрией на втором фото. Ну возможно из-за этого.