Zkir 的日記

Кто-нибудь умеет в нейронные сетки?

於 2024年九月25日由 Zkir 以Russian (Русский)發表。上一次更新在 2024年九月26日。

Кто-нибудь умеет в нейронные сетки?

Кажется, технологии созрели в достаточной степени для того, чтобы генерить нейросетками хотя бы двумерные изображения зданий по словесным описаниям, сделанными из тегов.

Я попробовал Кадинского. Рисует он неплохо, но архитектурная терминология для него ничего не значит, и в добавок он считать не умеет.

Промт: “Здание железнодорожного вокзала в псевдорусском стиле четыре этажа, акварель.” Фантазия нейросетки. провинциальный вокзал

Неплохо. И правда напоминает провинциальный вокзал, но искусственный мозг не понимает, что у здания должен быть вход. (А у вокзала еще и обязательно с двух сторон, хе-хе.) Требование про четыре этажа проигнорировано.

Промт: Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель.

Фантазия нейросетки. Белая шатровая церковь

Искусственный мозг не понимает ни что такое “нарышкинское барокко”, ни что такое “шатровая церковь”.

Промт: Восьмиэтажный жилой дом в стиле сталинский ампир, акварель. Фантазия нейросетки. Жилой дом в стиле сталинский ампир

Уже ясно, что считать мы не умеем, но по крайней мере у здания есть карнизы (внушительный карниз – элемент стиля ампир). На подъезде какая-то надпись, похоже хотелось нарисовать гостиницу :)

Кажется, это всё можно улучшить обучающей выборкой. Возьмется кто?

討論

由 luiswoo 於 2024年09月27日 17時14分發表的評論

Можно попробовать Flux https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell (быстрее и хуже) https://huggingface.co/black-forest-labs/FLUX.1-dev (медленней, красивше и скорей всего сделает пять куполов и восемь этажей в каком-то своём стиле; 12 миллиардов параметров и все дела.)

Тут https://civitai.com ещё можно модельки потыкать, если баллов хватит.

Кроме самостоятельной дрессировки нейросетки, навряд ли есть какие-то ещё реальные варианты.

由 luiswoo 於 2024年09月27日 17時23分發表的評論

Сталинский ампир глазами дева: дом Пятикупольная церковь (он же):

由 luiswoo 於 2024年09月27日 17時37分發表的評論

Ну и вокзал в каком-то стиле (он же):

由 Zkir 於 2024年09月27日 20時48分發表的評論

А что, симпатичненько. Дом просто хорош, если он этажности соответствует. Церковь жутко эклектична, какая-то смесь барокко с модерном. Вокзал замечательный, даже есть пути и есть платформа. Лестница к путям правда абсурдна :)

Кроме самостоятельной дрессировки нейросетки, навряд ли есть какие-то ещё реальные варианты.

Вот и нужен кто-то, кто в этом понимает хотя бы немного и готов этим заняться.

Со своей стороны, готов заняться обучающей выборкой. Собственно, 3dcheck это она и есть. Изображения можно повытягивать с викидаты, temples.ru и sobory.ru. надеюсь они поделятся, для такой-то цели.

由 luiswoo 於 2024年09月27日 23時35分發表的評論

На сколько я знаю, полноценное обучение графических нейронок для обычных обывателей — что-то запредельное по оборудованию и деньгам. Если есть что-то на уровне nvidia 4090 (плюс-минус — для локального запуска flux-dev она не предел мечтаний, со слов пробовавших), то можно обучить лору (LoRA) стилю, сталинскому ампиру, к примеру. Один стиль — одна лора. Хотя мог наврать — не специалист. Stable Diffusion менее требовательная, но и менее точная.

Из сравнительно халявных ещё есть https://www.bing.com/images/create? — Dalle 3 от щедрот мелкомягких (нужна учётка майкрософт и заход из “белой” страны). Но тут уже без варианта локальной установки.

типа_борокко «Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель» с точки зрения Dalle 3.

由 Zkir 於 2024年09月29日 12時44分發表的評論

«Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель» с точки зрения Dalle 3.

А что, очень симпатично. Во всяком случае это барокко, хотя ни разу не нарышкинское.

На сколько я знаю, полноценное обучение графических нейронок для обычных обывателей — что-то запредельное по оборудованию и деньгам.

За наводку на Flux большое спасибо. У меня даже получилось запустить его локально. Но моей 4070Ti даже генерация одного изображения занимает 4 минуты – на flux_schnel. На flux-dev 50 итераций занимает 40 минут.

Страшно представить сколько может занять переобучение :) Видимо 4070Ti не совсем аналог 4090 …

Можно конечно добавить в процесс прямо так, и ждать когда выйдет 5090 :D

由 luiswoo 於 2024年09月29日 13時03分發表的評論

lux-dev 50 итераций занимает 40 минут

На flux_schnel можно в разы уменьшать количество шагов, если не ошибаюсь — у меня в принципе не запуститься.

由 Zkir 於 2024年09月29日 13時51分發表的評論

Да, но на flux_schnell по умолчанию всего 4 четыре шага, так что уменьшить можно самое большее в раза четыре :)

schnell на одном шаге генерит что-то типа эскиза, хотя и довольно приличного, а dev только разноцветные пиксели. Так что походу 50 шагов там не зря))

red brick orthodox church with belltower in pseudo-russian style, watercolor num_inference_steps=1

flux-schnell red brick orthodox church with belltower in pseudo-russian style, watercolor

Еще может где-то есть натасканная image2image сетка, чтобы генерировать акварель по множеству фотографий одного здания?

у меня в принципе не запуститься. Очень жаль. Оно же должно запускаться просто на процессоре, нет?

由 luiswoo 於 2024年09月29日 15時10分發表的評論

schnell на одном шаге генерит что-то типа эскиза

Где-то читал, что ему, в принципе достаточно пяти шагов. В принципе, нейросетка после условного экватора по шагам, добавляет только детали.

Еще может где-то есть натасканная image2image сетка, чтобы генерировать акварель по множеству фотографий одного здания?

Не знаю, разве что здесь https://civitai.com/search/models? (можно скачивать, можно запускать на сервере, за тугрики), но это буквально описание тренировки лоры. Можно потренироваться на котиках — Stable Diffusion. Тут https://youtu.be/Iw87bNvAgTI буквально десяток, другой фотографий нужно для тренировки лоры, а акварель SD реализует в меру своей убогости (я сильно подозреваю, что множество фотографий нужно с одного направления (полусферы?), как лицо человека, иначе будет ужас). Вот https://civitai.com/models/67585/architecturele-corbusier (тут есть лоры и чекпоинты — без понятия, чем они различаются) к примеру лора, которая делает архитектуру аля Ле Корбюзье, что бы поиграться.

Оно же должно запускаться просто на процессоре, нет?

=D На моём процессоре только аудосетки запускать, и то не все.

由 luiswoo 於 2024年09月29日 15時25分發表的評論

Вот https://civitai.com/models/803456/architectural-sketching лора для flux-dev-a Architectural Sketching.

由 Zkir 於 2024年09月29日 20時51分發表的評論

Хорошо, теперь осталось овдупиться куда и как эти лоры подсовывать. Ну ничего, посмотрю ютубчик, может там дяденька объяснит :)

акварель SD реализует в меру своей убогости

Акварель, если что, нужна не сама по себе, а чтобы было понятно что это фантазии художника. Изображения фотореалистичного качества, но не имеющие никакого отношения к реальности, да еще якобы на основе осм, на пользу человечества явно не пойдут.

由 luiswoo 於 2024年09月30日 01時54分發表的評論

Можно потыкать палочкой в SD и перетренированные модели на его основе здесь: https://aqualxx.github.io/stable-ui/ (кроме Civitai). Пока ещё все не разбежались. Хотя, если лора для флукса будет тренироваться разумное время, то лучше с SD особо не связываться — это боль от её тупости и промты со скобочками и весам, пляски с бубном, чёрная магия с километрами негативных промтов. Не бесполезна, но крови попьёт.

由 Zkir 於 2024年09月30日 23時06分發表的評論

Потренироваться на котиках совет хороший, я пожалуй им воспользуюсь)) Если я уж сам в это ввязываюсь, то надо понять что к чему.

Вот пишут что есть урезанная версия flux, которая должна запускаться даже на 6GB VRAM

https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4

А вот как ее подсунуть в питон, не пишут. Есть идеи на эту тему?

由 luiswoo 於 2024年10月 1日 04時22分發表的評論

Моё дело предупредить. Интересно будет глянуть на результаты муч.. трудов с SD. Про разницу между ванильной SD и отрихтованной:

Флукс для примера и промт flux Первозданная SD (2.1, не 1.5) vanila ICBINP (на SD 1.5) ICBINP

由 Zkir 於 2024年10月 4日 19時01分發表的評論

Значиццо так. Скачал почти три тысячи (2 879) фотографий зданий. Куда их теперь подсовывать? :D

由 luiswoo 於 2024年10月 4日 19時20分發表的評論

А как там с фотографиями одного здания?

由 Zkir 於 2024年10月 4日 23時59分發表的評論

Докладываю. Викидата устроена по принципу один объект – одно здание (эту базу я сейчас и скачал).

Много фотографий одного объекта с разных сторон в разных ракурсах в разные годы есть на Temples.ru/Sobory.ru. Делать какого-то паука, который бы скачивал фото с этих ресурсов я не хочу, пока не станет яснее что с ними делать.

Вот пример: Смольный собор, Санкт-Петербург.

Wikidata, Одно изображение
Temples.ru 116 изображений

由 luiswoo 於 2024年10月 5日 02時47分發表的評論

В общем, а надо ли https://civitai.com/images/32880937 ? Лора обучалась на этих https://disk.yandex.ru/d/yg471wZDkdufmw изображениях, честно взятых с яндекса, для SDXL (и на ней основанных) Фактически по дефолту и её тренировка заняла 50 минут и стоила 500 базов. Характеристики тут https://civitai.com/models/825436/smolny-cathedral

由 luiswoo 於 2024年10月 5日 02時57分發表的評論

Почему-то на промт (Witches’ Sabbath under the full moon, with (Smolny Cathedral:0.9) in the background, oil painting) слабо реагирует:

由 luiswoo 於 2024年10月 5日 03時26分發表的評論

Обращаю внимание на не убиваемый заборчик и объект перед входом.

Лора сильно давит на результат, не пойму как снизить, вообще без упоминания собора:

由 luiswoo 於 2024年10月 5日 14時54分發表的評論

PS. Наверное лору можно обучить тегами показывать здание с любой стороны — были бы фотографии. У набора фото лоры выше не было фото с хорошей боковой проекции фасада справа и она немного косит асимметрией на втором фото. Ну возможно из-за этого.

OpenStreetMap 開放街圖

Zkir 的日記

Кто-нибудь умеет в нейронные сетки?

討論

登入來留下評論

Zkir 的日記

Кто-нибудь умеет в нейронные сетки?

討論

登入 來留下評論

登入來留下評論