開放街圖標誌 OpenStreetMap 開放街圖

Кто-нибудь умеет в нейронные сетки?

於 2024年九月25日 由 ZkirRussian (Русский)發表。 上一次更新在 2024年九月26日。

Кто-нибудь умеет в нейронные сетки?

Кажется, технологии созрели в достаточной степени для того, чтобы генерить нейросетками хотя бы двумерные изображения зданий по словесным описаниям, сделанными из тегов.

Я попробовал Кадинского. Рисует он неплохо, но архитектурная терминология для него ничего не значит, и в добавок он считать не умеет.

Промт: “Здание железнодорожного вокзала в псевдорусском стиле четыре этажа, акварель.” Фантазия нейросетки. провинциальный вокзал

Неплохо. И правда напоминает провинциальный вокзал, но искусственный мозг не понимает, что у здания должен быть вход. (А у вокзала еще и обязательно с двух сторон, хе-хе.) Требование про четыре этажа проигнорировано.

Промт: Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель.

Фантазия нейросетки. Белая шатровая церковь

Искусственный мозг не понимает ни что такое “нарышкинское барокко”, ни что такое “шатровая церковь”.

Промт: Восьмиэтажный жилой дом в стиле сталинский ампир, акварель. Фантазия нейросетки. Жилой дом в стиле сталинский ампир

Уже ясно, что считать мы не умеем, но по крайней мере у здания есть карнизы (внушительный карниз – элемент стиля ампир). На подъезде какая-то надпись, похоже хотелось нарисовать гостиницу :)

Кажется, это всё можно улучшить обучающей выборкой. Возьмется кто?

電子郵件圖示 藍天圖示 Facebook 圖示 LinkedIn 圖示 乳齒象圖示 Telegram 圖示 X 圖示

討論

luiswoo2024年09月27日 17時14分 發表的評論

Можно попробовать Flux https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell (быстрее и хуже) https://huggingface.co/black-forest-labs/FLUX.1-dev (медленней, красивше и скорей всего сделает пять куполов и восемь этажей в каком-то своём стиле; 12 миллиардов параметров и все дела.)

Тут https://civitai.com ещё можно модельки потыкать, если баллов хватит.

Кроме самостоятельной дрессировки нейросетки, навряд ли есть какие-то ещё реальные варианты.

luiswoo2024年09月27日 17時23分 發表的評論

Сталинский ампир глазами дева: дом Пятикупольная церковь (он же): церковь

luiswoo2024年09月27日 17時37分 發表的評論

Ну и вокзал в каком-то стиле (он же): вокзал

Zkir2024年09月27日 20時48分 發表的評論

А что, симпатичненько. Дом просто хорош, если он этажности соответствует. Церковь жутко эклектична, какая-то смесь барокко с модерном. Вокзал замечательный, даже есть пути и есть платформа. Лестница к путям правда абсурдна :)

Кроме самостоятельной дрессировки нейросетки, навряд ли есть какие-то ещё реальные варианты.

Вот и нужен кто-то, кто в этом понимает хотя бы немного и готов этим заняться.

Со своей стороны, готов заняться обучающей выборкой. Собственно, 3dcheck это она и есть. Изображения можно повытягивать с викидаты, temples.ru и sobory.ru. надеюсь они поделятся, для такой-то цели.

luiswoo2024年09月27日 23時35分 發表的評論

На сколько я знаю, полноценное обучение графических нейронок для обычных обывателей — что-то запредельное по оборудованию и деньгам. Если есть что-то на уровне nvidia 4090 (плюс-минус — для локального запуска flux-dev она не предел мечтаний, со слов пробовавших), то можно обучить лору (LoRA) стилю, сталинскому ампиру, к примеру. Один стиль — одна лора. Хотя мог наврать — не специалист. Stable Diffusion менее требовательная, но и менее точная.

Из сравнительно халявных ещё есть https://www.bing.com/images/create? — Dalle 3 от щедрот мелкомягких (нужна учётка майкрософт и заход из “белой” страны). Но тут уже без варианта локальной установки.

типа_борокко «Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель» с точки зрения Dalle 3.

Zkir2024年09月29日 12時44分 發表的評論

«Белая шатровая церковь в стиле нарышкинское барокко, с пятью куполами, акварель» с точки зрения Dalle 3.

А что, очень симпатично. Во всяком случае это барокко, хотя ни разу не нарышкинское.

На сколько я знаю, полноценное обучение графических нейронок для обычных обывателей — что-то запредельное по оборудованию и деньгам.

За наводку на Flux большое спасибо. У меня даже получилось запустить его локально. Но моей 4070Ti даже генерация одного изображения занимает 4 минуты – на flux_schnel. На flux-dev 50 итераций занимает 40 минут.

Страшно представить сколько может занять переобучение :) Видимо 4070Ti не совсем аналог 4090 …

Можно конечно добавить в процесс прямо так, и ждать когда выйдет 5090 :D

luiswoo2024年09月29日 13時03分 發表的評論

lux-dev 50 итераций занимает 40 минут

На flux_schnel можно в разы уменьшать количество шагов, если не ошибаюсь — у меня в принципе не запуститься.

Zkir2024年09月29日 13時51分 發表的評論

Да, но на flux_schnell по умолчанию всего 4 четыре шага, так что уменьшить можно самое большее в раза четыре :)

schnell на одном шаге генерит что-то типа эскиза, хотя и довольно приличного, а dev только разноцветные пиксели. Так что походу 50 шагов там не зря))

red brick orthodox church with belltower in pseudo-russian style, watercolor num_inference_steps=1

flux-schnell red brick orthodox church with belltower in pseudo-russian style, watercolor

Еще может где-то есть натасканная image2image сетка, чтобы генерировать акварель по множеству фотографий одного здания?

у меня в принципе не запуститься. Очень жаль. Оно же должно запускаться просто на процессоре, нет?

luiswoo2024年09月29日 15時10分 發表的評論

schnell на одном шаге генерит что-то типа эскиза

Где-то читал, что ему, в принципе достаточно пяти шагов. В принципе, нейросетка после условного экватора по шагам, добавляет только детали.

Еще может где-то есть натасканная image2image сетка, чтобы генерировать акварель по множеству фотографий одного здания?

Не знаю, разве что здесь https://civitai.com/search/models? (можно скачивать, можно запускать на сервере, за тугрики), но это буквально описание тренировки лоры. Можно потренироваться на котиках — Stable Diffusion. Тут https://youtu.be/Iw87bNvAgTI буквально десяток, другой фотографий нужно для тренировки лоры, а акварель SD реализует в меру своей убогости (я сильно подозреваю, что множество фотографий нужно с одного направления (полусферы?), как лицо человека, иначе будет ужас). Вот https://civitai.com/models/67585/architecturele-corbusier (тут есть лоры и чекпоинты — без понятия, чем они различаются) к примеру лора, которая делает архитектуру аля Ле Корбюзье, что бы поиграться.

Оно же должно запускаться просто на процессоре, нет?

=D На моём процессоре только аудосетки запускать, и то не все.

luiswoo2024年09月29日 15時25分 發表的評論

Вот https://civitai.com/models/803456/architectural-sketching лора для flux-dev-a Architectural Sketching.

Zkir2024年09月29日 20時51分 發表的評論

Хорошо, теперь осталось овдупиться куда и как эти лоры подсовывать. Ну ничего, посмотрю ютубчик, может там дяденька объяснит :)

акварель SD реализует в меру своей убогости

Акварель, если что, нужна не сама по себе, а чтобы было понятно что это фантазии художника. Изображения фотореалистичного качества, но не имеющие никакого отношения к реальности, да еще якобы на основе осм, на пользу человечества явно не пойдут.

luiswoo2024年09月30日 01時54分 發表的評論

Можно потыкать палочкой в SD и перетренированные модели на его основе здесь: https://aqualxx.github.io/stable-ui/ (кроме Civitai). Пока ещё все не разбежались. Хотя, если лора для флукса будет тренироваться разумное время, то лучше с SD особо не связываться — это боль от её тупости и промты со скобочками и весам, пляски с бубном, чёрная магия с километрами негативных промтов. Не бесполезна, но крови попьёт.

Zkir2024年09月30日 23時06分 發表的評論

Потренироваться на котиках совет хороший, я пожалуй им воспользуюсь)) Если я уж сам в это ввязываюсь, то надо понять что к чему.

Вот пишут что есть урезанная версия flux, которая должна запускаться даже на 6GB VRAM

https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4

А вот как ее подсунуть в питон, не пишут. Есть идеи на эту тему?

luiswoo2024年10月 1日 04時22分 發表的評論

Моё дело предупредить. Интересно будет глянуть на результаты муч.. трудов с SD. Про разницу между ванильной SD и отрихтованной:

Флукс для примера и промт flux Первозданная SD (2.1, не 1.5) vanila ICBINP (на SD 1.5) ICBINP

Zkir2024年10月 4日 19時01分 發表的評論

Значиццо так. Скачал почти три тысячи (2 879) фотографий зданий. Куда их теперь подсовывать? :D

luiswoo2024年10月 4日 19時20分 發表的評論

А как там с фотографиями одного здания?

Zkir2024年10月 4日 23時59分 發表的評論

Докладываю. Викидата устроена по принципу один объект – одно здание (эту базу я сейчас и скачал).

Много фотографий одного объекта с разных сторон в разных ракурсах в разные годы есть на Temples.ru/Sobory.ru. Делать какого-то паука, который бы скачивал фото с этих ресурсов я не хочу, пока не станет яснее что с ними делать.

Вот пример: Смольный собор, Санкт-Петербург.

luiswoo2024年10月 5日 02時47分 發表的評論

В общем, а надо ли https://civitai.com/images/32880937 ? Лора обучалась на этих https://disk.yandex.ru/d/yg471wZDkdufmw изображениях, честно взятых с яндекса, для SDXL (и на ней основанных) Фактически по дефолту и её тренировка заняла 50 минут и стоила 500 базов. Характеристики тут https://civitai.com/models/825436/smolny-cathedral

luiswoo2024年10月 5日 02時57分 發表的評論

Почему-то на промт (Witches’ Sabbath under the full moon, with (Smolny Cathedral:0.9) in the background, oil painting) слабо реагирует:

luiswoo2024年10月 5日 03時26分 發表的評論

Обращаю внимание на не убиваемый заборчик и объект перед входом.

Лора сильно давит на результат, не пойму как снизить, вообще без упоминания собора:

luiswoo2024年10月 5日 14時54分 發表的評論

PS. Наверное лору можно обучить тегами показывать здание с любой стороны — были бы фотографии. У набора фото лоры выше не было фото с хорошей боковой проекции фасада справа и она немного косит асимметрией на втором фото. Ну возможно из-за этого.

登入 來留下評論