Інтерв'ю: Засновник та креативний директор агенції ISD Group Віктор Шкурба

Штучний інтелект — це потужний інструмент креатора, який дозволяє ефективно виконувати роботу. Саме таким інструментом — Stable Diffusion — скористалися на благодійному воркшопі Skvot і засновника агенції ISD Group Віктора Шкурби.

А благодійним він назвався тому, що для потреб 47 ОМБр вдалося зібрати 350 тис. грн (замість запланованих 100 тис.). Все тому, що бажання доєднатися до експериментів із зображенням та ШІ виявили понад 300 учасників.

Для Віктора це не перші досліди зі штучним інтелектом, адже у 2019 році він разом із командою вчив штучні нейронні мережі розпізнавати пропаганду на російському телебаченні. Але найскладнішим проєктом у його портфоліо залишається запуск керованого планетохода Earth-7 із кресленням NASA в пустелі Казахстану.

Ми поговорили з Віктором про перспективи ШІ, майбутнє з VR та відсотки впевненості, коли щось робиш вперше. У цьому інтерв’ю також згадуємо:

— переваги Stable Diffusion
— втручання держави в ШІ
— знакові проєкти ISD Group
— як працювати з увагою та впевненістю на великих проєктах
— на що Віктор ніколи не погодиться

Поділись враженнями від воркшопу.

Дуже радий, що зареєструвалась і прийшла достатньо велика кількість людей. Майже чотири години всі залишались онлайн, потім стало складніше, тому почали відвалюватися. Я дав найпотужніший інструментарій, але він і найскладніший. Те, що більше ніж половина учасників подолали половину шляху і навчились генерувати картинки та контролювати зображення, — це гарний знак.

Моє завдання було не навчити, бо я не вірю, що за три-чотири години можна навчити бути крутим дизайнером чи артдиректором. Моє завдання — розказати, що відбувається, і надихнути досліджувати далі. Хтось вирішить, що Stable Diffusion — це складний інструментарій, та піде користуватись простішим. Це також ок. Але все більше креативників будуть його використовувати, і ми не будемо губити конкурентоспроможність.

Чому ти вибрав для воркшопу Stable Diffusion, а не, наприклад, MidJourney?

У шостій версії MidJourney якість зображення дуже крута. У кількох місцях може бути навіть крутіше, ніж Stable Diffusion. Мінус MidJourney — це сток. Він генерує зображення, але приблизно. Тобто складно отримати результат, максимально наближений до бачення. Це класна можливість вставляти у презентацію офігенну релевантну картинку — так, але не для кінцевого продукту.

У Stable Diffusion можна максимально контролювати вхідну інформацію: наприклад, положення тіла людини, просторовий обʼєм, перспективу, догенеровувати якісь фрагменти, адже є купа сервісів, які покращують вигляд облич, форм, текстури тощо. Плюс більше можливостей спеціалізованих генерацій. Якщо ти скажеш MidJourney згенерувати щось у стилі Міядзакі, він це зробить. Але якщо скажеш у стилі Антоніо Лукича або Ані Бурячкової, він точно не згенерує.

Відеокліп Анни Бурячкової для STASIK, 2023

Stable Diffusion — відкрита система, тому можна поговорити з Антоніо чи з Анею та домовитись догенерувати цю систему на основі їхніх робіт, а потім використовувати цей результат, наприклад, для візуалізації мудбордів для їхніх майбутніх фільмів. А для першої стадії, креативних процесів та роздумів суперкруто працює і MidJourney.

Сьогодні ШІ розглядають найчастіше як інструмент. Але чи будемо ми використовувати його як обов'язковий етап виробництва?

Майже всі сфери пронизані штучним інтелектом — медицина, логістика, транспорт, військова сфера і так вже перейшли на цей етап. Наші хлопці донавчають ШІ, додають його до FPV-дронів, щоб коли немає візуального контакту або щось збивається, вони могли закінчувати завдання самостійно, ідентифікуючи образи.

Сьогодні легше подумати, в яких сферах ще немає ШІ та де його не використовують. Я хотів спершу сказати, що його не використовують для якихось медитацій, а потім згадав — у мене ж стоїть крутий додаток Calm для медитацій. І в ньому пропонують рекомендації, аналізуючи, які медитації я використовую, які подкасти й музику слухаю.

Реклама Calm із Леброном Джеймсом, 2019

Тобто ШІ зараз багато, але він здатен на більше. Питання лише в тому, коли він зможе переплюнути мозок людини. Це точка неповернення технологічної сингулярності, коли ти можеш запитати будь-що і бути впевненим, що штучний інтелект зробить це краще, ніж будь-яка людина.

Неприємний дядя Ілон Маск каже, що це трапиться через п'ять років. Колись футуролог Рей Курцвейл казав, що це буде через десять-п'ятнадцять років, можливо, двадцять, коли земля стане потужним єдиним суперкомп'ютером. Складно сказати.

Я бачу, як останні кілька років ШІ набирає швидкості. Головна зміна відбудеться, коли успішно запустять квантові комп'ютери, які будуть потужніші в сотні тисяч або мільйон разів, ніж сучасні. Те, що зараз суперкомп'ютер IBM робить за місяць, квантовий комп'ютер — за декілька секунд або хвилин.

Існує популярна теза, що нам гайки, коли держава добереться до ШІ. Що ти думаєш про втручання у цей процес на рівні країни?

У майбутньому будуть частини світу, де держава контролюватиме ШІ. Наприклад, консервативна Європа. Вона намагається стримувати такі прориви. В Америці або Південній Кореї ШІ дадуть більше свободи. Буде як у фільмі «Той, що біжить по лезу» (Blade Runner) — десь високотехнологічні хороми, а десь усе залишиться таким, як зараз.

На рівні світу це неможливо стримувати, адже сьогодні йдеться про контроль на рівні корпорацій. Забанили в Америці — значить, корпорації працюватимуть у Південній Кореї або, наприклад, в Україні. Я думаю, розподіл буде нерівномірним. Тому в цілому я б не хвилювався.

Скоріше питання, хто перший дійде до того самого штучного інтелекту, який буде робити все краще, ніж людина. Хто будуть ці люди, в чиїх руках це опиниться? Чи це буде Ілон Маск, який скаже, що росія молодці?

Розповсюджуються плітки про OpenAI та Сема Альтмана. Є припущення, що їм вдалось реалізувати наступну ітерацію OpenAI, чату GPT, настільки потужно, що у борді директорів налякались, адже це може згубити світ. Тому Альтмана і звільнили та призупинили розробку. Можливо, цю ітерацію вже створили, а ми просто ще не знаємо, тому що хтось хвилюється або боїться її випускати.

Чи хотілося б тобі, щоб АІ став краще, ніж людина?

Це як еволюція. Її неможливо зупинити. Тут треба розуміти, що вона так чи інакше відбудеться, тому треба адаптуватись. Щось вона змінить на краще, а щось стане складнішим. Питання в тому, чого буде більше — кращого чи гіршого, і в який фінал воно перекрутиться. Як в «Інтерстелларі», де люди живуть на супутниках в ідеальному місці, чи як у «Зоряних війнах», де існує велика прірва між високими технологіями та дикунами.

Samsung презентував робота Ballie, а Apple показує нові VR-окуляри. Тобто виходить, що ШІ переходить у хардвер. А чи продовжиться така тенденція з вживленням штучного інтелекту в тіло?

Це називається фіджитал, коли об'єднуються фізичний та віртуальний світи. Це дійсно тенденція. У нашій сфері комунікацій вона існує протягом останніх восьми років. Спочатку ми реагували на все віртуальне із захватом, а потім працюєш собі на тому комп'ютері або телефоні — і тобі хочеться більше життя. Тому технології створюють все менше бар'єрів між онлайном і фізичним світом.

Презентаційний ролик Ballie для Samsung, 2024

Це питання часу. Зараз ми не можемо без телефонів, але вони ніяк не пов'язані з нашим тілом, тобто ми їх можемо десь забути або зламати. Уже є стартап Human Ai Pin, який розробив камеру-помічника (assistant camera) з AI. Вона має замінити телефон, адже система бачить усе, що бачиш ти, тому інтелектуально розуміє, що тобі треба, з чим ти працюєш, і це вже наступний крок. Це камера, яка постійно на тобі. Отже, ми все ближче до інтеграції в тіло.

Наразі відчутний тренд міксованої реальності. І дійсно, Apple прийшов на ринок зі своїми AR-окулярами. Але вони не йдуть з історією «поринь у нереальний світ», як хотіли в Meta з метаверсом. Ні, вони кажуть: «Cідай, бери окуляри та вирішуй, наскільки великим буде твій екран телевізора. Хочеш, щоб він був як у кінотеатрі чи замість одного екрана комп'ютера мати декілька екранів та з ними працювати?» Вони доповнюють твою реальність, а не замінюють її як в окулярах доповненої реальності, що так і не стали частиною нашого життя.

Кадри з презентації Apple Vision Pro, 2023

Далі залишається питання, як скоро вони зможуть цю доповнену реальність адаптувати в сітківку ока, в частину твого тіла — і збільшити тим самим спроможність пропускати через себе більшу кількість інформації. Одна з проблем у світі зараз — інформації настільки багато, що ти не встигаєш її опрацювати. Багато хаосу, додатків та форматів, в яких обробляється інформація, новини, меседжі, листи.

Цей хаос має зійтись у структуровані історії та бути частиною твого середовища. Наприклад, якщо мені зараз хочеться подивитись траєкторію ракети, яка летить з російського літака, то я паралельно з діалогом з тобою думаю про це — і в мене поруч з'являється екран, який ми обидва бачимо. А на цьому екрані з‘являється інформація про російський літак.

Подібне об'єднання реального та віртуального світів ставатиме більше. А хмарні обчислення цьому значно допомагають.

У 2019 році ви з командою ISD Group реалізували проєкт AI Versus, в якому ШІ розрізняв пропаганду на російських телеканалах «Дождь» і «росія 1». Розкажи про цей проєкт докладніше.

Це був експеримент. До нас звернулась найкреативніша рекламна агенція в росії «Восход» — вони опозиційні активні хлопці. У них була ідея показати росіянам різницю між пропагандою та новинами. Пропаганда — це зрежисована, дуже красива і зрозуміла інформація. Її легко сприймати, бо вона вже адаптована.

А новини — це факти з різних точок зору, різних людей, які взаємодіють між собою. Тоді ще не було чату GPT, і на той час це ще було складне завдання. Мовні моделі — це найслабший блок штучного інтелекту на той момент. Візуальні моделі вже класно ідентифікували, і вже існували пілотовані машини в Штатах, зокрема і Тесла.

А мовні моделі — це складний кластер штучного інтелекту. Були окремі моделі, з якими ми експериментували та зрозуміли, що жодна нам не підходить. Тож ми сформували гігантську систему з п'ятьма шарами нейронок, кожна з яких займалася своєю частиною роботи. Одна з великого обсягу тексту знаходила релевантні блоки, інша в цих релевантних блоках знаходила релевантні фрази.

Але щоби показати різницю між новинами та пропагандою, ми фактично навчили дві нейронки, які нічого не знають, як дітей, що жили в джунглях і не спілкувалися з людьми. Ми навчили кожну новин із цих двох телеканалів і нічого туди не додавали.

Кожен користувач міг запитати будь-що — і отримати дві відповіді від двох телеканалів. Це проєкт-експеримент.

Наприкінці минулого року Bickerstaff.284 за допомогою ШІ зробили аналіз геноцидної риторики. Це наче продовження вашого проєкту.

До мене звертались хлопці з агенції. Вони використовували ChatGPT. Наприкінці того року ChatGPT відкрив можливості навчати й робити свої версії чату.

Презентація проєкту Genocide Speech Monitor, 2023

Чи можна довіряти інформації, яку ChatGPT знаходить? Зараз ENCYCLOPEDIA GPT вкачали туди всі свої енциклопедичні дані та пропонують використовувати фактично їхній донавчений ChatGPT, якщо тобі потрібна впевненість в інформації.

Вони вже відкрили доступ, тому далі буде більше таких можливостей та більше організацій будуть донавчати. Навчити свій ChatGPT — це мільйони доларів, а донавчити свій компонент — це може бути, мабуть, і $1000 на всі обчислення. І потім можна продавати навіть такі знання.

Чи є в тебе проєкт мрії?

Багато проєктів, які ми реалізовували, можна назвати проєктом мрії. Наш головний фокус — використання інновацій. Може з'являтись нова мрія, нові технології, нові можливості. Наразі ми разом з United24 і Microsoft працюємо над одним складним проєктом, який має допомогти фандрейзити гроші на відбудову України. Коли він запуститься і якщо все вийде, можна буде подивитись на нього.

При такій кількості проєктів як ти розподіляєш увагу і фокус?

Це наша відмінність — ми не беремо проєкт, якщо не можемо над ним працювати ґрунтовно. Це диктується його бюджетом. Я знаю, що для класного проєкту мені потрібна, як мінімум, команда з восьми людей мінімум на два-три місяці. Навряд чи це буде скоріше. Тому прописується мінімальний бюджет проєкту, з яким можна працювати.

У нас декілька команд. До великої війни було чотири. Відповідно ми могли працювати над 8–10 проєктами паралельно. Залежно від масштабу команда може працювати й над одним проєктом 3–5 місяців, а може за 3–5 місяців зробити два-три проєкти й робити їх паралельно.

Важливість формується передусім на вході. Якщо ми не бачимо цінності, ми не будемо співпрацювати. Якщо ми її бачимо, далі вже йдуть можливості — чи є достатньо ресурсів, щоб зробити це якісно?

А коли працюєш над чимось великим, як тримати впевненість?

Коли ти робиш інновацію, в тебе немає впевненості, що це точно якось вийде. Єдина впевненість, яка є, — якщо фокусуватись, робити ітерації, то все вийде. Питання лише в тому, чи це вийде до того моменту, як закінчаться ресурси, сили, енергія, чи після.

Коли ти придумуєш якусь ідею та віриш у неї, у тебе на старті впевненість на 70%. Ти починаєш стикаєшся з усіма складнощами, і ця впевненість у тебе зменшується, може, навіть до 30%. І так відбувається постійно. Джеймс Ватт 13 років марно намагався покращити парову машину Ньюкомена перед тим, як створити паровий двигун, який змінив світ.

У мене немає проєкту, коли все йшло класно з початку і до кінця. Якраз ця невпевненість закликає мене до того, щоб намагатись отримати якісь рішення, які зроблять мене впевненим.

У день запуску планетохода впевненість впала до 5–10%. Таке, мабуть, було лише раз у житті.

Чи звертаєш ти увагу на алгоритми, які підбирають тобі на стримінгах кіно та музику?

У плані музики я використовую суперкрутий Tidal. Там підбірки формуються за участі людей. Всі, кому я даю покористуватись Tidal, кажуть, що він класно підбирає релевантну музику. Я йому повністю довіряю.

Для кіно є рейтинг IMDb, який через питання американського патріотизму досить часто ставить високий рейтинг попсовій кіношці. Але в цілому рейтинг IMDb дуже гарно відображає статус фільму і дає потрібні знання про обране кіно.

Мій старший син років у вісім-девʼять кожного дня проводив на IMDb по декілька годин, переглядаючи рейтинги. Коли ми зустрілися з друзями, то він по кожному фільму казав, який рейтинг він має на IMDb.

Поки все ще люди рулять світом.

Бліц. Який проєкт тебе навчив чогось найбільше, а який — найменше?

Найбільше — це за півтора місяця побудувати космічний планетохід. Цей проєкт показав, що немає нічого неможливого. Технології досягли такого рівня, що можна реалізувати майже все. Мене цей проєкт надихнув виступити на TEDx Львів перед пандемією Covid-19 і поділитися цим досвідом.

Виступ Віктора Шкурби TEDxLviv, 2020

Мені не цікаві проєкти, які нічого не можуть навчити. І тому в нас таких майже немає. Мені та команді іноді складно, бо кожен проєкт — це челендж. Складно зробити щось, що до тебе не робили, і зробити щось, що давало б новий досвід взаємодії користувачам. Кожен проєкт таким чином дозволяє досліджувати нові технології.

Воркшоп зі Stable Diffusion я провів тільки тому, що придумав і реалізував свої проєкти з United 24 і Microsoft. І в цих проєктах обов’язково треба було навчитися працювати зі Stable Diffusion.

На що ти ніколи не погодишся?

На дурні проєкти за будь-які гроші.

Що тебе найбільше лякає, а що радує?

Найбільше лякає — русня. Сьогодні зранку вони влучили та зруйнували футбольний майданчик клубу Локомотив, де син займався футболом перший рік і куди ми плануємо повернутися. Вони намагаються зруйнувати наше життя.

Радує дивитись на синів, як вони із зовсім різними інтересами досліджують цей світ. Молодший класно грає у футбол. Старший досліджує стоїцизм і вдосконалює фізичну форму. Мене це найбільше надихає.