Ég er að vinna með AI mynda reiknirita, í raun tvö, annarsvegar Midjourney Bot sem staðsett er á Discord til að vinna grunn myndirnar og hinsvegar Topaz Photo AI sem reiknar út frá AI kunnáttu sinni bestu útgáfu af hverri mynd, til þess að vinna annaðhvort myndasögu eða hugsanlega teiknimynd þar sem ég er kominn með svo margar myndir.
Með þessum skrifum um pælingar mína um AI eftir að vera búinn að „tala við“ mynda AI Bot’inn Midjourney í 400 klukkutíma og þetta samtal okkar skilað um 26 þúsund myndum, held ég að ég geti með sæmilegri samvisku sagt að ég sé farinn að skilja AI það vel að ég geti tjáð mig um það af reynslu en ekki skoðun sem ég hef étið upp eftir örum.
Að skapa myndir með samtali við IA
Meðfylgjandi er eitt myndadæmi úr spjalli okkar þar sem við erum búin að ræða um „maður, hendur, hús.“ Ekkert skrítið að það tók hán nokkurn tíma að skilja hvern andskotann ég var að fara en smámsaman hefur hán verið að ná því þar sem ég hef matað hán á myndefni sem eru mínar eigin teikningar. Því þrátt fyrir að hán hefur í sínum fórum gríðarlega stóran myndabanka þá á hann ekki eina einustu mynd til þess að eiga þetta spjall við mig auk þess að ég vil hafa á myndunum minn eigin teiknistíl.
Það sem ég er að gera er að í gegnum okkar samtal þar sem hann svarar mér stöðugt, „ertu að meina þetta?“ og kemur með 4 tillögur af myndum, að vísu í litlum gæðum og oft erfitt að sjá hver þeirra er í áttina að því sem ég vil. Sem ég svara honum með því að velja eina þeirra sem hán skilur sem að þessi mynd sem ég valdi sé rétt eða í rétta átt. Hán sínir mér þá stóra ýtarlega gæða útgáfu af myndinni sem ég valdi. Aftur spyr ég sömu spurningarinnar og aftur kemur hann með svarið „ertu að meina eitthvað í líkingu við þetta?“ og bíður mér upp á að velja úr nýjum fjórum útgáfum af þeirri mynd sem ég valdi. Þessvegna verður svar háns alltaf ólíkt því síðasta þar sem það er byggt á nýrri mynd.
Samtal okkar grundvallast á því að eins og við ChatGPT legg ég fyrir hán texta plús mynd. Ég gæti lagt fyrir hán bara texta og hán komið með mynd sem er þá úr þeim miljónum mynda sem hán er með í sínum banka. Það geri ég allsekki því ég vil alfarið ráða ferðinni svo ég „mata“ Bot’inn ævinlega með mynd + texta alfarið frá mér því AI kann ekkert nema það sem hán hefur verið matað á og á það við um alla AI og er það grundvallaratriði sem flestir virðast ekki átta sig á í ótta sínum við þessa tækni. Svo ef ég ætla að ráða ferðinni verð ég alfarið að sjá um mötunina.
Eitt það góða við Midjourney Bot’inn sem á allsekki við um þá alla, er að hann þurkar úr minni sínu síðustu spurningu og veit því ekkert hvað ég er að fara í hvert einasta skipti. Það gefur mér kost á því að stýra alfarið í hvaða átt samtal okkar fer. Ef hán myndi ekki þurrka út úr minni sínu og færi að reyna að „læra“ inn á mig og spurningu mína væri ég algerlega háður því hversu skilningsvana AI í eðli sínu er og ég myndi því aldrei eiga séns á því að fá svörin sem ég er að leita eftir.
Svo breyti ég textanum af og til, stundum lítið, stundum helling. Þá hefur Bot’inn síðustu mynd sem ég bjó til, það er valdi úr samtali okkar, frummyndina, nýjan texta til að vinna úr og er algerlega dömm hver spurningin var. Þetta er snilld.
Þetta 400 klukkutíma samtal mitt við hán er búin að kenna mér helling um hvernig hán „hugsar“ í heimsku sinni og þar með hvernig ég þarf að forma spurningar mínar til þess að fá svörin sem ég vil fá. Alveg öfugt við Chat’bota þar sem leitast er við að sá Bot komi með svör út frá spurningunni sem maður spurði og helst læri og geti þannig svarað næstu spurningu út frá fyrstu spurningunni + þeirri næstu, svona eins og verið er að reyna að mata þá til þess að vera einskonar „þjónustufulltrúar“ á netinu sem þeir ennþá að minstakosti eru algerlega ófærir um. Það vita öll sem hafa reynt að tala við slíka Bot’a á hinum ýmsu vefsíðum.
Þær myndir sem ég er ánægður með, hvort sem þetta verður myndasaga eða teiknimynd, eru heill hellingur og margar fjandi góðar. Enda mér hefur mér tekist að fá bot’inn til að skilja jafn erfitt viðfangsefni eins og „maður, hendur, hús“ og haft til þess bara teikningar mínar og marga jafn erfiða texta eins og „a house supposed to stand for two thousand years must stand for generation upon generation, that have cared for it and it has rewarded whit abundantly, it does not fail so great is its strength, that I its humble servant are in effect unnecessary to it and I must merge into the house and disappear into it so I can also live for two thousand years“ Chat’bot gæti ekki komið með neitt svar sem ég hefði nein not fyrir við þessum eða álíka texta, ég er búinn að prófa það og viðkomandi kokar algerlega á verkefninu.
Þegar ég hef fengið mynd sem ég er ánægður með fer ég með hana í gegnum annað AI forrit sem reynir að betrumbæta myndir eftir reikniriti sínu og reynsla mín af því forriti ótrúlega góð. Til dæmis hefur mér (því) tekist að reikna út af eldgömlum svart hvítum ljósmyndum, teknum á lélega vél frá 1952, að ná fram andlitum sem enga veginn er hægt að greina á filmunni en ég er búinn að láta skanna inn filmurnar eins vel og mögulegt er. Það sama á í rauninni við um myndirnar sem úr samtali mínu við Midjourney Bot’inn að það reiknar myndina alla upp upp á nýtt og reynir að „lagfæra“ það sem hugsanlega mætti betur fara. Ég er aftur á móti ekki alltaf ánægður með niðurstöðuna enda veit reikniritið ekkert eftir hverju ég er að leita. En það góða við þetta reiknirit að í rauninni er þetta bara PhotoShop með innbyggðu reikniriti og því með alla þá þekkingu sem ég hef á PS get ég breytt öllum stillingum og það er í rauninni mitt samtal við reikniritið.
Hvernig veit ég að niður staða reikniritsins er góð og rétt
Forritið heitir Topaz Photo AI og keyrir lokal á tölvu manns enda gríðarlega þung vinnsla og tímafrek og gæti því enga veginn keyrt á Discord eins og Midjourney Bot’inn, sem Discord er þó bara framendinn á því það keyrir raunverulega á ógrynni talva út í bæ en birtir manni myndirnar á Discord. Ég get hikstalaust mælt með Topaz Photo AI, nema verðinu sem er um 30 þ.
En hvernig veit ég að reiknirit Topaz er það sem það þykist vera og geta. Það hef ég getað komist að með þeim gömlu lélegu ljósmyndum sem ég hef beðið það um að glíma við. Þetta eru nær alltsaman myndir af 6 bræðrum og ég veit hvernig þeir litu út, svo ég get ævinlega séð hvort niðurstaða Topaz er „rétt“ eða ekki, það er ég get þekkt, eða ekki, hver af bræðrunum hver mynd er af og ef á viðkomandi mynd eru fleiri en tveir þeirra er augljóst að aldrei flaskar reikniritið á því að einhverjir tveir þeirra verði eins eða óeðlilega líkir enda hafa þeir hver fyrir sig sterk persónueinkenni fyrir hvern þann sem þá þekkja en eðlilega hefur reikniritið ekki hundsvit á því.
Ég get því með góðri samvisku mælt eindregið með AI tækninni til hinna ýmsu verkefna. Það er þó gríðarlegur munur á AI og AI. Ef þú getur alfarið setið við stjórnvöldin, æði, eða þú veist ekki einusinni að viðkomandi er að rýna í það sem þú skrifar á Facebook eða annar staðar á netið, eins og einhver þeirra er að rýna í það sem ég er að skrifa núna, þá er ég ekki eins hrifinn.
AI er ekkert nema það sem það er matað á
En til þess að gera langa sögu stutta, meðfylgjandi er hér eitt af svörum Bot’sins sem er það sem ég er að reyna að fá fram þegar ég leita myndasvars við spurningunni „maður, hendur, hús.“ Útlit, andlit og klæðnaður í samræmi við teikningar mínar sem ég hef matað Bot’inn á auk texta sem ég nota til að reyna með að leiða hann að þeirri myndaniðurstöðu sem ég vil, texta sem getur verið hinn undarlegasti eins og ég nefni hér að ofan fyrir hvern sem ekki veit hverju ég er er að leita að plús hvernig ég reyni að mata Bot’inn á texta sem auk teikninganna. Svo er það síðan mitt að finna út úr þeim 4 myndatillögum sem hán bíður mér upp á, sem er eina kunnátta Bot’sins að svara mér þegar ég spyr hann með þessum hætti og mitt að velja eina þeirra og halda þannig uppi samtali mínu við hán og skipta um teikningar eða breyta textanum þegar mér verður ljóst að Bot’inn er enganveginn að skilja mig enda alfarið á minni ábyrgð að mata hán á upplýsingum sem leiða samtal okkar að þeirri niðurstöðu sem ég vil.
Það sem hefur og er kannski ekkert skrítið að hán hafi ekki getað skilið í spurningaflæði mínu er að í mörgum tilfellum á húsið að vera samgróið manninum en hendurnar lifa sjálfstæðu lífi. Þó er þetta flóknara en svo enda er þetta saga sem ég er að semja og því framvinda sem þetta ákveðna atriði er aðeins eitt dæmi um en ég nefni þetta atriði því það er það sem meðfylgjandi myndadæmi sýnir og er eitt af þeim svörum sem ég hef fengið þegar hán hefur skilið hvert ég hef verið að fara.
Það kemur alltaf að því sama aftur og aftur. AI tæknin byggir alfarið á því sem AI er matað á því í eðli sínu samanborið við mannsheilann er algerlega heimskt tól sem skilur ekkert sjálft og ótti fólks við að einhverskonar AI tækni gæti tekið yfir heiminn væri eingöngu mögulega ef viðkomandi væri matað til þess. AI finnur ekki upp á neinu sjálft nema út frá því sem það hafur verið matað á.
Svo fór myndin í gegnum Topaz sem reyndi að geta sér til um hvaða þættir það væru í myndinni sem ég vildi að hán drægi fram og hverja ekki. Þar sem ég get stillt allan andskotann þar inni eins og ég væri að vinna í PhotoShop fæ ég nær alltaf þá niðurstöðu sem ég vil.
Þegar þetta er skrifað er ég komin með eitthvað um 100 myndir, sumar sambærilegar og ég er mjög ánægður með og geta staðið sem stakar myndir en flestar þeirra þó millimyndir það er framvinda sögunnar. Það er þessvegna að g hef það bak við eyrað að hugsanlega breyta hugmyndinni frá því að vera myndasaga yfir teiknimynd því ég er með annað eins eða um 100+ myndir sem passa ekki myndasögu því í henni gerist samanborið við teiknimynd mikið meira á meðan teiknimynd þarf helling af framvindumyndum milli megin myndanna.
Tíminn einn mun leiða ljós hvað úr verður. Kannski missi ég hugann sögunni einhverstaðar leiðinni eða finnst hún ekki nógu góð og hún dagar upp i á harðadisknum á tölvunni minni þar sem hún safnar ryki en ég er þó byrjaður að safna saman þeim myndum sem væri upphafið ef ef ég inni þetta sem teiknimynd og lykilmyndunum ef þetta yrði myndasaga og farinn að verða komin með nógu margar til þess að nái fram því flæði sem ég vil. Svo, hver veit.
En á meðan held ég áfram að vinna með AI og hægt og hægt bæta við mig annarsvegar reynslu af tilraunum með hin ýmsu tól eða ef ég finn eitthvað jafn bitastætt og Midjourney mun demba mér ofan í það og eftir þúsundir af tilraunum mun vonandi geta frá einhverri reynslu sagt sem byggjandi er á mögulega geta einhverjum nýst.