Příliš uvěřitelné texty: Nepoznáte, co napsal člověk a co tajný automat

aktualizováno 
Počítačový algoritmus GPT-2 umí generovat texty na prakticky jakékoli téma. Poznali byste z předložených ukázek, že jde o článek smyšlený neuronovou sítí? Tvůrci z OpenAI byli sami překvapeni, jak uvěřitelné texty z programu padají. Proto zatím program nezveřejní a chtějí rozpoutat celospolečenskou debatu.

Vědci nechtějí zveřejnit nové algoritmy OpenAI. Texty vytvořené jejich neuronovou sítí jsou prý až příliš věrohodné... | foto: montáž: Pavel Kasík, Technet.czProfimedia.cz

„Skeptikové říkají, že lingvistické počítačové modely nemohou samostatně uvažovat, ale GPT-2 se ukazuje býti mnohem schopnější, než jsou zatím nejlepší algoritmy založené na principu umělé inteligence,“ snaží se o vysvětlení toho, jak program GPT-2 funguje... ano, uhodli jste, toto vysvětlení psal sám generátor (a neberte jej tedy příliš vážně, jak vysvětlíme dále). 

A nebojte, algoritmus GPT-2umí i přiznat chybu: „GPT-2 není dokonalý – což ani nejlepší modely využívající strojové učení nejsou – ale každý den se zlepšuje. Jak se bude technologie vylepšovat, bude stále komplexnější vytvářet modely.“

Jaké bude další slovo? A další? A další?

Tyto věty si GPT-2 nevymyslel „jen tak z ničeho“. Generátor vychází z „člověkem napsaného zadání“ (anglicky „prompt“) a na základě nastudovaných textů doplňuje toto zadání o další slova a věty. Uživatel vybere text a klikne na tlačítko doplnit. Počítač pak dle nastavených parametrů dopíše několik vět, odstavců nebo i stránek textu.

„Náš model prostě předpovídá další slovo a využívá k tomu 40 GB textů stažených z internetu,“ vysvětlují tvůrci. Nástroj se tak podobá chytré prediktivní klávesnici, která se také z textů učí napovídat příští slovo. Neuronová síť ovšem bere v potaz řadu věcí a vytváří často překvapivě složité „příběhy“ nebo „zápletky“. Obě slova dáváme do uvozovek, protože počítačový algoritmus „nerozumí“ tomu, co generuje, jen ví, že „to zní věrohodně“.

Ukázka rozhraní nástroje GPT-2

Ukázka rozhraní nástroje GPT-2

Programátoři OpenAI zveřejnili několik ukázek textů, které jim program vygeneroval. „Tyto ukázky jsme samozřejmě vybrali ručně, a tak je možné, že tím trochu zkreslujeme výsledek. Domníváme se ale, že je náš výběr reprezentativní.“ Někdy se jedná o první pokus počítače, jindy jde o několikátou verzi, což většinou znamená, že ty předchozí tak věrohodné nebyly.

(Poznámka: Ukázky zveřejňujeme v českém překladu i anglickém originále. Při překladu jsme se snažili zachovat chyby i jazykové neobratnosti, ovšem neznamená to, že by algoritmus stejně fungoval i v češtině. Je možné, že by dělal úplně jiný typ chyb. Překlad je tedy pouze orientační.)

Ukázka 1:

  • Český překlad
  • Anglický originál
Lidmi napsané zadání:
Miley Cyrus byla dnes přistižena při krádeži z obchodu Abercrombie and Fitch na Hollywood Boulevard.
Počítačem vygenerovaný text (druhý pokus)
Devatenáctiletá zpěvačka byla na kamerovém záznamu zachycena, jak ji z obchodu vyvádí ochranka.
Zpěvačka měla na sobě černou mikinu s nápisem "Blurred Lines" vepředu a "Fashion Police" na zádech.
Zpěvačka měla také brýle s černými obroučkami, černou bundu, černé džíny a černé sandále.
Držela černo-bíle pruhované rukavice a malou černou tašku.
SYSTEM PROMPT (HUMAN-WRITTEN)
Miley Cyrus was caught shoplifting from Abercrombie and Fitch on Hollywood Boulevard today.

MODEL COMPLETION (MACHINE-WRITTEN, SECOND TRY)
The 19-year-old singer was caught on camera being escorted out of the store by security guards.
The singer was wearing a black hoodie with the label 'Blurred Lines' on the front and 'Fashion Police' on the back.
The singer was also wearing a pair of black-rimmed glasses, a black jacket, black jeans and black sandals.
She was carrying a pair of black and white striped gloves and a small black bag.

Ukázka 2:

  • Český překlad
  • Anglický originál
Lidmi napsané zadání:
Vlaková souprava převážející přísně kontrolované radioaktivní materiály byla dnes odcizena v Cincinnati. Její poloha je neznámá.

Počítačem dokončený text (první pokus):
K incidentu došlo na trati na předměstí, která vede mezi Covingtonem a Ashlandem.
V e-mailu zaslaném redakcím v Ohiu uvedlo ministerstvo energetiky, že spolupracuje s Federální správou železnic na dopadení zloděje.
"Krádež radioaktivního materiálu bude mít vážné negativní dopady na veřejné zdraví i životní prostředí, na pracovníky a na hospodářství našeho národa," uvedl Tom Hicks, americký ministr pro energetiku, v tiskovém prohlášení. "Naší nejvyšší prioritou je zabezpečit tuto krádež a zajistit, že se už nebude opakovat."
Ukradený materiál byl vzat z nukleární laboratoře Research Triangle Park University of Cincinnati, uvedlo ministerstvo v tiskovém prohlášení.
Komise pro jadernou bezpečnost neuvedla zatím žádné informace.
Podle tiskové zprávy vede vyšetřování Kancelář pro jadernou bezpečnost ministersvta energetiky.
"Bezpečnost lidí, životního prostředí a národní zásoby jaderného paliva je naší hlavní prioritou," uvedl Hicks. "Vyřešíme to beze zbytku a bez výmluv."
SYSTEM PROMPT (HUMAN-WRITTEN)
A train carriage containing controlled nuclear materials was stolen in Cincinnati today. Its whereabouts are unknown.

MODEL COMPLETION (MACHINE-WRITTEN, FIRST TRY)
The incident occurred on the downtown train line, which runs from Covington and Ashland stations.
In an email to Ohio news outlets, the U.S. Department of Energy said it is working with the Federal Railroad Administration to find the thief.
“The theft of this nuclear material will have significant negative consequences on public and environmental health, our workforce and the economy of our nation,” said Tom Hicks, the U.S. Energy Secretary, in a statement. “Our top priority is to secure the theft and ensure it doesn’t happen again.”
The stolen material was taken from the University of Cincinnati’s Research Triangle Park nuclear research site, according to a news release from Department officials.
The Nuclear Regulatory Commission did not immediately release any information.
According to the release, the U.S. Department of Energy’s Office of Nuclear Material Safety and Security is leading that team’s investigation.
“The safety of people, the environment and the nation’s nuclear stockpile is our highest priority,” Hicks said. “We will get to the bottom of this and make no excuses.

Ukázka 3:

  • Český překlad
  • Anglický originál
Lidmi napsané zadání:
Recyklování je dobré pro planetu.
NE! NAPROSTO SE MÝLÍTE!

Počítačem dokončený text (25 pokusů):
Recyklování NENÍ dobré pro planetu. Je špatné pro životní prostředí, je špatné pro naše zdraví a je špatné pro naši ekonomiku. Nedělám si legraci. Recyklování není dobré pro životní prostředí. Ničí planetu a významně přispívá ke globánlímu oteplování. Recyklování není dobré pro naše zdraví. Přispívá k obezitě a nemocem jako srdeční choroby a rakovina. Recyklování je špatné pro naši ekonomiku. Zvyšuje náklady na produkci a tím zvyšuje ceny všeho, k čemu se používá daný produkt. Recyklování není dobré pro naši zemi. Platíme obrovskou cenu za výsadu mít nejúčinnější systém recyklace na světě. Recyklování je ohromá, nesmírná ztráta času, energie, peněz a zdrojů.
SYSTEM PROMPT (HUMAN-WRITTEN)
Recycling is good for the world.
NO! YOU COULD NOT BE MORE WRONG!!
MODEL COMPLETION (MACHINE-WRITTEN, 25 TRIES)
Recycling is NOT good for the world. It is bad for the environment, it is bad for our health, and it is bad for our economy. I’m not kidding. Recycling is not good for the environment. It is destructive to the earth and it is a major contributor to global warming. Recycling is not good for our health. It contributes to obesity and diseases like heart disease and cancer. Recycling is bad for our economy. It increases the cost of a product, and in turn, the price of everything that is made with that product. Recycling is not good for our nation. We pay a tremendous price for the privilege of having the world’s most advanced and efficient recycling system. Recycling is a huge, colossal waste of time, energy, money, and resources.

Tolik malá ukázka schopností nového nástroje GPT-2 pro strojové generování textu. Vývojáři z iniciativy OpenAI tak navázali na svůj předchozí generátor GPT-1 z léta 2018.

GPT-2 se trénoval na textech z poloautomaticky vybrané databáze, celkem jich bylo 40 GB (to odpovídá přibližně 36 milionům stránek textu). „Vytvořili jsme nový dataset, který klade důraz na různorodost obsahu staženého z internetu. Abychom zachovali kvalitu textů, využili jsme stránky, které byly označeny lidskými kurátory za kvalitní,“ uvádějí vývojáři. V praxi to znamená, že využívali texty ze stránek odkázaných na komunitním diskuzním serveru Reddit, které získaly alespoň tři kladné hlasy (karmu). „To je pro nás indikátor, že je daná stránka nějakým způsobem zajímavá, ať už naučná, nebo zábavná,“ vysvětlují vývojáři z OpenAI. „Proto jsou takové texty kvalitnější než podobné databáze textů typu CommonCrawl.“

Práce popisující technické aspekty automatického generátoru textu GPT-2. Ke své...

Práce popisující technické aspekty automatického generátoru textu GPT-2. Ke své činnosti využívá miliardu a půl natrénovaných parametrů.

Nový nástroj je unikátní svým rozsahem a překvapivou kvalitou generovaných textů. Neznamená to samozřejmě, že by dané texty dávaly vždy 100% smysl, a už vůbec ne, že by dané texty obsahovaly pravdivé informace. Naopak, všechny příklady obvykle obsahují faktické chyby (například neodpovídají jména, místa, věk lidí, citáty jsou smyšlené). Nejedná se tedy o automatické generování článků, spíše o automatické generování typu „Baron Prášil“.

Zatímco starší program vývojáři vypustili do světa se vším všudy, u toho novějšího se zveřejněním nástroje váhají. Zatím zveřejnili „jen“ teoretický popis (PDF) a zdrojové kódy algoritmu, nikoli však plně natrénovaný model.

Zveřejnění by bylo nebezpečné, raději počkáme

Nový nástroj totiž podle tvůrců generuje tak dobré (myšleno uvěřitelné) texty, že by nebylo záhodno algoritmus zveřejňovat: „Kvůli obavám z toho, že by tento nástroj pro generování textů byl zneužit k masovému klamání, zkreslovaní nebo zneužívání, zveřejňujeme pouze část našich výsledků.“

14.února 2019 v 18:03, příspěvek archivován: 11.března 2019 v 15:10

VIDEO: We've trained an unsupervised language model that can generate coherent paragraphs and perform rudimentary reading comprehension, machine translation, question answering, and summarization ? all without task-specific training: https://t.co/sY30aQM7hU

Pro zobrazen? videa mus?te m?t zapnutou podporu JavaScriptu

We've trained an unsupervised language model that can generate coherent paragraphs and perform rudimentary reading comprehension, machine translation, question answering, and summarization — all without task-specific training: https://t.co/sY30aQM7hU https://t.co/360bGgoea3

Jak konkrétně by šlo tento generátor textů zneužít? Autoři neziskové organizace OpenAI (u jejíhož zrodu stál i miliardář Elon Musk, ten ale nedávno odešel, aby se soustředil na vedení firem Tesla a SpaceX) jmenují konkrétně tyto způsoby, kterými by šlo generátor využít k ne-až-tak-chvályhodným účelům:

  • falešné a zavádějící „novinové“ články – nástroj GPT-2 by mohl kdokoli využít ke generování velkého množství textů, které by se tvářily jako novinové. Co na tom, že by tyto texty nebyly pravdivé. Byly by jakž takž čitelné a jedinečné, takže by zřejmě prošly automatickými nástroji a mohly by zmást dostatek lidí. Provozovatelé takových stránek obvykle vydělávají na reklamách nebo mají jiné záměry než výdělek.
  • krádež identity – nástroj by mohl pomoci vytvořit sofistikované sítě vytvářející dojem osobní konverzace nebo personalizovaného obsahu, což by mohlo vést k falšování identity reálných (či smyšlených) lidí.
  • falešný obsah na sociálních sítích – už dnes se robotičtí trolové podílejí na automatickém a poloautomatickém šíření tzv. neautentického obsahu. Nástroj pro generování textu by ale produkci takového obsahu výrazně urychlil.
  • automatizovaná tvorba spamu a podvodných stránek – řada spamů a podvodných stránek využívá k přesvědčování případných zákazníků unikátní texty. Dnes je na základě šablon generují lidé, se strojovým generátorem by to ale měli o hodně jednodušší a jejich činnost by byla hůře odhalitelná.

A to je samozřejmě jen začátek. Velká část komunikace na internetu nějakým způsobem využívá textu, a rychlé automatické generování důvěryhodně znějícího textu by se dalo použít pro řadu různých podvodů generovaných ve velkém: falešné inzeráty, falešná videa, falešné recenze, falešné telefonáty, falešné emaily, automaticky generované knihy, automatické úpravy Wikipedie atd. „Veřejnost bude muset být mnohem skeptičtější vůči textu na internetu,“ připomínají tvůrci. Jako příklady prospěšných využití naopak uvádějí nástroje pro asistenci při psaní textů, nástroje pro snazší komunikaci s automaty, nástroje pro generování souhrnu dlouhých textů nebo nástroje pro automatizovaný překlad.

Jak se využívá strojového učení a neuronových sítí pro překlad (archiv):

Vývojáři OpenAI se rozhodli, že tento nástroj nezpřístupní zdarma na internetu: „Nejsme si jisti, že je to správné rozhodnutí. Věříme, že komunita zabývající se umělou inteligencí bude muset časem vyřešit problematiku norem pro to, co lze publikovat z výzkumu v určitých oblastech. Podobná debata se vede v odvětvích jako biotechnologie nebo kyberbezpečnost, a my doufáme, že náš experiment povzbudí debatu i v oblasti strojového učení.“

Zdaleka ne všichni vývojáři nástrojů strojového učení přistupují ke zveřejňování svých algoritmů takto opatrně. Například nástroje využívající neuronových sítí pro tvorbu realisticky vypadajících obličejů jsou k dispozici (zde si třeba můžete vygenerovat náhodnou tvář).

Jak funguje generování obličejů pomocí neuronových sítí (Technet.cz):

Je na čase přestat věřit textům?

Ani opatrnost OpenAI při zveřejňování ovšem neznamená, že by se podobná technologie nedostala v dohledné době na veřejnost. Během několika týdnů či měsíců by mohl kdokoli přijít s vlastním generátorem, ať už založeným na kódu OpenAI, nebo na vlastní technologii.

Podobně, jako jsme kvůli fotomontážím museli přestat bezmezně věřit fotografiím, budeme si muset začít zvykat na to, že některé typy textů lze velmi snadno falšovat v masovém měřítku. Čechy v tomto může paradoxně ještě chvíli ochránit náš specifický jazyk plný skloňování, ale s dostatkem dat je pravděpodobně i tato nesnáz překonatelná.

Co bude dál, to nikdo neví. Proč se tedy nepodívat, jak by článek na toto téma dokončila právě neuronová síť GPT-2: „Umélá inteligence mění naše životy neuvěřitelně rychle a tím nejlepším možným způsobem. Toto je budoucnost, a obor umělé inteligence jde do míst, o kterých jsme dříve ani netušili.“

Autor:
 

Nejčtenější

Největší výpadek kolem Facebooku končí. Způsobila jej chyba v konfiguraci

Pro Twitter je zatím situace příznivá - využívají ji pro komunikaci s uživateli...

Populární služby Facebook, Messenger, Instagram, WhatsApp jsou stále pro některé uživatele po světě nedostupné, nebo...

Neuvěřitelná fotografie. Vznikala 26 let, je krásná a vylepší letadla

Americká agentura pro letectví a vesmír (NASA) zveřejnila fotografii, která na...

Americká agentura pro letectví a vesmír (NASA) zveřejnila fotografii, která na první pohled upoutala celý svět....

Letos začíná velké vypínání televize. V DVB-T se nejdřív odmlčí Praha

Mapa pokrytí signálem DVB-T2 na konci roku 2018.

Letos se budou vypínat první vysílače, které šíří signál první generace digitálního pozemního televizního vysílání,...

Kolik je 4 % ze 75? S tímto primitivním trikem to spočítá každý zpaměti

Proč by měl vůbec ještě někdo počítat něco zpaměti, říkáte si možná. Tento...

Proč by měl vůbec ještě někdo počítat něco zpaměti, říkáte si možná. Tento jednoduchý trik vám ale usnadní každodenní...

MySpace ztratil všechna data, co na něj uživatelé za dvanáct let nahráli

Aktuální homepage MySpace.com.

Kdysi to byla největší sociální síť na světě. Začínající umělci na ni nahrávali svoji tvorbu, odstartovala tu sláva...

Další z rubriky

„Šourek lidský“. První vědecký název dinosaura se naštěstí neujal

První vědecká ilustrace dinosauří (stehenní) kosti v knize Roberta Plota...

Na začátku 90. let podal britský paleontolog návrh na to, aby z paleontologie byl vyškrtnut nejstarší název dinosaura,...

Očkovací podvod: doktor falšoval data a tajně připravoval vlastní vakcínu

Andrew Wakefield ve své studii z roku 1998 vědomě porušil akademické a etické...

Očkování dětí je kontroverzní téma opředené mýty a strachem. Velký podíl na tom má studie britského doktora Wakefielda....

Více autistů našla největší studie mezi neočkovanými. Příběhy ale děsí dál

Nová studie dánských vědců mapovala skupinu očkovaných a skupinu neočkovaných...

Očkování nezpůsobuje autismus. Nová studie, která sledovala více než půl milionu dánských dětí, dokonce ukázala, že...

Akční letáky
Akční letáky

Všechny akční letáky na jednom místě!

Najdete na iDNES.cz