Foto: Freepik

Dezinformace v tréninkových datech

LLM jsou trénovány na obrovských souborech dat, často získaných z internetu. Stačí malé množství falešných informací – například 0,001 % dat – a model začne generovat nepřesné nebo dokonce škodlivé odpovědi. To platí i pro specializované medicínské modely.

Proces nazývaný „data poisoning“ spočívá v záměrném zavedení dezinformací do tréninkového procesu. Tyto informace se mohou volně šířit online, například prostřednictvím neviditelného textu na webových stránkách, a jazykový model je následně považuje za důvěryhodné.

Alarmující závěry studie

Vědci testovali vliv dezinformací v databázi The Pile, často používané k trénování LLM. Zjistili, že i malé množství zavádějících článků může způsobit, že model začne generovat nesprávné odpovědi nejen na cílené otázky, ale také na širší medicínská témata. Přitom vytvoření takové manipulace je technicky snadné a finančně nenáročné.

LLM a zdraví
LLM a zdraví

Foto: Freepik

Jak se bránit?

Jedním z řešení je využití algoritmů, které kontrolují výstupy modelu proti ověřeným medicínským databázím. Tento postup ale zachytí pouze část dezinformací. Navíc i ověřené zdroje, jako PubMed, mohou obsahovat zastaralé či vyvrácené informace.

Závěr

Manipulace jazykových modelů představuje vážné riziko, zejména v oblasti medicíny. Klíčem k omezení škod je důsledná kontrola tréninkových dat, jejich pravidelná aktualizace a využívání nástrojů pro detekci zavádějících výstupů. Bez těchto opatření mohou LLM více škodit než pomáhat.

Zdroj: ArsTechnica.com (odkaz)