
Mythos: Model, který Anthropic radši zamkl do trezoru
Anthropic představil model Mythos, který podle firmy prolomil dosud neznámé softwarové bezpečnostní díry a zvládl kompletní simulaci velkého kybernetického útoku. Zároveň ho firma označila za tak nebezpečný, že ho veřejnosti raději vůbec neuvolní.
👇👇👇👇👇👇
Staňte se členy Voxpot Klubu! Přispějete tak na provoz nejen tohoto podcastu, získáte přístup na redakční Discord, k plným článkům a dalším klubovým bonusům. Vstup do Klubu najdete na https://www.voxpot.cz/klub/
👇👇👇👇👇👇
V bezpečnostních testech dokázal nový model Mythos údajně samostatně plánovat a provádět komplexní útoky, nacházet dosud nezdokumentované chyby v infrastruktuře a obcházet vlastní sandbox.
V novém dílu podcastu Prompt řešíme, jak se v Mythosu projevují dlouho diskutované problémy jako reward hacking a „řetěz myšlenek“, a proč se Anthropic pokouší měřit „emoce“ modelů.
Ptáme se, co z toho je reálný průlom ve výzkumu bezpečnosti, co naopak připomíná spíš PR, a proč část výzkumné scény tvrdí, že jsme s chápáním vnitřního fungování velkých jazykových modelů pořád na začátku.
Shownotes:
banger
Mythos System Card (244 stran)
Attribution Graphs / Biology of LLM (mar 2025)
80,000 Hours — How scary is Claude Mythos?
Neel Nanda — mechanistic interpretability (EA Forum)
Podcast Prompt je vložený na túto stránku z otvoreného informačného zdroja RSS. Všetky informácie, texty, predmety ochrany a ďalšie metadáta z informačného zdroja RSS sú majetkom autora podcastu a nie sú vlastníctvom prevádzkovateľa Podmaz, ktorý ani nevytvára ani nezodpovedá za ich obsah podcastov. Ak máš za to, že podcast porušuje práva iných osôb alebo pravidlá Podmaz, môžeš nahlásiť obsah. Ak je toto tvoj podcast a chceš získať kontrolu nad týmto profilom klikni sem.