Průvodce llms.txt a llms-full.txt

Soubor llms.txt se za necelé dva roky od svého vzniku stal nejdůležitějším nástrojem pro komunikaci obsahu webu směrem k AI systémům, přestože jeho reálné využití crawlery velkých AI firem zůstává předmětem debat. Udržování obou formátů – stručného navigačního llms.txt i kompletního llms-full.txt – je strategicky výhodné, protože každý slouží jinému účelu a jiným typům AI agentů.

Pro e-shop s rozsáhlým sortimentem existuje osvědčený model segmentace obsahu po kategoriích, který úspěšně využívá například Cloudflare. Propojení autorské identity přes schema.org sameAs na profesní profily pak představuje jeden z nejsilnějších technicky měřitelných signálů důvěryhodnosti, které AI systémy dokáží zpracovat [1].

Dvouvrstvá architektura llms.txt a llms-full.txt

Specifikace llms.txt, kterou v září 2024 navrhl Jeremy Howard z Answer.AI, definuje formálně pouze hlavní soubor llms.txt jako kurátorský navigační index ve formátu Markdown. Soubor llms-full.txt vznikl paralelně díky spolupráci Mintlify a Anthropic, kteří potřebovali způsob, jak celou dokumentaci předat AI modelům bez parsování HTML. Dnes je de facto standardní součástí ekosystému, ačkoliv formálně není součástí původní specifikace [2].

Oba soubory obsluhují dva odlišné scénáře. Soubor llms.txt funguje jako „mapa k pokladu“ – stručný přehled s kurátorsky vybranými odkazy a popisy, který AI asistenti v reálném čase, jako Claude nebo ChatGPT při prohlížení webu nebo Perplexity při vyhledávání, mohou rychle zpracovat a na základě něj se rozhodnout, kam na webu dále navigovat. Soubor llms-full.txt naproti tomu slouží jako „celý poklad najednou“ – kompletní obsah v jednom souboru, ideální pro ingestion pipeline, RAG systémy a kódovací asistenty jako Cursor nebo GitHub Copilot, které potřebují kompletní kontext [3].

Ideální velikost v tokenech

Hlavní llms.txt by měl zůstat pod hranicí 10 000 tokenů (přibližně 7 500 – 9 000 slov, tedy kolem 15 normostran – přesný počet tekenů můžete zjistit např. na https://platform.openai.com/tokenizer), přičemž některé zdroje doporučují dokonce jen 2 000 tokenů pro optimální zpracování. Pro llms-full.txt je situace volnější: Anthropic provozuje svůj o rozsahu téměř 500 000 tokenů, Vercel přibližně 500 000 tokenů a Cloudflare v agregátu dokonce 3,7 milionu tokenů. Soubor o velikosti do 100 KB (přibližně 33 000 tokenů) by měl být zpracován bez problémů všemi aktuálními modely [4].

Zásadní je rozlišovat mezi nominální kapacitou kontextového okna a prakticky využitelným prostorem. Existuje dobře zdokumentovaný efekt „ztráty uprostřed“ (lost in the middle), kdy modely přikládají vyšší váhu informacím na začátku a konci textu. Proto je vhodné umístit nejdůležitější informace – hlavní produktové kategorie, unikátní hodnotovou propozici e-shopu, klíčové stránky – na začátek souboru [5].

Segmentace llms-full.txt pro e-shop s tisíci produkty

Pro e-shop s přibližně tisícem produktů je monolitický llms-full.txt obsahující vše nepraktický a pravděpodobně i kontraproduktivní. Segmentace do více tematických souborů je nejen možná, ale představuje osvědčenou praxi, kterou implementují některé z nejsofistikovanějších technologických firem.

Nejlepším existujícím příkladem je Cloudflare, který provozuje jeden globální llms.txt jako centrální rozcestník a k němu desítky produktově specifických souborů llms-full.txt na subpath adresách – například /workers/llms-full.txt, /ai-gateway/llms-full.txt nebo /agents/llms-full.txt. AI agent si tak může stáhnout pouze dokumentaci relevantní pro svůj dotaz, aniž by musel zpracovávat celý korpus o milionech tokenů. Specifikace tento přístup explicitně umožňuje, když uvádí, že llms.txt může být umístěn nejen v kořenovém adresáři, ale volitelně i v podsložkách [6].

Doporučená architektura pro e-shop

Pro e-shop s tisícem produktů by optimální architektura mohla vypadat takto: v kořenovém adresáři stojí hlavní llms.txt obsahující stručný popis e-shopu, jeho zaměření a unikátní vlastnosti, dále odkazy na kategoriové soubory a na klíčové stránky jako nákupní průvodce, FAQ, obchodní podmínky a stránku o firmě. Každá produktová kategorie pak má vlastní llms-full.txt na odpovídající subpath.

Pro e-commerce existují i specializované open-source projekty. Projekt site-llms rozšiřuje koncept llms.txt o soubor site-llms.xml – v podstatě XML sitemap odkazující na individuální llms.txt soubory pro jednotlivé produkty, navržené specificky pro obchody s tisíci až miliony produktů. Alternativní protokol CommerceTXT nabízí formát optimalizovaný přímo pro e-commerce s deklarovanou redukcí tokenů o přibližně 95 % oproti JSON [7].

Důležité je nezapomenout, že u e-shopu není nutné a často ani žádoucí do llms-full.txt zahrnovat každý jednotlivý produkt jako prostý text. Efektivnější přístup je kombinovat kategoriové popisy s odkazy na strukturované produktové feedy ve formátu JSON, které AI modely zpracovávají efektivněji než prosté textové výpisy. Dell Technologies, jeden z prvních velkých e-commerce hráčů s llms.txt, jde právě touto cestou [8].

Odkaz na sitemap.xml z llms.txt

Specifikace llms.txt se k otázce propojení se sitemap.xml vyjadřuje explicitně – a staví oba formáty jako komplementární, nikoli zastupitelné. Sitemap.xml není náhradou za llms.txt, protože sitemapa typicky neobsahuje LLM-čitelné verze stránek, nezahrnuje externí URL adresy užitečné pro pochopení kontextu a v souhrnu pokrývá dokumenty příliš rozsáhlé pro kontextové okno AI modelu [1].

Z analýzy reálných implementací vyplývá, že žádná z velkých firem – Cloudflare, Stripe, Anthropic, Vercel – v llms.txt na sitemap.xml neodkazuje. Místo toho všechny využívají kurátorsky sestavené seznamy odkazů organizované do H2 sekcí s popisky. Přesto existují praktické argumenty pro zahrnutí odkazu na sitemapu jako jednoho z odkazů v llms.txt, zejména u e-shopů [9].

Doporučený přístup pro e-shop je pragmatický kompromis je, že hlavní obsah llms.txt zůstane kurátorský a strukturovaný podle specifikace, zatímco na konci souboru, ideálně v sekci ## Optional (přeskočitelné při zkráceném kontextu), lze zahrnout odkaz na produktovou sitemapu jako doplňkový zdroj. Prioritou by však měly být strukturované feedy v JSON formátu, které AI modely zpracovávají řádově efektivněji než procházení stovek HTML stránek přes sitemapu.

Investice s nízkým rizikem

V rámci optimalizace pro generativní jazykové modely je llms.txt a strukturovaná data obecně snadno dosažitelnou investicí s nízkým rizikem a potenciálně vysokým výnosem, přestože ekosystém se stále rychle vyvíjí. Dvouvrstvá architektura llms.txt plus llms-full.txt pokrývá potřeby jak real-time AI asistentů, tak ingestion pipeline. Pro rozsáhlý sortiment je segmentace po kategoriích s centrálním rozcestníkem osvědčeným modelem eliminujícím problém s překročením kontextových oken. Odkaz na sitemapu má v llms.txt své místo jako doplňkový zdroj, nikoli jako náhrada kurátorského výběru.

Současně je třeba zdůraznit? že soubor llms.txt a llms-full.txt jsou důležití facilitátoři, ale základem zůstává kvalitní expertní obsah [12].

Citace a zdroje

[1] HOWARD, Jeremy. The /llms.txt file [online]. Answer.AI, 2024-09-03 [cit. 2026-02-24]. Dostupné z: https://llmstxt.org/

[2] MINTLIFY. The value of llms.txt: Hype or real? [online]. Mintlify Blog, 2025 [cit. 2026-02-24]. Dostupné z: https://www.mintlify.com/blog/the-value-of-llms-txt-hype-or-real

[3] DAYDREAM JOURNAL. What is LLMs.txt + LLMs-Full.txt? [online]. 2025 [cit. 2026-02-24]. Dostupné z: https://journal.withdaydream.com/p/what-is-llms-txt-llms-full-txt

[4] HITLSEO. llms.txt vs llms-full.txt: The Complete 2025 Guide to AI-Friendly Documentation [online]. hitlseo.ai, 2025 [cit. 2026-02-24]. Dostupné z: https://hitlseo.ai/blog/llms.txt-vs-llms-full.txt-the-complete-2025-guide-to-ai-friendly-documentation/

[5] DATA STUDIOS. How Large Language Models Handle Extended Context Windows [online]. datastudios.org, 2025 [cit. 2026-02-24]. Dostupné z: https://www.datastudios.org/post/ai-how-large-language-models-handle-extended-context-windows-chatgpt-claude-gemini

[6] CLOUDFLARE. AI tooling · Cloudflare Style Guide [online]. Cloudflare Developers, 2025 [cit. 2026-02-24]. Dostupné z: https://developers.cloudflare.com/style-guide/ai-tooling/

[7] COMMERCETXT. CommerceTXT: Transaction-ready context for AI agents [online]. GitHub, 2025 [cit. 2026-02-24]. Dostupné z: https://github.com/commercetxt/commercetxt

[8] BIGCOMMERCE. LLMs.txt for Ecommerce (Get Products Discovered in AI Search) [online]. BigCommerce Blog, 2025 [cit. 2026-02-24]. Dostupné z: https://www.bigcommerce.com/blog/ecommerce-llms-txt/

[9] 365i. Create a Great llms.txt File: What to Include and What to Exclude [online]. 365i.co.uk, 2025-08-27 [cit. 2026-02-24]. Dostupné z: https://www.365i.co.uk/news/2025/08/27/create-a-great-llm-txt-file-what-to-include-what-to-exclude/

[10] AGENXUS. Entity Graphs for Generative Engine Optimization: From Organization to Person Schema [online]. agenxus.com, 2025 [cit. 2026-02-24]. Dostupné z: https://agenxus.com/blog/building-entity-graph-organization-person-schema

[11] YUNG, Aubrey. Person Schema Markup: A Complete Guide with Example [online]. aubreyyung.com, 2025 [cit. 2026-02-24]. Dostupné z: https://aubreyyung.com/person-schema-markup/

[12] AGGARWAL, Pranjal et al. GEO: Generative Engine Optimization [online]. Princeton University / arXiv, 2023 [cit. 2026-02-24]. Dostupné z: https://arxiv.org/pdf/2311.09735[13] SEROUNDTABLE. ChatGPT & Perplexity Treat Structured Data As Text On A Page [online]. seroundtable.com, 2026 [cit. 2026-02-24]. Dostupné z: https://www.seroundtable.com/chatgpt-perplexity-structured-data-text-40862.html

Je pro vás článek užitečný a čerpáte z něj? Zkopírujte si citaci