Les
langages de balisage (sous-classe des langages de description) représentent une classe de
langages spécialisés dans l'enrichissement d'information textuelle. Ils opèrent grâce aux
balises, unités sémantiques délimitant chacune un ensemble à l'intérieur d'un
Fichier texte, souvent en
Unicode.
L'inclusion de balises permet de transférer à la fois la structure du document et son contenu. Cette structure est compréhensible par un programme informatique, ce qui autorise un affichage personnalisé selon des règles pré-établies ; la Typographie (en premier lieu la fonte) et d'autres éléments de présentation peuvent changer. On peut de plus inclure des éléments non-textuels.
Langages SGML
Les langages de balisage les plus utilisés sur le
Web sont des langages dérivés de SGML.
Langage HTML
Article détaillé : .Le langage à balises le plus couramment utilisé sur le World Wide Web est le HTML. En HTML, on utilise des balises pré-définies afin de préciser à l'intérieur d'un fichier texte des éléments tels les titres, les paragraphes, les acronymes, les citations.
Les éléments de blocs et les éléments en-ligne
On distingue les balises définissant un bloc des balises en-ligne par :
- le modèle de contenu
- les éléments de bloc peuvent contenir à la fois données, éléments de bloc et éléments en-ligne ; les éléments en-ligne ne peuvent contenir que des éléments en-ligne et des données. «L'idée inhérente à cette distinction structurelle, c'est que les éléments de bloc créent des structures « plus grandes » que les éléments en-ligne.»
- le formatage
- «Par défaut, les éléments de bloc sont formatés différemment des éléments en-ligne. En général, les éléments de bloc commencent sur une nouvelle ligne, et non les éléments en-ligne.»
« Les feuilles de style fournissent les moyens de spécifier la restitution d'éléments arbitraires, y compris si l'élément est rendu comme étant de type bloc ou de type en-ligne. »
L'ensemble des citations est tiré de la spécification standard HTML. [#]
Exemple
- <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit.</p>
On délimite la phrase « Lorem ipsum dolor sit amet, consectetuer adipiscing elit. » par la balise
p (définissant un paragraphe) au moyen d'une balise d'ouverture (<p>) et une balise de fermeture (</p>). Cette phrase est inclue dans l'élément p, lui-même obligatoirement contenu dans l'élément <body> (cet élément définit le début du corps du fichier HTML.)
XML
[image] Le XML pousse très loin la description sémantique d'un fichier, permettant de délimiter avec précision, par exemple dans une recette, les <ingrédients>, le <temps-de-cuisson>, les <plats-nécessaires>, etc. Afin d'exploiter un document XML écrit de cette façon, on utilise des feuilles XSLT permettant de transformer un document XML en un autre type de document XML.
Toutefois, cette liberté dans le choix des balises permet à un fichier d'être écrit en XML sans pour autant délimiter des informations sémantiques : hors-contexte, la balise <hy> ne signifie rien, à moins de définir sa signification à l'intérieur d'un fichier de définition, appelé Doctype, associé au fichier XML.
Microsoft et OpenOffice.org utilisent un format XML pour certains formats de fichier Office, par exemple le suffixe odt cache une arborescence de fichiers XML zippés.
Introduction de métadonnées
Ces langages permettent d'introduire des
métadonnées dans les documents électroniques, ou de façon plus générale dans les ressources informatiques. Par exemple, avec HTML ou XHTML, on introduit les
métadonnées relatives au document directement à l'intérieur de l'en-tête (<head>), avec la marque <meta>. La syntaxe diffère selon que l'on utilise des raffinements ou pas.
Voir aussi