Le langage XML

Il existe principalement trois types de langages en informatique :

  • Les langages de programmation (comme python, C++, Arduino oi processing)
  • les langages de requête (il spermettent d'intérroger les bases de donnée, le plus connu reste SQL)
  • les langages de description (comme html ou XML)
Le langage XML (pour Extended Markup Language) est un langage de description.
Le but historique du langage XML a été dès 1998 de structurer l'échange de données entre des machines, sans se heurter à des problèmes de compatibilité de système.

le XML est un langage qui permet de structurer toutes sortes de données à partir de balises. Ces balises vont décrire la nature des données placées entre elles. Par exemple :
<pubDate>Wed, 15 Nov 2017 17:58:00 +0100</pubDate>
		

Dans cet exemple les balises <pubDate> (ouvrante) et </pubDate> (fermante), encadrent la donnée elle même. Cette donnée semble être une date de publication comme la balise l'indique.
Mais certaines balises peuvent également encadrer un ensemble de données, ce qui permet de structurer les données en créant une hiérarchie entre elles.
<item>
	<title>La chronique de Clara Dupont-Monod 15.11.2017</title>
	<link>https://www.franceinter.fr/</link>
	<description>
	durée : 00:04:37 - Si tu écoutes, j'annule tout - par : Clara Dupont-Monod
	</description>
	<author>podcast@radiofrance.com</author>
	<category>Comedy</category>
	<guid>
	http://media.radiofrance-podcast.net/podcast09/13942-15.11.2017-ITEMA_21494978-6.mp3
	</guid>
	<pubDate>Wed, 15 Nov 2017 17:40:00 +0100</pubDate>
</item>		

Dans l'exemple précedent les balises <item> et </item> encadrent un groupe données relatives au podcast d'une partie d'une émission de radio.
Dans la suite de cette séquence nous allons travailler sur un fichier XML généré par le site internet d'une radio. Ce fichier contient toutes les informations permettant d'écouter les émissions en podcast.
Ce fichier s'adresse soit à des logiciels qui vont le traiter et télécharger les émission pointées par l'utilisateur, soit à des sites internet qui vont mettre en forme utomatiquement l'ensemble des informations afin de les rendre facilement lisibles à l'utilisateur..

Téléchargez donc le fichier rss_14312.xml et visualisez-le ain de commencer à appréhender sa structure.
Il contient plus de 6000 lignes et des informations concernant une année de diffusion de l'émission "la méthode scienifique" sur France Culture.
Un tel fichier n'est pas agréablement lisible par un utilisateur, nous allons donc le traiter par un programe en python.