1  Présentation des jeux de données

Nous aurons a utiliser lors de cet atelier 3 jeux de données pour pratiquer les différentes analyses. Nous présentons ici chaque jeu de données ainsi que le moyen de l’installer ou le charger.

1.1 Le jeu de données penguins

1.1.1 A propos

Figure 1.1: Palmer penguins hex sticker (Artwork by allison_horst)

Le jeu de données Penguins est un jeu de données collectées et mises à disposition par le Dr. Kristen Gorman et la station Palmer, Antarctica LTER, membre du Long Term Ecological Research Network (réseau de recherche écologique à long terme) et mise à disposition de la communauté R au travers du package palmerpenguins.

Le jeu de données s’appelle penguins, mais fait références en français à des manchots et non à des pingouins. Pour rappel, il y a deux différences fondamentales entre les pingouins et les manchots: leur répartition géographique et leur (in)capacité à voler. Les pingouins vivent dans l’hémisphère nord et ils peuvent voler! Quant aux manchots, ils ne peuvent pas voler et ils vivent dans l’hémisphère sud. Cependant, lors de ce atelier nous allons faire reference a ce jeu de données en utilisant le terme penguins pour garder le nom original du jeu de données.

Le jeu de données contient des données de 344 manchots. Il y a 3 espèces différentes de manchots dans ce jeu de données Figure 1.2, collectées sur 3 îles de l’archipel de Palmer, en Antarctique.

Figure 1.2: Les espèces de manchots dans palmerpenguins

1.1.2 Installation et description courte

Le package est disponible sur le CRAN et peut être installé à partir de la console R en utilisant la commande ci-dessous:

install.packages("palmerpenguins")

Le jeu de donnée est composé de 344 observations et de 8 variables:

str(penguins)
tibble [344 × 8] (S3: tbl_df/tbl/data.frame)
 $ species          : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ island           : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ bill_length_mm   : num [1:344] 39.1 39.5 40.3 NA 36.7 39.3 38.9 39.2 34.1 42 ...
 $ bill_depth_mm    : num [1:344] 18.7 17.4 18 NA 19.3 20.6 17.8 19.6 18.1 20.2 ...
 $ flipper_length_mm: int [1:344] 181 186 195 NA 193 190 181 195 193 190 ...
 $ body_mass_g      : int [1:344] 3750 3800 3250 NA 3450 3650 3625 4675 3475 4250 ...
 $ sex              : Factor w/ 2 levels "female","male": 2 1 1 NA 1 2 1 2 NA NA ...
 $ year             : int [1:344] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...

Les différentes variables sont l’espèce, l’île (lieu de collecte des données), la longueur du culmen (mm), la profondeur du culmen (mm), la longueur de la nageoire (mm), le poids (g), le sexe et l’année de l’étude. Le culmen est appelé bill dans le jeu de donnée. En zoologie, le culmen est l’arête dorsale de la mandibule supérieure des oiseaux Figure 1.3.

Figure 1.3: Description du culmen des manchots

Pour rappel, la description complète du format du jeu de donnée est disponible directement dans R en utilisant la commande ?penguins.

1.2 Le jeu de donnée loyn

1.2.1 A propos

Les densités d’oiseaux forestiers ont été mesurées dans 56 parcelles forestières du sud-est de l’État de Victoria, en Australie. L’objectif de l’étude était de relier les densités d’oiseaux à six variables d’habitat : taille de la parcelle forestière, distance par rapport à la parcelle la plus proche, distance par rapport à la parcelle plus grande la plus proche, altitude moyenne de la parcelle, année d’isolement par défrichement et indice de l’histoire du pâturage des animaux (1 = léger, 5 = intensif).

1.2.2 Variables

Variable Description Type
abundance Densité d’oiseaux dans une parcelle de forêt Variable réponse continue
area Taille de la parcelle forestière Variable explicative continue
distance Distance par rapport à l’îlot le plus proche Variable explicative continue
ldistance Distance par rapport à l’îlot plus grand le plus proche Variable explicative continue
altitude Altitude moyenne de la parcelle Variable explicative continue
year Année d’isolement Variable explicative continue
graze Indice d’intensité du pâturage Variable nominale explicative avec 5 niveaux: 1 (faible) à 5 (intensif)

1.2.3 Importer les données

loyn <- read.table("Loyn.txt", header=TRUE)

1.3 Le jeu de données roadkills

1.3.1 A propos

Le cycle de vie de la plupart des amphibiens comporte une phase aquatique, correspondant à la reproduction, au développement des têtards et à la métamorphose, et une phase terrestre, au cours de laquelle les individus utilisent un territoire adjacent pour se nourrir, s’abriter, passer des périodes de dormance ou d’hivernage (Semlitsch et Bodie, 2003). Des niveaux élevés de mortalité routière se produisent lorsque les routes traversent les voies de migration des amphibiens vers et depuis les sites de ponte ou pendant la dispersion des juvéniles (Langton, 2002).

Ces données proviennent d’une étude de deux ans sur la mortalité routière des vertébrés sur une route nationale du sud du Portugal (IP2, tronçon Portalegre- Monforte, 27 km de long). La route étudiée a des accotements pavés, deux voies et un trafic modéré (moins de 10 000 véhicules par jour). Les abords de la route sont dominés par des peuplements de chênes-lièges Quercus suber et de chênes verts Q. rotundifolia, appelés “montado”, et par des terres ouvertes, notamment des pâturages, des prairies et des jachères.

La route a été inspectée toutes les deux semaines entre mars 1995 et mars 1997. Les relevés ont été effectués par une voiture roulant lentement (10-20 km par heure) le long de la route sur la bande d’arrêt d’urgence. Chaque animal trouvé mort a été identifié au niveau de l’espèce, dans la mesure du possible, et sa localisation géographique, en coordonnées UTM, a été déterminée à l’aide d’une cartographie détaillée (1:2000) des profils routiers horizontaux et verticaux et de photographies aériennes. Toutes les carcasses ont été retirées de la route afin d’éviter un double comptage.

Pour les besoins de l’analyse des données, la route a été divisée en segments de 500 mètres. La variable réponse est le nombre total de décès d’amphibiens par segment. Tous les animaux trouvés morts sur chaque segment ont été attribués aux coordonnées de son point central.

Variable Abbreviation
Terres ouvertes (ha) OPEN.L
Sillon d’olives (ha) OLIVE
Montado avec des arbustres (ha) MONT.S
Montado sans arbustres (ha) MONT
Policulture (ha) POLIC
Arbustres (ha) SHRUB
Urbain (ha) URBAN
Reservoirs d’eau WAT.RES
Longueur des cours d’eaux (km) L.WAT.C
Longueur de routes mal entretenues (m) L.D.ROAD
Longueur des routes entretenues L.P.ROAD
Distance des reservoirs d’eau D.WAT.RES
Distance des cours d’eaux D.WAT.COUR
Distance du parc naturel D.PARK
Nombre de parcelles habitées N.PATCH
Limites du perimetre P.EDGE
Indice de Shannon du paysage L.SDI