install.packages("palmerpenguins")
1 Présentation des jeux de données
Nous aurons a utiliser lors de cet atelier 3 jeux de données pour pratiquer les différentes analyses. Nous présentons ici chaque jeu de données ainsi que le moyen de l’installer ou le charger.
1.1 Le jeu de données penguins
1.1.1 A propos
Le jeu de données Penguins est un jeu de données collectées et mises à disposition par le Dr. Kristen Gorman et la station Palmer, Antarctica LTER, membre du Long Term Ecological Research Network (réseau de recherche écologique à long terme) et mise à disposition de la communauté R au travers du package palmerpenguins
.
Le jeu de données s’appelle penguins
, mais fait références en français à des manchots et non à des pingouins. Pour rappel, il y a deux différences fondamentales entre les pingouins et les manchots: leur répartition géographique et leur (in)capacité à voler. Les pingouins vivent dans l’hémisphère nord et ils peuvent voler! Quant aux manchots, ils ne peuvent pas voler et ils vivent dans l’hémisphère sud. Cependant, lors de ce atelier nous allons faire reference a ce jeu de données en utilisant le terme penguins
pour garder le nom original du jeu de données.
Le jeu de données contient des données de 344 manchots. Il y a 3 espèces différentes de manchots dans ce jeu de données Figure 1.2, collectées sur 3 îles de l’archipel de Palmer, en Antarctique.
1.1.2 Installation et description courte
Le package est disponible sur le CRAN et peut être installé à partir de la console R en utilisant la commande ci-dessous:
Le jeu de donnée est composé de 344 observations et de 8 variables:
str(penguins)
tibble [344 × 8] (S3: tbl_df/tbl/data.frame)
$ species : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
$ island : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
$ bill_length_mm : num [1:344] 39.1 39.5 40.3 NA 36.7 39.3 38.9 39.2 34.1 42 ...
$ bill_depth_mm : num [1:344] 18.7 17.4 18 NA 19.3 20.6 17.8 19.6 18.1 20.2 ...
$ flipper_length_mm: int [1:344] 181 186 195 NA 193 190 181 195 193 190 ...
$ body_mass_g : int [1:344] 3750 3800 3250 NA 3450 3650 3625 4675 3475 4250 ...
$ sex : Factor w/ 2 levels "female","male": 2 1 1 NA 1 2 1 2 NA NA ...
$ year : int [1:344] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...
Les différentes variables sont l’espèce, l’île (lieu de collecte des données), la longueur du culmen (mm), la profondeur du culmen (mm), la longueur de la nageoire (mm), le poids (g), le sexe et l’année de l’étude. Le culmen est appelé bill dans le jeu de donnée. En zoologie, le culmen est l’arête dorsale de la mandibule supérieure des oiseaux Figure 1.3.
Pour rappel, la description complète du format du jeu de donnée est disponible directement dans R en utilisant la commande ?penguins
.
1.2 Le jeu de donnée loyn
1.2.1 A propos
Les densités d’oiseaux forestiers ont été mesurées dans 56 parcelles forestières du sud-est de l’État de Victoria, en Australie. L’objectif de l’étude était de relier les densités d’oiseaux à six variables d’habitat : taille de la parcelle forestière, distance par rapport à la parcelle la plus proche, distance par rapport à la parcelle plus grande la plus proche, altitude moyenne de la parcelle, année d’isolement par défrichement et indice de l’histoire du pâturage des animaux (1 = léger, 5 = intensif).
1.2.2 Variables
Variable | Description | Type |
---|---|---|
abundance | Densité d’oiseaux dans une parcelle de forêt | Variable réponse continue |
area | Taille de la parcelle forestière | Variable explicative continue |
distance | Distance par rapport à l’îlot le plus proche | Variable explicative continue |
ldistance | Distance par rapport à l’îlot plus grand le plus proche | Variable explicative continue |
altitude | Altitude moyenne de la parcelle | Variable explicative continue |
year | Année d’isolement | Variable explicative continue |
graze | Indice d’intensité du pâturage | Variable nominale explicative avec 5 niveaux: 1 (faible) à 5 (intensif) |
1.2.3 Importer les données
<- read.table("Loyn.txt", header=TRUE) loyn
1.3 Le jeu de données roadkills
1.3.1 A propos
Le cycle de vie de la plupart des amphibiens comporte une phase aquatique, correspondant à la reproduction, au développement des têtards et à la métamorphose, et une phase terrestre, au cours de laquelle les individus utilisent un territoire adjacent pour se nourrir, s’abriter, passer des périodes de dormance ou d’hivernage (Semlitsch et Bodie, 2003). Des niveaux élevés de mortalité routière se produisent lorsque les routes traversent les voies de migration des amphibiens vers et depuis les sites de ponte ou pendant la dispersion des juvéniles (Langton, 2002).
Ces données proviennent d’une étude de deux ans sur la mortalité routière des vertébrés sur une route nationale du sud du Portugal (IP2, tronçon Portalegre- Monforte, 27 km de long). La route étudiée a des accotements pavés, deux voies et un trafic modéré (moins de 10 000 véhicules par jour). Les abords de la route sont dominés par des peuplements de chênes-lièges Quercus suber et de chênes verts Q. rotundifolia, appelés “montado”, et par des terres ouvertes, notamment des pâturages, des prairies et des jachères.
La route a été inspectée toutes les deux semaines entre mars 1995 et mars 1997. Les relevés ont été effectués par une voiture roulant lentement (10-20 km par heure) le long de la route sur la bande d’arrêt d’urgence. Chaque animal trouvé mort a été identifié au niveau de l’espèce, dans la mesure du possible, et sa localisation géographique, en coordonnées UTM, a été déterminée à l’aide d’une cartographie détaillée (1:2000) des profils routiers horizontaux et verticaux et de photographies aériennes. Toutes les carcasses ont été retirées de la route afin d’éviter un double comptage.
Pour les besoins de l’analyse des données, la route a été divisée en segments de 500 mètres. La variable réponse est le nombre total de décès d’amphibiens par segment. Tous les animaux trouvés morts sur chaque segment ont été attribués aux coordonnées de son point central.
Variable | Abbreviation |
---|---|
Terres ouvertes (ha) | OPEN.L |
Sillon d’olives (ha) | OLIVE |
Montado avec des arbustres (ha) | MONT.S |
Montado sans arbustres (ha) | MONT |
Policulture (ha) | POLIC |
Arbustres (ha) | SHRUB |
Urbain (ha) | URBAN |
Reservoirs d’eau | WAT.RES |
Longueur des cours d’eaux (km) | L.WAT.C |
Longueur de routes mal entretenues (m) | L.D.ROAD |
Longueur des routes entretenues | L.P.ROAD |
Distance des reservoirs d’eau | D.WAT.RES |
Distance des cours d’eaux | D.WAT.COUR |
Distance du parc naturel | D.PARK |
Nombre de parcelles habitées | N.PATCH |
Limites du perimetre | P.EDGE |
Indice de Shannon du paysage | L.SDI |