import pandas as pd # package pour la gestion des données
from matplotlib import pyplot as plt # Pour les graphiques
import seaborn as sns # Pour des graphiques plus complexes (avec plusieurs catégories)
import folium # Pour faire des cartes


# importer les données
# le chargement peut être long
spipoll_data = pd.read_csv('/home/simon/github/datasets/papers/spipoll.csv', low_memory=False)
spipoll_data # afficher l'objet importé (ici le tableau de données)


# regrouper les résultats par plante et famille de plante et compter le nombre de valeurs unique de numero d'observation
result = spipoll_data.groupby(['Plante','Famille_plante'], as_index=False)['Numero_observation'].nunique()

# renommer la colonne résultat de la ligne précédente
result = result.rename(columns={'Numero_observation': 'Nombre_observation_unique'})

# ranger les résultats dans l'ordre décroissant pour choisir des plantes avec beaucoup de données
result_sorted = result.sort_values(by='Nombre_observation_unique', ascending=False)
# afficher les 10 premiers résultats
result_sorted.head(10)


# Filtrer le DataFrame pour ne conserver que les lignes où 'Plante' est égale à 'Le Buddléia de David' ou 'Carotte sauvage' ou 'Le Romarin'
spipoll_plante_data = spipoll_data[(spipoll_data['Plante'] == 'Le Buddléia de David') | (spipoll_data['Plante'] == 'Carotte sauvage') | (spipoll_data['Plante'] == 'Le Romarin')]


# observation des données pour savoir si elles sont comparables
# dans le temps
# en fonction du mois
res_mois = spipoll_plante_data.groupby(['Plante','Mois'], as_index=False)['Numero_observation'].nunique()

# renommer la colonne résultat de la ligne précédente
res_mois = res_mois.rename(columns={'Numero_observation': 'Nombre_observation_unique'})


plt.figure(figsize=(8, 6)) # Définir la taille du graphique (largeur et hauteur)
sns.lineplot(x='Mois', # colonne à utiliser pour l'axe des x
             y='Nombre_observation_unique', # colonne à utiliser pour l'axe des y
             hue='Plante', # Créer une ligne par plante
             data=res_mois, # nom du tableau de données à utiliser
             marker='o', # code du style 
             palette={'Le Buddléia de David':'purple',
                      'Carotte sauvage':'grey',
                     'Le Romarin':'blue'}, # couleurs des lignes en fonction des noms des plantes
            )
plt.xlabel('Mois') # Nom de l'axe des x
plt.ylabel('Nombre d\'observations') # Nom de l'axe des y
plt.title('Nombre d\'observations en fonction du mois') # Ajouter un titre au graphique
plt.show() # Afficher le graphique


# dans le temps
# en fonction de l'année
res_annee = spipoll_plante_data.groupby(['Plante','Annee'], as_index=False)['Numero_observation'].nunique()
res_annee
plt.figure(figsize=(8, 6)) # Width and Height of the chart
sns.lineplot(x='Annee',
             y='Numero_observation',
             hue='Plante', # Create 2 line plots according to labels in 'z'
             data=res_annee,
             marker='o', # Style used to mark the join between 2 points
             palette={'Le Buddléia de David':'purple',
                      'Carotte sauvage':'grey',
                     'Le Romarin':'blue'}, # Colors of the lines
            )
plt.xlabel('Mois') # x-axis name
plt.ylabel('Nombre d\'observations') # y-axis name
plt.title('Nombre d\'observations en fonction de l\'année') # Add a title
# dans l'espace

Text(0.5, 1.0, "Nombre d'observations en fonction de l'année")


# construction du jeu de donnée pour les carte

res_spacial = spipoll_plante_data.groupby(['Numero_observation','Plante','Latitude', 'Longitude'], as_index=False)['Numero_observation'].nunique()

# fonction pour représenter les points dans des couleurs différentes en fonction des espèces
def get_color(type):
    # si le nom de la plante, renvoyer la couleur correspondante
    if type == 'Le Buddléia de David':
        return 'purple'
    elif type == 'Le Romarin':
        return 'blue'
    else:
        return 'gray'
    
# fonction pour créer la carte
def make_map (data, plante):
    # sélectionner uniquement les données pour la plante qui nous intéresse
    res_spacial = data[data['Plante'] == plante]
    # créer la carte initiale à la moyenne des coordonnées de tous les points
    carte = folium.Map(location=[res_spacial['Latitude'].mean(), res_spacial['Longitude'].mean()], zoom_start=6)

    # Ajouter des marqueurs à la carte pour chaque participation
    for index, row in res_spacial.iterrows():
        folium.CircleMarker(
            location=[row['Latitude'], row['Longitude']], # les coordonnées
            radius=5,  # Taille du cercle
            color=get_color(row['Plante']), # couleur en fonction de la colonne plante
            fill_color=get_color(row['Plante']), # appliquer la fonction couleur proposée plus haut
            fill_opacity=0.6, # ajouter de la transparence (0 = totalement transparent 1 = totalement opaque)
        ).add_to(carte)
    return(carte)


make_map(res_spacial, 'Le Buddléia de David')


make_map(res_spacial, 'Carotte sauvage')


make_map(res_spacial, 'Le Romarin')


Nombre_observations=spipoll_plante_data.groupby(['Plante', 'Ordre'], as_index = False ).size()

# renommer la colonne résultat de la ligne précédente
Nombre_observations = Nombre_observations.rename(columns={'size': 'Nombre_insectes'})

# Set the figure size
plt.figure(figsize=(8, 6))

# grouped barplot
ax = sns.barplot(x="Ordre", y="Nombre_insectes", hue="Plante", data=Nombre_observations, errorbar=None);
ax.set(xlabel='Ordre', ylabel='Nombre d\'observations')
plt.show()


res_plante = Nombre_observations.groupby('Plante', as_index=False).sum('Nombre_insectes')

# renommer la colonne résultat de la ligne précédente
res_plante = res_plante.rename(columns={'Nombre_insectes': 'Nombre_insectes_plante'})

res_plante


res_proportion = Nombre_observations.merge(res_plante, on='Plante')
res_proportion['proportion'] = res_proportion['Nombre_insectes'] / res_proportion['Nombre_insectes_plante']


# Set the figure size
plt.figure(figsize=(8, 6))

# grouped barplot
ax = sns.barplot(x="Ordre", y="proportion", hue="Plante", data=res_proportion, errorbar=None);
ax.set(xlabel='Ordre', ylabel='Proportion')
plt.xticks(rotation=30, ha='right', rotation_mode='anchor')
plt.tight_layout()
plt.show()


# garder les pollinisateurs les plus courants
res_proportion_red = res_proportion[res_proportion['Ordre'].isin(['Coleoptera', 'Diptera', 'Hymenoptera', 'Lepidoptera'])]
# Set the figure size
plt.figure(figsize=(8, 6))

# grouped barplot
ax = sns.barplot(x="Ordre", y="proportion", hue="Plante", data=res_proportion_red, errorbar=None);
ax.set(xlabel='Ordre', ylabel='Proportion')
plt.tight_layout()
plt.show()


# Evolution des proportions des insectes en fonction du mois de l\année

def plot_mois(insect_order):
    # filtrer pour une plante
    data_carotte = spipoll_data
    # garder les pollinisateurs les plus courants
    data_carotte_poll = data_carotte[data_carotte['Ordre'].isin(['Coleoptera', 'Diptera', 'Hymenoptera', 'Lepidoptera'])]
    data_carotte_poll_mois = data_carotte_poll.groupby(['Ordre', 'Mois'], as_index = False).size()


    data_carotte_poll_mois_sum = data_carotte_poll_mois.groupby('Mois', as_index=False).sum('size')
    # passage en proportion
    data_carotte_poll_mois_proportion = data_carotte_poll_mois.merge(data_carotte_poll_mois_sum, on='Mois')
    data_carotte_poll_mois_proportion['proportion'] = data_carotte_poll_mois_proportion['size_x'] / data_carotte_poll_mois_proportion['size_y']
    data_carotte_poll_mois_proportion = data_carotte_poll_mois_proportion[data_carotte_poll_mois_proportion['Ordre'].isin(insect_order)]
    # grouped barplot
    ax = sns.barplot(x="Mois", y="proportion", hue="Ordre", data=data_carotte_poll_mois_proportion, errorbar=None);
    ax.set(xlabel='Mois', ylabel='Nombre d\'observations')
    plt.xticks(rotation=30, ha='right', rotation_mode='anchor')
    plt.tight_layout()
    plt.show()


plot_mois(['Coleoptera'])
plot_mois(['Diptera'])
plot_mois(['Hymenoptera'])
plot_mois(['Lepidoptera'])


# Adjust layout
plt.tight_layout()

<Figure size 640x480 with 0 Axes>

	Numero_observation	Ordre	Espece	Nombre_individus	Latitude	Longitude	Heure	Mois	Annee	Temperature	Vent	Nebulosite	Plante	Famille_plante	Pollinisation_plante	Fleur_ombragee	Type_plante	Departement	Date_observation
0	2	Hymenoptera	Bourdons noirs à bande(s) jaune(s) et cul blanc	je n'ai pas l'information	48.844975	2.358313	10	6	2019	03_20-30ºC	02_faible, irrégulier	02_25-50%	Acanthe molle	Acanthaceae	entomogame	Oui	plantée	75	20/06/2019
1	2	Diptera	Mouches à damier	entre 2 et 5	48.844975	2.358313	10	6	2019	03_20-30ºC	02_faible, irrégulier	02_25-50%	Acanthe molle	Acanthaceae	entomogame	Oui	plantée	75	20/06/2019
2	2	Hymenoptera	Abeille mellifère	entre 2 et 5	48.844975	2.358313	10	6	2019	03_20-30ºC	02_faible, irrégulier	02_25-50%	Acanthe molle	Acanthaceae	entomogame	Oui	plantée	75	20/06/2019
3	17	Hemiptera	Pucerons	plus de 5	44.707981	4.667456	11	1	2019	02_10-20ºC	03_faible, continu	01_0-25%	Le Sénéçon jacobée	NaN	NaN	Non	spontanée	07	03/01/2019
4	17	Hemiptera	Pucerons	plus de 5	44.707981	4.667456	11	1	2019	02_10-20ºC	03_faible, continu	01_0-25%	Le Sénéçon jacobée	NaN	NaN	Non	spontanée	07	03/01/2019
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
583445	76214	Diptera	Mouches pâles	1	43.555448	0.207342	16	12	2023	02_10-20ºC	01_nul	04_75-100%	Euryops (Euryops chrysanthemoides)	NaN	NaN	Non	plantée	NaN	10/12/2023
583446	76214	Diptera	Moustiques, Tipules et autres diptères Nématoc...	1	43.555448	0.207342	16	12	2023	02_10-20ºC	01_nul	04_75-100%	Euryops (Euryops chrysanthemoides)	NaN	NaN	Non	plantée	NaN	10/12/2023
583447	76214	Hemiptera	Pentatomes	1	43.555448	0.207342	16	12	2023	02_10-20ºC	01_nul	04_75-100%	Euryops (Euryops chrysanthemoides)	NaN	NaN	Non	plantée	NaN	10/12/2023
583448	76214	Hemiptera	Homoptères autres	plus de 5	43.555448	0.207342	16	12	2023	02_10-20ºC	01_nul	04_75-100%	Euryops (Euryops chrysanthemoides)	NaN	NaN	Non	plantée	NaN	10/12/2023
583449	76214	Hymenoptera	Terebrants Chalcidiens et autres	1	43.555448	0.207342	16	12	2023	02_10-20ºC	01_nul	04_75-100%	Euryops (Euryops chrysanthemoides)	NaN	NaN	Non	plantée	NaN	10/12/2023

	Plante	Famille_plante	Nombre_observation_unique
751	Le Romarin	Lamiaceae	918
739	Le Lierre grimpant	Araliaceae	839
232	Carotte sauvage	Apiaceae	826
6	Achillée millefeuille	Asteraceae	610
723	Le Buddléia de David	Scrophulariaceae	594
1074	Pâquerette	Asteraceae	526
714	Laurier tin	Adoxaceae	404
716	Lavande	Lamiaceae	389
145	Berce des prés	Apiaceae	387
749	Le Prunier épineux	Rosaceae	355

Étudier les ordres d'insectes en interactions avec les plantes grâce aux données du spipoll¶

Objectifs¶

Marche à suivre¶

Chargement des packages¶

Importer les données¶

Compter le nombre d'observations réalisées par plante¶

Sélectionner les plantes sur lesquelles nous allons travailler¶

Vérifier que les données sont comparables¶

	Plante	Nombre_insectes_plante
0	Carotte sauvage	25111
1	Le Buddléia de David	8656
2	Le Romarin	6187