Analyse complète de la PNL. Bonjour les gars, bienvenue dans cette technique…
अंश
Suivre
--
Écouter
Partager
Bonjour les gars, bienvenue sur ce blog technique
La forme complète du PNL est donc le traitement du langage naturel.
Un peu de contexte sur son passé
« Le domaine du traitement du langage naturel a débuté dans les années 1940, après la Seconde Guerre mondiale. À cette époque, les gens reconnaissaient l’importance de la traduction d’une langue à une autre et espéraient créer une machine capable d’effectuer ce type de traduction automatiquement. Cependant, la tâche n’était évidemment pas aussi facile qu’on l’imaginait au départ.
« Dans les années 1980, on a assisté à une évolution vers la PNL statistique, qui utilise des algorithmes d'apprentissage automatique pour apprendre les relations statistiques entre les mots et les phrases. Les systèmes de PNL statistiques sont plus robustes et évolutifs que les systèmes basés sur des règles, et ils ont été utilisés pour obtenir des résultats significatifs dans diverses tâches de PNL, telles que la traduction automatique, la reconnaissance vocale et la synthèse de texte.
Pourquoi avons-nous réellement besoin de la PNL
Le traitement du langage naturel (NLP) aide les ordinateurs à communiquer avec les humains dans leur propre langue et à réaliser d'autres tâches liées à la langue. Cependant, la parole humaine est bien plus complexe que la plupart des gens ne le pensent. Il existe des règles, comme l’orthographe et la grammaire, mais la manière dont nous interprétons la parole et le texte est beaucoup moins bien définie. Par exemple, comment savoir quand une personne est sarcastique ? Dans le langage humain, les mots peuvent dire une chose, mais le contexte et le ton peuvent donner à ces mots une autre signification. Il faut aux humains une demi-vie pour apprendre les nuances subtiles du langage. Ainsi, la PNL vient comme un sauveur de vie et la gère très bien. La PNL permet aux ordinateurs de comprendre le langage naturel comme le font les humains. Il utilise l’IA pour prendre des données du monde réel et les traiter de manière à ce qu’elles soient suffisamment sensibles pour que l’ordinateur les comprenne.
Éléments techniques derrière la PNL
Cela implique quatre étapes principales pour le prétraitement des données
Tokenisation: Dans cette étape, le texte est décomposé en unités plus petites pour travailler, par exemple, la phrase peut être symbolisée en mots.
Suppression des mots vides :Les mots les moins pertinents sont supprimés du texte commeà, pour et.
Lemmatisation et radicalisation : C’est à ce moment-là que les mots sont réduits à leurs formes racines pour être traités. Par exemple, Caring renverrait Care, et working renverrait Work.
Marquage d'une partie du discours :C'est à ce moment-là que les mots sont marqués en fonction de la partie du discours qu'ils représentent, comme les noms, les verbes et les adjectifs.
Traitement du langage naturel : Il s'agit de la capacité des programmes informatiques à comprendre le langage humain tel qu'il est parlé et écrit. C'est une composante de l'IA.
En apparence, il s’agit uniquement des étapes de prétraitement des données. Passons maintenant à la partie algorithme.
Il utilise principalement deux algorithmes
Système basé sur des règles: Il suit des règles dédiées basées sur la langue.
Approche d'apprentissage automatique : Des méthodes statiques sont utilisées dans cette approche. Ils effectuent des tâches basées sur la formation, tout comme certains algorithmes d'apprentissage automatique traditionnels.
Comprenons-le maintenant à travers un code pour mieux comprendre.
L'objectif du projet était donc de résumer de longs paragraphes en un texte plus petit et plus pertinent.
Les bibliothèques les plus importantes ici sont NLTK, text blob, spacy, sklearn et seaborn
NLTK Fullform est une boîte à outils en langage naturel, elle embarque toutes les règles générales de grammaire pour faire comprendre à la machine. le contexte humain
J'ai extrait le corpus en utilisant la méthode du web scrapping puis j'ai nettoyé le texte en utilisant des techniques traditionnelles.
J'ai extrait le premier article neutre de Wikipédia, puis quelques articles sur les avantages des véhicules électriques. J'ai extrait l'article sur les inconvénients du VE.
Voici quelques-unes des façons dont j'ai nettoyé les données
J'ai nommé le corpus de trois articles comme combine_corpus et j'ai supprimé les espaces et certaines données non pertinentes
Ensuite, j'ai importé le fichier nltk. tokenize pour supprimer les mots vides