Please use this identifier to cite or link to this item: http://archives.univ-biskra.dz/handle/123456789/24143
Title: TECHNIQUE BASEE HITS/SVM POUR LA REDUCTION ET LA PONDERATION DES CARACTERISTIQUES DES PAGES WEB
Authors: MEADI, MOHAMED NADJIB
Keywords: Web mining, Classification des pages Web, Sélection des caractéristiques, Analyse des liens, HITS, SVM
Issue Date: 2017
Abstract: Le nombre de pages Web publiées sur le World Wide Web est estimé des centaines de millions. La fouille de ces pages demande un effort intellectuel incroyable qui dépasse les capacités humaines. Pour ce problème, il est conseillé d'utiliser de classificateurs automatiques qui permettent d'organiser et d'obtenir des informations de ces importantes ressources. En général, les classificateurs automatique de pages Web doivent gérer des millions de pages web, des dizaines de milliers de caractéristiques (généralement des termes) et des centaines de catégories. La plupart des classificateurs utilisent le modèle vectoriel pour représenter l'ensemble des pages Web. Ce modèle produit des vecteurs des caractéristiques de taille importante, ce qui va ralentir le temps de traitement et augmenter les demandes de ressources. Par conséquent, il y a une demande croissante pour atténuer ces problèmes en réduisant la dimension des données d'entrée sans dégrader les performances des classificateurs. La littérature compte plusieurs travaux de réduction de dimensions, mais le problème est que ces propositions importent des techniques qui consomment beaucoup de temps qui peuvent influencer sur le temps de l'apprentissage des classificateurs. Dans cette thèse, nous proposons une approche novatrice qui améliore les classificateurs de la page Web en réduisant la dimension des données d'entrée c-à-d sélection de caractéristiques, en sélectionnant les plus importantes. Nous avons présenté l'importance d'une caractéristiques par une valeur qui s'appelle " valeur d'autorité " Cette dernière est l'une de deux sorties de l'algorithme HITS (Hypertext Induced Topic Search). Cet algorithme est très connu dans le domaine de l'analyse des liens où il est utilisé pour classer les pages Web selon leur importance dans le corpus d'entrée. Pour valider notre approche, nous l'avons comparée avec deux algorithmes de sélection des caractéristiques, qui sont chi-square et information gain, et nous sommes arrivé à des résultats très encourageants qui confirment la possibilité d'utiliser notre proposition comme un sélecteur des caractéristiques. Nous proposons aussi d'utiliser le vecteur des autorités pour calculer les poids des caractéristiques restantes. Nous avons évalué la précision de notre approche en la comparant au classificateur TFIDF en tant qu'un modèle de pondération et nous sommes arrivés à des résultats très compétitifs. Ces résultats confirment que notre approche peut être utilisée comme un schéma de pondération. D'après les expérimentations que nous avons effectué sur plusieurs ensembles des pages Web, nous avons remarqué que notre approche réduit considérablement le temps nécessaire pour la classification
URI: http://archives.univ-biskra.dz/handle/123456789/24143
Appears in Collections:Informatique



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.