Phishing Website Detection Using Random Forest and Support Vector Machine: A Comparison

AbstractSelection of markers linked to alleles at quantitative trait loci (QTL) for tolerance to Iron Deficiency Chlorosis (IDC) has not been successful. Genomic selection has been advocated for continuous numeric traits such as yield and plant height. For ordinal data types such as IDC, genomic prediction models have not been systematically compared. The objectives of research reported in this manuscript were to evaluate the most commonly used genomic prediction method, ridge regression and it’s equivalent logistic ridge regression method, with algorithmic modeling methods including random forest, gradient boosting, support vector machine, K-nearest neighbors, Naïve Bayes, and artificial neural network using the usual comparator metric of prediction accuracy. In addition we compared the methods using metrics of greater importance for decisions about selecting and culling lines for use in variety development and genetic improvement projects. These metrics include specificity, sensitivity, precision, decision accuracy, and area under the receiver operating characteristic curve. We found that Support Vector Machine provided the best specificity for culling IDC susceptible lines, while Random Forest GP models provided the best combined set of decision metrics for retaining IDC tolerant and culling IDC susceptible lines.

Download Full-text

Mapeamento da Vegetação Nativa do Cerrado na Região de Três Lagoas-MS com o Google Earth Engine

Revista Brasileira de Cartografia ◽

10.14393/rbcv71n3-47461 ◽

2019 ◽

Vol 71 (3) ◽

pp. 702-725

Author(s):

Nayara Vasconcelos Estrabis ◽

José Marcato Junior ◽

Hemerson Pistori

Keyword(s):

Support Vector Machine ◽

Random Forest ◽

Google Earth ◽

Support Vector ◽

Landsat 8 ◽

Landsat 8 Oli ◽

Google Earth Engine

O Cerrado é um dos biomas existentes no Brasil e o segundo mais extenso da América do Sul. Possui grande importância devido a sua biodiversidade, ecossistema e principalmente por servir como um reservatório, ou “esponja”, que distribui água para os demais biomas, além de ser berço de nascentes de algumas das maiores bacias da América do Sul. No entanto, devido às atividades antrópicas praticadas (com destaque para a pecuária e silvicultura) e a redução da vegetação nativa, este bioma está ameaçado. Considerado como hotspot em biodiversidade, o Cerrado pode não existir em 2050. Com a necessidade de sua preservação, o objetivo desse trabalho consistiu em investigar o uso de algoritmos de aprendizado de máquina para realizar o mapeamento da vegetação nativa existente na região do município de Três Lagoas, utilizando a plataforma em nuvem Google Earth Engine. O processo foi realizado com uma imagem Landsat-8 OLI, datada de 10 de outubro de 2018, e com os algoritmos Random Forest (RF) e Support Vector Machine (SVM). Na validação da classificação, o RF e o SVM apresentaram índices kappa iguais a 0,94 e 0,97, respectivamente. O RF, quando comparado ao SVM, apresentou classificação mais ruidosa. Por fim, verificou-se a existência de vegetação nativa de aproximadamente 2556 km² ao adotar o RF e 2873 km² ao adotar SVM.

Download Full-text

Comparison of support vector machine, random forest and neural network classifiers for tree species classification on airborne hyperspectral APEX images

European Journal of Remote Sensing ◽

10.1080/22797254.2017.1299557 ◽

2017 ◽

Vol 50 (1) ◽

pp. 144-154 ◽

Cited By ~ 95

Author(s):

Edwin Raczko ◽

Bogdan Zagajewski

Keyword(s):

Neural Network ◽

Support Vector Machine ◽

Random Forest ◽

Tree Species ◽

Support Vector ◽

Species Classification ◽

Tree Species Classification ◽

Neural Network Classifiers

Download Full-text

Αρχιτεκτονικές βαθιάς μάθησης στην Γλωσσική Τεχνολογία

10.12681/eadd/49889 ◽

2021 ◽

Author(s):

Δέσποινα Μουρατίδη

Keyword(s):

Support Vector Machine ◽

Random Forest ◽

Support Vector

Η αυτόματη αξιολόγηση της μηχανικής μετάφρασης αποτελεί ένα από τα σημαντικότερα ζητήματα στον οικείο ερευνητικό χώρο. Μάλιστα, οι περισσότερες μέθοδοι αυτόματης αξιολόγησης επικεντρώνονται στην αξιολόγηση της παραγόμενης μετάφρασης και υπολογίζουν το βαθμό της ομοιότητας με τη μετάφραση αναφοράς, έχοντας ως στόχο τον προσδιορισμό της ποιότητας της μετάφρασης. Η παρούσα διδακτορική διατριβή προτείνει και παρουσιάζει ένα βαθύ σχήμα μάθησης, με τη χρήση νευρωνικών δικτύων, το οποίο μπορεί να εφαρμοστεί σε πολλά ζητήματα μηχανικής μάθησης. Το προτεινόμενο σχήμα βασίζεται σε διαφορετικές κατηγορίες πληροφοριών (γλωσσικά χαρακτηριστικά, μετρικές επεξεργασίας φυσικής γλώσσας, διανυσματικές αναπαραστάσεις των λέξεων, καθώς και στη μετάφραση αναφοράς). Οι παραγόμενες μεταφράσεις που χρησιμοποιήθηκαν στα πειράματα προέκυψαν από ένα σύστημα στατιστικής μηχανικής μετάφρασης και ένα σύστημα νευρωνικής μηχανικής μετάφρασης. Το προτεινόμενο μοντέλο εφαρμόστηκε σε δύο ζεύγη γλωσσών: Αγγλικά - Ελληνικά και Αγγλικά - Ιταλικά. Σε αυτό το πλαίσιο, διεξήχθησαν ευρείας κλίμακας πειράματα με διαφορετικές παραμέτρους. Η παρούσα εργασία διερευνά επίσης τις διαφορές που επηρεάζουν την επίδοση της αξιολόγησης της μηχανικής μετάφρασης μεταξύ διαφορετικών ειδών κειμένων. Επιπλέον, διεξάγεται μια συγκριτική μελέτη μεταξύ της χρήσης ενός απλού επιπέδου διανυσματικής αναπαράστασης και ενός επιπέδου που χρησιμοποιεί προ-εκπαιδευμένες διανυσματικές αναπαραστάσεις. Επιπροσθέτως, πραγματοποιήθηκε ανάλυση αφενός του αντίκτυπου στην ορθότητα ταξινόμησης, αφετέρου των μεθόδων επιλογής και μείωσης της διαστασης των χαρακτηριστικών.Τα αποτελέσματα της έρευνας καταδεικνύουν πως η χρήση ενός μοντέλου νευρωνικών δικτύων με διαφορετικές εισόδους (προτεινόμενο μοντέλο) παρουσιάζει πολύ καλά αποτελέσματα σε ό,τι αφορά την αξιολόγηση της μηχανικής μετάφρασης, τόσο σε κείμενα με πλούσια δομή και λέξιλόγιο, όσο και σε κείμενα με «θόρυβο». Επιπροσθέτως, στοχεύοντας στην πλέον ολοκληρωμένη ανάλυση των αποτελεσμάτων επίδοσης, πραγματοποιήθηκε γλωσσική ανάλυση για την αντιμετώπιση σύνθετων γλωσσικών φαινομένων. Η προτεινόμενη αρχιτεκτονική είναι ανεξάρτητη της γλώσσας, στην οποία εφαρμόζεται και επιτυγχάνει υψηλότερη ορθότητα ταξινόμησης σε σύγκριση με μοντέλα που χρησιμοποιούν πληροφορίες βαθμολογίας BLEU, καθώς και άλλες προσεγγίσεις ταξινόμησης, όπως το Random Forest (RF) και το Support Vector Machine (SVM).Επίσης, μια παραλλαγή του προτεινόμενου σχήματος χρησιμοποιήθηκε για την εκτίμηση της ποιότητας της μηχανικής μετάφρασης. Το εν λόγω σχήμα απαιτεί περιορισμένους πόρους δεδομένων και βασίζεται σε πληροφορίες σχετικά με τις προτάσεις πηγής και με γλωσσικά χαρακτηριστικά. Προτείνεται λοιπόν ένας νέος αυτόματος τρόπος προσδιορισμού της καλύτερης μετάφρασης μέσω της χρήσης της βαθμολογίας της εκτίμησης ποιότητας (QE score). Το QE score βασίζεται σε χαρακτηριστικά τα οποία υπολογίζονται από τις προτάσεις πηγής και τις παραγόμενες μεταφράσεις. Τα αποτελέσματα κατέδειξαν μια ικανοποιητική επίδοση για το προτεινόμενο μοντέλο των νευρωνικών δικτύων, συγκριτικά με τα προϋπάρχοντα μοντέλα, τα οποία απαιτούν περισσότερους πόρους για την αξιολόγηση της μηχανικής μετάφρασης.Το προτεινόμενο σχήμα εφαρμόσθηκε επίσης και στο ζήτημα της αυτόματης ανίχνευσης ψευδών ειδήσεων. Κατά την τελευταία δεκαετία, παρατηρείται αυξανόμενος αριθμός χρηστών κοινωνικών δικτύων, γεγονός που ενδέχεται να οδηγήσει στην εμφάνιση ψευδών προφίλ, ψευδών ειδήσεων και προπαγάνδας από κακόβουλους χρήστες. Το προτεινόμενο σχήμα έκανε χρήση διανυσματικών αναπαραστάσεων από τις προτάσεις των ειδήσεων και χρησιμοποιεί γλωσσικά χαρακτηριστικά και χαρακτηριστικά δικτύου. Επιπλέον, τα tweets χωρίσθηκαν σε τίτλους ειδήσεων και σε κείμενο ειδήσεων, ενώ μια εκτεταμένη πειραματική ρύθμιση εκτέλεσε επί αυτών δοκιμές ταξινόμησης και τα αποτελέσματα έδειξαν απόδοση υψηλής ακρίβειας στην ανίχνευση ψευδών ειδήσεων. Η προτεινόμενη αρχιτεκτονική βαθιάς μάθησης υπερτερεί των σύγχρονων ταξινομητών και χρησιμοποιεί λιγότερα χαρακτηριστικά και ενσωματώσεις από το κείμενο του tweet.

Download Full-text

Comparative Performance of Random Forest and Support Vector Machine Classifiers for Detection of Colorectal Lesions in CT Colonography

Lecture Notes in Computer Science - Abdominal Imaging. Computational and Clinical Applications ◽

10.1007/978-3-642-28557-8_4 ◽

2012 ◽

pp. 27-34 ◽

Cited By ~ 6

Author(s):

Janne J. Näppi ◽

Daniele Regge ◽

Hiroyuki Yoshida

Keyword(s):

Support Vector Machine ◽

Random Forest ◽

Ct Colonography ◽

Support Vector ◽

Comparative Performance

Download Full-text