PBIL AutoEns: uma Ferramenta de Aprendizado de Máquina Automatizado Integrada à Plataforma Weka / PBIL AutoEns: an Automated Machine Learning Tool integrated to the Weka ML Platform

Authors

  • Cephas Alves da Silveira Barreto Brazilian Journals Publicações de Periódicos, São José dos Pinhais, Paraná
  • Anne Magaly de Paula Canuto
  • João Carlos Xavier-Júnior
  • Antonino Feitosa-Neto
  • Douglas Felipe Alves Lima
  • Ranna Raabe Fernandes da Costa

DOI:

https://doi.org/10.34117/bjdv5n12-082

Keywords:

Aprendizado de Máquina Automatizado, Algoritmos Evolutivos, Comitês de Classificadores.

Abstract

O Aprendizado de Máquina (AM) tem se popularizado nos últimos anos como uma abordagem eficiente para resolução de problemas. Existem na atualidade centenas de métodos de classificação, por exemplo, o que torna praticamente impossível analisar todos os possíveis resultados, dado que além de existirem muitos métodos, são muitas as configurações para cada um desses métodos. A partir desse problema, surgiu o conceito de Aprendizado de Máquina Automatizado (AutoML), uma técnica que busca entre diversas soluções, a melhor possível para um determinado problema, sem a necessidade de interferência humana. Este trabalho apresenta o PBIL AutoEns, uma ferramenta de AutoML que utiliza a API da plataforma WEKA para buscar soluções (modelos) dentre um grande conjunto de possibilidades. O PBIL AutoEns foi comparado com o Random Forest e XGBoost (métodos de comitês) e o MLP (classificador base). Nessa comparação, usamos uma medida de precisão preditiva muito forte (F-measure) para analisar o desempenho de classificação de todos os quatro métodos em 21 base de dados.

 

 

References

Baluja, S. and Caruana, R. (1995). Removing the genetics from the standard genetic algorithm. Machine Learning Proceedings 1995. Elsevier. p. 38–46.

Brazdil, P., Carrier, C. G., Soares, C. and Vilalta, R. (2009). Metalearning: Applications to Data Mining. Berlin Heidelberg: Springer-Verlag.

Chen, T. and Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. , KDD ’16. ACM.

De Sá, A. G., Pappa, G. L. and Freitas, A. A. (2017). Towards a method for automatically selecting and configuring multi-label classification algorithms. In Proceedings of the Genetic and Evolutionary Computation Conference Companion. . ACM.

De Sá, A. G., Pinto, W. J. G., Oliveira, L. O. V. and Pappa, G. L. (2017). RECIPE: a grammar-based framework for automatically evolving classification pipelines. In European Conference on Genetic Programming. . Springer.

Eiben, A. E., Smith, J. E. and Others (2003). Introduction to evolutionary computing. Springer. v. 53

Faceli, K., Lorena, A. C., Gama, J. and Carvalho, A. (2015). Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: Livros Técnicos e Científicos Editora Ltda. v. 2

Fernandez-Delgado, M., Cernadas, E., Barro, S. and Amorim, D. ([S.d.]). Do we Need Hundreds of Classi?ers to Solve Real World Classi?cation Problems? p. 49.

Feurer, M., Klein, A., Eggensperger, K., et al. (2015). Efficient and Robust Automated Machine Learning. In: Cortes, C.; Lawrence, N. D.; Lee, D. D.; Sugiyama, M.; Garnett, R.[Eds.]. . Advances in Neural Information Processing Systems 28. Curran Associates, Inc. p. 2962–2970.

Freitas, A. A. (2002). Data mining and knowledge discovery with evolutionary algorithms. Springer Science & Business Media.

Hall, M., Frank, E., Holmes, G., et al. (16 nov 2009). The WEKA data mining software: an update. ACM SIGKDD Explorations Newsletter, v. 11, n. 1, p. 10.

Ho, Y.-C. and Pepyne, D. L. (2002). Simple explanation of the no-free-lunch theorem and its implications. Journal of optimization theory and applications, v. 115, n. 3, p. 549–570.

Hutter, F., Kotthoff, L. and Vanschoren, J. (2019). Automated Machine Learning-Methods, Systems, Challenges. Springer.

Inza, I., Larrañaga, P. and Sierra, B. (2002). Feature subset selection by estimation of distribution algorithms. Estimation of Distribution Algorithms. Springer. p. 269–293.

Kordík, P., ?erný, J. and Frýda, T. (jan 2018). Discovering predictive ensembles for transfer learning and meta-learning. Machine Learning, v. 107, n. 1, p. 177–207.

Kotsiantis, S. B., Zaharakis, I. and Pintelas, P. (2007). Supervised machine learning: A review of classification techniques. Emerging artificial intelligence applications in computer engineering, v. 160, p. 3–24.

Kuncheva, L. I. (2004). Combining pattern classifiers: methods and algorithms. John Wiley & Sons.

Lacoste, A., Larochelle, H., Laviolette, F. and Marchand, M. (2014). Sequential model-based ensemble optimization. arXiv preprint arXiv:1402.0796,

Larrañaga, P. and Lozano, J. A. (2001). Estimation of distribution algorithms: A new tool for evolutionary computation. Springer Science & Business Media. v. 2

Lévesque, J.-C., Gagné, C. and Sabourin, R. (2016). Bayesian hyperparameter optimization for ensemble learning. arXiv preprint arXiv:1605.06394,

Mitchell, T. M. (1997). Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45, n. 37, p. 870–877.

Olson, R. S., Urbanowicz, R. J., Andrews, P. C., et al. (28 jan 2016). Automating biomedical data science through tree-based pipeline optimization. arXiv:1601.07925 [cs],

Saeys, Y., Degroeve, S., Aeyels, D., Rouzé, P. and Van de Peer, Y. (2004). Feature selection for splice site prediction: a new method using EDA-based feature ranking. BMC bioinformatics, v. 5, n. 1, p. 64.

Shelke, K., Jayaraman, S., Ghosh, S. and Valadi, J. (2013). Hybrid feature selection and peptide binding affinity prediction using an EDA based algorithm. In 2013 IEEE Congress on Evolutionary Computation. . IEEE.

Thornton, C., Hutter, F., Hoos, H. H. and Leyton-Brown, K. (2013). Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. . ACM Press. http://dl.acm.org/citation.cfm?doid=2487575.2487629, [accessed on Aug 7].

Wistuba, M., Schilling, N. and Schmidt-Thieme, L. (2017). Automatic Frankensteining: Creating complex ensembles autonomously. In Proceedings of the 2017 SIAM International Conference on Data Mining. . SIAM.

Xavier-Júnior, J. C., Freitas, A. A., Feitosa-Neto, A. and Ludermir, T. B. (2018). A Novel Evolutionary Algorithm for Automated Machine Learning Focusing on Classifier Ensembles. In 2018 7th Brazilian Conference on Intelligent Systems (BRACIS). . IEEE.

Yang, X., Dong, H. and Zhang, H. (2009). Naive bayes based on estimation of distribution algorithms for classification. In 2009 First International Conference on Information Science and Engineering. . IEEE.

Zangari, M., Santana, R., Mendiburu, A. and Pozo, A. T. R. (2017). Not all PBILs are the same: Unveiling the different learning mechanisms of variants. Applied Soft Computing, v. 53, p. 88–96.

Zhou, Z.-H. (2012). Ensemble methods: foundations and algorithms. Chapman and Hall/CRC.

Published

2019-12-06

How to Cite

Barreto, C. A. da S., Canuto, A. M. de P., Xavier-Júnior, J. C., Feitosa-Neto, A., Lima, D. F. A., & Costa, R. R. F. da. (2019). PBIL AutoEns: uma Ferramenta de Aprendizado de Máquina Automatizado Integrada à Plataforma Weka / PBIL AutoEns: an Automated Machine Learning Tool integrated to the Weka ML Platform. Brazilian Journal of Development, 5(12), 29226–29242. https://doi.org/10.34117/bjdv5n12-082

Issue

Section

Original Papers