Autor: Conceição Rocha, Alípio Mário Jorge, Márcia Oliveira, Paula Brito, João Gama, Carlos Pimenta Título: From entity extraction to network analysis: a method and an application to a Portuguese textual source Editor: Edições Húmus & OBEGEF Data: 2014, Nov. Páginas: 20 ©: Observatório de Economia e Gestão de Fraude Formato ficheiro: pdf (portable document format) Dimensão: 4012 kb Solicitação: Transmita-nos a sua opinião sobre este trabalho. |
(Carregue na imagem para importar o livro)
Resumo:
Este artigo dá a conhecer os avanços conseguidos na extração de entidades (identificação de entidades referidas) num processo de mineração de texto cujo objetivo é revelar estruturas semânticas não triviais, tais como relações e interações entre as entidades ou comunidades. É proposto um método de três fases aplicável à língua Portuguesa e potencialmente a outras línguas. O método baseia-se em correspondência de padrões flexível, na marcação da categoria morfo-sintática de cada palavra, em regras lexicais e na distância entre os nomes das entidades. Todas as etapas são implementadas em software livre usando vários pacotes disponíveis. A avaliação da eficácia do método de extração de entidades é feita tendo por base uma parte de um livro escrito em português observando-se uma melhoria na medida F1. Para uma melhor compreensão e avaliação da utilidade do método proposto apresentamos um caso de um livro sobre Maçonaria. É também definida uma rede social das entidades referidas com base exclusivamente em citações do livro. Daí são extraídas informações estruturais que revelam conexões, relacionamentos e comunidades entre as entidades.
This paper reports advances in the entity extraction task (named entity identification) of a text mining process that aims at unveiling non-trivial semantic structures, such as relationships and interaction between entities or communities. We proposed a 3-phase method that is applicable to the Portuguese language and potentially applicable to other languages as well. The method relies on flexible pattern matching, part-of-speech tagging, lexical-based rules and distance-based entity name merging. All steps are implemented using free software and taking advantage of various existing packages. Evaluation of the efficacy of the entity extraction method on part of a book written in portuguese indicates improved F1 results. For further evaluation and illustration of the usefulness of the proposed method, it is applied to a book on Freemasonry and observe the differences in the entity word clouds produced. We also define a social network of named entities solely from information contained in the book and extract structural insights that reveal connections, relationships and communities between entities.
© Direitos de autor:
É permitida a importação gratuita.
É permitida a cópia de partes deste documento, sem qualquer modificação, para utilização individual. A reprodução de partes do seu conteúdo é permitida exclusivamente em documentos científicos, com indicação expressa da fonte.
Não é permitida qualquer utilização comercial. Não é permitida a sua disponibilização através de rede electrónica ou qualquer forma de partilha electrónica.
Em caso de dúvida ou pedido de autorização, contactar directamente o OBEGEF.