Atualmente existem muitas fontes na forma de texto não estruturado (notícias, páginas da web) que contêm valiosas informações, relacionadas com corrupção e fraude, sobre pessoas e instituições bem como sobre a perceção pública do próprio fenômeno. A concentração de toda esta informação numa única mina de dados (o GreyMine) permitirá uma análise mais ampla, com o objetivo de obter um conhecimento mais profundo, sobre este importante tema. Como resultado fomentar-se-á uma maior consciência na sociedade o que permitirá que cidadãos eleitores, órgãos eleitos, empresas e organizações tomem decisões informadas e, como tal, melhores decisões.
O recurso a processos automáticos de extração e armazenamento da informação contida nos textos é justificado quer pelo volume quer pela variedade de dados provenientes dessas fontes. Uma ferramenta útil nesse processo de extração é a tecnologia associada ao Text mining, nomeadamente, a extração de informação, identificação de relacionamentos entre entidades, extração de opinião, análise de sentimento, classificação e agrupamento de documentos de texto. Neste processo é, também, importante ter consciência das datas e intervalos de tempo a que se referem as informações e os locais onde decorrem as ações.
A utilização destes dados é potencialmente ilimitada. Ter uma fonte de dados abertos, tendo em consideração as restrições legais, será de grande valia para a economia e para a sociedade. Numa primeira fase pretende-se explorar, sob a forma de redes sociais dinâmicas, quer as ligações entre as entidades quer a evolução dessas ligações ao longo do tempo. |
There are nowadays many textual sources (news, web pages) around us that contain potentially valuable information, related to fraud and corruption, about people and institutions and about public perception of the phenomenon. Having all this information concentrated in one Data Mine (the GreyMine) will make it possible for analysis to be done and applications to be developed aiming at obtaining deeper knowledge on this important topic. This will provide growing awareness in society and allow for better decisions to be made - by citizen voters, elected bodies, companies and organizations.
Given the very large volume and variety of data from these sources, it is mandatory that it is automatically extracted and stored efficiently. Text mining technology is important for extraction, this includes information extraction, entity relationship identification, opinion mining, sentiment analysis, text classification and text clustering. It is important to be time aware. Location is also important.
The use of this data is potentially unlimited. Being able to have an open data source, taking legal restrictions into consideration, would be highly valuable for society and economy. In a first stage we intend to exploit the links between entities and their evolution with time in the form of dynamic social networks. |