sexta-feira, 27 de março de 2015

IBM: Descubra e use terminologia do mundo real com o IBM Watson Content Analytics

Desenvolva dicionários de domínio de amostra para análise de dados

 Use análise linguística no IBM® Watson™ Content Analytics (WCA) para explorar terminologias específicas do domínio e desenvolva dicionários de domínio que reflitam as preferências de vocabulário da "vida real" dos usuários. Use esses dicionários no WCA Studio para desenvolver anotadores de conceito.



Argumentos a favor de dados não estruturados

Há muito interesse sobre a variedade de informações que a sociedade produz em quantidades sempre crescentes (seja nas empresas, na web ou em redes sociais). É possível usar esses dados de várias maneiras para produzir insights que podem melhorar a saúde, a democracia ou a maneira como você faz negócios. Esses insights baseados em dados são o playground tradicional de Analytics ou Business Intelligence (BI), que normalmente contam com dados estruturados, como datas, valores financeiros, quantidades ou nomes de empresas. Porém, a maioria dos dados está em formato não estruturado — textos, imagens, filmes— em proporções que variam de 70% para dados corporativos a quase 100% para mídia social.Qualquer aplicativo de análise que use apenas dados estruturados o faz, portanto, sem cerca de quatro quintos das informações disponíveis. Extrair informações estruturadas de fontes não estruturadas parece ser obrigatório na era de Big Data. Este tutorial foca em dados textuais e mostra como extrair informações terminológicas relevantes para um domínio de negócios.
IBM Watson Content Analytics
O IBM Content Analytics com procura corporativa é uma plataforma de procura e análise. Ele utiliza análise de rich text para trazer à tona novos insights acionáveis de muitas fontes e tipos de conteúdo textual, incluindo conteúdo corporativo, conteúdo da web (como mídia social), email ou bancos de dados.Na prática, o IBM Watson Content Analytics (WCA) pode ser usado de duas maneiras gerais:Uso imediato de visualizações analíticas para produzir insights rápidos por meio de conjuntos dimensionáveis de conteúdos. Essas visualizações costumam operar em máscaras. Máscaras são aspectos significativos dos documentos derivados de metadados que já estão estruturados (por exemplo, data, autor, tags) ou de conceitos extraídos de conteúdo textual.
Por meio da extração de entidades ou conceitos para uso por visualização de análise do WCA ou outras soluções de recebimento de dados. Exemplos típicos incluem a mineração de relatórios de análises de laboratório ou de médicos para preencher prontuários de pacientes, extrair entidades nomeadas e relacionamentos para alimentar software de investigação ou definir uma tipologia de sentimentos expressos em redes sociais para melhorar a análise estatística do comportamento do consumidor.

O WCA usa a tecnologia de processamento de linguagem natural (NLP) para extrair informações sobre dados não estruturados (ou textos). Essas informações podem ser encontradas nos seguintes formatos:Conceitos ou entidades atômicas, como pessoas, lugares, empresas, peças de aeronaves, ações de manufatura;
Combinações das informações anteriores, geralmente envolvendo algum nível de relacionamento entre os conceitos. Como exemplo, podemos mencionar uma pessoa e seu trabalho, uma empresa e o domínio do seu setor, a operação de manutenção de uma peça de aeronave específica, um antecedente médico de um paciente que envolva uma ligação familiar e um problema de saúde.
O WCA processa texto bruto de fontes de conteúdo por meio de um pipeline de operações em conformidade com o padrão da UIMA. A UIMA (Unstructured Information Management Architecture) é uma arquitetura de software que tem como objetivo desenvolver e implementar recursos para a análise de informações não estruturadas. Pipelines do WCA incluem estágios como detecção do idioma de origem, análise léxica, extração de entidade ou aplicação de extração de conceito customizada. A extração de conceito customizada é realizada por anotadores, que identificam informações expressas como segmentos de texto. Os anotadores podem ser criados com o IBM Content Analytics Studio (WCA Studio), um ambiente gráfico baseado em Eclipse que facilita o design e o teste de anotadores com base em dicionários e regras.
Veja a matéria completa em: http://www.ibm.com/developerworks/br/library/ba-watson-dictionary/index.html

Veja o IBM Watson Content Analytics em ação: https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=swg-ECM&S_PKG=ov12182&S_TACT=101NK01W&dynform=4582&lang=en_US

Nenhum comentário:

Postar um comentário