互联网上大约有 70% 以上的数据不是结构化格式的。非结构化数据包括传感器数据、图像、视频文件、音频文件、网站和 API 的数据、社交媒体数据、电子邮件以及更多与文本相关的信息。由于其特殊的特性,我们无法以一种简单的方式处理数据,为了解决这一问题,在大数据和数据科学环境下,出现了许多技术和工具来解决这一问题。
NLPLagnguageType = spacy.load('en')
text = NLPLanguageType('Earth Revolves around the sun.') # Iterating over the text fortokenin text: print(token.text,token_pos_)
# Importing Libraries import nltk
text ='Earth Revovles around the Sun.' # Token Generator--> Separates the sentence into tokens
tokens = nltk.word_tokenize(text) fortokenin tokens: print(token)
LTP(Language Technology Platform)中文为语言技术平台,是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP 制定了基于 XML 的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等 6 项中文处理核心技术),以及基于动态链接库(Dynamic Link Library,DLL)的应用程序接口,可视化工具,并且能够以网络服务的形式进行使用。