当前位置:首页 > 科技 >

自然语言处理涉及的技术(自然语言处理的概念及技术)

来源:原点资讯(www.yd166.com)时间:2024-05-08 17:54:37作者:YD166手机阅读>>

自然语言处理涉及的技术,自然语言处理的概念及技术(1)

作者 | George Seif

译者 | 孙薇,责编 | 屠敏

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

以下为译文:

现代公司要处理大量的数据。这些数据以不同形式出现,包括文档、电子表格、录音、电子邮件、JSON以及更多形式。这类数据最常用的记录方式之一就是通过文本,这类文本通常与我们日常所使用的自然语言十分相似。

自然语言处理涉及的技术,自然语言处理的概念及技术(2)

自然语言处理(NLP)是针对计算机编程的研究,探索处理和分析大量自然文本数据的方式。自然语言处理的知识对于数据科学家来说至关重要,因为文本是数据存储中极为易用和常用的介质。

面对针对文本数据执行分析和构建模型的任务时,我们必须清楚要如何执行基础的数据科学任务,包括清理、格式化、解析、分析、执行可视化和对文本数据建模。当数据还处于原始数字的构成形态时,除了这些任务的常规方法,还会需要一些额外的步骤。

本篇指南将对在数据科学中使用自然语言处理做基础性的介绍,包括处理文本数据时最常用的7种技术,如NLTK及Scikit Learn等。

(1) 标记化(Tokenization)

标记化指的是将文本切分为句子或单词,在此过程中,我们也会丢弃标点符号及多余的符号。

自然语言处理涉及的技术,自然语言处理的概念及技术(3)

这个步骤并非看起来那么简单。举个例子:在上图的实例中,“纽约(New York)”一词被拆成了两个标记,但纽约是个代名词,在我们的分析中可能会很重要,因此最好只保留一个标记。在这个步骤中要注意这一点。

标记化的好处在于,会将文本转化为更易于转成原始数字的格式,更合适实际处理。这也是文本数据分析显而易见的第一步。

import nltk
sentence = "My name is George and I love NLP"
tokens = nltk.word_tokenize(sentence)
print(tokens)

# Prints out ['My', 'name', 'is', 'George', 'and', 'I', 'love', 'NLP']

(2) 删除停止词(Stop Words Removal)

在标记化之后,下一步自然是删除停止词。这一步的目标与上一步类似,也是将文本数据转化为更容易处理的格式。这一步会删除英语中常见的介词,如“and”、“the”、“a”等。之后在分析数据时,我们就能消除干扰,专注于具有实际意义的单词了。

通过比对预定义列表中的单词来执行停止词的删除非常轻松。要注意的重要问题是:并没有普天皆适的停止词列表。因此这个列表一般是从零开始创建,并针对所要处理的应用执行了定制。

import nltk
from nltk.corpus import stopwords

sentence = "This is a sentence for removing stop words"
tokens = nltk.word_tokenize(sentence)

stop_words = stopwords.words('english')
filtered_tokens = [w for w in tokens if w not in stop_words]
print(filtered_tokens)

# Prints out ['This', 'sentence', 'removing', 'stop', 'words']

(3) 提取主干(Stemming)

清理文本数据的另一个技术就是提取主干。这种方法是将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统一处理。例如:考虑在句子中使用单词“cook”的情况——写cook这个词是有很多方式的,具体要取决于上下文:

自然语言处理涉及的技术,自然语言处理的概念及技术(4)

首页 12下一页

栏目热文

自然语言处理太难了(自然语言处理的技术难点)

自然语言处理太难了(自然语言处理的技术难点)

11月14日至15日,由中国人工智能学会、嘉兴市人民政府主办,嘉兴市南湖区人民政府、嘉兴科技城管理委员会、浙江未来技术研...

2024-05-08 17:32:31查看全文 >>

自然语言处理十大方法(自然语言处理的方法和技术)

自然语言处理十大方法(自然语言处理的方法和技术)

自然语言处理(Natural Language Processing,简称NLP)是一门涉及计算机与人类语言之间交互的领...

2024-05-08 17:17:16查看全文 >>

自然语言处理最佳方案(自然语言处理方法有哪些种)

自然语言处理最佳方案(自然语言处理方法有哪些种)

雷锋网 AI 开发者按,近年来,自然语言处理(NLP)在质量和可用性方面快速增长,这有助于推动人工智能解决方案的实际落地...

2024-05-08 17:34:14查看全文 >>

自然语言处理就业前景(自然语言处理就业方向)

自然语言处理就业前景(自然语言处理就业方向)

自然语言处理数据处理工程师是专注于利用计算机技术和语言学原理对自然语言数据进行处理和分析的专业人员。他们通过开发算法、构...

2024-05-08 17:42:31查看全文 >>

自然语言处理国内比较强的实验室(自然语言处理的方法和技术)

自然语言处理国内比较强的实验室(自然语言处理的方法和技术)

1月10日,清华大学自然语言处理实验室、易慧智能、面壁智能在北京签署《大语言模型驱动汽车行业群体智能&组织孪生解...

2024-05-08 17:15:26查看全文 >>

不可缺少的自然语言处理(说话晚和自闭症的区别)

不可缺少的自然语言处理(说话晚和自闭症的区别)

自然语言处理(NLP)是人工智能领域的一个重要分支,旨在让机器理解和生成人类语言。随着技术的飞速发展,NLP已经广泛应用...

2024-05-08 17:43:33查看全文 >>

自然语言处理书籍推荐(自然语言处理简明教程第四版)

自然语言处理书籍推荐(自然语言处理简明教程第四版)

清华大学出版社推荐“人工智能”主题书单,本书单包含12种图书,分别是:《艾博士:深入浅出人工智能》《人工智能本科专业知识...

2024-05-08 17:28:53查看全文 >>

全新的自然语言处理(自然语言处理 最新研究)

全新的自然语言处理(自然语言处理 最新研究)

随着人工智能技术的飞速发展,自然语言处理(NLP)领域也取得了显著的进步。其中,ChatGPT作为一种基于AI的聊天机...

2024-05-08 17:26:15查看全文 >>

自然语言处理图解(自然语言处理修炼之路)

自然语言处理图解(自然语言处理修炼之路)

网络上有海量的文本信息,想要处理这些非结构化的数据就需要利用 NLP 技术。本文将介绍 NLP 的基本概念,2大任务,4...

2024-05-08 17:53:03查看全文 >>

烫伤水泡最佳处理方法(烫伤的水泡怎么处理才好)

烫伤水泡最佳处理方法(烫伤的水泡怎么处理才好)

"每个人都可能在厨房或生活中不小心烫伤自己,而留下的水泡往往让我们苦恼。但是,如果我告诉您,存在一些简单而有效的...

2024-05-08 17:38:24查看全文 >>

文档排行