中图网

>

社会学

大数据丛书文本挖掘

作者：[美]迈克尔.W. 贝瑞（M

出版社：机械工业出版社出版时间：2018-11-01

开本： 16开 页数： 167

读者评分：5分1条评论

本类榜单：社会科学销量榜

中图价:¥35.8(7.3折) 定价 ~~¥49.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
心理学经典文丛:女性心理学

心理学经典文丛:女性心理学

¥27.5¥68.8
>
贫困一代:被社会囚禁的年轻人

贫困一代:被社会囚禁的年轻人

¥24.7¥38
>
乌合之众:大众心理研究(英汉双语修订版)(套装共2册)

乌合之众:大众心理研究(英汉双语修订版)(套装共2册)

¥14.4¥48
>
始于极限:女性主义往复书简

始于极限:女性主义往复书简

¥39.6¥59
>
融合文化(新媒体和旧媒体的冲突地带)/文化和传播译丛

融合文化(新媒体和旧媒体的冲突地带)/文化和传播译丛

¥54.4¥68
>
看不见的女性

看不见的女性

¥48.3¥69
>
县乡中国:县域治理现代化

县乡中国:县域治理现代化

¥40¥69

商品详情
商品评论(1条)

中图价:¥35.8 加入购物车

版权信息
内容简介
目录

微信公众号

大数据丛书文本挖掘版权信息

ISBN：9787111570509
条形码：9787111570509 ; 978-7-111-57050-9
装帧：简裝本
册数：暂无
重量：暂无
所属分类：
社会科学
>
社会学

大数据丛书文本挖掘内容简介

本书呈现了文本挖掘领域优选的算法，同时从学术界和产业界的角度介绍了文本挖掘。本书涉及的业界学者跨越多个国家，来自多个机构: 大学､企业和政府实验室。本书介绍了文本挖掘在多个领域中的自动文本分析和挖掘计算模型，这些领域包括: 机器学习､知识发现､自然语言处理和信息检索等。本书适合作为人工智能､机器学习和自然语言处理等领域相关人员的教科书和参考书。同时，也适合研究人员和从业人员阅读。

大数据丛书文本挖掘目录

译者序

原书序

1 章独立文档的关键词的自动提取 1

1. 1 简介 1

1. 1. 1 关键词提取方法 1

1. 2 快速自动关键词提取 3

1. 2. 1 候选关键词 3

1. 2. 2 关键词得分 4

1. 2. 3 邻接关键词 5

1. 2. 4 提取关键词 5

1. 3 基准评估 6

1. 3. 1 准确率和召回率评估 6

1. 3. 2 效率评估 7

1. 4 停用词列表生成 9

1. 5 新闻消息的评估 12

1. 5. 1 MPQA 语料库 12

1. 5. 2 从新闻消息中提取关键词 12

1. 6 总结 15

参考文献 16

2 章利用数学方法进行多语言文档聚类 17

2. 1 简介 17

2. 2 背景 17

2. 3 实验设置 18

2. 4 多语言LSA 20

2. 5 Tucker1 方法 21

2. 6 PARAFAC2 方法 23

2. 7 词对齐的LSA 24

2. 8 潜在形态语义分析(LMSA) 26

2. 9 词对齐的LMSA 27

2. 10 对技术和结果的讨论 27

参考文献 29

3 章使用机器学习算法对基于内容的垃圾邮件进行分类 31

3. 1 简介 31

3. 2 机器学习算法 32

3. 2. 1 朴素贝叶斯 33

3. 2. 2 LogitBoost 33

3. 2. 3 支持向量机 34

3. 2. 4 增广的潜在语义索引空间 35

3. 2. 5 径向基函数网络 36

3. 3 数据预处理 37

3. 3. 1 特征选择 37

3. 3. 2 信息表示 39

3. 4 邮件分类的评估 39

3. 5 实验 40

3. 5. 1 使用PU1 的实验 40

3. 5. 2 使用ZH1 的实验 42

3. 6 分类器特点 43

3. 7 结束语 45

参考文献 45

4 章利用非负矩阵分解研究邮件分类问题 47

4. 1 简介 47

4. 1. 1 相关工作 48

4. 1. 2 概要 49

4. 2 研究背景 49

4. 2. 1 非负矩阵分解 49

4. 2. 2 计算NMF 的算法 50

4. 2. 3 数据集 52

4. 2. 4 解释 52

4. 3 基于特征排序的NMF 初始化 54

4. 3. 1 特征子集选择 54

4. 3. 2 FS 初始化 55

4. 4 基于NMF 的分类方法 57

4. 4. 1 使用基础特征分类 58

4. 4. 2 基于NMF 的一般化LSI 59

4. 5 结束语 65

参考文献 66

5 章使用k￣均值算法进行约束聚类 68

5. 1 简介 68

5. 2 表示法和古典k￣均值算法 69

5. 3 具有布莱格曼散度的k￣均值约束聚类算法 70

5. 3. 1 具有“不能链接” 约束关系的二次k￣均值聚类 70

5. 3. 2 “必须链接” 约束关系的移除 73

5. 3. 3 使用布莱格曼散度进行聚类 75

5. 4 smoka 类型约束聚类 77

5. 5 球形k￣均值约束聚类 79

5. 5. 1 仅有“不能链接” 约束关系的球形k￣均值聚类算法 80

5. 5. 2 具有“不能链接” 和“必须链接” 约束关系的球形k￣均值聚类 82

5. 6 数值实验 83

5. 6. 1 二次k￣均值聚类 84

5. 6. 2 球形k￣均值聚类 85

5. 7 总结 85

参考文献 86

6 章文本可视化技术的研究 88

6. 1 文本分析的可视化 88

6. 2 标签云图 89

6. 3 著作权及其变更的追踪 90

6. 4 数据探索和novel 模式的探索 91

6. 5 情绪追踪 92

6. 6 可视化分析和FutureLens 94

6. 7 场景发现 94

6. 7. 1 场景 94

6. 7. 2 评估策略 95

6. 8 早期版本 95

6. 9 FutureLens 的特征 96

6. 10 场景发现举例: 生态恐怖主义 97

6. 11 场景发现举例: 毒品走私 101

6. 12 未来的工作 103

参考文献 104

7 章新颖性挖掘的自适应阈值设置 106

7. 1 简介 106

7. 2 新颖性挖掘中的自适应阈值设置 107

7. 2. 1 背景 107

7. 2. 2 动机 108

7. 2. 3 基于高斯分布的自适应阈值设置 108

7. 2. 4 实现过程中的问题 112

7. 3 实验研究 113

7. 3. 1 数据集 113

7. 3. 2 加工实例 113

7. 3. 3 实验及结果 116

7. 4 总结 120

参考文献 121

8 章文本挖掘与网络犯罪 122

8. 1 简介 122

8. 2 网络欺凌和网络捕食研究的现状 123

8. 2. 1 获取即时通信和在线聊天 124

8. 2. 2 当前用于分析的收集 124

8. 2. 3 对即时通信和在线聊天的分析 125

8. 2. 4 网络捕食检测 125

8. 2. 5 网络欺凌检测 129

8. 2. 6 法律问题 130

8. 3 监控聊天的商业软件 131

8. 4 结论与未来的方向 132

参考文献 133

9 章文本流中的事件和发展趋势 136

9. 1 引言 136

9. 2 文本流 138

9. 3 特征提取和数据还原 138

9. 4 事件监测 139

9. 5 趋势检测 142

9. 6 事件和趋势描述 143

9. 7 相关讨论 147

9. 8 总结 147

参考文献 148

10 章在LDA 主题模型中嵌入语义 150

10. 1 简介 150

10. 2 背景 150

10. 2. 1 向量空间模型 151

10. 2. 2 潜在语义分析 151

10. 2. 3 概率潜在语义分析 151

10. 3 潜在狄利克雷分配 152

10. 3. 1 图模型和生成过程 153

10. 3. 2 后验推断 153

10. 3. 3 在线潜在狄利克雷分配(OLDA) 154

10. 3. 4 算例分析 156

10. 4 在维基百科中嵌入外部语义 158

10. 4. 1 相关维基百科文章 158

10. 4. 2 维基百科影响的主题模型 158

10. 5 数据驱动语义的嵌入 159

10. 5. 1 数据驱动语义嵌入的生成过程 159

10. 5. 2 嵌入数据驱动语义的OLDA 算法 160

10. 5. 3 实验设计 161

10. 5. 4 实验结果 163

10. 6 相关工作 166

10. 7 结论与未来工作 166

参考文献 166

展开全部

商品评论(1条)

写书评赚书币

主题：搞活动买的搞活动买的
设计装帧可以
2019/7/23 12:38:58
0 0
三星会员
读者:wan***(购买过本书)

书友推荐

>
姑妈的宝刀
姑妈的宝刀
莫言
¥11.4~~¥30.0~~
>
罗庸西南联大授课录
罗庸西南联大授课录
罗庸
¥13.8~~¥32.0~~
>
随园食单
随园食单
袁枚
¥20.6~~¥48.0~~
>
大红狗在马戏团-大红狗克里弗-助人
大红狗在马戏团-大红狗克里弗-助人
[美] 诺尔曼·伯德韦尔著，杜可名译
¥3.3~~¥10.0~~
>
朝闻道
朝闻道
刘慈欣
¥10.2~~¥23.8~~
>
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
施英巍
¥17.6~~¥55.0~~
>
回忆爱玛侬
回忆爱玛侬
[日]梶尾真治著，王玮译
¥10.5~~¥32.8~~
>
龙榆生：词曲概论/大家小书
龙榆生：词曲概论/大家小书
龙榆生
¥9.1~~¥24.0~~

本类畅销

乡土中国

费孝通

¥10.1~~¥16~~
工作、消费主义和新穷人

[英] 齐格蒙特·鲍曼著，郭楠译

¥39.7~~¥45~~
1950年的中国妇女

刘晓丽

¥15.4~~¥48~~
学术贵族与政治饭碗

马克斯·韦伯

¥10.2~~¥32~~
江村经济-插图导读版

费孝通

¥25.9~~¥49.8~~
社会学的理论逻辑(第二卷)-古典思想中的矛盾：马克思和涂尔干

[美] 杰弗里·C.亚历山大

¥27.1~~¥43~~

大数据丛书文本挖掘

大数据丛书文本挖掘版权信息

大数据丛书文本挖掘内容简介

大数据丛书文本挖掘目录

姑妈的宝刀

罗庸西南联大授课录

随园食单

大红狗在马戏团-大红狗克里弗-助人

朝闻道

【精装绘本】画给孩子的中国神话

回忆爱玛侬

龙榆生：词曲概论/大家小书

乡土中国

工作、消费主义和新穷人

1950年的中国妇女

学术贵族与政治饭碗

江村经济-插图导读版

社会学的理论逻辑(第二卷)-古典思想中的矛盾：马克思和涂尔干

女孩们

熊千佳昆虫记

时间停止的那一天

祸枣集

人间草木

陶潜和樱子

大数据丛书文本挖掘

大数据丛书文本挖掘 版权信息

大数据丛书文本挖掘 内容简介

大数据丛书文本挖掘 目录

大数据丛书文本挖掘版权信息

大数据丛书文本挖掘内容简介

大数据丛书文本挖掘目录