4.23文创礼盒,买2个减5元 读书月福利
欢迎光临中图网 请 | 注册
> >>
基于R语言的自动数据收集-网络抓取和文本挖掘实用指南

基于R语言的自动数据收集-网络抓取和文本挖掘实用指南

作者:蒙策尔特
出版社:机械工业出版社出版时间:2016-03-01
开本: 16开 页数: 366
读者评分:3分1条评论
中 图 价:¥86.1(8.7折) 定价  ¥99.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

基于R语言的自动数据收集-网络抓取和文本挖掘实用指南 版权信息

基于R语言的自动数据收集-网络抓取和文本挖掘实用指南 本书特色

本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如http、html、xml、json、ajax、sql等),并讲解用于查询网络文档和数据集的基本技术(xpath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、xpath、各类api接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用r管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。  

基于R语言的自动数据收集-网络抓取和文本挖掘实用指南 内容简介

本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。

基于R语言的自动数据收集-网络抓取和文本挖掘实用指南 目录

译者序前  言第1章概述 1.1案例研究:濒危世界遗产地 1.2有关网络数据质量的一些讨论 1.3传播、提取和保存网络数据的技术1.3.1在网络上传播内容的技术 1.3.2从web文档中提取信息的技术 1.3.3  数据保存的技术 1.4本书的结构 **部分网络和数据技术入门第2章html2.1浏览器显示及源代码 2.2语法规则 2.2.1标签、元素和属性 2.2.2树形结构 2.2.3注释 2.2.4保留字符和特殊字符 2.2.5文档类型定义 2.2.6  空格和换行 2.3标签和属性 2.3.1  锚标签<a> 2.3.2  元数据标签<meta> 2.3.3  外部引用标签<link> 2.3.4  强调标签<b>、<i>和<strong> 2.3.5段落标签<p> 2.3.6  标题标签<hl>、<h2>、<h3>等 2.3.7  通过<ul>、<ol>和<dl>列举内容 2.3.8组织型标签<div>和<span> 2.3.9 <form>标签及其同伴 2.3.10  外部脚本标签<script> 2.3.11  表格标签<table>、<tr>、<td>和<th> 2.4解析 2.4.1  解析简介 2.4.2丢弃节点 2.4.3在创建过程中提取信息 小结 延伸阅读 习题 第3章  xml和json3.1  xml文档示例 3.2 xml语法规则 3.2.1  元素和属性3.2.2 xml结构第4章xpath第5章http第6章ajax第7章sql和关系型数据库第8章正则表达式和基本字符串函数第二部分网络抓取和文本挖掘实用工具箱第9章网络抓取第10章统计性文本处理第11章管理数据项目第三部分一组案例分析第12章美国参议院里的合作网络第13章从半结构化文档解析信息第14章利用twitter预测2014年奥斯卡奖第15章绘制姓氏地理分布图第16章采集关于手机的数据第17章分析产品评论里的情绪  
展开全部
商品评论(1条)
  • 主题:非常好的书,内容非常棒。但是就印刷来说,我在中国图书网买的这...

    非常好的书,内容非常棒。但是就印刷来说,我在中国图书网买的这本,根本就不是正版。纸张非常薄,感觉很容易烂的样子,而且里面的异味很大,估计看一段时间鼻子要受不了了。跟我在图书馆借的这本书相差太大了。图书馆借的那本书纸张要是这张的2倍。估计淘宝上十几二十几的也是这个质量。还没看内容,最好是别出现印刷错误。

    2016/8/5 14:36:40
    读者:zha***(购买过本书)
书友推荐
编辑推荐
返回顶部
中图网
在线客服