这是关于《微软亚洲研究院大数据系列讲座》的笔记。(PDF)
不是很详细,仅供参考。
预览
一、大数据研究现状、趋势(An Introdution of Big Data)
1.What is Big Data?
Hot topic.
大量、高速、多元化的信息。High-volume, high-velocity, high-variety information assets.
关注发现、分析、洞见和决策制定。
What is 创新 innovation?超前,ahead of shedule。这是一个充满竞争的世界。
大数据可以创造Value。Wide interests。China’s GDP.
Big Data is a growth OPPORTUNITY.
Airline Industry.
航空燃油价格的波动影响航空业。
人人希望买到更便宜的机票。
————动态定价【航空公司策略】
其关键在于收益管理。
大数据分析。(例如天气条件:风暴、台风、下雪,做更好的天气预报,预测天气并调整航班;燃油价格对冲,利用分析预测提前储备石油【期货、期权】,各种因素的考虑(以色列、中东小规模战争,ISIS极端组织)。)航空公司维持生存的重要保证。
Data as a Platform。(组合 + 精炼)
2.Why Big Data is a Nature Phenomenon?
我们正在计算机与互联网的时代。
*数据采集成本——>$0
大数据再自然不过
——万物数据化。英语语法1700页。考虑语言实际就是考虑数据,语言领域是最早使用大数据的。
*数据存储成本——>$0
一个人一生所见 < 1TB。
*组合数据
Main: Volume Variety Velocity Value Veracity[真实性]
(非结构化) (可信度)
Other V’s: Variability Volatility Visibility
(及时更新)
数据安全?
————伽利略、牛顿+++++实证观察
The Scientific Method:『Data-Intensive Scientific Discovery』
·empirricalscience
·theoretical science(using models & generalization)
·computational science(for simulation)
·eScience
互联网开放的数据:更容易产生实证科学。
典型的数据分析生命周期
Question ——> Collection ——> Logical Model ——> Physical Model ——> Load Data ——> Tune ——> Answer
大数据允许更多的预测、决策,和以前的商业分析很不同。
data——信息工厂。(自动控制的闭合反馈回路,以非常快的速度循环)
————————————————————————————————————————————
二、互联网搜索Web Search
1.大规模互联网搜索详细设计
如何利用搜索引擎和大数据来挖掘有用的知识。
Search is Everywhere
Find Something….
网上有大量的信息,搜索、挖掘。
*逻辑架构
建立索引,搜索。Google:使用Anchor text来描述目标文件,利用链接来PageRank。
- 存储海量的数据(页面本身和其相关信息)crawling the web
- 建立索引,排序(主要的数据结构)indexing the web,sorting
- 收到查询请求,进行搜索 searching
- 链接分析,计算文件重要性
大量的查询服务器,储存大量的历史搜索,实际每秒每台服务器只需要承担20+左右的搜索请求。
2.微软在计算查询的维度方面的研究工作
QDMiner:对于一个搜索请求,返回一个或多个搜索维度【有意义的维度】。
**为什么研究多维度查询 Query Dimensions?
找到最适合的匹配——>计算机自动完成的任务
对一个搜索结果:对不同的属性含义分别搜索,提供了更全面的信息。
对列表加权——某些列表可能并不是特别有用。
对条目排序ItemsRank.
*Evaluation. Experimental Results.
————————————————————————————————————————————
三、社会计算
1.背景
用户数据。
马克提出,普适计算是计算的未来。
·计算机的目的是帮助
·最好的计算机提供安静、无形的服务
·一个人能够凭直觉做的事越多,就越聪明;计算机能开发人的潜意识
·计算机应该营造出平静的环境
Device:cm,dm,mm。Sensor。
2.用户
·移动规律
乘车信息——构建Framework(资金+时间+地理)——恢复缺失的信息,理解用户的移动规律。
公交卡刷卡数据的特征:序列、时空、异构。
**乘车信息的随机性——构造约束——算法的性能明显提升。
推荐问题的算法:基于用户的协同过滤、加权矩阵分解、隐马尔可夫模型……
GeoMF模型…用户的移动地点往往集中在相近的工作、休闲地点。建立一些相关性数据(矩阵形式),来标记这些地址,并且区分正偏好(故意去)、负偏好(故意不去)的属性。通过矩阵运算来求得用户的偏好矩阵。用迭代法来更新用户偏好以获得最佳表征。
·用户画像与个人隐私Profiling and Privacy
社交网络用户匹配信息——用户名,用户社交图,用户发布的微博,用户分享的图像、位置历史、足迹……
进一步研究用户的移动规律模式,分地区,可以提高位置预测的准确性。
Self-Disclosure:从多个社交网络捕获用户的公开信息。分析社交联系等。
用树结构来表示一个群体的生活方式,将群生活数据信息Visible。
**用户连接和图隐私
身份泄露,攻击(主动、被动),简单图、丰富图(含有交互信息)。
———轻量级匿名算法
>>矩阵的特征值越高,社交网络中越活跃,则越容易被识别(隐私泄露)。
## 简单匿名算法:仅仅打乱节点编号,不改变结构
## 图数据的K匿名算法:保证每个节点具有k-1个同度的节点,根据当前状态随机地增加、删除边
————————————————————————————————————————————
四、城市计算
1.Introduction
*快速的城市化——>现代化——>挑战。
城市传感、城市数据管理和城市数据分析。
——solve 交通、能源、空气污染……
Points、Lines、Graphs。
*静态——>动态。(空气质量站 = 时间动态but空间静态)
2.概念、框架
城市传感、城市数据管理和城市数据分析——服务系统——促进城市进化。
从多个数据源中得到想要的改进指导?——面临的挑战。
城市空气检测 【细粒度】+风流+交通+…… = 提供更准确的空气质量预测。
城市传感:稀疏性(数据缺失)、有偏分布(样本不能很好地反映整体状态)以及有限的来源。
数据收集策略:静态感知(如何放置监测地点),动态激励。
城市数据管理:多模态数据(形式、密度、单位……),频繁的数据更新(频率、数据量)。
识别不同数据集间的关联?跨领域的识别模式——可能潜藏巨大的价值。涉及到并发、多属性组合、类别交叉(数据集属性的聚合)等方面的挑战。(甚至交融不同学科之间的技术)
什么是一个城市空气污染的根本原因?——当前服务状态的提供 + 历史数据的分析——>未来的预测。
3.基础技术
传感网络、移动传感。
最近——群体感知技术:被动感知(参与的人们无意识地产生数据,如地铁的进出记录),参与式感知(人们主动提供数据,如手机的GPS的信息)。
·数据分析层(需要基础的数据挖掘与机器学习知识)
基础:回归、频繁模式挖掘、序列模式挖掘、分类概率图模型、矩阵分解、张量分解……
高级技术:跨域数据融合(基于阶段,基于特征【深度神经网络】,基于视角、概率模型、相似度、转移)……
优化技术:线性规划、L-1最小化、L-2最小化……
可视化技术、可视化数据分析技术……
4.城市规划
数据自动识别——>有问题的道路数据——>城市道路改建。
·以主干道、支路等对城市道路网进行划分,相邻区域具有相似性。
·以一天的时间区段划分车辆的行驶数据。
Skyline的图模型——连接重组邻近的图——将多天的Skyline图联合——探索规律出现的problem。
**对城市的道路系统可以做出评价,并找出其后的原因。
5.识别特定区域(城市中的功能区域)
教育区域、商业区域……
数据:一部分为人的移动性数据,一部分为兴趣点的数据。
6.城市空气质量与大数据研究
城市的各个地区的空气质量差异很大,用监测站的方式采集数据是很难的。因此需要很多的相关数据增加细粒量。还可以利用一个自学习的模型提高效率来消除数据的稀疏性(一个城市可能只有20到30个监测站)。使用分类器,建立一个神经网络来得出想要的结果。
7.能源交通与环境污染
城市层次上的推断——车辆的油耗。
·首先基于一个汽车样本产生的GPS轨迹估计每个路段上的行驶速度(耦合矩阵分解方法)
·其次基于行驶速度、兴趣点数据、路网数据和天气条件来推断每条道路上的汽车流量(贝叶斯网络)
·最后借用传统的环境理论来计算每辆车的汽油消耗和各种污染物的污染排放(需要一些统计数据)
8.诊断城市中的噪声
交通噪声、嘈杂的音乐噪声、建筑噪声……
噪声不仅取决于物理性质,也取决于人的忍受度。只用传感器无法分析城市噪声。
——群体感知。收集不同人的数据。签到、投诉……多个数据集,填补缺失值。
————————————————————————————————————————————
五、软件分析
1.概念
软件逐渐变成一项工程,如eclipse、windows(收集用户使用信息)等,更新速度很快。
Data Source:Operation, User, Product.
软件的生命周期中存在大量的数据分析,收集工程本身和用户的信息,帮助改善软件工程。
数据的可视化。& HELPING Target audience: software practitioners.
2.实例
·代码分析
编写代码常常不是一件容易的时期,经常会遇到不熟悉的问题或API。
开源项目网站存储了大量的可重用的代码。CodeHow支持从这些网站中找寻需要的代码。支持关键字查询或自然语言查询(考察文件的相似度,包括文本和API查询,使用扩展的布尔模型)。
CodeHow还能智能分切复杂的原始代码,将简单、关键的代码部分返回给查询者。
CodeHow集中在GitHub中,作为开发人员的辅助工具。
·崩溃报告分桶
尽管开发人员可能用大量的时间来提高软件质量,发布的软件中仍存在着大量的缺陷。软件崩溃是一种常见的致命的程序崩溃。
WER(Windows Error Reporting)系统就是收集这些崩溃信息的程序,当用户允许时,WER会将这些报告提交到WER服务器,WER服务器检查重复的崩溃报告并把它们分成桶,计算每个桶中的崩溃报告的数量。当这个数量足够多时,就会生成一个缺陷报告并发送给开发人员以方便调试。通常,每天可以收到几百万个崩溃报告。
为了提高分桶时的精确程度,提出了重新分桶的策略(using PDM)。
·克隆分析器(检测重复代码)……
————————————————————————————————————————————
六、大数据可视化
1.传统的数据可视化
What is information Visualization?
将数据从让人迷惑的语言形式,转变为可视化、易解读的语言形式。
*Innate Human Capacity几乎没有进步,而数据的发展却十分迅猛。
**数据的可视化使数据间的关联更加容易被观察到。
·InfoVis1.0(Bronze Age 青铜时代)——Hand-made drawing(infographcis)
·InfoVis2.0(Silver Age 白银时代)——Information display
·InfoVis3.0(Golden Age 黄金时代)——Visual analytics
*Graph Visualization:Node-link diagram, Matrix, Hybrid.
2.同质数据的可视化
&&Key Challenges:
·Summarize text corpora(大量的复杂信息、时间复杂度……)
·Visually explain summarization results(有关联的可视化……)
·Provide Feedback or articulate their needs(不完美的数据挖掘结果,或者不同的使用者需求……)
——Example:TIARA
Text Summarization:LDA[High portability, high compaction rate for scalebility, a finer grained model]
——Example:Healthcare
结构化、非结构化数据,重点研究非结构化数据,如受伤状况、旅行意愿……
Layout Algorithm——three-level directed acyclic graph( DAG )。
3.异质数据的可视化分析
Meta-node, meta-edge to meta-graph.(图式数据集之间的点、边结合)
Visualization:
·Graph matching as density-based graph visuazation
·Topic hierarchy as stacked tree
·Coupling grahp visualization with stacked tree
·机遇和挑战(如何获得更好的可视化效果,如何帮助使用者剖析大数据……)
Big data Visualization is very popular nowadays.
Obama’s big data plans:”……using novel statistical, graphical, and visualization techniques to study complex data.”
*Challenges:
·Big data availability
·Data quality is not high
·Collaboration with domain
·Multiple skills
·Different evaluation systems
·Scalability is (still) a big problem