摘要:大数据的来临增强了可视化的重要性。可视化分析挖掘人类对于信息的认知能力与优势,将人、机有机融合。借助人杌交互高效洞悉大数据背后的信息与规律,是大数据分析的重要方法。针对大数据数据量大、维度高、多来源、多形态等特点论述了大规模数据、流数据、非结构和异构数据的可视化方法。首先讨论了大规模数据的可视化技术:1)采用分而治之的原则将大问题分解成较小的任务并采用并行处理的方式解决以提高处理的速度;2)通过聚合、采样、多分辨表示的方法进行数据约简;3)针对高维数据选择若干个视图,在多个角度下生成不同的可视化结果。然后针对监控型、叠加型两类流数据探讨了流数据的可视化过程。最后阐述了非结构化数据以及异构性数据的可视化技术。总之,可视化能够克服计算机自动化分析方法的劣势与不足,整合计算机的分析能力和人们对信息的感知能力,有效地洞悉大数据背后的信息与智慧,但其理论研究成果也非常有限,同时面临着数据规模大、动态变化、维度高、多源异构等方面的挑战,这些也逐渐成为今后的大数据可视化研究的热点与方向。
关键词:大数据;可视化;挑战;可视分析;进展
0 引言
随着互联网、物联网及云计算的兴起,人类社会朝着数字化、信息化的方面发展,导致各种智能移动设备、传感器、电子商务网站、社交网络每时每刻都产生类型结构各异的巨量数据¨o。区别于传统的数据,“容量大”“结构复杂”的“大数据”背后隐藏着知识与智慧,并为人类理解世界和社会提供了新的契机心J。由于移动互联网技术与信息获取的不断发展和逐渐成熟,真实世界和虚拟世界密不可分,信息的产生和流动瞬息万变,不断累积形成了大规模的物理信息空间 (Cyber—Physical System,CPS),其中包含海量的信息数据,如视频影像、三维时空、传感器网络、地理信息”1、网络日志、社交网络Ho等。这些数据真实反映了现实世界和社会空间的运行演化过程,但往往淹没在冗余庞杂的数据海洋之中。有效处理它们的挑战不仅体现在数据容量大、维度高、多态、多源,更重要的是数据的动态获取、数据关系异构和异质性、数据内容噪声和矛盾等。只有通过深入分析才能发现新的知识,创造新的价值,通常数据分析的过程离不开机器与人的相互协作与互补。人类从外界获得的信息约有80%以上来自于视觉系统b“j,一图胜千言,当大数据以直观的可视化图形方式展现时,利用人眼的感知能力可洞悉数据背后隐藏的信息,并可将其转化为知识。
可视化是利用人眼感知能力和人脑智能,对数据进行交互的可视表达,以增强认知的一门学科¨1,将难以直接显示或不可见的数据映射为可感知的图形、颜色、纹理、符号等,以提高数据识别效率并高效传递有用信息"o。它的起源、发展、演变与人类文明的进展密切相关。在计算机发明之前,科学家采用绘画的方式记录观测到的物理现象一1,统计学家采用图表方式统计采样数据¨…,测绘学家采用地图标记空间方位与属性。进入计算机时代后,信息技术与人类政治、经济、军事、科研、生活进行不断交叉整合催生了大数据的诞生,对于复杂的数据,人类利用高性能的计算机往往不能理解其含义,但借助图形常常“一眼”就能识别。数据可视分析是大数据分析不可或缺的重要手段与工具,将人脑智能与机器智能相结合,将“只可意会,不可言传”的人类知识和个性化经验可视地融入到整个数据分析和推理决策过程中,使得数据的复杂度逐步降低到人脑和机器智能可处理的范围。近年来国内外一些学者致力于不同领域的大数据可视化研究,并取得了相应的研究成果,hoh等¨¨对交通数据进行可视分析, Murthy等¨2 o对社交媒体数据进行可视分析,李伟等¨副对交通网络客流大数据进行可视化研究,可视化逐渐成为大数据分析重要途径,然而,这些研究并未深入地结合人机交互理论和技术,因此很难全面地支持可视分析的人机交互过程。大数据本身的新特点也对可视分析提出了更为迫切的需求与更加严峻的挑战。
总体而言,当前对大数据可视分析在技术上得到了一些发展,但理论上尚未成熟。本文从大数据的3个重要特点:大规模¨”、快速变化¨“、非结构性和异构性三个方面,解析大数据可视化的特点和挑战。
l 大数据可视化趋势
大数据可视化的研究将在整个大数据框架下展开,且呈现3个主要趋势:
1)对象正从传统的单一数据来源扩展到多来源、多尺度、多维度等广泛数据。大数据面临数据规模大、数据变化快、数据类型多、价值密度低4个挑战¨“。工业界和相关研究领域开始利用海量数据存储和数据并行计算等技术,解决数据规模大、维度高等技术难题¨7|,促进了大数据可视化应用于更多研究领域。
2)用户正从少数专家用户扩展到广泛的不特定群体。在大数据时代和新媒体时代,分析理解数据的需求从传统的科研人员和商业用户延伸到社会化媒体和每位信息消费者。可视化的广谱性和易用性使得在Web、移动端、互联网及物联网等新型环境下开发便于普通用户使用操作、可扩展的可视化系统是大数据可视化的发展趋势之一。
3)可视化和可视分析在大数据与数据科学的框架下进行。
可视化包含数据变换、数据呈现和数据交互¨副三个重要部分。从数据处理流程来看,可视化是数据中暴露给用户并与数据打交道的接口,利用数据整合、数据挖掘¨…、数据搜索、多用户协作ⅢJ、知识管理、网络传输旧“、Web化、移动化等面向大数据的可视化方法实现符合大数据特性的可视化和可视分析,并贯穿整个数据处理的生命周期。
2 大规模型数据可视化
大规模数据主要体现在多维度(multi—dimensional)、多变量(multi.variable)、多模态(multi.modal)、多趟(multi·run)、多模型(multi.model)。全方位显示规模数据的细节是一个数据和计算密集型的问题。大规模计算集群(如分布式多核计算集群、GPU+CPU混合架构集群等)是处理大规模数据的基本技术。大规模数据的高清可视化需要高分辨率的显示设备、大屏幕拼接系统,或者高精度的大屏幕投影拼接技术的支持,大规模数据的可视化方法主要有分而治之的并行计算、数据约简、多视角数据交互三种方案。
2.1 分而治之的并行计算
对于大规模、流数据采用分而治之的原则采用并行计算的方式进行可视化是一种可行有效的方法陋埘]。对于一个大的问题,将其分成多个更小的问题,针对每个较小的问题采用并行处理的方式分别解决以提高处理的速度,再把小问题的处理结果组合起来,即得到原问题的解决方案,如图1Ⅲ1 所示,采用分而治之的原则解决大规模空间数据的可视化问题。
2.2数据的约简
正文内容为提升大规模数据可视化效果,在保留数据信息、准确性的基础上对数据进行必要的约简是可视化的一项重要内容,数据约简主要有3种方式∞1:
1)聚合。对于多维度数据,采用数据立方上钻下取的方式,将部分维度转换为统计数据(如均值、最大最小值等)以降低原始数据的维度。如图2所示,利用NanoCubes等基于数据维度聚合和统计的大数据可视化查询工具m o在对46 GB 的Twitter数据进行维度约简,实现在笔记本电脑上进行流畅统计与可视化查询。
2)采样。为在给定分辨率的视图中实现预览式可视化,需将高精度数据采样为低分辨率,其难点在于如何从大规模数据中获得符合原始数据的分布和特性,以保持原有数据的知识与信息。如图3采用多类蓝噪声∽1方法对散点图进行简化采样,保持点分布和多类之间的对比,可视展现了NBA 球队投篮信息。
3)多分辨率表示。采用层次结构重新组织规模数据,并结合多种用户交互方法(如层次细节、聚焦+上下文)实现单一视角下的自适应分辨率选择或多个视角的光滑切换,例如图4展示了地图可视化Ⅲ1。
2.3多视角数据交互
针对高维规模数据,可选择若干个视图,在多个角度下生成不同的可视化结果滞j,并对其管理、配准、分析等,如同对一个三维空间物体进行多视角摄影,生成一系列图像,对该物体进行视觉理解、建模与分析。多视角数据交互的优点是将高维规模数据的维度约简到低维(二维或三维)空间,降低用户交互及分析可视化的复杂度,如图5。
3流数据可视化
时间是一个非常重要的维度和属性。带有时间属性、随着时间发生变化的数据称为时变数据。在科学、工程、社会和经济领域,每时每刻都在产生大量有序数据,在时间序列中,每个数据实例都可以看作某个事件,事件的时间可当成一个变量‘驯。
流数据是一类典型的时变数据,数据以“连续数据流”的形式动态地出现。常见的流数据有:网络数据(传输包、日志、警报等)、移动通信日志、金融数据(如股票交易)、传感器网络数据、高性能集群系统日志、社交数据等。近年来研究和使用流数据的可视化和分析成为研究热点¨“。在电子商务 (如阿里巴巴集团的安全风控业务)、实时监控、反恐安全、互联网金融等领域对流数据研究与分析显得尤为重要”“。与传统的数据处理方法相比,流数据的处理有以下特点旧“:
1)数据流的潜在尺寸无限;
2)需对在线到达的数据元素进行实时处理,否则数据价值可能随时间而降低;
3)难以掌控数据元素的流入顺序和到达数量,每次进入的数据顺序不一定相同,且数量时多时少;
4)某个元素被处理后,或被丢弃,或被归档存储;
5)对流数据的查询异常现象以及相似类型较为耗时,人工检测日志乏味且易出现错误。
流数据可视化并没有固定的模型,通常按处理目的和方 法的不同有不同的模型,参照Raj蝴锄等”¨对流数据处理方法,将流数据可视化分为两个步骤:
1)数据流进人流处理器后,将大部分原始数据保存在归档数据库中,将其他关键数据保存可视化来源数据库中。
2)关键数据进入可视化处理器后经过可视映射和布局等可视化过程转化为可视化输出,最后呈现给用户,并设计用户模块以实现可视布局的基本交互功能Ⅲ。“、输出内容的可视检索功能㈨、自定义数据的定制功能∞7。381。
流数据可视化按功能可以分为两种可视化类型:监控型与叠加型。监控型使用滑动窗口固定某个时间区间,转化流数据为静态数据,并以刷新方式更新数据,属于局部分析。叠加型将新生数据可视映射到原历史数据的可视化结果上,并以渐进方式更新。
1)监控型。
系统日志监控流数据反映一台机器或一个计算集群的系统性能。分析大规模计算集群日志数据能够监控和理解多维度数据的变化趋势以及模式复杂等问题啪“1。在工业界有 Splunk、Lo踞,ly、Flume等多种系统日志监控工具;学术界则有类似的从实时的社交媒体数据等流数据中提取事件并可视化出来的CityBeat…、LeadLine[421、Eventweet旧J。这些工具在系统底层插入脚本,获得性能数据,再利用信息检索工具或折线图、条形图等基本统计图表得到系统性能的概要分析。如图6”¨所示,针对云计算集群监控流数据分析的可视化系统对多源信息收集清理并建模。对这些数据采用多种方式(如时序图、树图、平行坐标等)可视化,提供状态监控、趋势监测、异常报警定位等分析手段。
2)叠加型。
Streamhm3是在线新闻流的可视化工具,它结合动态力引导布局、自动话题建模技术展现了新闻的发展和演变。用户可以对新闻事件进行动态聚类,细节探索以及新闻动态演变探索等交互操作,并按用户感兴趣的关键词和话题对事件进行检索,从而观察热门事件的爆发和演变。在Streamh系统用户通过自定义关键词的权重对新闻进行重聚类和重布局,通过分配颜色对感兴趣的关键词所对应的事件进行追踪。图7中将2010年2月到8月的新闻事件进行了可视化,并聚为若干类。
数据量的持续增长和数据流中自带的噪声给叠加型数据可视化带来了挑战。如何帮助分析人员迅速定位并理解关键信息,是当下热门的时序事件可视化研究的焦点。关于这个问题,EventFlow给出了一种通过聚类、过滤、变换等方式简化信息的方法,相关实验证明该方法可以将大型数据集的视觉复杂度降低到80%以上∽o。
4 非结构化数据和异构数据的可视化
除数据的容量、维度特性外,非结构性和数据源的异构性也影响数据的规模与复杂性。
4.1非结构化数据
非结构化数据,如社交网站和自媒体数据、传感器记录、电子商务数据等,通常采用数据挖掘方法分析内在模式,并抽取结构化信息。典型的非结构化数据有文本数据、日志数据、时间戳等。文本数据可采用文本信息挖掘方法抽取特征,进而对抽取的文本特征进行设计和可视化。日志由网络多用户交互产生,如微博中的消息转发回复日志、电子商务中的买卖家交易日志等。每笔交易日志包含的维度有卖家账户、买家账号、卖家所在地、买家所在地、交易类目、交易数量、付款方式等。对日志数据进行可视分析的目的在于找出交易中的频繁出现的商业模式,如促销与虚假交易。分析交易日志数据常采用决策树,需要关注用户的总体时序行为趋势、关系网络结构、单个用户的交互特征以及大量交互间的时序关联和上下文关联信息。VAET系统Ⅲ’提出了一个结合数据挖掘和非结构化数据可视化的可视分析方法。首先基于决策树方法显著度表征对特定用户交易所感兴趣的概率,再将计算得到的显著度投影到时间显著度图中。分析师可对时间显著度图中所选的数据使用多层结构进行组织,进一步使用音符式可视化(如图8)。
4.2异构数据
同一个数据集中结构或属性不同的数据称为异构数据。存在多种不同类别的节点和连接的网络为异构网络,异构数据可视化的关键在于合理呈现不同属性的数据。通用的异构数据可视化方法H列将数据属性自动地对应到相应的可视化属性中,自动根据数据所具备的属性找到最优的可视化方法和属性与之间的匹配,用户不需解决可视化与数据之间的对应关系问题。
异构数据通常可采用网络结构进行表达。文献[48]介绍了基本异构社交网络的本体拓扑结构,表达了恐怖组织网络中的九种不同类别的节点:恐怖组织、恐怖分子、国家和地区、组织分类、法律案件、恐怖攻击、攻击目标、手段和武器,但由于数据量大和复杂度高,将所有数据直接用网络点线图的方法可视化并不是非常有效(如图9(a)),解决方法是从异构网络提炼出本体拓扑结构(如图9(b)),其中的节点为原网络中的节点类别,而连接则为各个类别的节点之间可能存在的联系。以这个拓扑结构作为可视分析的辅助导航,分析师可以选择特定类别的节点和连接加入到可视化视图中,达到过滤的效果。
数据的异构性大部分来自于不同的数据源获取方式旧J。例如,手机用户数据集中不仅包括了来自手机跟踪软件的点对点通话记录、GPS位置数据和手机使用数据,也包括来自用户问卷调查的手机用户的个人信息。这些来自不同数据源的数据通常具有不同的数据模型、数据类型和命名方法等。除了在可视化视图中将异构数据有效结合外,在数据可视化和分析之前对异构数据进行整合至关重要。数据整合为可视化模块从众多独立和异构的数据源获取数据提供了统一和透明的访问接口,使得用户可以不关心数据来源和结构进行自由的可视。例如谷歌公司的知识图谱啪o、脸谱公司的 OpenGraphl5¨等项目的目的是整合与挖掘在线知识或人脉资源,为用户提供快捷易用的查询和分析功能。异构数据整合和可视化的代表性软件有Palantir的Gotham模块和IBM i2 软件。Palantir的核心要素是采用本体论建立万事万物的关联,对应用领域相关的事务进行基于本体的建模、操作、管理、关联、分析、推理和可视化。Palantir系统包括5大功能模块:
1)算法引擎。支持各类数据变换算法,支持PB级数据的并行处理。
2)数据集成。支持异构、多源、非结构化数据的集成。
3)查询、发现和分析。支持关联、时序、地理空间、统计、行为、预测和网络分析。
4)知识管理。支持对用户获得的知识的管理。
5)协同分析。支持异地、无网络用户、Web用户的协同分析任务,共享消息、主体对象和分析结果。
5 结语
可视化是大数据分析的重要方法,能够有效地克服计算机自动化分析方法的劣势与不足,整合计算机的分析能力和人们对信息的感知能力,利用认识理论、人机交互技术辅助人们直观有效地洞悉大数据背后的信息、知识与智慧,强调人类感知与计算机系统的深度耦合。本文针对大数据数据量大、维度高、多来源、多形态等特点论述了大规模数据、流数据、非结构和异构数据的可视化方法。
本文来源于:《计算机应用》以介绍计算机应用技术为重点,以推动经济发展和科技进步为宗旨。主要栏目:人工智能、数据科学与技术、网络空间安全、先进计算、网络与通信、虚拟现实与多媒体计算。
当前,大数据可视化与可分析不断受到国内外研究学得的重视,也出现了许多大数据可视化研究工作者与优秀的研究团队,但理论研究成果也非常有限,同时面临着如下挑战:
1)数据尺度大,已超越单机、外存模型甚至小型计算集群处理能力的极限,而当前软件和工具运行效率不高,需探索全新思路解决该问题;
2)在数据获取与分析处理过程中,易产生数据质量问题,需特别关注数据的不确定性;
3)数据快速动态变化,常以流式数据形式存在,需寻找流数据的实时分析与可视化方法;
4)面临复杂高维数据,当前的软件系统以统计和基本分析为主,分析能力不足;
5)多源数据的类型和结构各异,已有方法在非结构化、异构数据方面支持不足,网络数据可视化分析是推理求解异构数据内在关系的最重要方法。
以上5个方面是大数据可视化面临的挑战,同时也逐渐成为今后的大数据可视化研究的热点与方向,相关科研人员将进一步开展深入细致的研究,有望在可视化分析与高效数据处理等问题上获得更大突破。——论文作者:崔 迪1’2,郭小燕r,陈 为2
参考文献(References)
【1】 作磊,杜一,马帅.大数据分析综述【J】.软件学报,2014,25(9): 1909—1930.(ZUO L,DU Y,MA S.Review on big data analysis 【J】.Journal of Software,2014,25(9):1909—1930.)
【21 TONY H.第四范式:数据密集型科学发现【M】.潘教峰,张晓林,译.北京:科学出版社。2012:58—62.(TONY H.The Forth Para— digm:Data—Intensive Scientific Discovery【M】.PAN J F,ZHANG X L,translated.Beijing:Science Press,2012:58-62.)
【3】 CORRELL M,HEERJ.Surprise!Bayesian weighting for de-biasing thematic maps【J】.IEEE Transactions on Visualization and Coin— purer Graphics,2017,23(1):651—660.
[41 KUSUMA P Y C,SUMPENO S,WIBAWA A D.Social media anal— ysis of BPS data availability in economics using decision tree method 【C】//ICmSEE 2016:Proceedings of the 1 st International Conferenee on Information Technology,Information Systems and Electrical Engineering.Piseataway,NJ:IEEE,2016:148—153.
【5】任磊.信息可视化中的交互技术研究【D】.北京:中国科学院, 2009:38—40.f REN L.Research on interaction techniques in informarion visualization【D】.Beijing:Chinese Academy of Sciences, 2009:38—40.1
转载请注明来自:http://www.lunwencheng.com/lunwen/dzi/21808.html