“大数据”在宏观经济预测分析中的应用
作 者:张 涛,中国社会科学院数量经济技术经济研究所研究员
刘宽斌,中国社会科学院数量经济技术经济研究所
刊期:《财经智库》2018年第3期。
内容提要:本文梳理了当前“大数据”在宏观经济预测分析中的应用现状,在明确“大数据”特点的基础上,总结了“大数据”相较于传统统计数据在宏观经济预测分析过程中的优势,也指出了当前“大数据”在理论及应用上的不足和缺陷,包括数据来源局限、维度灾难、非结构化数据问题、噪声问题以及研究范式的转变。
关 键 词:大数据;宏观经济;预测
一、引言
随着宏观经济理论的发展,宏观经济预测成为实证分析的另一个重要方面,经济模型分析应用的一个重要方面,传统宏观经济预测方法的核心思想是通过特定的模型与方法技术发现统计数据的内在规律,并利用这种规律预测未来。
(一)传统宏观经济预测方法
综合现有的宏观经济预测分析方法和应用现状,宏观预测模型主要可分为两种类型:基于理论驱动的结构模型和基于数据驱动的时序模型。基于理论驱动的结构模型主要是以宏观经济理论为基础,构建数理分析模型,然后“统计化”,形成经济计量模型,利用统计数据进行参数估计,并以此分析宏观经济变量之间的数量关系以及对关注变量进行预测,包括可计算一般均衡模型(CGE)、随机动态一般均衡模型(DSGE)、布鲁金斯模型(BrookingsModel)、沃顿模型(Wharton Model)、莫蒂利亚尼建立的中级的美国经济模型(MPS Model)、极限边界分析模型(BEA)、劳伦斯 . 梅耶合伙模型(LHM&AModel)等。这类模型计算过程复杂,能分析和预测领域众多,具有很好的经济解释性。以数据资源公司模型(DRI Model)为例,该模型基于凯恩斯主义,新古典经济学以及货币学派等的思想观点,结合经济增长模型,对宏观主要变量进行关系分析和预测。 DRI模型集成了718个方程,其中有379个随机方程以及339个非随机方程,涉及974个内生变量和286个外生变量,庞大的模型描述了经济社会收入、就业、供给、产业、工资、生产率、劳动、失业等各个方面。
基于数据驱动的时序模型主要是指不依赖任何经济理论,纯粹依靠数据的内在规律进行建模。包括扩散指数法、移动平均法、指数平滑法、灰色预测法、向量自回归模型(VAR Model),结构向量自回归模型(SVAR)、贝叶斯向量自回归模型(BVAR)、全球向量自回归模型(Global VAR)、向量误差修正模型(VECM)、结构向量误差修正模型(SVECMX)、自回归移动平均模型(ARIMA)、自回归条件异方差模型(GARCH)等。这类模型不强调内在的经济理论逻辑,更多关注变量本身的变化特征和在时间维度上的延续性,并利用这种数据内在的变化模式预测未来。以 ARIMA 模型为例,根据需要预测的指标数据,基于一系列分布假设,例如需要假设模型随机干扰项满足白噪声性质,基于这些假设研究分析指标当期值与自身滞后期以及随机扰动项之间的关系,根据历史数据总结出最后的关系方程式,并以此方程来分析预测宏观经济指标。例如:孙少岩等(2014)利用 ARIMA 模型对吉林省失地人口进行分析,得到规律方程,并利用规律方程对未来失地人口量进行了预测。
传统的宏观经济预测模型,经过长期的发展、更新和改进,建模方法相对完备,无论是理论驱动建模还是数据驱动建模在宏观经济预测领域发挥着重要作用。但无论是基于经济理论的模型还是基于数据驱动的模型都严重依赖于经济系统规律的延续性。现有的宏观经济预测模型应用有效性基本的逻辑是通过历史数据发现经济运行的基本规律,通过历史数据中发现的规律来预测未来经济情况。
(二)传统宏观经济预测方法应用缺陷
经济运行规律在短时间内发生变化的可能性较小,但随着时间间隔的增加,偏离原有的经济运行规律的可能性和程度会越来越大。因此,传统宏观经济预测模型方法的有效性在很大程度上依赖于使用的数据是否足够“好”。但传统宏观预测分析过程中使用的统计数据存在较为严重的问题,这也是导致宏观经济模型预测分析存在较大“偏误”的重要原因,也是传统宏观经济预测分析过程中存在的根本性问题。传统的统计数据主要存在五个方面的缺陷。
1. 滞后性
宏观统计数据需要在经济运行发生后,通过相关部门统计汇总,这个过程需要较长时间,一般统计的数据指标都是滞后一年或者滞后一个季度的数据。
2. 统计误差
统计数据需要人为地去搜集并汇总。这个过程人为参与程度较深,并且时间较长,过程较为复杂,很难确保整个过程的准确无误,这样汇总性的数据一般存在较大的统计误差,使用这样存在统计误差的数据做预测,会进一步增大预测误差。
3. 数据获取成本高
传统数据收集过程较为复杂,需要耗费大量的人力和物力投入,数据获取的成本相对较高。
4. 样本量较少
由于统计样本和获取数据成本是成反比的,随着统计样本量的增加,统计成本也会急速增加。因此,一般会在统计样本和统计成本之间做一个平衡。例如,居民消费者价格指数(CPI)的统计,采用的是抽样调查方法抽选确定调查网点,按照“定人、定点、定时”的原则,直接派人到调查网点采集原始价格,一共涵盖了8.3万多家价格数据,但相对于全国整体的市场数量,这个样本量不到整体的 1%。
5. 颗粒度不够
现有的宏观统计指标相对来讲,都是整体性的宏观指标,例如,CPI指标,涵盖了食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保健、其他用品和服务等 8 大类、 262 个基本分类的商品与服务价格,但是,这样整体性的指标很难为分类行业的经济决策做具体性的指导。例如,需要知道童装价格的指数,就无从知晓。
正是由于传统的统计数据存在上述根本性问题,导致了宏观经济预测分析过程中,难以做出实时和有效的预测。这也是当前传统宏观经济分析和预测存在的瓶颈性问题。
除了统计数据本身的缺陷,还有来自方法论上的争论:一是卢卡斯批判。传统的计量模型方法均是基于历史数据来分析和预测未来,但这种模型方法没有充分考虑到人们预期的作用,人类经济行为不仅仅从历史经验中学习,而且也会估计当前的现状对将来的影响,进而影响到采取的行为和策略,这种行为的改变会使得经济模型的参数发生变化,而这种变化是难以衡量的。二是伊丽莎白女王的提问。英国女王伊丽莎白在 2008 年金融危机后曾向英国的经济学家提问为何没有能预测到金融危机。这引发了对传统的经济模型的质疑,即经济模型能不能有效地预测未来经济。
二、“大数据”特点及对传统宏观经济预测的互补性
随着科技技术进步,特别是计算机和网络技术的飞速发展,人类社会积累的各种各样的数据信息越来越多,形成了海量的数据信息,一般称为“大数据”。数据已经渗透到当今每一个行业和业务领域,成为重要的生产要素。人们对大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来(Manyika et al.,2011)。大数据的产生也对宏观经济预测和分析产生了重大的影响。为分析大数据在宏观经济预测领域的应用和发展,首先需要明确大数据概念和特点,以及与传统数据的区别,才能准确有效地把握分析方向。关于大数据的具体概念还没有形成统一的观点,但可以从不同的专家和学者的定义中发现其特点。
(一)大数据的典型特征
全球著名的管理咨询公司,也是世界上首次系统阐述大数据概念和应用的公司 McKinsey 定义大数据为:数据量大小超过典型的数据库软件的采集、存储、管理和分析等能力的数据集。研究机构 Gartner 认为“需要新的处理模型才能增强决策力与洞察力,优化分析能力的高增长和多样化的信息资产”。John Walker S 通过数据特点“4V”来定义大数据,认为大数据信息应该满足数据量巨大(Volume),数据处理速度极快(Velocity),数据形式是多种多样,而不是局限在结构化的数据信息(Variety),有价值的信息隐含在海量的数据信息中,需要通过数据挖掘的技术方法提取出来(Value)。维基百科中对“大数据”的定义是:利用传统的计算机和方法管理、处理数据所消耗的时间超过可接受的范围的数据集。
国内学者对大数据的概念也有所阐述。中科院院士徐宗本等( 2014)认为:大数据是指不能够集中存储,并且难以在可接受的时间内分析处理的数据,其中个体和部分数据呈现低价值性而整体呈现高价值的海量复杂数据集。通过这些专家和学者对“大数据”的描述和定义,发现能视为“大数据”的数据具有如下特点:(1)数据量巨大。传统的模型方法收集和应用的数据在 KB级、MB级数据量,而大数据的信息量在GB级以上,甚至是TB级、PB级、EB级别的数据信息。(2)传统计算机在可接受的时间内无法处理。传统计算机计算能力有限,面对巨量的数据,无法有效胜任分析处理工作。(3)数据信息多样性。传统的统计数据一般为截面数据,时间序列数据或面板数据,归结起来都是结构化的数据信息,然而大数据的数据信息扩展了范围,包含文本、图片、语音、视频、网络搜索、日志信息、URL等。(4)高价值,但价值密度低。一堆无用的、对增强认识事物的能力无帮助的数据是不能称之为“大数据”的,高价值体现在“大数据”蕴含的信息能够提供传统数据不能提供的精准信息,但是,由于数据量巨大,单个样本或数据单元提供的价值信息降低,只能通过海量的数据分析才能提取出来完整的价值信息。
(二)大数据在宏观预测方面的优势
以互联网平台积累为代表的大数据做宏观经济预测有其独特的优势。(1)及时性。通过互联网平台积累起来的数据,就存储在网络空间中,交易的数据、价格等一切信息在交易发生时,即刻在网络中留下记录痕迹,可以被一定的方法和技术提取出来,用于处理和分析问题,不存在时间滞后性。(2)精准性。网络平台提供的数据,在事件发生时按照实际的发生情况记录信息,减少了人为的操作,提供了相对更加原始的数据,而非人为搜集后经过处理后的数据信息,更加准确。(3)相对低成本。由于网络大数据均在事件或交易发生时自动被记录下来,无须人为调查和搜集,通过技术方法提取出来加以整理得到,能够极大程度上降低获取数据的成本。(4)颗粒度高。传统的数据搜集过程为了降低成本,会尽量搜集总体数据,而非细化地搜集数据信息。网络大数据时代,提取总体数据信息和单独搜集某一类别的数据的区别并不大,可以在不显著增加成本的前提下,提供更加详细和更加有意义的数据信息。(5)样本量大。通过利用互联网大数据信息,可以获取总体或者接近全体的样本信息,而并非通过统计抽样的方式来获取样本信息来推断总体信息。这样的大数据支持下,用于计算的样本量是海量的,并且能极大地接近全样本,直接获取最为真实而全面的统计指标信息。
(三)大数据与传统宏观经济预测的互补性
通过上述关于大数据概念和特点的分析,可以发现,大数据并不是对传统宏观预测模型方法的革新,而是对传统模型宏观经济分析预测方法的补充和改进。通过对传统统计分析方法使用数据的改进,突破传统方法的根本局限,从而提高模型的预测效果和应用范围。传统宏观经济预测方法经过几十年的发展,模型多种多样且较为全面,能对各种各样的情况下的数据结构进行分析和预测,但由于使用的数据的缺点,导致无法进一步提高模型预测的效果,存在根本性的瓶颈问题。而最近发展起来的大数据以及大数据相关技术,无论是爬虫技术,还是分布式储存技术,抑或者是云计算等,这些都是围绕大数据获取、保存和应对超大型数据的计算问题而发展起来的技术方法,而真正能成为大数据独有的宏观预测模型却较为缺乏。并且,大数据在分析经济问题时,更多的是采用描述性的方式,较少采用结构性的方法来分析,缺乏经济理论支撑。
通过大数据技术和方法,获取及时性的数据,结合传统的宏观预测和分析模型,既能有效利用经济理论解释经济问题,又能通过大数据获取的数据信息突破传统统计数据存在的问题,有效提高宏观经济预测和分析的效果,为宏观经济预测和分析带来新的突破。
另外,由于大数据的方法过程中,使用数据的及时性,突破了传统统计数据的滞后性问题,例如可以通过传感器收集每天的全部商品交易数据,直接计算当月的通货膨胀率,这样方法得到的数据会是实时的,并且是近乎全样本数据,当用月数据计算当月的 CPI 数据,也就突破了利用历史规律来预测过程中的“卢卡斯批判”引发的问题。
三、“大数据”在宏观经济预测和分析中的应用
应用“大数据”来进行宏观经济预测和分析成为突破传统统计指标作宏观预测瓶颈的一个重要出口。当前,国内外学者已经在利用大数据的优势来突破传统宏观经济预测模型的瓶颈方面做出了诸多努力和尝试。梳理截至当前的文献,应用大数据做宏观经济预测和分析的研究主要可以归结以下几个方面。
(一)研究失业率问题
最早利用网络搜索数据作为宏观经济指标的是 Ettredge et al.(2005),他们的研究是利用网络搜索数据研究美国的失业率情况,通过搜索引擎相关词条搜索情况来分析预测美国失业率情况,发现网络搜索量与美国失业率之间存在着较强的关系。 Askitas and Zimmermann(2009); D’Amuri and Francesca(2009)以及 Suhoy(2010)分别研究了德国、意大利和以色列的失业率情况,发现互联网搜索数据与这些国家的失业率数据相关性较强,通过了解网络中关于“失业”相关的词条搜索量,可以更快地了解这些国家的失业率情况。McLaren and Shanbhogue(2011)利用网络特定词条的搜索指数反映英国的就业市场情况,通过观察网络搜索相关关键词的次数变化,对比英国官方提供的就业信息,发现它们之间存在高度的相关性,认为网络词条搜索量可以作为反映失业率情况的一个指标。 McLaren and Shanbhogue(2011)检验了在线搜索对英国就业和住房市场预测活动的重要性,在预测模型中加入搜索数据指标,对比使用调查数据,发现包含因特网搜索的模型对样本外预测结果的 RMSE 值更小,能显著提高样本外预测效果。 Choi and Varian(2012)介绍了如何利用 Google Trends来构建反映失业率情况的经济指标,文章认为失业率情况与构建得到的指标之间存在较为紧密的联系,特定词条的搜索量可以作为判断宏观经济变化的重要指标,并且利用这些指标可以对失业率做预测分析。 Chadwick and Sengul(2012); Barreira and Godinho( 2013); Pavlicek and Kristoufek(2014) 通过应用 Google trends 的搜索数据分别对不同地区和领域的失业率进行预测,发现了类似的效果。 Su(2014)认为虽然中国官方没有提供失业率的数据,但是网民会通过网络搜索来反映失业率的情况,他利用百度搜索引擎的搜索数据来构建失业率的指标,并且用构建的指标分析与其他中国宏观经济指标之间的联系,发现相关性较强,认为这种构建起来的失业率指标可以用于辅助分析预测中国经济情况。 Pavlicek and Kristoufek(2015)使用 Goolge Trends 上有关找工作的搜索数据来对不同经济体的失业率进行预测和分析,通过分析发现使用 Goole Trends 的数据能够增强预测捷克和匈牙利的就业率效果。
国内学者也在利用搜索大数据研究失业率方面有所探索,王勇、董恒新(2017)利用网络搜索数据,采用 5 种不同的预测方法研究分析了中国季度失业率问题,研究表明基于网络搜索数据预测的失业率能够比官方数据更早反映失业率趋势变化。
(二)研究通货膨胀问题
Müller(2006)介绍了瑞士政府一项 CPI 计算方法的改革,这项改革通过数据采集器来收集瑞士销售市场上的商品价格信息,通过网络传输数据信息,利用网络自动传输销售商品种类和价格数据,最终能达到实时计算过去指定时间段的 CPI 指数。 Guzman(2011)通过网络中搜索“通货膨胀”相关的词汇搜索量作为通货膨胀指标,他认为现代人通过互联网来搜索自己感兴趣的内容,如果居民感受到日常生活中价格的普遍上涨,那么就会通过网络搜索来了解关于“通货膨胀”的话题,如果关于“通货膨胀”搜索量越大,那么居民感受到的“通货膨胀”越强,表明实际的通货膨胀越高,从而构建了用“通货膨胀”搜索量为指标来预测通货膨胀。 Cavallo and Rigobon(2016)介绍了他们的 BPP( Billion Prices Project)项目,从 2008 年开始,通过网络爬虫技术获取 60 多个国家 1500 万种零售商品价格,以及动态的更新信息,基于此构建了滞后 3 天的消费者价格指数(CPI)以及各类具体商品的消费价格指数。
张崇等(2012)利用部分关键词的网络搜索量的数据,研究搜索量数据与CPI 之间的关系,构建搜索指数来预测 CPI 指数,得到比国家统计局早一个月左右的预测数据,并且具备一定的转折点的预测能力。孙毅等(2014)研究了网络搜索行与通货膨胀之间的关系,认为两者之间存在长期的协整关系。徐映梅、高一铭(2017)利用百度搜索引擎的搜索指数来构建 CPI 舆情指数来辅助预测CPI。袁铭(2015)利用购物网站的用户搜索关键词数据研究了中国全国和城镇CPI,并试图进行及时预测,表明搜索量与CPI之间有明显因果关系,并基于此对CPI做预测分析。淘宝交易平台同样也利用网络交易数据构建了价格指数,提供两种不同的价格指数,阿里巴巴网购(全网)价格指数(aSPI)和网购核心商品价格指数(aSPI-core),前者是基于生活消费理论编制的,反映阿里巴巴网购平台总体支出价格水平的变化;后者提供了固定篮子理论出发的阿里核心商品价格指数,反映了核心商品价格指数。基于阿里巴巴网购交易大数据,也很方便测算食品类、烟酒类、办公用品及服务等不同类别的细致的价格指数。
(三)研究社会消费问题
Kholodilin et al.(2009)使用 Google Insights 数据作为预测美国私人消费情况的指标,通过对比使用传统统计数据做指标和包含 Google Insights 指标预测美国私人消费增长率发现,通过主成分分析法(PCA)来对 Google Insights进行降维后加入模型可以提高 20% 的准确率。 Penna and Huang(2009)同样使用 Google 搜索引擎的方式,对一系列的词条进行搜索,并且构建美国消费者情绪指数(SBI),这种指数反映及时,并且可以用来预测其他两个美国常用消费者信心指数(ICS 和 CCI),SBI明显优于ICS 和CCI,能提供独立信息并且更加稳健。 Suhoy(2010)利用 Google 搜索引擎的搜索量数据作为以色列私人消费量的指标。 Vosen and Schmidt.(2010)利用 Google 趋势提供的关键词的搜索量的时间序列数据,构建了一个德国社会私人消费的指标。该指标相比于欧盟委员会提供的消费者信心指标和零售贸易信息指标,该指标具有实时预测评估能力,在研究的时间范围内,计算得到的该指标也优于基于调查数据得到的指标。Kgurgur et al.(2016)利用网络搜索数据开发了土耳其社会的消费者情绪指数(GBI)。并且,研究发现, GBI与官方消费者信息指数(CCI)高度相关,并且 GBI 可以用于预测 CCI。
(四)研究房地产市场
Webb(2009)研究了美国家庭“止赎权”(forreclosure)问题,发现网络搜索“止赎权”的搜索量与家庭行使“止赎权”的趋势非常吻合,从而发现“止赎权”的网络检索次数是美国住房市场问题的一个早期预警,能够为美国房地产市场预测和指导提供更加及时的信息。 Wu and Brynjolfsson(2009)使用 Google 搜索数据构建房价指数,为房屋销售量做预测。 Kulkarni etal.(2010)通过 Google 搜索与“房产”相关的关键词搜索量,构建一个可以预测房价的先行指数,并且利用这个先行指数通过季节调整等调节后用于房产价格。Widgrén and Joona(2016)检验了 Google 搜索数据量是否可以用于分析和预测芬兰房价,通过分析,发现通过搜索引擎搜索数据可以改善近期的房价预测效果。
基于大数据研究房地产市场的研究国内学者较多。霍琳等(2014)通过互联网上的大量新闻数据作为分析对象,通过文本分析技术,判断公共媒体对房地产市场的关注程度和情感倾向,利用正面、负面新闻数量合成一个反映公共媒体对房地产市场认知的舆情指数,并且,证明所构建的舆情指数对商品房销售面积有较强的解释作用。董倩等(2014)利用与二手房和新房相关的关键词,通过百度搜索指数构建了多种分析模型,对我国 16个城市房价进行预测,研究表明网络搜索数据对房价预测的精度更高。洪涛、厉伟(2015)同样利用关键词“房价”百度搜索量数据分析住房价格,并且将其引入传统模型中,提高了房价预测精度。
(五)研究选举问题
Bermingham and Smeaton(2011)利用爱尔兰大选作为案例研究,通过监督学习和情感分析对社会媒体新闻来模拟分析了不同政治派别的政治潜力。Jahanbakhsh and Moon(2014)研究 Twitter 社交网络大数据对 2012 年美国总统大选的预测能力。文章通过机器学习的方法分析了 3200 万条关于总统大选的推文,并结合情感分析器,最终确定候选人的受欢迎程度,结合推文的地理信息,也可以分析得到各个州候选人的人气情况。 McDonald and Mao(2015)通过主题检索,未覆盖和结构测试(TRUST)分析框架,通过对网络搜索数据的分析,对 2015 年英国大选进行了预测,并且获得了相对较好的预测效果。Fatta et al.(2015)在英国举行 2015 年大选前后,搜集了与选举相关的 Twitter数据集,包含2800万条推文,总共118G的数据集合。通过分析这些文本数据信息,研究选举了在整个选举前后,选民的情绪与政治倾向情况,并且构建了政治情绪指数,用于研究选举过程,并为选举提供指导。
(六)用于社会舆情分析
喻国明(2013)以 2009—2012 年百度搜索词数据库为研究对象,将碎片化的舆情信息整合处理并进行舆情模型构建的方法,构建“社会暖度”“社会幸福感”和“社会压力”等中国社会舆情指数。喻国明(2015)基于百度热搜数据库、腾讯浏览器以及安全卫士数据库等大数据信息,分析了 2014 年中国社会舆情的结构特点,并且和前几年情况做了纵向对比,分析中国社会舆情演变特点及机制。
(七)预测 GDP
Götz and Knetsch(2017)利用 Google 网络搜索数据结合偏最小二乘法, LASSO 方法等方法选择指标加入传统的桥梁方程模型(Bridge EquationModels)预测了德国的 GDP,研究结果表明,通过加入大数据指标,模型的样本外预测精度得到提高,有利于模型预测GDP的效果。
四、大数据宏观预测中存在的问题和解决方案
由于大数据其独有的特征,也造成传统的处理方法难以直接应对大数据的分析,需要新的技术方法来处理和分析经济大数据。当前,利用大数据分析宏观经济问题已经取得一定的成果,但远远不够,受到的局限较大。这里将从大数据应用于宏观经济预测分析的几个主要难点分别介绍。
(一)数据获取
传统的统计和计量模型使用的数据是通过统计和调研得到的数据,都是直接用于处理和分析的结构化数据信息。但是,经济大数据信息更多的是隐藏在网络之中,需要提取出来。现有可以用作宏观经济预测分析的大数据获取来源主要有三种。
1. 利用百度指数和 Google Trends 等互联网公司提供的数据信息。这种方式主要是百度和 Google 公司利用本身搜索引擎的优势,为用户免费提供的词条搜索量数据,这种方式也是当前应用最多的数据来源方式, Kholodilin et al.(2009); McLaren and Shanbhogue(2011); McDonald and Mao(2015) 等均是使用 Google Trends 搜索量来做宏观经济预测分析。这种方式的优点是,获取数据简单方便,技术难度低,成本低,直接查询就可以得到;缺点是数据信息量单一,只能获得这些公司提供的数据信息,无法定制化得到需要的数据信息。
2. 利用“网络爬虫”技术定制数据信息。“网络爬虫”也称为“网络蜘蛛人”,是一种按照一定的规则,自动爬取“万维网”信息的程序或者脚本。数据爬虫常用的程序或语言有:Python,Java,C++,C+,PHP,ErLang,Ruby等。Cavallo and Rigobon(2016)介绍的在 MIT 实施的 BBP 项目,即是利用“网络爬虫”技术获取价格数据,计算各个国家的消费者价格指数(CPI)。这种方式优势是可以根据宏观预测的目的有针对性地设计程序,从互联网绝大部分网站提取需要的数据信息,不受平台局限;缺点是技术难度较大,学习成本较高。
3. 企业大数据。当前,数据资源最为丰富的是互联网公司,例如腾讯、阿里、百度等,这些公司由于在各自的领域具有较大优势,并且投入较多的资源构建数据库,具有较大的数据优势;另外一些公司,例如移动、联通类的电信行业的大公司也同样掌握着巨量、高价值的数据信息。这些公司的内部数据相比于前两种方式,数据较为完备,并且数据质量较好,但存在一个“数据壁垒”问题。这些数据是公司外部的研究人员接触不到的,不仅仅是因为“隐私信息”的问题,更多的是各个公司都将构建的数据库视为公司的重要资产,是公司在各自领域继续保持优势的重要保障。因此,都不会公开这些数据信息,造成数据资源不能被很好地利用。
(二)维度灾难
在宏观经济模型中,由于大数据价值密度低的问题,往往需要通过大数据挖掘技术,获得足够多的数据信息,这包括多维度上的数据信息,因而解释变量会大大增加,因此研究中会出现高维数据问题,即因可得信息过多,往往会出现和被解释变量相关的解释变量数量过多,产生所谓的“维数灾难”。为解决这一问题,需要对变量降低维度处理,得到与宏观预测目的最为相关的变量。降维的思路分为两种:特征筛选和特征提取。特征筛选指用特征子集替代原始特征集;特征提取是指将高维度数据投影到低维度空间中。
(1)特征筛选思路中较为经典的是LASSO算法,这种算法是 Tibshirani(1996)年提出来的一种变量选择算法。其基本思想是在OLS多元回归的误差平方和中加入一个惩罚函数,若无常数项,并且有q个解释变量,n个样本,最优化公式如下:
这个公式由两部分组成,前面为 OLS 算法的误差平方和,后面部分为惩罚函数。通过加入惩罚函数的方式(λ≠0,且γ= 0),最终确定一些变量的系数为零,从而实现指标集合精简的目的。李春红等(2016)利用 LASSO 算法分析了网络广告点击率的预测模型,有效克服了数据高维性。其他常用特征筛选算法还有岭回归法、逐步回归法、Spike-Stab回归等。
(2)特征提取思路主要是主成分法(PCA)。PCA算法基本步骤:首先,对N个变量进行中心化,并计算协方差矩阵;其次,根据协方差矩阵计算特征值和特征向量;再次,将特征值按大小排列,保留前M个特征值和对应的向量;最后,利用这得到的M特征向量来计算M个主成分。通过这个过程将N个变量降维到M个主成分,这M个主成分包含了N个变量的信息量P用下面的公式计算,其中λi表示第i主成分的特征根:
通过这样的处理过程,用较少的 M个主成分来代表 N个变量用于分析,并且这几个主成分之间是正交的。其他特征提取思路降维算法还有:多维尺度分析(MDS)、奇异值分解(SVD)、等距特征映射(ISOMAP)、动态LEE等,可以参照相关文献材料了解各自算法过程。近年来,宏观经济研究领域常用动态因子模型(DFM)来进行变量降维处理。
(三)非结构化数据
构成大数据信息类型来源多样,网络日志、音频、图片、 URL、文本、地理位置信息等。其中大约只有 10% 属于结构化数据,其余 90% 的数据信息均是非结构化数据。宏观经济预测分析,离不开非结构化数据的处理。网络舆情信息等更多的都是文本信息,这些信息的处理离不开独特的处理方法。
当前技术发展较为成熟的是文本信息的分类处理,常见的文本分类算法有朴素贝叶斯分类(Naïve Bayes)、中心最近距离判别算法(又称 Rocchio算法)、k最近邻算法(KNN)、决策树算法、人工神经网络等。网络日志的分析主要是通过“网络爬虫”的技术实现。现阶段,对图片、语音和视频等非结构化数据技术还在发展探索中。
(四)研究问题范式的转变
传统的计量模型宏观经济预测,绝大多数情况下,均假设解释变量与被解释变量之间呈现某种确定的函数关系,但通过不同渠道获取的大数据资源,很难直接假定与宏观经济指标之间是确定的某种函数关系,实际过程中,大数据解释变量和宏观经济变量之间只存在相关关系,不存在因果关系。这更难以利用传统的计量模型来处理。
研究这种变量之间的关系,现在常用的技术是“机器学习”。机器学习过程就是让计算机自行利用样本数据来“学习”解释变量与宏观经济变量之间的关系,这种关系并不是线性关系,而是一种“匹配”关系。计算机“训练”的过程就是寻找最优的匹配关系的过程,在找到最优的匹配关系后,利用这种“学习”到的对应关系,通过新的解释变量来预测宏观经济指标。“机器”能够伴随计算、运行次数的增多,通过学习逐步自我提高和改善,使挖掘和处理更为准确。机器学习的主要算法包括线性模型、拓展的线性模型、决策树、支持向量机、人工神经网络、自组织映射网络、遗传算法等。
(五)数据噪声问题
噪声数据是指获取的对研究目的没有价值的信息。噪声数据问题的存在,导致两个方面的严重后果:(1)增加了成本。由于数据中大量噪声数据的存在,增加了数据处理的过程和难度,相应的研究分析成本大幅度增加。(2)增加了研究结论的误差。由于没有识别出噪声数据,导致研究问题过程中将加入大量无价值数据信息,给研究结论带来不确定性,增加了结果的误差,导致研究结论无价值,甚至会得到错误的结论。
当前大数据宏观经济研究过程中,数据来源范围越来越广泛,数据的搜集手段在扩展,数据搜集能力在增强,但搜集来的大量数据并非均与研究目的直接相关联。因此,在实际研究过程中,识别出与研究目的最相关的数据信息十分重要。当前利用大数据做宏观经济预测和分析的研究中,大部分直接使用Google 或百度指数,对此问题的讨论较少。但随着未来相关问题研究的深入和细致,噪声数据的处理,将会是一个探讨的重点。通过一系列的技术手段,获得网络或者其他来源的大数据后,均会处理成结构化数据用于分析和预测。SSA(Singular Spectrum Analysis)技术可以用来处理大数据中的噪声问题,通过SSA对原始的数据序列,构建新的、具有较少噪声的时间序列数据。Elsner and Tsonis(1996)、 Myung(2009)均对 SSA 技术处理过程有较为详细的介绍。
五、总结及展望
本文通过专家学者对“大数据”概念的定义,总结出能够定义为“大数据”信息的四个特点:数据量巨大;传统计算机难以计算处理;包含非结构化数据;信息密度低。在此“大数据”的特点上,宏观经济领域的“大数据”相对于传统的调查统计数据做预测分析具有以下五个方面的优势:及时性、精准性、容易细分、数据成本相对低和样本量巨大。
综合截至当前学者们利用经济“大数据”做宏观经济分析和预测研究成果,主要集中在失业率、通货膨胀、社会宏观消费、房地产市场、选举问题、社会舆论分析以及 GDP 预测等方面。当前国内在失业率、社会宏观消费、选举问题、以及 GDP 预测方面研究较为缺乏。
虽然专家和学者已经将“大数据”广泛地应用到宏观经济预测分析当中,但还需在以下几个方面进行扩展,这也是未来“大数据”在宏观经济预测方向发展的重要方向。
现阶段,应用“大数据”来做宏观经济预测和分析的研究主要是用Google Trends 和百度指数等互联网公司提供的数据来分析经济问题。这些数据均受制于自己的平台,例如,百度指数获取的数据只记录百度用户在百度搜索引擎上进行搜索的搜索量数据,这些数据信息局限性大,而且数据相对单一。另外,占网络数据信息量 90% 的非结构化数据,现阶段较少用于做宏观经济预测,这个是未来宏观经济预测数据的重要来源。应用经济“大数据”做宏观经济预测时面临几个方面的问题:维度灾难、非结构化数据、非线性关系和噪声问题。这些问题虽然在当前存在一些解决方案和模型,但是,均无法较好地满足宏观经济预测分析的要求,需要积极探索新的解决方案。