独家研究 | 基于网贷行业新闻的文本数据挖掘
2017-05-23 12:17:00 来源:搜狐财经

  文本挖掘,是数据挖掘领域重要的组成部分。简单地说,文本挖掘就是通过NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息。无论是微信聊天记录,还是新闻文章,亦或是古诗词等,文本挖掘的应用领域非常广泛。

  在网贷行业,舆情分析相对较少。究其原因,绝大多数网贷相关词汇均属于未登录词。通过手动录入的方式可以在一定程度上解决这一问题。但是其工作量巨大,而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入。本文以统计方法生成行业内未登录词,并在此基础上挖掘行业及平台热点。

  一、新词生成

  为了便于说明,选取网贷之家网站上2017年4月10日发布的所有新闻,并在剔除所有非中文字符之后将其拼接在一起,生成的文本用T表示。

  1.建立备选词词库

  我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词。例如,取L=5,则对于上述51550字的文本材料T就能生成51549+51548+51547+51546=206190个备选词。

  2.停用词过滤

  停用词主要是指人类语言当中的一些功能词,例如“的”,“了”等。这类词本身并没有什么实质性信息,但是由于出现频率高,会影响计算效率。结合实际内容,本文中将所有含有“的”字的备选词过滤。

  3.低频词过滤

  如果某个文本片段出现频率过低,一方面其成词可能性较小,另一方面其文本特征的偶然性较大,不适合做统计处理。从备选词的频数分布情况看,出现频率为1的词占86.50%,可以将其过滤。

  4.自由度判断

  自由度也可以理解为独立性。一个文本片段能够成词需要在上下文中保持独立性,可以自由应用。以“诺诺镑”和“诺诺镑客”为例,“诺诺镑”右邻字只有“客”一种情况。而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况,且各种情况的发生频率较为平均。由此可见,“诺诺镑客”的独立性较强,上下文的丰富程度较高,有更大的成词概率。

  为了衡量备选词的自由度,我们在这里引入信息熵的概念。简单的说,信息熵就是信息量。信息熵的大小与某一不确定性事件的可能结果数量及发生概率有关。“诺诺镑客”右邻字集的信息熵为1.7479,明显大于“诺诺镑”的0,说明其成词可能性更高。这也与上文通过直接观察所得结论一致。为方便起见,我们将所有左、右邻字信息熵较小值不大于1的备选词过滤。

  

  5.凝合度分析

  凝合度被用来形容单词的内部凝固程度。例如,对于语句“大数据、人工智能、区块链等引发的金融科技”而言,“区块链”的凝合度显然高于“等引发”。从条件概率的角度考虑,假设“区块”和“链”在语料中独立随机出现,则在两者都出现的条件下,“区块链”的出现概率约等于“区块链”出现频率除以“区块”与“链”出现频率乘积。因为“区块链”也可以拆分为“区”和“块链”,所以定义凝合度=任意拆分下的最小条件概率*文本长度*100,则“区块链”、“等引发”的凝合度分别为1.8182、0.1515。通过测试,将凝合度不大于1的备选词筛去。

  6.登录词过滤

  将通过上述步骤筛选剩余的词与已有登录词匹配,删去重复词,最终得到了53个未登录词。图显示,挖掘出的新词可以分为三类:1)人名:王晓亮、刘旭、陈一菲等;2)机构、公司名称:奥马电器、乐视、天津证监局等;3)互金及网贷行业词:薅羊毛、羊毛党、整改通知等;4)互金平台名:蚂蚁金服、诺诺镑客、鑫合汇等。

  

  二、行业及平台热点挖掘

  1.行业热点词概览

  

  基于上述未登录词生成方法和网贷之家4月份新闻舆情数据,可以得到4月份网贷行业热点词分布图。图中彩色点的大小与热点词词频正相关。总体来看,行业型热词数量较多,分布广泛。研究、理财型热词有明显的集群现象。政策型热词数量在四月下旬增长显著。

  

  另外,在累计1207个热点词中,人名占比达到16.82%,公司、机构名占比为9.61%,互金及网贷平台名占比达到9.20%,可见上述方法对于名称类的词识别效果显著。

  

  2.热点事件观察

  (1) 绿能宝逾期

  选择上表中词频最高的“绿能宝”为例,为了寻找绿能宝究竟发生了什么,我们以四月份所有含绿能宝的网贷之家新闻为样本,采用上文所提及方法,并为每一个热词贴上时间标签以后,得到结果:

  

  利用贝叶斯平均的思想,分析“逾期”一词的热度。由于文本材料的长度不一,我们将“绿能宝”的词频作为基数加入到计算过程中。

  

  经计算“逾期”的热度在19日最大,其值等于:

  

  而14日、17日、18日、25日的热度值分别为10.90、20.62、24.82、11.28。

  (2) 校园骗贷事件

  某高校辅导员利用其特殊身份冒用学生个人信息在网贷平台贷款近百万后失联。这里,我们利用该事件相关新闻文本,尝试着构建关键词网络来刻画。首先,我们还是需要用上文的方法生成一个关键词样本。从中筛选出20个具有特征性的关键词作为节点;以词与词之间的最短距离作为关联性指标,若两词最短距离小于10,则认为两者具有关联关系。另外,考虑到不同句子中的词关联性较弱,我们在句与句之间插入10个字的无关文本,以避免前句句尾词和后句句首词距离过短的情况。

  

  图5中,相关联词用直线连接,粗线表示方向,直线粗端词出现在直线细端词之后。其中,连接次数最多的词是“王晓亮”和“学生”。显然两者就是整个事件的中心人物。另外,通过找寻处于直线或者多边形顶点的关键词以及直线方向,可以发现一系列信息体。例如,“南航-->辅导员-->王晓亮”反映了“王晓亮”的身份信息。需要注意的是,若关键词的关联方向不一致,则无法形成一个可靠的信息体,比如“受骗-->父母-->电话”与“电话-->受骗”。

  3.平台热点透析

  以表2中词频较高的三个互金平台为例:

  (1) 信而富

  热点词:信而富、美元、借款、发行、普通股、招股书、公司、利率、市值、开盘、王征宇、董事、开盘价、承销商、宜人贷、总股本、纽交所、美国、计提、超额配售权

  热点分析:4月份涉及信而富的新闻舆情以“上市”为核心话题。围绕“上市”这一主题展开的内容有招股说明书的分析、IPO进程的叙述、股价的变动、前景预测以及与同在纽交所上市的宜人贷的比较。

  主要新闻事件:信而富在纽交所上市,开盘涨11%,市值达4.2亿美元。

  (2) 陆金所

  热点词:陆金所、平台、科技、上市、平安、业务、管理、市场、理财、产品、人士、信息、投资、私募、你我贷、交易、机构、陆金所控股、互联网金融、计葵生、平安大华、理财科技、一站式、三所一惠、平安普惠

  热点分析:陆金所的新闻热点以业务布局为主。4月份,关于平安大华打破原有“三所一惠”布局并入大陆金所版图的传闻甚嚣尘上。另外,“一站式线上财富管理”、“理财科技”的概念多次出现在新闻舆情中。受到信而富上市的影响,关于陆金所何时何地上市的猜测也是4月舆情的热点之一。

  主要新闻事件:陆金所全面布局财富管理,转型路径渐渐清晰。

  (3) e路同心

  热点词:金融、e路同心、社区金融、农村金融、农业、平台、银行、互联网金融、信息安全、布局、周年、广东省、机构、业务、百强榜、同心基金、消费金融、社区银行、股东、上市、企业、合作、润民

  热点分析:4月18日,e路同心上线两周年。因此与两周年相关的新闻报道较多,附带着大量关于平台国资背景、成交量破七十亿之类的信息。此外,在转型的大背景之下,e路同心开始布局社区金融。新闻舆情中对于“社区金融”的概念、未来发展空间的描述篇幅较大。

  主要新闻事件:e路同心宣布扩充资产版块,布局社区金融。

  总结

  通过信息熵、条件概率等指标从统计的角度构建未登录词词库能大大提高专有名词的识别率,降低了人工成本。与此同时,这种算法也可以被用来挖掘新闻热点。但是其缺点也是明显的,一方面它对于语料的丰富度要求较高,另一方面计算效率偏低。

  • 为你推荐
  • 公益播报
  • 公益汇
  • 进社区

热点推荐

即时新闻

武汉