王小燕
- 作品数:19 被引量:113H指数:7
- 供职机构:湖南大学金融与统计学院更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究基金国家社会科学基金更多>>
- 相关领域:经济管理社会学理学自动化与计算机技术更多>>
- 基于Knockoff的分位数回归变量选择方法及其投资组合决策应用
- 2023年
- 在数据驱动时代,变量选择广泛应用于投资组合,如何从众多资产中挑选恰当的资产并进行配比,对稳定收益、控制风险非常关键。现有选择资产的方法未考虑到控制错误发现率(FDR),不利于作出稳健的投资决策。为此,本文在Lasso分位数回归下基于Knockoff方法控制FDR,并用于求解条件风险价值(CVaR)投资组合决策模型。其中,用Lasso惩罚实现变量选择,用Knockoff方法通过模仿解释变量的相关结构构造Knockoff变量,将变量选择的FDR控制在给定水平。模型在两步迭代算法下采用线性规划求解,模拟分析从不同的误差分布、变量分布和维度下多角度展开。结果显示,与已有模型相比,基于Knockoff的Lasso分位数回归模型能良好地控制FDR且呈现出最好的预测效果。最后基于上证50指数成分股进行实证分析,利用滚动建模技术进行投资组合决策分析,发现新模型在收益指标和风险指标上均具有一定优势。
- 王小燕张中艳
- 关键词:分位数回归投资组合CVAR
- 大数据的整合分析方法被引量:27
- 2015年
- 大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下,L1Group Bridge、L1Group MCP、Composite MCP都表现良好,其中L1Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。
- 马双鸽王小燕方匡南
- 关键词:大数据癌症基因
- 基于图结构自适应Lasso的碳排放权价格影响因素分析被引量:12
- 2022年
- 碳交易作为实现低碳经济的一种途径,既具有环境效益,又具有经济效益。为了研究碳排放权价格的影响因素,选取广州碳排放权交易所的碳配额价格收盘价(GDEA)为研究对象,从6个维度构建了24个指标:国际碳价、国内外经济指标、国外能源指标、国内能源指标、气候环境和宏观政策,并将指标间复杂的相关关系纳入模型来改进指标筛选效果。首先基于复杂网络理论构建了24个指标的图结构,表示它们的复杂联动关系,再建立图结构自适应Lasso方法(G-AdLasso)进行影响因素识别。研究发现:指标之间存在无可忽视的中等或高度相关,依据两两相关关系建立图结构时,上述24个指标可被分为6个团体,体现了指标的内部关系。同时G-AdLasso选择出了10个因素,其中欧盟核证减排量收盘价影响最为显著,欧盟EUA收盘价、迪拜原油现货价、美元兑人民币中间价4个因素对GDEA有正向影响;欧盟CER收盘价、NYMEX天然气期货收盘价、欧洲三港DES ARA动力煤指数、广州工业天然气市场价、广州日最高气温、银行间7日同业拆借平均利率、欧元兑人民币中间价7个因素对GDEA有负向作用;这些因素在上述6个维度上均有涉及,且它们在图结构中具有较高的度,说明G-AdLasso可识别出图结构中较重要的指标。对比不带图结构的自适应Lasso和Lasso方法,G-AdLasso方法选择更少的指标,说明该方法可优化和精简模型。
- 王小燕周思敏徐晓莉周四军
- 关键词:复杂网络低碳经济
- 基于复杂网络法的股票市场特征分析与指数构建被引量:2
- 2018年
- 利用复杂网络理论,以股票为节点、股票收益率绝对相关系数为边的权重建立复杂网络,并选取其中节点强度较大的股票作为成分股构建新的指数。结果表明,新构建复杂网络股票指数不仅能体现股票间的关联信息,且可以综合反映A股市场的变化情况,具有良好的稳定性。
- 王小燕姚佳含袁欣
- 关键词:复杂网络股票指数
- 基于文本先验信息的贷款信用风险评估模型被引量:10
- 2021年
- 本文利用现有信用风险研究所蕴含的信息,构建了一个新的贷款信用风险评估模型—PIPL。该模型先通过文本挖掘技术对现有研究进行文本信息搜集,得到关于信用风险指标的先验词频以体现指标的重要性,再通过惩罚变量选择法将先验词频量化为先验因变量,最后基于先验因变量和原始数据构建模型,并通过弹性网筛选风险指标。模拟分析显示PIPL模型能自动识别先验信息的质量,当先验信息质量高时,它赋予先验信息较高的权重,从而改进了指标选择和分类效果,当先验信息质量较低时,它能自动降低先验因变量在模型中的权重,表现出稳健的分类效果。实证分析从知网挖掘123篇文献获取文本信息,并以P2P网贷数据为例,发现PIPL模型通过先验信息提高了分类的准确性,并表现出了良好的稳健性。
- 王小燕张中艳马双鸽
- 关键词:LOGISTIC回归贷款信用风险
- 基于CMCP和余弦间隔交叉熵的深度神经网络及其应用
- 2022年
- 二分类问题在经济领域十分常见,深度神经网络(DNN)是现有最为常用的分类方法之一。然而在处理高维特征数据时,DNN仍然面临着巨大的挑战。为此,本文基于CMCP和余弦间隔交叉熵损失建立了一个新的深度神经网络(CMCP-CMDNN),它既实现高维输入特征的筛选,又改进分类预测能力。其中,CMCP方法用于压缩输入特征到第1隐藏层的权重,通过融合权重的组结构,能够剔除无关特征以及不重要的连接。余弦间隔交叉熵损失函数可以增大判别边界的间隔,提高分类准确率和稳健性。为了求解模型,本文基于局部线性近似(LLA)和近端梯度下降算法估计参数。模拟分析表明,对比已有DNN和分类方法,所提出的方法具有良好的特征选择性能和预测表现。信用贷款违约风险实证研究表明,该方法能够有效选择风险指标并进行违约风险预警。本文拓展了深度神经网络的理论研究,为高维复杂交互作用的大数据建模提供新思路,为解决金融、管理、生物等领域的分类问题提供有力的分析工具。
- 王小燕冮建伟徐龙滔
- 关键词:信用风险
- 国内近十年动漫研究热点分析--基于共词分析的文献计量研究被引量:1
- 2018年
- 文章运用数据分析软件BICOMB、R语言以及SPSS19.0对从CNKI中国期刊全文数据库检索到的2008—2017年的1381篇CSSCI期刊文献进行计量分析,采用文献计量学的共词分析方法及可视化技术,绘制出国内动漫研究热点的知识图谱。根据知识图谱的导引,进一步挖掘出国内动漫研究的五大热点主题:动漫及动漫产业衍生开发研究、日本动漫研究、新媒体与动漫研究、动漫产业集群及文化软实力研究、动漫人才培养研究。
- 陈维超王小燕刘兰
- 关键词:共词分析聚类分析多维尺度分析
- 基于零膨胀分位数两部模型的银行贷款违约预测研究被引量:4
- 2022年
- 贷款信用风险评估是银行风控的重要内容。贷款逾期天数作为常见的风险度量指标,具有典型的零膨胀特征。对于零膨胀数据,传统的线性回归不再适用,两部模型是常用的代表方法。考虑到贷款数据具有偏态分布特征,本文构建了一个分位数两部模型—logit-quantile模型。该模型由Logistic回归和分位数回归构成,为了进行风险因素的选择,在模型的两个回归中添加了Lasso惩罚。为了求解模型,本文采用了坐标下降法和线性规划法相结合的迭代算法。模拟分析显示,对比逐步法和常用的logit-linear两部模型,新模型表现出了最好的变量选择效果,尤其在零膨胀比例为80%及高维情形时,该模型的表现仍然最优。最后对某银行的贷款数据实证分析显示,新模型具有更精简的结构,采用交叉验证技术进行预测显示新模型的预测和分类表现最好。
- 王小燕袁腾段湘斌
- 关键词:银行贷款分位数回归
- 基于惩罚组变量选择的COX财务危机预警模型被引量:7
- 2018年
- 随着市场竞争的日益激烈,上市公司生存压力不断增大,如何从繁多的财务指标中选择重要指标,建立有效的财务危机预警模型显得尤为重要。COX模型具有对因变量分布无假设并可以对公司生存时间进行动态预测等优点,因此本文引入COX模型,并加入惩罚组变量选择CMCP方法,对具有分组结构的财务指标进行筛选。本文根据实际的财务危机数据特征设置模拟实验,并将CMCP-COX模型与Lasso-COX模型、逐步COX模型、COX模型和逐步Logistic相比,结果表明在不同的自变量相关性下CMCP-COX模型的指标筛选和预测效果均更优。实证分析中,CMCP-COX模型在测试集上的预测准确率高于80%,尤其在"危机"类别中预测准确率高于90%,其预测准确性和AUC值均优于传统的逐步Logistic回归和其他COX模型,并呈现出了理想的时点预测效果。综合对比认为CMCP-COX模型对于财务危机预测的综合表现较好,更具有现实意义。
- 王小燕袁欣
- 关键词:COX比例风险模型财务危机预警
- 带网络结构的自适应Lasso分位数回归及其应用被引量:7
- 2019年
- CVaR是衡量组合投资的重要风险测度,如何在CVaR组合模型中选择稳健的资产组合以降低管理时间和经济成本十分重要.理论上CVaR模型下的资产组合决策可转化为分位数回归,受此驱动,该文构建了带网络结构的自适应Lasso分位数回归,对高维资产进行选择.自适应Lasso对变量的回归系数进行加权约束,理论上具有变量选择的一致性.网络结构是基于复杂网络理论构造,能够体现出资产之间的复杂联动关系,因此它对改进选择结果是有利的.该文基于线性规划进行求解,对CVaR组合投资决策中特有的计算问题采取两步迭代的方式进行.多种情形下的模拟分析显示,新模型的变量选择效果和预测表现均最优,且随着变量之间相关性的增强,网络结构带来的优势愈发明显.最后,使用249只股票数据进行了实证分析,通过滚动建模的方式,得出新模型具有良好的稳健性与应用意义.
- 王小燕姚佳含袁欣
- 关键词:分位数回归网络结构资产组合