在统计学中为何要对数据进行变量变换
为什么回归分析把解释变量取对数,有什么好处?
对取对数以后的数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是日夏养花网弹性,这是一个很好的性质哦。
进行回归分析时,是先把数据标准化再取对数还是取对数后再标准化?谢谢。。我来回答
就回归分析而言,标准化不是必要的,因为标准化是数据的线性变换,不影响估计的显著性。
计量模型一般不进行标准化,保持变量的原汁原味,方便估计结果的解释。多元统计里经常要标准化,如主成份分析,因子分析等。
对数变换的主要目的:(1)估计的系数可以解释成弹性,一般用在经济学模型里;(2)可以降低样本异方差程度;(3)减少变量的波动,与其他变量的波动水平相适应。
对数变换要求原始变量为正,如果先标准化可能会出现负值,对数变换就不行了。只能对正取值的变量先取对数,再标准化iNXkLAqNB。
在统计学中为什么要对变量取对数我来回答
(1)减弱模型中数据的异方差性,只能是减弱,并不能彻底消除
(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性
(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.
(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性
(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布
等等。
计量模型中变量是比例形式,取对数还有意义吗 我来回答
如果数据数值比较庞大,与其他相关的变量很难比较方便地看出关系,可以通过取对数对数值较大日夏养花网的数据进行平滑。宏观计量经济分析中较常用。
如果变量关系x和y本身不是线性关系,比如y=x1*x2 就取对数 取完对数好做线性回归。再比如原来是y=x^2 也取对数 好做线性回归。不知道对不对,还请大师们指出错误和不足吧。总之一句话 如果有足够的证据表明 y和x的关系比较像y=x1*x2/x3这种或者说比如形式如经济学里面的“万有引力定律”,那么我们就取对数 为了方便线性回归。
做回归分析时,什么时候要取对数,什么时候不取对数我来回答
变量不符合正态分布,可以考虑对数
在统计学中为什么要对变量取对数我来回答
我能想到的有两点
作用1: 对有些存在异常大的观测值的变量,取对数可以减小方差
作用2: 对只有取正值才有意义的变量,例如重量,如果直接进行线性回归,那么可能产生没有意义的负的预测值,所以有时会考虑对对数值进行回归分析而不是原始的观测值,这样就不会产生没有意义的预测值。
在对变量取对数后,变量的变化变成了百分比,为什么?我来回答
有很多原因啊.(1)减弱模型中数据的异方差性,只能是减弱,并不能彻底消除(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布………………
stata什么时候取对数我来回答
序列分析中,常常还有会序列相关的问题,这样直接进行参数估计,估计量是无效的,取对数可以有效的改善自相关的问题,
有时候用来降幂,把非线性的变换为线性、
还有就是做宏观经济分析,参数过大,取对数,把值变小,提高显著水平。
取对数是一种常用方法,宏观经济分析中做时间序列的主要是出于第一种和第三种问题。可以说是一种万金油的方法,对自相关、异方等常见问题都有效,但不是绝对的解决
进行回归分析时,是先把数据标准化再取对数还是取对数后再标准化?谢谢。。我来回答
就回归分析而言,标准化不是必要的,因为标准化是数据的线性变换,不影响估计的显著性。
计量模型一般不进行标准化,保持变量的原汁原味,方便估计结果的解释。多元统计里经常要标准化,如主成份分析,因子分析等。
对数变换的主要目的:(1)估计的系数可以解释成弹性,一般用在经济学模型里;(2)可以降低样本异方差程度;(3)减少变量的波动,与其他变量的波动水平相适应。
对数变换要求原始变量为正,如果先标准化可能会出现负值,对数变换就不行了。只能对正取值的变量先取对数,再标准化iNXkLAqNB。
在统计学中为什么要对变量取对数我来回答
(1)减弱模型中数据的异方差性,只能是减弱,并不能彻底消除
(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性
(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.
(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性
(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布
等等。
计量模型中变量是比例形式,取对数还有意义吗 我来回答
如果数据数值比较庞大,与其他相关的变量很难比较方便地看出关系,可以通过取对数对数值较大日夏养花网的数据进行平滑。宏观计量经济分析中较常用。
如果变量关系x和y本身不是线性关系,比如y=x1*x2 就取对数 取完对数好做线性回归。再比如原来是y=x^2 也取对数 好做线性回归。不知道对不对,还请大师们指出错误和不足吧。总之一句话 如果有足够的证据表明 y和x的关系比较像y=x1*x2/x3这种或者说比如形式如经济学里面的“万有引力定律”,那么我们就取对数 为了方便线性回归。
做回归分析时,什么时候要取对数,什么时候不取对数我来回答
变量不符合正态分布,可以考虑对数
在统计学中为什么要对变量取对数我来回答
我能想到的有两点
作用1: 对有些存在异常大的观测值的变量,取对数可以减小方差
作用2: 对只有取正值才有意义的变量,例如重量,如果直接进行线性回归,那么可能产生没有意义的负的预测值,所以有时会考虑对对数值进行回归分析而不是原始的观测值,这样就不会产生没有意义的预测值。
在对变量取对数后,变量的变化变成了百分比,为什么?我来回答
有很多原因啊.(1)减弱模型中数据的异方差性,只能是减弱,并不能彻底消除(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布………………
stata什么时候取对数我来回答
序列分析中,常常还有会序列相关的问题,这样直接进行参数估计,估计量是无效的,取对数可以有效的改善自相关的问题,
有时候用来降幂,把非线性的变换为线性、
还有就是做宏观经济分析,参数过大,取对数,把值变小,提高显著水平。
取对数是一种常用方法,宏观经济分析中做时间序列的主要是出于第一种和第三种问题。可以说是一种万金油的方法,对自相关、异方等常见问题都有效,但不是绝对的解决
取对数的原因有很多种,大致概括起来有:1.减弱模型中数据的异方差性,只能是减弱,并不能彻底消除;2.模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的现行关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性;3.取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性。
因为你原来的方程模型肯定是道格拉斯模型。w=cexp(be)exp(cx)
为了回归分析,就左右取对数,如此连乘变成连加也就是线性。等到你得出回归值a尖,b尖,c尖,
带回原方程就好了。
取对数是计算方便。讲起意义还是要脱了对数才能说。
为了回归分析,就左右取对数,如此连乘变成连加也就是线性。等到你得出回归值a尖,b尖,c尖,
带回原方程就好了。
取对数是计算方便。讲起意义还是要脱了对数才能说。
在统计学中为什么要对变量取对数
对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
1.
缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2.
取对数后,可以将乘法计算转换称加法计算。
3.
某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897,
log200=2.30103,
log800=2.90308
这时候前者为2log500=5.39794,
后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。从log函数的图像可以看到,自变量x的值越小,函数值y的www.rixia.cc变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。
4.
取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4,
但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
5.
所得到的数据易消除异方差问题。
6.
在经济学中,常取自然对数再做回归,这时回归方程为
lnY=a
lnX+b
,两边同时对X求导,1/Y*(DY/DX)=a*1/X,
b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X)
这正好是弹性的定义。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。
1.
缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2.
取对数后,可以将乘法计算转换称加法计算。
3.
某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897,
log200=2.30103,
log800=2.90308
这时候前者为2log500=5.39794,
后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。从log函数的图像可以看到,自变量x的值越小,函数值y的www.rixia.cc变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。
4.
取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4,
但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
5.
所得到的数据易消除异方差问题。
6.
在经济学中,常取自然对数再做回归,这时回归方程为
lnY=a
lnX+b
,两边同时对X求导,1/Y*(DY/DX)=a*1/X,
b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X)
这正好是弹性的定义。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。
(1)减弱模型中数据的异方差性,只能是减弱,并不能彻底消除
(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性
(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.
(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性
(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布
等等。
(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性
(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.
(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性
(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布
等等。
我能想到的有两点
作用1:
对有些存在异常大的观测值的变量,取对数可以减小方差
作用2:
对只有取正值才有意义的变量,例如重量,如果直接进行线性回归,那么可能产生没有意义的负的预测值,所以有时会考虑对对数值进行回归分析而不是原始的观测值,这样就不会产生没有意义的预测值。
作用1:
对有些存在异常大的观测值的变量,取对数可以减小方差
作用2:
对只有取正值才有意义的变量,例如重量,如果直接进行线性回归,那么可能产生没有意义的负的预测值,所以有时会考虑对对数值进行回归分析而不是原始的观测值,这样就不会产生没有意义的预测值。
为了呈线性吧
在统计学中为什么要对变量取对数
告诉你为什么数据要取对数
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
1. 缩日夏养花网小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2. 取对数后,可以将乘法计算转换称加法计算。
3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。
也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
5. 所得到的数据易消除异方差问题。
6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
1. 缩日夏养花网小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2. 取对数后,可以将乘法计算转换称加法计算。
3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。
也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
5. 所得到的数据易消除异方差问题。
6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。
多元统计学分析:在数据处理时,为什么通常要进行标准化处理?
数据标准化是统计学中对数据进行分析前处理的一种方法,目的在于消除数据计量单位及变异程度。
例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm
)相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。
例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm
)相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。
文章标签:
本文标题: 在统计学中为何要对数据进行变量变换
本文地址: http://www.rixia.cc/wenda/306860.html
相关推荐