Cien Anos De Soledad Y Garcia Marquez

Páginas: 9 (2110 palabras) Publicado: 25 de noviembre de 2012
网站流量访问量和搜索引擎查询之间的关系的泊松回归检验
摘要:本文采用标准化和规模化的谷歌搜索量数据来预测经济活力。此数据源有许多优点也有许多缺点。每天和每周数据显示了可能产生矛盾结果的谷歌数据集成效果。网民们在谷歌搜索引擎中对网站的查询会导致该网站的排名发生变化,本文采用泊松回归探索了某网站的在线流量访问量与某特定搜索的搜索量之间的关系。由于谷歌的标准化和规模化程序而导致使用的数据缺乏透明度,本文需要找出一个潜在的新的数据源中的原始数据,同时找出该数据源的优点和缺点。
1 引言一个新兴的涉及到使用网站搜索引擎的研究工具:谷歌Analytics(分析),它用谷歌的见解或谷歌趋势预测经济活力。使用谷歌的搜索量数据可以即时访问全球互联网活动是对网民来说一个巨大的诱惑。当然使用这些数据也有一些问题,一个最主要原因就是这些数据缺乏透明度,不是原始数据。事实上,谷歌是透明的。它的数据是来自世界各地的,是的每天每周一次次积累的,并且对这些数据进行标准化和调整并且对这些数据进行标准化和规范化,然后再提供给用户的数据,这进一步加剧了缺乏透明度的问题。谷歌不释放原始搜索数据的主要原因是由于隐私问题,如通过搜索历史数据揭示用户的身份(Barbaro and Zeller 2006)。谷歌进一步标准化和规范化原始数据,以更加友好和易于理解的方式向用户呈现数据。这必经的过程对研究人员来说是有问题的,因为样本大小会限制一个给定的数据频率,这使得研究长期趋势几乎是不可能的(Rapach 2003, Gagnon 2008)。此外,根据标准化和规范化的数据得出的回归结果的解释是不是直线前进,具有重要的政策含义。
由于标准化,规范化的网站的流量访问量和搜索引擎的查询和聚合方面的作用并没有直接影响,本文使用这些数据探讨了潜在的隐患。然而,这些研究都发现,引入模型规范化或聚合数据导致信息的丢失比以更大的规模化和更高水平的聚合(Rossana and Seater 1995, Bian 1997)的损失会更大。此外,规范化数据的同时也有可能产生数据据的变形(Pyle 1999)。Marvasti(2010)指出:信息技术(IT)对数据汇总是敏感的,尤其是当原始数据和汇总数据之间的联系范围缩小时显得特别敏感。由于标准化,规模化和聚集过程,谷歌的数据将成为一个被截断,范围逐渐缩小的可变数据。
互联网活动已经被用于预测经济活力,甚至流行性流感(Ginsberg, Mohebbi, Patel, Brammer,Smolinski, and Brilliant 2009)。在经济活力方面,Azar(2009)发现一个冲击油价和模仿谷歌搜索电动汽车在贝叶斯向量自回归(BVAR)模型之间的负面关系。Askitas和Zimmermann (2009)注意到某些关键词之间有强烈的相关性,如使用Engle 和 Granger建立(1987)的误差修正模型来搜索德国的失业办公室或机构、失业率、人事顾问和最受欢迎的工作搜索引擎或者德国每月失业率。在一份技术文件中说明,Choi and Varian(2009B)说明,从谷歌趋势的ARIMA框架列入的数据能更好地解释美国首次申请失业救济人数与样本相匹配度。Choi and Varian( 2009A )也使用从谷歌每天和每周的数据的趋势的每天和每周的数据,通过采用季节性自回归模型( AR)来探索旅游零售和汽车销售之间的关系。本文的目的有两个。第一个目的是研究使用了标准化,规范化和汇总的谷歌数据后对多变的互联网活动是否具有重要影响。因为不管使用什么数据,所有从谷歌数据都经过相同的积累、标准化和规范化这些过程。了解这些过程需要通过研究谷歌的行为,所以这是一项重要的研究。同时使用谷歌数据不仅有利于经济学的领域,而且业也有利于其他领域的研究。第二个目的是了解某网站的在线流量访问量与某特定搜索的搜索量之间的关系。对网站流量访问量理解和建模具有重要的意义,收集从外部商业环境中产生的变量数据可以帮助预测个体企业的收入。
所有从谷歌的见解或谷歌趋势获得的数据都是首先标准化,然后规范化,最后截取获得的数据。因为每日和每周从谷歌获得的数据没有大部分损失,并且涉及到查尔斯顿地区公约和游客管理局(CACVB)网站,所以用来展示标准化,规范化和汇总的结果。
下面是Michener 和 Tighe (1992)的推理,他们用一个统计模型,泊松准最大似然(QML)回归来展示网站流量访问量的查尔斯顿地区公约和游客管理局(CACVB)网站的回归变数。因为网站流量访问量数据是一个非负计数变量,并没有一个上界,所以为了保持分析一致, 用泊松回归QML模型来模仿每天和每周的数据。泊松回归QML模型放宽限制的条件意味着平等的条件方差。因为数据出现的频率都过于分散和低分散,所以该模型是必须的。
此外,统计数据通常经历异方差,而泊松回归QML模型会自动考虑异方差 (Cameron and Trivedi 1998,Wooldridge 2002)。此外,使用泊松QML回归可以消除从被标准化,规范化和转换成索引的数据附带出的回归系数从而来说明问题。泊松回归的性质允许的回归系数为弹性或半弹性,这对所有的回归模型不是自动的(Wooldridge 2002)。本文中最重要的是发现描述被标准化和规范化的新数据源,并指出谷歌数据的潜在的局限性。研究人员既不能从反向工程也不能从数据库获得原始数据。像时间序列数据,谷歌在回归分析中使用的数据的频率可以极大地影响估计系数的大小,甚至可能会影响估计系数的统计意义。本文还发现,根据不同的频率可以改变数据从低分散到极端过度分散,这表明谷歌的数据标准化,规范化和聚集汇总的影响其统计特性和数据的建模。此外,该研究还发现,某些关键字的搜索查询的搜索量对某网站的流量访问量和该网站的排名有较大的影响,特别是CACVB网站。
本文的结构如下:第2节,理论模型;第3节,对给出的数据和实证结果的一个简短的讨论;第4节,得出结论。
3.实证结果
此部分被分为三个小部分。3.1节包含更多的被用作回归变量的数据的细节- 五种来源不同网站的流量访问量,即网络点击率在同等条件(没有转化为日志变量)的回归变量。这是具体查询的对数转换的七个关键字搜索量和5个关键字排名的单因素泊松QMLE回归结果。在3.2节中介绍的五种不同的网络流量访问量来源都是仿照这七个关键字搜索量和相应的关键字排名并作出回归结果。3.2节还提出二元的泊松QMLE回归,各种形式的回归变量,五种不同来源的网络流量访问量的回归系数用来查询五个不同的关键字搜索量和它们各自的排名,而且每天和每周的数据都用来查询一元和二元的泊松QMLE回归。最后,3.3节对标准化,规范化和聚合汇总对泊松QMLE回归的影响进行了讨论。
3.1 数据讨论
当一个潜在的游客需要搜索某个目的地,他或她将最可能在搜索引擎中键入一个查询词,通过返回的结果选择一个网页进行查询。因此,针对特定的搜索查询的搜索量和网站的排名,那些在各大搜索引擎的查询将显着的影响网站的流量访问量(Pan, Litvin, and O’Donnell, 2007)。在这项研究中,把某特定的搜索查询的网站排名和该查询的搜索量作为两个回归系数,该特定网站的网络流量访问量作为因变量。泊松回归中所使用的数据都来自谷歌分析和谷歌解析这两个不同的谷歌源。因为从2008年1月至2009年3月期间,谷歌占据了主导地位的市场份额,所以谷歌成为了重点搜索引擎。研究人员可以从CACVB网站的谷歌分析账户中获得各种不同形式的网站流量访问量的回归变量。因为谷歌分析使用了简短的脚本在某个网站的每个页面上用来捕捉游客的访问行为。表1A和1B中专门分析5个回归变量。第一个回归变量为访问所有流量访问量的网站。只有第一次访问的网站(如鉴定出新的互联网协议(IP)地址)的一个子类或新的的网站访问才能形成第二回归变量。从搜索引擎搜索的网站流量访问量被称为网站的流量访问量,这是第三回归变量。第四和第五回归变量分别为访问查尔斯顿地区本地的网站流量访问量和访问查尔斯顿地区以外的网站流量访问量。
研究人员使用一段一个程序来下载每日搜索引擎的结果,因为它涉及到五个不同的关键字搜索查询在总体类型的搜索类别,这五个关键字分别是查尔斯顿游戏,查尔斯顿旅行,查尔斯顿旅馆,查尔斯顿餐馆和查尔斯顿旅游,还有根据关键字“旅行”搜索查询的两个不同的子查询,使总体的搜索量回归系数变成了7个。此外,通过一个定制的内置程序获得CACVB网站排名的五个搜索查询和这些搜索查询形成的五个等级变量回归系数。游客根据谷歌关键字工具搜索查询查尔斯顿。A Poisson Regression Examination of the Relationship
between Website Traffic and Search Engine Queries


Abstract :A new area of research involves the use of normalized and scaled Google search volume data to predict economic activity.
This new source of data holds both many...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Cien Años Soledad Garcia Marquez Analisis
  • Cien años de soledad
  • Ensayo cien años de soledad
  • Reporte cien años de soledad – gabriel garcia marquez
  • Cien años de soledad y la relación con la biblia García Márquez
  • Reseña De Las Primeras 100 Paginas De Cien Años De Soledad De Gabriel García Marquez
  • Resumen Capitulo 16 De "Cien Años De Soledad" Por Gabriel Garcia Márquez
  • Fernanda del carpio

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS