数字营销新闻资讯

Google & Facebook 大咖实战经验分享,带你玩转外贸营销

我们如何确定哪些虚假信息发布者从 Google 的广告系统中获利

我们的故事“ Google 的广告业务如何资助世界各地的虚假信息”发现,尽管 Google 公开承诺打击虚假信息,但它继续允许网站使用 Google 的广告系统从虚假和误导性内容中获利。我们的报告确定了允许继续从 Google 广告中收取收入的网站,即使报道似乎违反了公司针对与 COVID-19、健康、选举和气候变化相关的不可靠和有害声明的政策。我们还发现,与类似的英语网站相比,包含英语以外语言和较小市场的错误信息的网站更有可能继续从 Google 广告中获利。

我们分析了包含虚假声明的文章和网站的数据集,以确定其中有多少人使用 Google 的广告平台赚钱。我们从跟踪世界各地在线虚假信息的组织那里获得了这些数据集,并编写了软件来确定某个网址当前是否从 Google 广告中获利。在 2022 年 8 月 23 日至 9 月 13 日期间,我们通过该软件系统运行数据集,以计算每个数据集通过 Google 广告获利的网址比例。我们在附录 A 中包含了我们的详细发现。

数据源
我们分析了 17 篇文章和网站数据集,总计 13,000 多篇活跃文章和 8,000 多个域,来自九个事实核查和新闻质量监测机构。一些数据集涵盖来自特定国家或地区的文章和网站,而另一些则涵盖主题,例如 COVID-19 错误信息或气候变化错误信息。在附录 B 中,我们描述了每个数据集以及提供它们的组织。

数据清洗
数据集的大小、内容类型和管理水平各不相同。我们过滤了所有 URL 数据集以仅包含 2019 年之后发布的文章,以使数据集保持最新且大致在同一时间范围内。如果数据集提供了有关经过事实核查的内容类型的信息,我们将其限制为最严重的虚假信息形式或虚假信息提供者。例如,巴西的 Netlab 提供了一个区分可疑和已确认的虚假信息传播者的栏目,使我们能够选择已确认的传播者。一些数据集包括指向社交媒体平台的链接,例如 Facebook 或 Twitter。我们从分析中排除了这些链接。一些数据集还包含指向图像或 pdf 的链接,我们同样将其排除在外。有关排除的完整列表,请参见附录 C。来自 International Fact-Checking Network 和 Raskrinkavanje 的数据集包括使用网页归档服务(例如archive.today)归档的​​文章。在这些情况下,我们编写了程序来提取虚假或误导性文章的原始网址。对于 IFCN 数据集,我们手动提取了我们无法通过代码提取的任何地址。对于 Raskrinkavanje,我们从最终分析中排除了任何无法提取的剩余链接。无法提取的链接占数据集中网页总数的不到 1%。我们没有理由相信这些排除的链接会影响我们的结果。有关详细信息,请参阅附录 C。

分析网址
我们用于确定某个网址当前是否通过 Google 的广告系统获利的系统由两个组件组成:网络抓取工具和数据分析脚本。

网络刮刀
网络爬虫是可以系统地从访问过的网页中提取和保存数据的软件。ProPublica 的爬虫使用了一个名为Playwright的库,它可以在访问网站时模仿人类行为,通常用于自动化网站测试。当我们的网络爬虫访问任何网址、URL 或基域时,它会收集并保存以下信息:网页发起的所有网络请求。网络请求用于检索图像、文本和广告等 Web 内容,或将用户操作或配置文件信息等信息提供回 Web 服务器。每个网络请求的响应,如果这些请求发送到 Google 服务器(我们确定为提供服务或与 Google 的广告内容相关的少数服务器)。成功后,这些响应会包含网站加载到页面上的广告内容。网页内容。网页加载后,抓取工具会捕获其 HTML,即定义该页面访问者将看到的内容的代码。当我们的网络爬虫访问一个基本域时,即整个站点所在的位置,它还会保存以下信息:
ads.txt 文件:ads.txt 文件列出了网站的所有广告合作伙伴。并非所有网站都向访问者提供此文件,但 Google 和IAB 技术实验室强烈建议将其作为网络广告透明度最佳做法。
随机子页面:当访问一个网站时,抓取工具会选择在基本域上找到的任意子页面链接(例如 test.com、test.com/morecontent),并为该页面抓取相同的信息。这样做是为了捕捉网站主页不投放广告但网站部分投放广告的情况。

分析脚本
我们的分析工具会处理来自每个 URL 的上述数据,以确定该地址是否有效,如果有效,是否通过 Google 的广告系统获利。我们手动识别了 10 个单独的网络请求和响应对,它们表明网页正在向 Google 服务器发出一个或多个广告的请求。如果响应不包含广告内容,那么我们就不会将该网站视为通过 Google 获利。(例如,如果网页发出广告请求,但 Google 已将特定页面或网站取消货币化,则可能会发生这种情况。)然后我们编写了软件,在我们的网络抓取工具收集的数据中查找这些请求-响应对。我们还确定了刮板访问未产生有效网页内容的情况。这些无效访问可能意味着抓取工具被重定向到与原始页面不同的页面,网址上的内容不再可用,或者服务器不再可访问。因此,对于单个网址,分析可能产生三种结果:该网址有效,并且正在通过 Google 的广告系统获利。
该网址有效,但无法通过 Google 的广告系统获利。网址无效或内容已被删除。我们抓取并分析了 17 个数据集中的每个网址,以确定它属于三个类别中的哪一个。然后,我们将结果编译到电子表格中。附录 A 提供了该分析的详细结果。

验证结果
我们通过访问每个页面并确定其网址的有效性以及该网页是否通过 Google 的广告系统获利,手动检查了所有较小域数据集的结果。对于包含单个网页的较大数据集,我们使用 90% 的置信度和 10% 的误差幅度手动提取并检查了一个随机的网址样本。抓取工具和分析工具旨在使误报(我们错误地将网址标记为通过 Google 获利)非常罕见。事实上,我们在审计期间从未发现误报。在某些情况下,广告在抓取时显示,但在我们稍后手动访问页面时却没有显示(反之亦然)。在这些情况下,我们手动检查了抓取的数据,以确认在抓取时提供了广告内容。在极少数情况下,从广告服务器返回的内容从未加载到页面上,这可能是因为网页上的编码错误。我们仍然认为这些案例是积极的,因为它们表明与 Google 建立了积极的货币化关系。
由于以下几种情况,误报(抓取工具未在页面上找到广告但存在广告)更为常见:例如,抓取工具有时被阻止访问页面或未能绕过同意书等页面弹出窗口. 在我们的审计中,我们发现假阴性率在 0% 到 13% 之间。由于我们发现误报的频率高于误报,因此这些通过 Google 广告系统获利的网址的真实比例可能略高于我们所报告的。