如何在信用卡反欺诈检测中使用人工智能和机器学习

2021-12-31 12:33:27 阅读：234 来源： 互联网

在公众号「python风控模型」里回复关键字：学习资料

人们多年前在商店购买的东西现在可以在网上购买，无论它们是什么：家具、食物或衣服。因此，全球电子商务市场正在迅速崛起，预计到 2021 年将达到 4.9 万亿美元。这无疑会触发犯罪世界的成员通过网络寻找受害者钱包的路径。

仅美国联邦、地方和州执法机构以及私人组织在 2019 年报告了 300 万起身份盗用案件。其中约 25% 的案件丢失了资金。根据IC3（互联网犯罪投诉中心）的数据，2019年因欺诈造成的财务损失创历史新高；IC3 处理了近 500,000 份投诉。此外，IC3 报告称，2019 年的商业和个人损失比 2018 年高出近 35 亿美元。

使用机器学习进行欺诈检测

_“人工智能将是谷歌的终极版本。能够理解网络上所有内容的终极搜索引擎。它会准确地理解你想要什么，它会给你正确的东西。我们现在还远远没有做到这一点。但是，我们可以逐渐接近这一点，这基本上就是我们的工作。” —_拉里佩奇，谷歌的联合创始人和开发者。

由于 ML 算法能够从历史欺诈模式中学习并在未来的交易中识别它们，因此使用机器学习进行欺诈检测成为可能。在信息处理速度方面，机器学习算法似乎比人类更有效。此外，机器学习算法能够发现人类根本无法检测到的复杂欺诈特征。

**工作更快。**基于规则的欺诈预防系统意味着创建精确的书面规则来“告诉”算法哪些类型的操作看起来正常并且应该被允许，哪些不应该因为它们看起来可疑。但是，编写规则需要花费大量时间。此外，电子商务世界中的手动交互是如此动态，以至于事情可能会在几天内发生重大变化。在这里，机器学习欺诈检测方法将派上用场来学习新模式。

**规模。**ML 方法随着它们拟合的数据集的增长显示出更好的性能——这意味着它们接受的欺诈操作样本越多，它们识别欺诈的能力就越好。该原则不适用于基于规则的系统，只要它们永远不会自行发展。此外，数据科学团队应该意识到与快速模型扩展相关的风险；如果模型没有检测到欺诈并错误地标记了它，这将在未来导致漏报。

**效率。**机器可以接管日常任务和人工欺诈分析的重复工作，专家将能够花时间做出更高级的决策。

互联网欺诈的类型以及如何防止它们

网络诈骗的类型：

电子邮件钓鱼

电子邮件网络钓鱼是一种网络犯罪，涉及向用户传播虚假网站和消息，然后使用他们共享的数据。电子邮件网络钓鱼已成为窃取机密数据的流行且快速的方式。如果一个人没有意识到可能的后果，他或她可能会将易受攻击的数据输入到虚假的访问窗口中，从而使自己面临被入侵的巨大风险。避免这种情况的最简单方法是忽略来自可疑来源的消息。尽管在某些情况下很难区分真正的电子邮件发件人和欺诈者，因为有些邮件看起来很合法。

有传统的网络钓鱼检测方法称为过滤器。第一个是身份验证保护，第二个是网络级保护。网络级保护分为三种类型的过滤器：白名单、黑名单和模式匹配。他们通过禁止网络中的 IP 地址和域来工作。身份验证保护包括电子邮件验证，这意味着通过要求接收者和发送者完成提交来进行客户端级别的验证。

除了逐渐成为过去的传统方法之外，还有利用机器学习进行网络钓鱼检测的自动化方法。这些方法基于用于分类和回归的经典机器学习算法。

付款欺诈（信用卡和银行贷款诈骗）

支付欺诈检测是人工智能 (AI) 解决的最常见的欺诈类型。它的变化与欺诈者的想象一样多样化。但是，这里有一些最常见的支付欺诈类型：卡丢失、卡被盗、假卡、卡 ID 被盗和卡未收到。最近出现的带有芯片的卡（EMV 卡）有助于减少欧洲的持卡欺诈案件，但在磁条信用卡消除过程非常缓慢的美国则不然。

无卡交易有多种形式。在通过网络钓鱼、联系他或她的移动供应商以及在线闯入帐户以让犯罪分子能够收集足够的卡详细信息的方式攻击用户后，欺诈者会订购商品或贷款。如果有人与您联系以提供不切实际的良好条件的贷款，贷方未提供确认贷款的支票，贷方要求提供银行详细信息或预付款，或者公司假装来自某个国家/地区，则可能会发生贷款骗局但号码是国际的。

欺诈者还可以通过申请欺诈进行非法收费，这意味着他们通过填写被盗信息以您的名义申请一张卡。在网上通过不同的方式获取机密信息后，他们可以打电话给信用卡公司，假装是持卡人，说他们需要一张新的信用卡，寄到某个地址。如果地址被盗用，可以在您的帐户中更改地址。

身份盗窃

如果职业身份窃贼进入游戏，受害者姓名、银行详细信息、电子邮件地址、密码、护照或身份证明详细信息以及其他用于访问帐户的有价值信息等信息将面临巨大威胁。身份盗窃是网络犯罪的一种重要形式，使个人和企业都面临带来不愉快后果的风险。

身份盗用分为三种类型：实名盗用、合成盗用和帐户盗用。收集的信息用于注册新的银行、信用卡和/或手机账户。

**帐户接管：**当信息被用于访问当前帐户时会发生这种情况。有时，欺诈者也可能会更改与帐户相关联的电子邮件地址和其他详细信息，而正确的所有者不会知道这些更改。

**合成盗窃：**这意味着合并真实信息和人造细节以创造新的个性。这样做的目的是进行非法购买和创建假冒账户。

身份盗窃可能会在您最不期望发生时袭击您，例如当您被告知您的银行账户余额为零时——尽管昨天您知道那里有钱——或者您收到从未订购的服务或产品的账单。

身份盗窃是危险的，因为后果（可能需要数年时间才能纠正）可能采取以下形式之一：

因现在信用不好，而被拒绝信用贷款；
您收到从未使用过的服务的账单；
您的银行账户被关闭；
你要为你没有产生的债务负法律责任。

与抢劫不同，身份盗窃可以在受害者遭受重大损失之前完全被忽视。了解您已成为受害者的“危险信号”是未知交易或信用卡债务增加，您不知道其来源。关于花掉的钱的邮件可以发送到罪犯选择的另一个地址。因此，您不会立即了解情况。

用于身份盗窃检测的机器学习有助于根据安全数据库实时检查和检查身份文件，以确保检测到所有欺诈案件。可用于身份盗窃的重要文件是护照、PAN 卡或驾驶执照。为了增强机器学习提供的安全性，可能需要额外的验证，例如人脸识别或生物识别信息。这些安全方法要求真实的个人对操作进行身份验证，并显着降低成功欺诈的机会。

身份证件伪造

以前，一个人只能在黑市上花很多钱买一个假身份证——但现在，随着电子商务的蓬勃发展，各种网站提供的伪造服务低至100美元，一份文件高达3000美元. 伪造文件的价格越低，其质量就越差。昂贵的 ID 制作得如此巧妙，以至于几乎不可能验证其合法性并防止欺诈。

伪造 ID 变得更容易获得这一事实使许多具有自动个性验证系统的服务的安全以及服务所有者和用户的安全面临风险。如果一个人愚弄了系统并得到了验证，他或她就可以将资源用于他们的利益并逍遥法外，让其他用户受到愚弄和困扰。

机器学习可以通过多种方式防止与假 ID 相关的欺诈。例如，犯罪分子可能在公寓租赁网站上下载了一份伪造的文件来证明他的个性。如果站点的验证系统中包含机器学习，则照片会由预训练的神经网络扫描。然后，欺诈检测系统搜索它之前在大量伪造文件中看到的伪造文件模式，将文件分类为伪造或可疑，并且——如果需要——需要额外的验证。

假账户识别

身份验证问题也涉及社交媒体帐户。验证此类帐户的过程包括检查帐户注册详细信息、访问网络，最后检查创建具有相同个性（即照片）帐户的设备的 IP 和 MAC 地址。

虚假账户检测的过程取决于参与率和虚假活动。假设虚假帐户通常有大量的朋友或关注者，而他们的个人资料几乎没有显示任何用户交互的迹象。此外，虚假账户的点赞、评论和好友请求通常明显高于真实用户的平均水平。

这些因素与 Twitter、Facebook 或 Instagram 等社交媒体网站的用户有关，但也可以识别在零售或其他网站上注册许多非活动帐户的用户。这可以通过注册日期、在站点上花费的时间以及用户设备的 IP 和 MAC 地址等特征来定义。

使用机器学习进行信用卡欺诈检测

有关信用卡和网上支付的信息使欺诈者有机会非法利用这些信息谋取利益。IC3 2019 年的报告显示，受害者因信用卡欺诈损失了近 1.12 亿美元。

信用卡欺诈是最常见的支付欺诈类型，因为数字存储的详细信息使犯罪分子有更高的机会逃脱。此外，交易更难验证。

下表显示了所有可能的信用卡欺诈活动类型：

#	信用卡诈骗类型
1	被盗信用卡
2	形式劫持
3	账户接管
4	拦截邮寄卡片：从您的邮箱中取出的卡片
5	欺诈性信用申请：使用您的信息以您的名义申请新的信用（身份盗窃）

被盗信用卡

网上购物通常是盗取信用卡者的第一步，因为这要求犯罪分子简单地将信用卡信息输入必要的字段；并非所有商店都需要额外的验证。犯罪分子还可以将信用卡信息以低至 45 美元的价格出售给其他犯罪分子。仔细想想，这种贸易的收入可能特别大；仅考虑数百万注册帐户的数据泄露。其中一个案例，万豪数据泄露，发生在 2018 年。

形式劫持

具有网站安全系统工作原理的网络犯罪分子可以将代码注入 JavaScript，以拦截用户在线购买时输入的卡详细信息。这主要适用于具有代码漏洞的构建不良的网站。

帐户接管

当犯罪分子通过网络钓鱼、恶意软件、数据泄露或其他方法设法访问受害者的帐户时，就会发生帐户接管。犯罪分子可以接管用户的银行账户或社交媒体页面，试图向他或她的朋友和家人要钱。以下是犯罪分子可以接管帐户的其他一些方式：

如果犯罪分子以某种方式知道用户的登录名和某个帐户的密码，他们可以尝试在其他网站上为该用户的帐户使用类似的密码。
其他帐户接管案例是通过手机诈骗发生的，犯罪分子假装是受害者使用的服务的官方代表。
如果犯罪分子可以访问您的手机或电子邮件帐户，他可以通过“帐户恢复”选项访问有价值的帐户——因为对于大多数服务，可以通过电话消息或电子邮件验证更改。

拦截邮寄卡片

欺诈者获得您邮箱的访问权限后，他或她可以找到包含有关您使用的银行账户和信用卡的重要信息的信件。

欺诈性信用申请

如果犯罪分子获得足够的信息，他们可以以您的名义获得信用。一段时间后，您会收到令人沮丧的消息，说您有一笔从未还清的债务。

广泛的欺诈场景

通过了解欺诈者如何在线操作的原理，机器学习工程师可以开发有效的技术来检测欺诈活动。

以下是五种普遍存在的欺诈场景：

高级隐私软件

有经验的欺诈者使用特殊软件向浏览器隐藏有关用户的信息，例如用户的位置。Anti-Detect 和 Kameleo 等软件用于在浏览器窗口中创建多个虚拟机实例。

位置欺骗

模拟持卡人的典型位置，欺诈者可以避开网站内置的基于规则的安全系统。他可以从泄露的卡详细信息中确定必要的位置。

电话号码欺骗

如果欺诈者以某种方式获得了受害者的卡详细信息，他可以在线购买他的电话号码。然后，为了解决他没有这个手机的问题，他可以打电话给客户的电话供应商，询问是否将所有购买信息从卡上转移到一个新的电话号码上。

复制买家的行为

有时，犯罪分子在信用卡欺诈的“艺术”方面不那么老练，他们过去常常在盗用信用卡后立即收取大量费用并购买昂贵的商品。在这种情况下很容易发现欺诈。如今，他们倾向于模拟“真实客户”的行为，在大宗商品之前先进行小额购买，或者通过在用户的在线购物篮中添加和删除商品来假装在购买之前深思熟虑。

增强的客户信息

为了在试图破坏用户信用卡时显得更有说服力，欺诈者在暗网上买卖设备 ID 和驾驶执照。这允许犯罪分子混合有关某个人的有价值的信息，并根据假 ID 建立一个新帐户。

机器学习欺诈检测模型

电子邮件网络钓鱼检测模型

网络钓鱼电子邮件代表具有欺诈意图的垃圾邮件。网络钓鱼者使虚假网站及其 URL 在视觉和语义上与原始网站高度相似。它们主要是对银行业、跨国公司甚至医疗机构的威胁。

逻辑回归是用于网络钓鱼检测的经典机器学习算法之一。Logistic 回归使用线性模型来预测范围为“0”或“1”的数字，这意味着垃圾邮件与否。

另一种方法是从网站中提取特征，并使用传统的机器学习分类模型（如 SVM、朴素贝叶斯和极限学习机）将其分类为假与否。分类前的第一阶段包括 NLP 处理来自网站的文本并提供文本的语义分析。

通常，网络钓鱼检测是作为一个有监督的机器学习问题来解决的，该问题涉及从原始来源收集大量带有虚假 URL 的伪造电子邮件以及相同数量的合法电子邮件和网站，以训练模型。最明显有助于将电子邮件归类为“网络钓鱼”的特征是：在 URL 地址中使用“at”符号，使浏览器无法读取“at”之前的符号，或地址栏是从地址栏中显示的域以外的域下载的。此外，站点的注册长度可以识别站点是否是伪造的，因为与钓鱼网站不同，值得信赖的资源很可能会长时间注册其域。

使用机器学习进行网络钓鱼欺诈检测的指标如下表所示：

#	特征	意义
1	有IP地址	高的
2	网址长度	中等的
3	有“at”符号	低的
4	双斜线重定向	中等的
5	有子域	中等的
6	域名注册长度	中等的
7	图标	中等的
8	HTTPS 令牌	高的
9	域名年龄	高的
10	指向页面的链接	高的
11	网络流量	高的
12	网页排名	高的

身份盗窃检测模型

为了防止身份盗用，模式识别等方法可以显着提高欺诈检测的准确性。例如，如果将个人的行为模式存储到数据库中。这样，为某个用户记录的先前行为模式会不断与帐户中的活动进行比较。如果此活动与正常情况大不相同，则可能会怀疑存在欺诈行为。每笔新交易都有助于模型完成的行为欺诈分析过程，帮助其更好地训练。

身份盗窃检测被认为是异常检测挑战，因此各种最先进的无监督机器学习算法（例如 LOF、PCA、一类 SVM 和隔离森林）有助于发现用户行为的异常模式，以检测未经授权的行为。它们作为试金石来发现正常行为领域的异常现象。这些算法将异常行为数据点分组在一个密集的集群中，而不是与正常行为的集群不同。

信用卡欺诈检测模型

欺诈模型可以通过有监督和无监督的机器学习算法来解决。在第一种情况下，使用传统的分类算法；在第二种情况下，我们可以使用异常检测技术。神经网络的使用也很有效，但它需要大量的训练数据，其中两类数据点数量相等：异常和正常。然而，在欺诈检测的情况下，总是缺乏平衡的数据集。

您有兴趣了解更多有风控审批模型，自动识别欺诈客户吗？

**在我们的完整指南中了解有关使用机器学习进行风控审批模型坏客户检测的更多信息

身份证件伪造检测模型

身份证件伪造检测首先涉及图像处理。某些技术用于理解图像携带的视觉信息。CNN 模型通常经过训练来执行此任务，而神经网络的构建方式旨在最大限度地减少损失。CNN 模仿人类视觉皮层的工作——大脑中负责处理视觉信息的部分。就像监督学习需要收集一组伪造的和真实的文档图像一样，数据集需要有足够数量的来自这两类的照片。

将神经网络配置为以最高效率执行包括测试具有不同层数和卷积层过滤器大小的不同架构类型。通常，卷积架构有四个卷积层。该方法对于检测蓝色墨水伪造文件中墨水不匹配问题的准确率约为98%，黑色墨水为88%。

这种伪造检测技术依赖于 HSI，它是高光谱图像分析的缩写。该方法意味着构建电磁频谱图以获得图像中每个像素的频谱。

另一种方法可能是迁移学习和使用预训练模型，例如基于 ImageNet 数据集、ResNet50 或 VGG19 的 VGG16 网络。

假账户识别模型

假账号识别是一个分类问题，所以这里我们从选择需要分类为假账号的profile开始。分类中最重要的部分是特征选择，这意味着我们依赖于诸如参与率、活动、关注者数量与帐户关注人数之比以及评论的相关性等参数。建立特征矩阵后，将其输入分类模型——这可能是最有效的二元分类器之一，例如朴素贝叶斯、SVM、决策树、逻辑回归等。分类器可以用新数据不断训练在虚假和真实账户上，这有助于提高其预测的准确性。

Logistic 回归和随机森林的准确率显示了我们使用的方法中最高的结果之一，分别约为 90% 和 92%（分别）。关于假账户识别的问题还有很多需要研究和测试。主要限制因素是隐私法，它干扰了有效的数据收集。

银行和电子商务中的欺诈检测

电子商务

电子商务企业最容易受到在线支付欺诈的影响，只要您在网上进行交易时不需要实体卡。从小型利基零售商到大型供应商，他们的网站都面临着表单劫持或数据泄露的威胁。即使是英国航空公司、Newegg 和 Ticketmaster 等大型电子商务企业也每天都会受到攻击。

另请阅读：市场平台开发指南

欧洲 70% 的信用卡欺诈是无卡欺诈。因此，与在线电子商务相关的欺诈案件数量正在上升，而电子商务市场预计到 2021 年将达到 4.5 万亿美元左右。

电子商务企业可以通过不断完善内部网络安全体系来防止欺诈，例如设置更先进的基于欺诈检测的系统。机器学习算法用于欺诈识别的主要优势是实时价值检测率的强大表现。要考虑的第二件事是，机器学习模型倾向于以更高的速度发现欺诈性电子商务交易，而不会增加拒绝真实交易的频率。

银行业

根据研究，2020 年用于欺诈和网络安全基于人工智能的应用程序的风险投资将增加 30%。银行通常有兴趣减少付款、贷款和客户入职欺诈的金额。

欺诈检测软件如何为银行工作的一个例子是为银行客户开发风险概况并根据细粒度数据对其进行评级。银行可以分配其现有的软件开发人员来开发此类工具，也可以外包数据科学专业人员来构建将广泛存在的欺诈模式考虑在内的机器学习模型。

概括

是“大事”吗？

创新总是需要时间和精力来实施，并带来与客户期望相对应的结果。虽然欺诈预防技术需要对数据存储和组织方式以及数据清理和准备使用方式的基础架构进行可能的更改，但它绝对值得一试。实施用于欺诈检测的 ML 技术的第一步将是困难的，但它的使用将逐年增加，并表现为用户投诉数量减少和忠诚度提高。

为什么是机器学习？基于规则的检测等老式方法有什么区别？

与传统的基于规则的方法不同，机器学习算法处理原始数据，如电子邮件或文本，然后从它们作为输入的内容中学习，并在此过程中变得更加智能。另一方面，基于规则的方法无法检测数据中的任何新模式，因为它们只遵循预先确定的场景，其中不包括略有变化的欺诈活动模式。

我们可以使用 ML 检测哪些类型的欺诈场景？

机器学习允许在他的帐户中捕获以前从未见过的网络钓鱼电子邮件、未经授权的交易和可疑的用户行为。这些只是几个例子，在现实中，我们可以将 ML 算法的工作调整到大多数在线欺诈场景。

适合我的行业吗？

机器学习在银行和电子商务甚至军事和医疗保健等行业都有广泛的用途。拥有足够数量的历史数据可供学习，您可以找到一种方法来在您的行业或业务领域中有效地实施 ML 方法，尤其是应对欺诈。

有效检测欺诈的机器学习方法有哪些？

用于欺诈检测的机器学习方法可以分为监督模型和非监督模型，其中监督方法需要大量数据，例如等量的欺诈和非欺诈交易来训练模型。无监督方法在原始数据中搜索模式和相关性，并在没有额外标记的情况下构建预测。有监督的 ML 方法被认为更准确，而无监督的 ML 方法准备时间要少得多。

总结

只要现代社会充斥着在线交易，银行和零售业就会受到威胁并面临许多欺诈案件。电子邮件网络钓鱼、支付欺诈、身份盗用、文件伪造和虚假账户助长了对易受攻击用户数据的高度犯罪攻击，并导致数据泄露。随着用于欺诈检测的旧的基于规则的算法逐渐消失，基于机器学习算法的用于欺诈检测和预防的一流新方法正以其实时工作、速度和效率为企业带来更大的价值。

您有需求快速开发风控欺诈检测模型解决方案吗？

联系我们的专家，为您的项目获得免费咨询和时间和预算估算。

学习QQ群：1026993837，免费领取python机器学习相关学习资料

标签：信用卡,欺诈,帐户,人工智能,检测,学习,机器
来源： https://blog.csdn.net/fulk6667g78o8/article/details/122253841

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9