|
Post by raselbd296 on Dec 24, 2023 4:39:21 GMT
指定信任度低的行业将被拒绝并手动处理这很遗憾因为它是正确确定的因此我们将失去一个很好的机会。我们希望函数的结果尽可能少地落入该区域。我们的函数不仅应该处理我们在设计时在分析中考虑到的名称还应该处理与它们略有不同的名称。例如来自同一行业的新产品或以前来自一个系统但将来可能这些系统中它们将具有不同的名称。沙发的名称可能是具有睡眠功能的皮革但也可能有简称阿拉巴马沙发。或者可以将其缩写为而不是睡眠功能。 另一方面我们不会要求我们的函数正确指示全新产品的行业例如未来可能创建的新型家具。在这个特定项目中泛化的需要比平常小因为与电子邮件、文章、社交帖子等可能内容的 电子邮件数据 集合相比可以分期出售的文章名称的种类是有限的。算法解决方案构建我们的函数的一种方法可能是典型的算法方法我们聘请一位优秀的分析师来查看我们的数据分析数据并找出如何使用它来确定行业。 他肯定会注意到例如一篇文章的名称中出现沙发一词就保证了它属于家具行业。同样如果我们有这样的词沙发、椅子、沙发床因此我们可以建立一个单词列表库这些单词出现在名称中意味着家具行业。当然这并不那么容易因为例如方向盘这个词该怎么办?这个词的出现是否意味着我们正在与汽车行业打交道?不必要。有自行车车把这些用于体育和旅游业。因此我们必须构建变体逻辑这使我们的关键字数据库和算法的操作稍微复杂化。
|
|