升级就可以用,子弹是怎样炼成的

原标题:升级就可以用!微信小程序iPad也能用了

原标题:子弹是怎样炼成的?

原标题:用机器学习怎样鉴别不可描述的网站

2018-09-12 15:45:01 作者:徐玮岐

不要急着凭直觉或者随波逐流的感叹:“子弹短信干不过微信,我不看好子弹短信”。不如跟着文章从MVP方法的角度看看:子弹短信身上值得学习和研究的地方。

全文大约3500字。读完可能需要下面这首歌的时间

明天凌晨就是一年一度的苹果秋季发布会了,在这次发布会中,除了全新的iPhone,采用新设计的iPad
Pro似乎也将会出现在大家面前。据之前消息称这次的iPad
Pro将标配全面屏以及Face
ID,由此可见它还是非常值得期待的。现在又有一则关于iPad的消息被曝出,那就是微信小程序终于可以在iPad中使用了。

前言

前两天教师节,人工智能头条的某个精神股东粉群里,大家纷纷向当年为我们启蒙、给我们带来快乐的老师们表达感激之情。

图片 1

温馨提示,这篇的前言并不长,但我还是画了一条“楚河汉界”。对于读书或看文章喜欢直接进入正文的同学,可以直接跨过“楚河汉界”看正文。啊多么懂你的产品汪。

很多人表示,他们的硬盘里,至今还保留着当时她们上课时候的视频。有一些现在网站上已经很难找到了,于是大家又纷纷开始互相交流跟随这些老师学习实践的心得体会。

具体来讲就是现在用户可以将iPad中的微信升级到iOS
6.7.2版本,在这之后你们就可以随意使用微信小程序还有畅玩小程序中的游戏了。微信小程序的出现可以说让用户们只要在微信上就能够使用其他App了,这样的方式非常地方便,省去了切换页面去重新打开其他App
的时间。在此之前微信小程序一直是手机的专属,这次开发者们对小程序进行了大屏幕的适配,这样也就让iPad能够使用微信小程序了。

这已经是第3篇关于子弹短信的产品分析了:

图片 2

图片 3

  • 第一篇《9个方面分析:子弹短信哪里强?》写完鲜花与板砖齐飞;
  • 第二篇《剥开子弹短信外壳,里面到底装的什么药?>》写完基本上就是板砖齐飞中间夹杂几朵鲜花了。

👆禅师最喜欢的教师

相比于手机而言,在iPad上使用微信小程序会有更加不同的体验,超大的屏幕让用户们在打开小程序的时候不用纠结是否要打开屏幕旋转的功能。除此之外,在视觉上iPad也是手机所不能比拟的,如此看来,此次微信小程序加入到iPad中势必会让小程序的用户增加许多,这对微信小程序的发展也有着非常大的促进作用!
返回搜狐,查看更多

不过这个也在意料之中,毕竟第二篇是从“里子”进行分析,“里子”这个东西本身就是一个很虚的东西,看不见摸不到,一千个人可能会分析出来一千个结果。从没有接触过或接触产品方法论很少的人来说,看着就是很扯蛋。

后来禅师想起来,另一个人工智能头条的精神股东粉群西部世界里,有人提到过他写了一篇Chat,利用
NLP 来鉴别是普通网站和不可描述网站,还挺有点意思,一起来看看吧。

责任编辑:

尽管收获很多板砖,但是分析还是要继续的。正好子弹最近也比较消停,也省的有人说我蹭子弹热度。虽然子弹凉了,但我的热情,好像一把火,还会继续燃烧下去。

互联网中蕴含着海量的内容信息,基于这些信息的挖掘始终是诸多领域的研究热点。当然不同的领域需要的信息并不一致,有的研究需要的是文字信息,有的研究需要的是图片信息,有的研究需要的是音频信息,有的研究需要的是视频信息。

虽然前面两篇分析已经把子弹从里到外扒了一遍,但是还有些没写到的。前面两篇主要是从“面子”和“里子”两个角度从宏观的角度来对子弹进行分析。

图片 4

这篇主要分析的是子弹“十月怀胎”的过程。

本文就是根据网页的文字信息来对网站进行分类。当然为了简化问题的复杂性,将以一个二分类问题为例,即如何鉴别一个网站是不可描述网站还是普通网站。你可能也注意
QQ
浏览器会提示用户访问的网站可能会包含色情信息,就可能用到类似的方法。本次的分享主要以英文网站的网站进行分析,主要是这类网站在国外的一些国家是合法的。其他语言的网站,方法类似。

—————————前言—————————-楚河汉界—————————-正文—————————-

一,哪些信息是网站关键的语料信息

互联网产品从0-1的过程,比较推崇MVP方法。下面将结合什么是MVP、为什么要MVP、如何MVP和总结四个方面,来分析下子弹是如何炼成的。

搜索引擎改变了很多人的上网方式,以前如果你要上网,可能得记住很多的域名或者
IP。但是现在如果你想访问某个网站,首先想到的是通过搜索引擎进行关键字搜索。比如我想访问一个名为村中少年的博客,那么只要在搜索引擎输入村中少年这类关键词就可以了。图1是搜索村中少年博客时候的效果图:

一、什么是MVP?

图片 5

MVP(Minimum Viable
Product)出自于《精益创业》这本书,中文名称为:最小化可行产品。即以最少的时间,最小的开发成本,打造出一个可以供用户使用的“产品”。注意,这里的产品不一定是一个app,也可以just是一个原型。

红色部分便是匹配上搜索关键词的部分,一个页面能够展示 10
个条目,每个条目的标题就是相应网站网站的的 title,对应网页的
<title></title>
中间的内容,每个条目所对应的剩下文字部分便是网站的 deion,是网页中诸如
<meta name=”deion” content= 的部分。

端上一盘经典的栗子。我们来看下以下两幅图,哪个是MVP产品呢?

搜索引擎的工作原理就是首先将互联网上大部分的网页抓取下来,并按照一定的索引进行存储形成快照,每个条目的标题就是原网站
title(通常是 60 个字节左右,也就是 30 个汉字或者 60
各英文字母,当然搜索引擎也会对于 title
做一定的处理,例如去除一些无用的词),条目的描述部分通常对应原网站
deion。

图片 6

当在搜索框中输入关键词时候,会去和其存储网页进行匹配,将符合匹配的网页按照个网页的权重分页进行显示。当然网页的权重包含很多方面,例如广告付费类权重就非常的高,一般会在靠前的位置显示。对于一般的网站,其权重包括网页的点击次数,以及和关键词匹配的程度等来决定显示的前后顺序。

图1

搜索引擎会去和网页的哪些内容进行匹配呢?如前面所述,通常是网页的
title、deion 和
keywords。由于关键词匹配的程度越高的网站显示在前的概率较大,因此很多网站为了提高自己的排名,都会进行
SEO 的优化,而 title、deion 和 keywords 是 SEO
优化的重要方面。至于不可描述网站,更是如此。有段时间《中国焦虑图鉴》这篇文章中也提到。由于搜索引擎并不会公开收取以及赌博、黄色网站广告费让他们排到前面。所以这些网站只能利用
SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们“降权”处理。尽管如此,这些黄色网站如果能把自己刷到前几位一两个小时,就能够大赚一笔。

图片 7

由上述分析可以知道 title、deion 和 keywords
等一些关键的网页信息对于不可描述网站来说都是经过精心设计的,和网页所要表述内容的匹配度非常之高。尤其很多网站在国外有些国家是合法的,因此对于经营这些网站的人员来说,优化这些信息一定是必然。我曾经看过一份数据显示在某段时间某搜索引擎前十名中,绝大多数的色情相关的。因此我们可以将其作为关键的语料信息。

图2

二,语料信息的获取

答案是图2。

现在其实面临的是一个二分类的问题,即判断一个网站是不可描述网站还是正常的网站。这个问题可以归结为
NLP
领域的文本分类问题。而对于文本分类来说的第一步就是语料的获取。在第一部分也已经分析了,相关语料就是网站的
title,deion 以及 keywords。

因为图2中的产品,无论在1-5个阶段的哪个产品,都是可供用户使用的。虽然第一个版本看上去非常简陋,但是是可以使用的,能够帮助用户达成他的目标。

如何获取这些数据,可以通过 alex
排名靠前的网站,利用爬虫进行获取。本文对于正常数据的获取,选取 alex
排名前 4500 的网站,通过爬虫,提取网页的 title 和 deion 以及 keywords
作为原始文本。对于色情数据的获取亦然,通过爬虫对已经已经积累的 4500
个的站点进行文本收集。由于这部数据是敏感数据,因此数据集无法向大家公开,还请见量。

而图1中,产品只有到了第4个阶段上线后,才能够正式使用。

爬虫的实现是一个很大的主题,本文篇幅有限,不在讨论,可以参考已有的一些技术博客。总体来说应对本文场景爬虫是很简单的,即发起一个
HTTP 或者 HTTPS 链接,对返回的数据进行清洗提取即可,使用 python
的一些模块几条语句就可以搞定。我在数据获取过程中使用的是 nodejs
编写的爬虫,每次同时发起 1000 个请求,4500
个站点几分钟就搞定了。由于异步请求是 nodejs
优势之一,如果在时间方面有较高要求的,可以考虑 nodejs(但是 nodejs
异步的编程和常见语言的编程差别较大,学习起来有一定的难度),如果没有建议使用
python,主要是后续的机器学习,python
是最热门的语言,包含众多的基础模块。

二、为什么要MVP?

三,分词,去停用词形成词向量特征

从上面的图2也能看出来,最初的MVP版本都是很简单的,在有些用户看来,甚至可以说极其简陋。

在获取一定的文本数据之后,需要对这些原始的数据进行处理,最重要的就是分词。英文分词比之中文的分词要简单不少,因为英文中词与词之间时有明显的间隔区分,例如空格和一些标点符号等。中文的话,由于词语是由一些字组成的,整体要麻烦些,而且还有不同场景下的歧义问题。当然
python 提供了诸如 jieba
等强大的分词模块,非常方便,但是总体来说英文分词还要注意以下几点:

那么MVP产品存在的意义是什么呢?主要有以下2点原因:

  1. 将每一行单词全部转化为小写,排除大小写的干扰。因为在本文场景下大小写词语所代表的含义基本相同,不予区分
  2. 切词,依据就是空格,逗号等分隔符,将句子切分成一个个的单词。当然由于本文的语料全部来源于网页,这其中词语的分隔都会具有一些网页的属性,比如语料中会由很多特殊的符号,如
    | – _ , &# 等符号,需要进行排除
  3. 排除一些停用词。所谓的停用词通常指的是英语中的冠词,副词等,经过上一步骤切分出来的单词可能会包括
    an,and,another,any
    等。因此需要将这些无意义词去除掉当然你也可以使用 nltk
    中自带的停用词(from nltk.corpus import
    stopwords),但是有的时候会根据具体的应用场景,加入相应的停用词,因此自定义停用词词典可能灵活性更高一些。比如在上一步骤中会切分出“&#”等等符号,因此需要将
    &#
    加入到停用词中。关于停止词,我这里面使用了一个较为常用的停用词字典,同时加入了在网页中一些常见停用词。
  4. 提取词干。由于英文的特殊性,一个词会有多种状态,比如
    stop,stops,stopping 的词干都是
    stop,通常情况所表示的含义都是相同的,只需要 stop
    一个即可。但是对于我们的二分类应用场景来说,我一开始没有做词干的提取因为不可描述网站中的
    hottest 和常见网站中共的 hot
    还是有点差异的。当然这一步可以根据具体的应用场景以及识别结果进行选择。
  5. 排除数字。数字在一些不可描述网站中时经常出现的,但是为了我这边还是将其排除,比如
    1080
    在不可描述网站和正常的网站中出现的概率都很高,表示视频的分辨率,当然这一步也是可选的。当然数字也可以加入停止词中,但是由于数字数量较多,同时比较好鉴别(isdigit()
    函数鉴别即可),因此对于数字的排除单独拿出来。

1、验证产品是否是真实的需求,是否符合目标用户需求。

使用 python 的 jieba 模块结合上述所述的 5
个步骤,得到若干单词,相应代码为:

产品经理根据用户反馈以及用户调研等手段进行需求分析,设计出一款产品,但很可能推向市场后用户并不买单。因为用户很多时候是口是心非的,在一个假设的场景下,让用户去回答问题,用户大都是根据想象或直觉回答。

图片 8

有个很经典的栗子。某音乐公司做用户调研,问用户是喜欢黄色的音箱还是黑色的音箱,大部分用户回答的是黄色。在调研结束后,为了答谢用户,用户在离场时可以选择一款音箱带走,结果大部分用户选择了黑色的音箱。啊多么痛的领悟!

以正常网站和不可描述网站的 deion 为例,对应的词云图如下:

通过MVP的方式设计产品,可以快速的去验证用户的需求是否真实存在,以及是否是用户真实的想法。

图片 9

2、减少时间和资金成本

👆图2

发表评论

电子邮件地址不会被公开。 必填项已用*标注