丝瓜小说网

手机浏览器扫描二维码访问

第43章 搜索引擎(第1页)

搜索引擎,顾名思义,便是一种用于搜索信息而产生的工具。

一般解释而言,便是通过用户的需求,和一定的算法,将用户输入的关键词与互联网上现存的信息进行匹配,并按照相关度和时间顺序,将符合要求的信息罗列在用户的眼前。

搜索引擎这门生意讲究的是个先来后到。

如果能在最早的时候将知名论坛和网站的内容全部爬取,那就会在用户占有率上占尽优势。

要知道在这个时间点,日后驰名全球的寻他公司和布谷公司还在娘胎里,呀唬公司的搜索引擎虽然已经诞生,但其底层技术依旧是依靠人工存放网站目录,可谓是效率极其低下。

现在已经有互联网信息爆炸的趋势了,随着信息越来越多,人工处理流程必将被淘汰,而王向中设想的,则是抢在市场最前列,将新一代的搜索引擎提前面世。

实际上做一个搜索引擎并没有看上去那么轻松。

首先是代码问题,这个年代网页技术还停留在web1.o(互联网1.o)的时代,先暂且不提Ajax(AsynchronousJavascriptAndXmL,异步JavaScript和XmL)这种动态页面刷新机制,就连JavaScript(一种web页面脚本语言)都还尚未出现。

还好windows公司相当强大,早在1996年发布了ASP1.o(ActiveServerPages,动态服务器页面),这也让王向中不必苦哈哈地用大量c语言进行后端代码编写工作。

接下来就是数据的爬取和存储问题。

这话虽然听起来很高端,但实际上也就是将数据从别的网站上摘下来,进行索引和关键词分配的简单加工后存储的过程。

这个时候Python语言尚还叫ABc语言,很显然在这个年代使用这个失败的产品是不太合适的,使用更加成熟的c++也许可以解决一些问题。

将爬虫模型简单地铺开来讲,最基础的爬虫,便是通过程序直接访问网页的源代码,通过正则表达式匹配出网页的标题和其具体内容,再接着分析网页内的超链接所指向的页面,逐步将整个网站的内容收入囊中。

再接下来便是数据的存储问题。

mySQL(一种关系数据库管理系统)可以完美地代替文本文档进行数据存取,因为它有一项对于搜索引擎而言重要的功能——索引。

索引可以给一条数据给予定义。

举个最简单的比方,为了节省空间,图书馆的书一般是纵向摆放,而在每本书的侧面上,都写有书名和作者姓名。

这个书名和作者姓名,就是一本书的“索引”

,当你想要找一本书的时候,显然不可能将每本书都打开细细查阅一番,这无疑是在浪费时间。

而通过书名和作者名,你可以轻松地找到自己想要的那本书。

假设一本书是一条数据,那么通过索引功能,便可以轻松地将它从数据库中调取出来,而不必辛苦地逐行逐字分析书本的内容。

热门小说推荐
阴阳潘家

阴阳潘家

神秘的水上古宅千年的故事,百年的恩怨。等待你的是一桩桩诡事,一件件扑朔迷离的骇闻。...

心理猎人

心理猎人

活尸症候群,恋尸癖,恐惧症,妄想症,你对这些恐怖的心理疾病了解么?要想对它们有更深入的认识,来追这本书吧,专业的心理医生带你们进入一个不一样的悬疑世界。本书的作者曾有过两本书卖过影视版权,不是小白作家,请大家放心追书观看。...

夫谋不止:战家弃妇不回头

夫谋不止:战家弃妇不回头

结婚五年结婚登记是她一个人,十月怀胎是她一个人,生产阵痛,疼得几次晕过去,醒来还是她一个人,战勋爵跟她说的第一句话是她回来了,我们离婚。离开,苏子诺只用了3分钟,连小包子都说我跟妈咪走了,你就当把我SHE墙上吧!所有补偿,战家一切,她都留下,包括她不自量力的眷恋。离婚三月战二,你能不能离我远一点?战二,我们已经离婚了,从我的房间出去!战二,别再靠近了,我会用针灸扎你半生不遂唔!!!战勋爵邪气而炙热老婆,我就知道你舍不得。...

网游之乱世逍遥

网游之乱世逍遥

乱世纷扰,我自逍遥!我只是想要,以手中之剑,守护自己身边想要守护的人本书练笔!目标不断更加完本!...

极道

极道

一步一个脚印,一步一个轮回...

掌握本源

掌握本源

林风,一个毫无上进心的青年,偶然得到了本源,掌控空间时间法则,在都市中过着无忧无虑的生活。也去过古代和嬴政喝过酒,给曹操出过馊主意,跟李世民吹过牛,在民国打过鬼子。领略过战争,享受过盛世,林风究竟会如何?书群284875801...

每日热搜小说推荐