《自制搜索引擎》读后感1000字

kaige

发布日期：2023-02-18 05:40:07

《自制搜索引擎》读后感1000字

《自制搜索引擎》是一本由[日]山田浩之 / [日]末永匡著作，人民邮电出版社出版的平装图书，本书定价：39.00元，页数：208，特精心收集的读后感，希望对大家能有帮助。

《自制搜索引擎》读后感(一)：快速了解搜索引擎核心实现的一本读物

1. 第一章“搜索引擎是如何工作的”是我感觉收获最多的一部分，把倒排说明说得比较清楚，通过一些插图能容易理解倒排索引对于搜索的核心作用；

2. 本书是通过C语言来实现一个小型的搜索引擎，代码量比较少而且都比较清楚，对于实现一个搜索引擎的理解是很有帮助的；

3. 另外还谈到倒排索引的压缩和其他的一些优化，还是有一些收获的，因此综合以上打个四星，对这一块感兴趣的可以翻翻看，书很薄，两三个小时就翻完了。

《自制搜索引擎》读后感(二)：对比了几本搜索引擎的书，此书为精巧的搜索圣经当之无愧

在此之前还看过《这就是搜索引擎 : 核心技术详解》，以及翻阅过图书馆一两本搜索相关教科书。

其他书，都是部分概念讲得还行，但是极少有真正的代码讲解。

该书经典之处，

一是行文思路逻辑清晰，编排合理。搜索原理、倒排索引核心与实现、检索排序、搜索的优化，以及还有哪些wiser没做到的值得思考改进的内容，都有讲解。

二是有2000+行最简易搜索引擎代码（本人在ubuntu虚拟机轻测有效、好用）。

三是提纲挈领简洁程度已经登峰造极了，但并未有马虎大意之笔，感恩于此书，故在心中奉之为圣经。

未看此书前，只知道有搜索这个东西，阅完此书后，神清气爽，对搜索加深了理解。

临近毕业图书馆借的，读完一遍还不够，等工作打算自己买一本，更加详细的阅读，相信还会有奇效。

《自制搜索引擎》读后感(三)：很好的“全文检索引擎”源码剖析书籍

本书主要讲解了：如何从零开始，用C语言编写一个基于“倒排索引”（Inverted Index）的“全文检索引擎”（FullText Search Engine）。最终的成果，相当于一个迷你版的Apache Lucene（Lucene是大数据全文搜索框架Elasticsearch的核心引擎）。注意：是自制Lucene，而不是调用Lucene。

倒排索引的思想较简单，但编程实现比较复杂。源码部分的“数据结构”设计很精巧，但需要时间慢慢研究代码。

译者翻译很用心，包括配书源码的注释都翻译了，感谢译者的辛苦工作。

《自制搜索引擎》读后感(四)：搜索引擎的入门书

想了解和入门搜索引擎的话，这本书还是挺推荐的。

其实这本书已经讲了搜索引擎架构的基本脉络【不包括搜索策略】，其实主要就是分为离线建库与在线检索这两部分。离线建库书中提到的主要就是倒排索性的构建，以及倒排索引的压缩，但没有商业搜索引擎中更为重要的建库特征权重计算，比如如何针对某些网站或者链接提升或者降低其权重。而在线检索部分，其简化了语义理解，就正常使用切词库进行切词，转换为查询的 DSL，而相关性的判断也是用的最简单的模型TF-IDF。搜索引擎的基本架构是讲清楚了，但离实际上商业的搜索引擎还是差别很大的。就像我们都知道发电机原理，但真的要自己造一个可用的发电机，其实还是有很长的路要走的。

google 为了解决搜索引擎的很多工程问题，提出了 GFS、BigTable、MapReduce 等解决方案，去存储互联网上指数级增长的信息，以及对各种网页信息进行清洗建库。在这基础上商业引擎还有各种方案去做优化，比如漏斗分层、索引压缩、流式计算等各种技术的优化，虽然大体的框架没变，但在很多细节方面还是有优化空间的。

而搜索策略上，关于相关性计算，离线建库有google 的 pagerank 和百度的超链分析，在线检索的时候除了精准召回，还会有向量召回，能够召回更多相关的结果，而语义理解也引入了机器学习，能够更准确地分析用户真正的意图，在检索与排序上更加细致化。

但因为搜索引擎做到极致，里面会掺夹业务细节以及某些特定的工程优化，就不可能像ES 那般开源，有时候还是挺遗憾的！

本文由作者上传并发布（或网友转载），绿林网仅提供信息发布平台。文章仅代表作者个人观点，未经作者许可，不可转载。

点击查看全文