Skip to content

Jina-AI Reader:如何把网页URL里的内容提取出来?

Jina是一个开源的神经搜索框架,它利用人工智能技术,特别是自然语言处理(NLP)和计算机视觉(CV),来实现高效的内容理解和检索。在网页内容提取的场景下,主要利用其文本处理能力,通过定制化的模型和算法,精准捕获网页中的关键信息。

Reader是一个 Jina AI 开发的专为LLM设计的工具,它可以将网页信息转换为LLM友好的格式,如Markdown。通过去除网页中的冗余HTML标签和代码,Reader保留了核心文本内容,使得LLM能够更容易地解析和理解网页信息。

主要功能有两个:读取和搜索。

  • 读取(Read):将 URL 转换为 LLM 友好的输入。

  • 搜索(Search):允许 LLM 访问来自网络的最新世界知识。

读取模式

在浏览器地址栏中输入 https://r.jina.ai/,后面跟上想要转换的网页 URL。

  • 提取网页内容: 直接使用requests请求这个地址,拿到Markdown格式的正文。例如:https://r.jina.ai/https://www.baidu.com,可以直接返回百度一下页面的内容
  • 获取图片信息:输入图片地址:https://r.jina.ai/https://www.clzg.cn/_nuxt/img/clzg_logo_white.0368241.png,返回图片的名称,尺寸等信息。
  • 提取PDF内容: 输入PDF地址:https://r.jina.ai/https://arxiv.org/pdf/2312.10997.pdf,能够直接提取pdf里的内容。

参考资料

粤ICP备20009776号