主题
Jina-AI Reader:如何把网页URL里的内容提取出来?
Jina是一个开源的神经搜索框架,它利用人工智能技术,特别是自然语言处理(NLP)和计算机视觉(CV),来实现高效的内容理解和检索。在网页内容提取的场景下,主要利用其文本处理能力,通过定制化的模型和算法,精准捕获网页中的关键信息。
Reader是一个 Jina AI 开发的专为LLM设计的工具,它可以将网页信息转换为LLM友好的格式,如Markdown。通过去除网页中的冗余HTML标签和代码,Reader保留了核心文本内容,使得LLM能够更容易地解析和理解网页信息。
主要功能有两个:读取和搜索。
读取(Read):将 URL 转换为 LLM 友好的输入。
搜索(Search):允许 LLM 访问来自网络的最新世界知识。
读取模式
在浏览器地址栏中输入 https://r.jina.ai/,后面跟上想要转换的网页 URL。
- 提取网页内容: 直接使用requests请求这个地址,拿到Markdown格式的正文。例如:
https://r.jina.ai/https://www.baidu.com
,可以直接返回百度一下页面的内容 - 获取图片信息:输入图片地址:
https://r.jina.ai/https://www.clzg.cn/_nuxt/img/clzg_logo_white.0368241.png
,返回图片的名称,尺寸等信息。 - 提取PDF内容: 输入PDF地址:
https://r.jina.ai/https://arxiv.org/pdf/2312.10997.pdf
,能够直接提取pdf里的内容。