2014-02-25 12:00:01
来 源
itjs.cn
Apache
本文介绍Apache服务器页面url重写实现方式分析,希望对于初学Apache服务器相关的朋友有帮助,更多Apache安装、配置、报错处理等资源请本站内搜索。

Apache的重写模块使用了一个基于规则的重写引擎(基于一个正则表达式解析器)来重写要求的URL。它支持了一个无限数量的规则和对于每条规则的无限数量的附加规则条件来提供一个真正的灵活和强大的URL处理机制。

API阶段

Apache处理http请求在几个阶段,每个阶段apache的API都提供了钩子(hook)。重写模块使用了以下两种钩子:URL到文件名转换的钩子(在http request被读之后验证开始之前使用)和固定的钩子(在验证阶段和目录级配置文件.htaccess被读取之后触发,但是在内容处理被激活之前)。

一旦一个requset进入,并且apache已经确定适当的服务器(或者虚拟的服务器),重写引擎启动URL到文件名的转换,处理来自每个服务器配置的重写模块指令。许多步骤之后,当最终的数据目录被发现时,每个目录配置重写模块指令被触发在固定阶段。

规则集处理

在那两个API阶段,当重写模块被触发时,读取相关的来自配置结构(配置结构不是针对服务器级的上下文被创建在启动阶段就是针对目录级上下文在目录转换期间)的规则集。URL重写引擎以相关的规则集(一个或更多规则和他们的条件)开始,重写引擎的操作对所有的配置上下文都相同。只有最终的结果处理不同。

规则集中的规则的顺序是重要的,因为重写引擎处理他们以一种特别的(不总是明显的)顺序,如下:重写引擎循环穿过规则集(每个规则集由带有或没有带有RewriteCond的重写规则指令组成),一个规则接一个规则。当一个特定的规则被匹配的时候,重写模块也检查相应的情况(RewriteCond指令)。由于历史的原因,这种情况被优先,导致控制流很长。看到更多细节。

Apache的页面URL重写机制 - 在网一方 - 我就是我

如上,第一个URL匹配一个规则的模式。如果没有匹配,重写模块立刻停止处理那条规则,继续到下一条规则。如果模式匹配,重写模块检查规则的条件。如果没有,URL将会被新的字符串代替,从代替的字符串构造,重写模块继续下一条规则。

如果RewriteCond存在,一个内部循环开始,按照被列出的顺序来处理。条件不会直接地匹配当前的URL。通过扩展变量、背景参考、地图查找等构建出一个测试的字符串,检测CondPattern的匹配。如果模式匹配条件中的一个失败,整套结果集和相关的条件都失败。如果模式匹配一个给定的条件,那么匹配持续到下一个情况,直到没有更多的条件存在。如果所有的条件都匹配,代替URL的处理会持续。

(匹配URL会一条接一条按照规则去匹配,匹配完一条,匹配会更改URL,然后继续匹配下一条,如果规则带有RewriteCond,会生成测试字符串去匹配条件,如果有一个条件不匹配,则整个规则不匹配失败,只有所有条件都匹配,才处理)

反向引用表达式的可用性

使用圆括号在模式中或者一个CondPattern中会引起反向引用被内在地创建。为了创建代替字符串和TestString字符串,这些稍后能够使用$N和 %N字符串来被引用。试图显示后备表达式如何被转换通过处理后面的表达式

 Apache的页面URL重写机制 - 在网一方 - 我就是我

环境变量

这个模块会追踪两种另外的(非标准的)名为SCRIPT_URL 和 SCRIPT_URI 的CGI/SSI环境变量。这些包含逻辑的查看当前的资源的网页视图,当标准CGI/SSI变量SCRIPT_NAME 和 SCRIPT_FILENAME包含物理的系统视图

注意,这些变量控制URL/URI当他们被最初请求的时候,还句话说,在任何重写之前,。这是重要的注意,因为重写处理首先使用来重写逻辑的URL到物理的路径名。

基于重写的指令

描述:设置基本的URL来针对每个目录的重写

语法:基于重写的URL路径

上下文:目录,.htaccess

基于重写的指令明确地设置了每个目录重写的基本的URL。如同你将要看到的,重写规则能够被用在每个目录的配置文件中(.htaccess)。在这样的情况下,将局部地行动,在处理前玻璃本地目录前缀,对剩下的部分应用重写规则。当处理完成,前缀被自动地加上到路径中。

当为一个新的URL的替换发生时,重写模块必须重新注入URL到服务器处理中。为了做到这点,模块必须知道其对应的URL前缀或URL基准。默认地这个前缀是向广的文件路径自己。然而,大部分的网站的URL不是直接关联到物理文件名路径的,因此这个假定通常是错误的。因此,你能使用基于重写的指令来是定正确的URL前缀。

如果你的网站服务器的URL不是直接关联物理文件路径的,你将需要在每个希望使用重写规则指令的地方的.htaccess文件中使用基于重写的指令。

例如,目录级配置文件内容如下:

# /abc/def/.htaccess -- /abc/def 目录的配置文件

# 注意:/abc/def 是 /xyz 的物理路径(例如存在一条'Alias /xyz /abc/def'指令)。

RewriteEngine On

# 让服务器知道我们使用的是 /xyz 而不是物理路径 /abc/def

RewriteBase   /xyz

# 重写规则

RewriteRule   ^oldstuff.html$  newstuff.html

上述例子中,对/xyz/oldstuff.html的请求被正确地重写为对物理文件/abc/def/newstuff.html的请求。

仅供Apache Hacker们参考

以下列出了内部处理的详细步骤:

请求:

/xyz/oldstuff.html

内部处理过程:

/xyz/oldstuff.html     -> /abc/def/oldstuff.html  (per-server Alias)

/abc/def/oldstuff.html -> /abc/def/newstuff.html  (per-dir    RewriteRule)

/abc/def/newstuff.html -> /xyz/newstuff.html      (per-dir    RewriteBase)

/xyz/newstuff.html     -> /abc/def/newstuff.html  (per-server Alias)

结果:

/abc/def/newstuff.html

虽然这个过程看来很繁复,但是由于目录级重写的到来时机已经太晚了,它不得不把这个(重写)请求重新注入到Apache核心中,所以Apache内部确实是这样处理的。但是:它的开销并不象看起来的那样大,因为重新注入完全在Apache服务器内部进行,而且这样的过程在Apache内部也为其他许多操作所使用。所以,你可以充分信任其设计和实现是正确的。

RewriteCond指令

RewriteCond指令定义规则生效条件。一个或多个RewriteCond指令能够先于RewriteRule指令。以下的规则仅仅在所有的当前URI匹配其模式并且满足TestString能够与CondPattern匹配的情况下使用。

TestString是一个包含以下可扩展成分的字符串:

RewriteRule反向引用 ,引用方法是:

$N

(0 <= N <= 9)引用当前(带有若干RewriteRule指令的)RewriteCond中的与Pattern匹配的分组成分(圆括号!)。

RewriteCond反向引用 ,引用方法是:

%N

(1 <= N <= 9)引用当前若干RewriteCond条件中最后符合的条件中的分组成分(圆括号!)。

RewriteMap扩展 ,引用方法是:

${mapname:key|default}

细节请参见RewriteMap 指令。

服务器变量 ,引用方法是:

%{NAME_OF_VARIABLE}

NAME_OF_VARIABLE可以是下表列出的字符串之一:

HTTP头 连接与请求 

HTTP_USER_AGENT

HTTP_REFERER

HTTP_COOKIE

HTTP_FORWARDED

HTTP_HOST

HTTP_PROXY_CONNECTION

HTTP_ACCEPT

连接与请求

REMOTE_ADDR

REMOTE_HOST

REMOTE_PORT

REMOTE_USER

REMOTE_IDENT

REQUEST_METHOD

SCRIPT_FILENAME

PATH_INFO

QUERY_STRING

AUTH_TYPE

服务器自身

DOCUMENT_ROOT

SERVER_ADMIN

SERVER_NAME

SERVER_ADDR

SERVER_PORT

SERVER_PROTOCOL

SERVER_SOFTWARE

日期和时间

TIME_YEAR

TIME_MON

TIME_DAY

TIME_HOUR

TIME_MIN

TIME_SEC

TIME_WDAY

TIME

其它

API_VERSION

THE_REQUEST

REQUEST_URI

REQUEST_FILENAME

IS_SUBREQ

HTTPS

这些变量都对应于类似命名的HTTP MIME头、Apache服务器的C变量、Unix系统中的struct tm字段,其中的大多数在其他的手册或者CGI规范中都有说明。 其中为mod_rewrite所特有的变量如下:

IS_SUBREQ

如果正在处理的请求是一个子请求,它将包含字符串"true",否则就是"false"。模块为了解析URI中的附加文件,可能会产生子请求。

API_VERSION

这是正在使用中的Apache模块API(服务器和模块之间内部接口)的版本, 其定义位于include/ap_mmn.h中。此模块API版本对应于正在使用的Apache的版本(比如在Apache 1.3.14的发行版中这个值是19990320:10)。 通常,对它感兴趣的是模块的开发者。

THE_REQUEST

这是由浏览器发送的完整的HTTP请求行(比如:"GET /index.html HTTP/1.1")。它不包含任何浏览器发送的其它头信息。

REQUEST_URI

这是在HTTP请求行中所请求的资源(比如上述例子中的"/index.html")。

REQUEST_FILENAME

这是与请求相匹配的完整的本地文件系统的文件路径名。

HTTPS

如果连接使用了SSL/TLS,它将包含字符串"on",否则就是"off"(无论mod_ssl是否已经加载,该变量都可以安全的使用)。

其它注意事项:

1、SCRIPT_FILENAME和REQUEST_FILENAME包含的值是相同的——即Apache服务器内部的request_rec结构中的filename字段。 第一个就是大家都知道的CGI变量名,而第二个则是REQUEST_URI(request_rec结构中的uri字段)的一个副本。

2、特殊形式:%{ENV:variable} ,其中的variable可以是任意环境变量。它是通过查找Apache内部结构或者(如果没找到的话)由Apache服务器进程通过getenv()得到的。

3、特殊形式:%{SSL:variable} ,其中的variable可以是一个SSL环境变量的名字,无论mod_ssl模块是否已经加载都可以使用(未加载时为空字符串)。比如:%{SSL:SSL_CIPHER_USEKEYSIZE}将会被替换为128。

4、特殊形式:%{HTTP:header} ,其中的header可以是任意HTTP MIME头的名称。它总是可以通过查找HTTP请求而得到。比如:%{HTTP:Proxy-Connection}将被替换为Proxy-Connection:HTTP头的值。

5、预设形式:%{LA-U:variable} ,variable的最终值在执行一个内部(基于URL的)子请求后确定。 当需要使用一个目前未知但是会在之后的过程中设置的变量的时候,就可以使用这个方法。

例如,需要在服务器级配置(httpd.conf文件)中根据REMOTE_USER变量进行重写, 就必须使用%{LA-U:REMOTE_USER}。因为此变量是由URL重写(mod_rewrite)步骤之后的认证步骤设置的。 但是另一方面,因为mod_rewrite是通过API修正步骤来实现目录级(.htaccess文件)配置的, 而认证步骤先于API修正步骤,所以可以用%{REMOTE_USER}。

6、预设形式:%{LA-F:variable} ,variable的最终值在执行一个内部(基于文件名的)子请求后确定。 大多数情况下和上述的LA-U是相同的。

CondPattern是条件模式,一个被应用到当前TestString实力的正则表达式。TestString在被匹配CondPattern之前被首先计算。

注意:CondPattern是一个perl兼容的正则表达式,但是还有若干增补:

1、可以在CondPattern串的开头使用'!'(惊叹号)来指定不匹配。

2、CondPatterns有若干特殊的变种。除了正则表达式的标准用法,还有下列用法:

'<CondPattern'(词典顺序的小于)

将CondPattern视为纯字符串,与TestString按词典顺序进行比较。如果TestString小于CondPattern则为真。

'>CondPattern'(词典顺序的大于)

将CondPattern视为纯字符串,与TestString按词典顺序进行比较。如果TestString大于CondPattern则为真。

'=CondPattern'(词典顺序的等于)

将CondPattern视为纯字符串,与TestString按词典顺序进行比较。如果TestString等于CondPattern(两个字符串逐个字符地完全相等)则为真。如果CondPattern是""(两个双引号),则TestString将与空字符串进行比较。

'-d'(目录)

将TestString视为一个路径名并测试它是否为一个存在的目录。

'-f'(常规文件)

将TestString视为一个路径名并测试它是否为一个存在的常规文件。

'-s'(非空的常规文件)

将TestString视为一个路径名并测试它是否为一个存在的、尺寸大于0的常规文件。

'-l'(符号连接)

将TestString视为一个路径名并测试它是否为一个存在的符号连接。

'-x'(可执行)

将TestString视为一个路径名并测试它是否为一个存在的、具有可执行权限的文件。该权限由操作系统检测。

'-F'(对子请求存在的文件)

检查TestString是否为一个有效的文件,而且可以在服务器当前的访问控制配置下被访问。它使用一个内部子请求来做检查,由于会降低服务器的性能,所以请谨慎使用!

'-U'(对子请求存在的URL)

检查TestString是否为一个有效的URL,而且可以在服务器当前的访问控制配置下被访问。它使用一个内部子请求来做检查,由于会降低服务器的性能,所以请谨慎使用!

注意

所有这些测试都可以用惊叹号作前缀('!')以实现测试条件的反转。

3、还可以在CondPattern之后追加特殊的标记[flags]作为RewriteCond指令的第三个参数。flags是一个以逗号分隔的以下标记的列表:

'nocase|NC'(忽略大小写)

它使测试忽略大小写,扩展后的TestString和CondPattern中'A-Z' 和'a-z'是没有区别的。此标记仅用于TestString和CondPattern的比较,而对文件系统和子请求的检查不起作用。

'ornext|OR'(或下一条件)

它以OR方式组合若干规则的条件,而不是隐含的AND。典型的例子如下:

RewriteCond %{REMOTE_HOST}  ^host1.*  [OR]

RewriteCond %{REMOTE_HOST}  ^host2.*  [OR]

RewriteCond %{REMOTE_HOST}  ^host3.*

RewriteRule ... 针对这3个主机的规则集 ...

如果不用这个标记,你就必须要书写三次条件/规则对。

举例

如果要按请求头中的"User-Agent:"重写一个站点的主页,可以这样写:

RewriteCond  %{HTTP_USER_AGENT}  ^Mozilla.*

RewriteRule  ^/$                 /homepage.max.html  [L]

RewriteCond  %{HTTP_USER_AGENT}  ^Lynx.*

RewriteRule  ^/$                 /homepage.min.html  [L]

RewriteRule  ^/$                 /homepage.std.html  [L]

解释:如果你使用的浏览器识别标志是'Mozilla',则你将得到内容最大化的主页(含有Frames等等)。如果你使用的是(基于终端的)Lynx,则你得到的是内容最小化的主页(不含table等等)。如果上述条件都不满足(使用的是其他浏览器),则你得到的是一个标准的主页。

RewriteRule指令

RewriteRule指令是重写引擎的根本。此指令可以多次使用。每个指令定义一个简单的重写规则。这些规则的定义顺序尤为重要——在运行时,规则是按这个顺序逐一生效的。

Pattern是一个作用于当前URL的perl兼容的正则表达式。"当前URL"是指该规则生效时刻的URL的值。它可能与被请求的URL截然不同,因为其他规则可能在此之前已经发生匹配并对它做了改动。

重写规则中的Substitution是当原始URL与Pattern相匹配时,用来替代(或替换)的字符串。除了纯文本,还可以包含:

对Pattern的反向引用($N)

对最后匹配的RewriteCond的反向引用(%N)

规则条件测试字符串(%{VARNAME})中的服务器变量

映射函数调用(${mapname:key|default})

反向引用的$N(N=0..9)是指用Pattern匹配的第N组的内容去替换URL。服务器变量与RewriteCond指令的TestString相同。映射函数由RewriteMap指令决定,其说明也参见该指令。这三种类型变量按上面列表中的顺序被展开。

如上所述,所有的重写规则都是按配置文件中的定义顺序作用于Substitution的。URL被Substitution完全替换,并继续处理直到所有规则处理完毕,除非用L标记显式地终结(见下文)。

'-'是一个特殊的替换串,意思是不替换。它可以用于仅仅匹配某些URL而无须替换的情况,比如,在发生替换前,允许以C(chain)标记连接的多个匹配模式同时起作用。

此外,在Substitution之后还可以追加[flags]标记作为RewriteRule指令的第三个参数。Flags是一个包含以逗号分隔的下列标记的列表:

'chain|C'(链接下一规则)

此标记使当前规则与下一个规则相链接。它产生这样的效果:如果一个规则被匹配,则继续处理其后继规则,也就是这个标记不起作用;如果该规则不被匹配,则其后继规则将被跳过。比如,在一个目录级规则中执行一个外部重定向时,你可能需要删除".www"(此处不应该出现".www")。

'cookie|CO=NAME:VAL:domain[:lifetime[:path]]'(设置cookie)

在客户端设置一个cookie。cookie的名称是NAME,值是VAL。domain是该cookie的域,比如'.apache.org',可选的lifetime是cookie的有效期(分钟),可选的path是cookie的路径。

'env|E=VAR:VAL'(设置环境变量)

此标记将环境变量VAR的值为VAL,VAL可以包含可扩展的正则表达式反向引用($N和%N)。此标记可以多次使用以设置多个变量。这些变量可以在其后许多情况下被间接引用,通常是在XSSI(<!--#echo var="VAR"-->)或CGI($ENV{'VAR'})中,也可以在后继的RewriteCond指令的CondPattern参数中通过%{ENV:VAR}引用。使用它可以记住从URL中剥离的信息。

'forbidden|F'(强制禁止URL)

强制禁止当前URL,也就是立即反馈一个HTTP响应码403(被禁止的)。使用这个标记,可以链接若干个RewriteConds来有条件地阻塞某些URL。

'gone|G'(强制废弃URL)

强制当前URL为已废弃,也就是立即反馈一个HTTP响应码410(已废弃的)。使用这个标记,可以标明页面已经被废弃而不存在了。

'handler|H=Content-handler'(强制指定内容处理器)

强自制定目标文件的内容处理器为Content-handler。例如,用来模拟mod_alias模块的ScriptAlias指令,以强制映射文件夹内的所有文件都由"cgi-script"处理器处理。

'last|L'(结尾规则)

立即停止重写操作,并不再应用其他重写规则。它对应于Perl中的last命令或C语言中的break命令。这个标记用于阻止当前已被重写的URL被后继规则再次重写。例如,使用它可以重写根路径的URL('/')为实际存在的URL(比如:'/e/www/')。

'next|N'(从头再来)

重新执行重写操作(从第一个规则重新开始)。此时再次进行处理的URL已经不是原始的URL了,而是经最后一个重写规则处理过的URL。它对应于Perl中的next命令或C语言中的continue命令。此标记可以重新开始重写操作(立即回到循环的开头)。但是要小心,不要制造死循环!

'nocase|NC'(忽略大小写)

它使Pattern忽略大小写,也就是在Pattern与当前URL匹配时,'A-Z'和'a-z'没有区别。

'noescape|NE'(在输出中不对URI进行转义)

此标记阻止mod_rewrite对重写结果应用常规的URI转义规则。 一般情况下,特殊字符('%', '$', ';'等)会被转义为等值的十六进制编码('%25', '%24', '%3B'等)。此标记可以阻止这样的转义,以允许百分号等符号出现在输出中,比如:

RewriteRule /foo/(.*) /bar?arg=P1%3d$1 [R,NE]

可以使'/foo/zed转向到一个安全的请求'/bar?arg=P1=zed'。

'nosubreq|NS'(不对内部子请求进行处理)

在当前请求是一个内部子请求时,此标记强制重写引擎跳过该重写规则。比如,在mod_include试图搜索目录默认文件(index.xxx)时,Apache会在内部产生子请求。对于子请求,重写规则不一定有用,而且如果整个规则集都起作用,它甚至可能会引发错误。所以,可以用这个标记来排除某些规则。

使用原则:如果你为URL添加了CGI脚本前缀,以强制它们由CGI脚本处理,但对子请求处理的出错率(或者资源开销)很高,在这种情况下,可以使用这个标记。

'proxy|P'(强制为代理)

此标记使替换成分被内部地强制作为代理请求发送,并立即中断重写处理,然后把处理移交给mod_proxy模块。你必须确保此替换串是一个能够被mod_proxy处理的有效URI(比如以http://hostname开头),否则将得到一个代理模块返回的错误。使用这个标记,可以把某些远程成分映射到本地服务器域名空间,从而增强了ProxyPass指令的功能。

注意:要使用这个功能,必须已经启用了mod_proxy模块。

'passthrough|PT'(移交给下一个处理器)

此标记强制重写引擎将内部request_rec结构中的uri字段设置为filename字段的值,这个小小的修改使得RewriteRule指令的输出能够被(从URI转换到文件名的)Alias, ScriptAlias, Redirect等指令进行后续处理[原文:This flag is just a hack to enable post-processing of the output of RewriteRule directives, using Alias, ScriptAlias, Redirect, and other directives from various URI-to-filename translators.]。举一个能说明其含义的例子: 如果要将/abc重写为/def, 然后再使用mod_alias将/def转换为/ghi,可以这样:

RewriteRule ^/abc(.*) /def$1 [PT]

Alias /def /ghi

如果省略了PT标记,虽然将uri=/abc/...重写为filename=/def/...的部分运作正常,但是后续的mod_alias在试图将URI转换到文件名时会遭遇失效。

注意:如果需要混合使用多个将URI转换到文件名的模块时,就必须使用这个标记。。此处混合使用mod_alias和mod_rewrite就是个典型的例子。

'qsappend|QSA'(追加查询字符串)

此标记强制重写引擎在已有的替换字符串中追加一个查询字符串,而不是简单的替换。如果需要通过重写规则在请求串中增加信息,就可以使用这个标记。

'redirect|R [=code]'(强制重定向)

若Substitution以http://thishost[:thisport]/(使新的URL成为一个URI)开头,可以强制性执行一个外部重定向。如果没有指定code,则产生一个HTTP响应码302(临时性移动)。如果需要使用在300-400范围内的其他响应代码,只需在此指定即可(或使用下列符号名称之一:temp(默认), permanent, seeother)。使用它可以把规范化的URL反馈给客户端,如将"/~"重写为"/u/",或始终对/u/user加上斜杠,等等。

注意:在使用这个标记时,必须确保该替换字段是一个有效的URL。否则,它会指向一个无效的位置!并且要记住,此标记本身只是对URL加上http://thishost[:thisport]/前缀,重写操作仍然会继续进行。通常,你还会希望停止重写操作而立即重定向,那么就还需要使用'L'标记。

'skip|S=num'(跳过后继规则)

此标记强制重写引擎跳过当前匹配规则之后的num个规则。它可以模拟if-then-else结构:最后一个规则是then从句,而被跳过的skip=N个规则是else从句。注意:它和'chain|C'标记是不同的!

'type|T=MIME-type'(强制MIME类型)

强制目标文件的MIME类型为MIME-type,可以用来基于某些特定条件强制设置内容类型。比如,下面的指令可以让.php文件在以.phps扩展名调用的情况下由mod_php按照PHP源代码的MIME类型(application/x-httpd-php-source)显示:

RewriteRule ^(.+.php)s$ $1 [T=application/x-httpd-php-source]

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。