don't disable use of deprecated APIs unless asked to do so. add Meta case
[vte.git] / src / vteregex.c
1 /*
2  * Copyright (C) 2003 Red Hat, Inc.
3  *
4  * This is free software; you can redistribute it and/or modify it under
5  * the terms of the GNU Library General Public License as published by
6  * the Free Software Foundation; either version 2 of the License, or
7  * (at your option) any later version.
8  *
9  * This program is distributed in the hope that it will be useful, but
10  * WITHOUT ANY WARRANTY; without even the implied warranty of
11  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
12  * General Public License for more details.
13  *
14  * You should have received a copy of the GNU Library General Public
15  * License along with this program; if not, write to the Free Software
16  * Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
17  */
18
19 #ident "$Id$"
20 #include "../config.h"
21 #include <sys/types.h>
22 #include <errno.h>
23 #include <limits.h>
24 #include <string.h>
25 #include <unistd.h>
26 #include <glib.h>
27
28 #include "vteregex.h"
29
30 #if defined(USE_GNU_REGEX)
31 #include <regex.h>
32 #elif defined(USE_PCRE)
33 #include <pcre.h>
34 #else
35 #include <regex.h>
36 #endif
37
38 static gint
39 compare_matches(gconstpointer a, gconstpointer b)
40 {
41         const struct _vte_regex_match *A, *B;
42         A = a;
43         B = b;
44         if (B->rm_so != A->rm_so) {
45                 return B->rm_so - A->rm_so;
46         }
47         return B->rm_eo - A->rm_eo;
48 }
49
50 /* Sort match structures first by starting position, and then by ending
51  * position.  We do this because some expression matching APIs sort their
52  * results differently, or just plain don't sort them. */
53 static void
54 _vte_regex_sort_matches(struct _vte_regex_match *matches, gsize n_matches)
55 {
56         GArray *array;
57         if (n_matches <= 1) {
58                 return;
59         }
60         array = g_array_new(0, 0, sizeof(struct _vte_regex_match));
61         g_array_append_vals(array, matches, n_matches);
62         g_array_sort(array, compare_matches);
63         memmove(matches, array->data,
64                 n_matches * sizeof(struct _vte_regex_match));
65         g_array_free(array, TRUE);
66 }
67
68 #if defined(USE_GNU_REGEX)
69
70 /* GNU regex-based matching.  The GNU regex library also provides POSIX
71  * workalikes, so I don't see much of a win from using this chunk of code. */
72
73 struct _vte_regex {
74         struct re_pattern_buffer buffer;
75 };
76
77 struct _vte_regex *
78 _vte_regex_compile(const char *pattern)
79 {
80         struct _vte_regex *ret;
81         const char *res;
82
83         ret = g_malloc0(sizeof(struct _vte_regex));
84         res = re_compile_pattern(pattern, strlen(pattern), &ret->buffer);
85         if (res != NULL) {
86                 g_free(ret);
87                 return NULL;
88         }
89         return ret;
90 }
91
92 void
93 _vte_regex_free(struct _vte_regex *regex)
94 {
95         regfree(&regex->buffer);
96         g_free(regex);
97 }
98
99 int
100 _vte_regex_exec(struct _vte_regex *regex, const char *string,
101                 gsize nmatch, struct _vte_regex_match *matches)
102 {
103         struct re_registers registers;
104         int i, length, ret;
105
106         length = strlen(string);
107         registers.num_regs = 0;
108         registers.start = NULL;
109         registers.end = NULL;
110         ret = re_search(&regex->buffer,
111                         string, length,
112                         0, length - 1,
113                         &registers);
114         if (ret >= 0) {
115                 for (i = 0; i < nmatch; i++) {
116                         matches[i].rm_so = -1;
117                         matches[i].rm_eo = -1;
118                 }
119                 for (i = 0; (i < nmatch) && (i < registers.num_regs); i++) {
120                         matches[i].rm_so = registers.start[i];
121                         matches[i].rm_eo = registers.end[i];
122                 }
123                 if ((i == nmatch) || (matches[i].rm_so == -1)) {
124                         _vte_regex_sort_matches(matches, i);
125                 }
126         }
127         if (ret >= 0) {
128                 return 0;
129         }
130         return -1;
131 }
132
133 #elif defined(USE_PCRE)
134
135 /* PCRE-based matching.  In addition to not being "real" regexps, I'm seeing
136  * problems matching non-ASCII portions of UTF-8 strings, even when compiling
137  * the pattern with UTF-8 support enabled. */
138
139 struct _vte_regex {
140         pcre *pcre;
141         pcre_extra *extra;
142 };
143
144 struct _vte_regex *
145 _vte_regex_compile(const char *pattern)
146 {
147         struct _vte_regex *ret;
148         const char *err;
149         int err_offset;
150
151         ret = g_malloc(sizeof(struct _vte_regex));
152
153         ret->pcre = pcre_compile(pattern, PCRE_UTF8, &err, &err_offset, NULL);
154         if (ret->pcre == NULL) {
155                 g_free(ret);
156                 return NULL;
157         }
158
159         ret->extra = pcre_study(ret->pcre, 0, &err);
160         if (ret->extra == NULL) {
161                 pcre_free(ret->pcre);
162                 g_free(ret);
163                 return NULL;
164         }
165
166         return ret;
167 }
168
169 void
170 _vte_regex_free(struct _vte_regex *regex)
171 {
172         pcre_free(regex->pcre);
173         pcre_free(regex->extra);
174         g_free(regex);
175 }
176
177 int
178 _vte_regex_exec(struct _vte_regex *regex, const char *string,
179                 gsize nmatch, struct _vte_regex_match *matches)
180 {
181         int i, n_matches, *ovector, ovector_length, length;
182
183         for (i = 0; i < nmatch; i++) {
184                 matches[i].rm_so = -1;
185                 matches[i].rm_eo = -1;
186         }
187
188         length = strlen(string);
189         ovector_length = 3 * (length + 1);
190         ovector = g_malloc(sizeof(int) * ovector_length);
191
192         i = pcre_exec(regex->pcre, regex->extra, string, length,
193                       0, 0, ovector, ovector_length);
194
195         if (i < 0) {
196                 g_free(ovector);
197                 return -1;
198         }
199
200         n_matches = i;
201         while (i > 0) {
202                 i--;
203                 if (i < nmatch) {
204                         matches[i].rm_so = ovector[i * 2];
205                         matches[i].rm_eo = ovector[i * 2 + 1];
206                 }
207         }
208         _vte_regex_sort_matches(matches, n_matches);
209
210         return 0;
211 }
212
213 #else
214
215 /* Ah, POSIX regex.  Kind of clunky, but I don't have anything better to
216  * suggest.  Better still, it works on my machine. */
217
218 struct _vte_regex {
219         regex_t posix_regex;
220 };
221
222 struct _vte_regex *
223 _vte_regex_compile(const char *pattern)
224 {
225         struct _vte_regex *ret;
226         int i;
227
228         ret = g_malloc(sizeof(struct _vte_regex));
229         i = regcomp(&ret->posix_regex, pattern, REG_EXTENDED);
230         if (i != 0) {
231                 g_free(ret);
232                 return NULL;
233         }
234         return ret;
235 }
236
237 void
238 _vte_regex_free(struct _vte_regex *regex)
239 {
240         regfree(&regex->posix_regex);
241         g_free(regex);
242 }
243
244 int
245 _vte_regex_exec(struct _vte_regex *regex, const char *string,
246                 gsize nmatch, struct _vte_regex_match *matches)
247 {
248         regmatch_t *posix_matches;
249         int i, ret;
250
251         posix_matches = g_malloc(nmatch * sizeof(regmatch_t));
252         ret = regexec(&regex->posix_regex, string, nmatch, posix_matches, 0);
253         if (ret == 0) {
254                 for (i = 0; i < nmatch; i++) {
255                         matches[i].rm_so = -1;
256                         matches[i].rm_eo = -1;
257                 }
258                 for (i = 0; i < nmatch; i++) {
259                         matches[i].rm_so = posix_matches[i].rm_so;
260                         matches[i].rm_eo = posix_matches[i].rm_eo;
261                         if (matches[i].rm_so == -1) {
262                                 _vte_regex_sort_matches(matches, i);
263                                 break;
264                         }
265                 }
266         }
267         g_free(posix_matches);
268         if (ret == 0) {
269                 return 0;
270         }
271         return -1;
272 }
273
274 #endif