Add scraper to grab bits of text and style from www.d.o/CD/
[debian-cd-search.git] / find_file.cgi
1 #!/usr/bin/perl -w
2 #
3 # find_file.cgi
4 #
5 # Look through a provided database to find which CD/DVD image(s)
6 # contain a specified Debian package or source file.
7
8 # Copyright (c) 2011 Steve McIntyre <93sam@debian.org>
9
10 # This program is free software; you can redistribute it and/or modify
11 # it under the terms of the GNU General Public License as published by
12 # the Free Software Foundation; either version 2 of the License, or
13 # (at your option) any later version.
14 #
15 # This program is distributed in the hope that it will be useful,
16 # but WITHOUT ANY WARRANTY; without even the implied warranty of
17 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
18 # GNU General Public License for more details.
19 #
20 # You should have received a copy of the GNU General Public License
21 # along with this program; if not, write to the Free Software
22 # Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA
23
24 use strict;
25 use DB_File;
26 use CGI;
27
28 my $dbdir = "/home/steve/debian/debian-cd/search/search-db";
29 my $htmldir = "/home/steve/debian/debian-cd/html";
30 my $cdimage_url = "http://cdimage.debian.org/cdimage/";
31 my @AREAS;
32 my %num_files;
33 my %fileinfo;
34 my %imageinfo;
35 my %labels;
36 my $query_term;
37 my @results;
38 my @chosen_areas;
39 my $l = "";
40 my $max_count = 1000;
41 my $header1 = "";
42 my $header2 = "";
43 my $footer1 = "";
44 my $footer2 = "";
45
46 my $version = "0.3";
47 my $title_base = "Debian CD search engine";
48
49 my $q = new CGI;
50 my $mode = "none";
51 my $authorname = "Steve McIntyre";
52 my $authormail = '93sam@debian.org';
53
54 sub read_files ($) {
55     my $lang = shift;
56     
57     open IN, "<", "$htmldir/header1.$lang.html";
58     while(<IN>) { $header1 .= $_; }
59     close(IN);
60     open IN, "<", "$htmldir/header2.$lang.html";
61     while(<IN>) { $header2 .= $_; }
62     close(IN);
63     open IN, "<", "$htmldir/footer1.$lang.html";
64     while(<IN>) { $footer1 .= $_; }
65     close(IN);
66     open IN, "<", "$htmldir/footer2.$lang.html";
67     while(<IN>) { $footer2 .= $_; }
68     close(IN);
69 }
70
71 sub print_header () {
72     print $q->header;
73 }
74
75 sub print_html_header ($) {
76     my $title = shift;
77     print $q->start_html(
78         -title=>"$title",
79         -author=>"$authormail",
80         -style=>{'src'=>'http://www.debian.org/debian.css'},
81         );
82     print $header1;
83     print '<p id="breadcrumbs">cdimage-search.debian.org</p>';
84     print $header2;
85     print '<div id="maincol">';
86 }
87
88 sub print_footer () {
89     print $footer1;
90     print
91         $q->address("$title_base version $version\n"),
92         $q->address("$authorname &lt;$authormail&gt;\n"),
93         $q->hr;
94     print $footer2;
95     print '</div> <!-- end footer -->';
96 }
97
98 # Borrowed from Ikiwiki.pm
99 sub glob2re ($) {
100     my $re=quotemeta(shift);
101     $re=~s/\\\*/.*/g;
102     $re=~s/\\\?/./g;
103     return qr/^$re$/i;
104 }
105
106 sub read_text ($) {
107     my $filename = shift;
108     my $text = "no description";
109     if (-f $filename) {
110         open INFILE, "<", "$filename" || return $text;
111         $text = "";
112         while (<INFILE>) {
113             chomp;
114             $text .= $_;
115         }
116         close INFILE;
117     }
118     return $text;
119 }
120
121 sub log_error ($$) {
122     my $errornum = shift;
123     my $errortext = shift;
124
125     print_header();
126     print_html_header("$title_base");
127     print
128         $q->h1($title_base),
129         $q->p("Error: $errortext"),
130         $q->p("<a href=\"" . $q->url . "\">Search again.</a>");
131     print_footer();
132     print $q->end_html;
133     exit 0;
134 }
135
136 sub blank_form ($) {
137     my $error = shift;
138
139     print_header();
140     print_html_header("$title_base");
141     $q->autoEscape(undef);
142     print $q->h1("$title_base"), "\n";
143     print $q->p("This tool searches for specified file names contained in Debian CD/DVD images."), "\n";
144     print $q->p("Select which set(s) of images you wish to search:"), "\n";
145     print $q->start_form(-method=>"GET");
146     print $q->checkbox_group(-name=>'search_area',
147                              -values=>\@AREAS,
148                              -defaults=>['release'],
149                              -linebreak=>'true',
150                              -labels=>\%labels);
151     print $q->textfield(-name=>'query',
152                         -value=>'',
153                         -size=>50,
154                         -maxlength=>100);
155     print $q->submit(-name=>'Search',
156                      value=>'Search');
157     if (length($error)) {
158         print $q->p({-style=>'color: red'}, "ERROR: $error"), "\n";
159     }
160     print $q->p("Search terms should be in the form of shell globs (i.e. \"<i>cvs*deb</i>\" will match all files that start with <i>cvs</i> and end with <i>deb</i>. Exact lookups with no globbing will give much faster results!");
161     print $q->end_form;
162     print_footer();
163     print $q->end_html;
164     exit 0;
165 }
166
167 sub list_link ($) {
168     my $link = $cdimage_url . shift;
169     return $link;
170 }
171
172 sub iso_link ($) {
173     my $link = $cdimage_url . shift;
174     $link =~ s/list-/iso-/g;
175     $link =~ s/list\.gz$/iso/g;
176     return $link;
177 }
178
179 sub jigdo_link ($) {
180     my $link = $cdimage_url . shift;
181     $link =~ s/list-/jigdo-/g;
182     $link =~ s/list\.gz$/jigdo/g;
183     return $link;
184 }
185
186 sub pretty_name ($) {
187     my $name = shift;
188     $name =~ s/^.*\///g;
189     $name =~ s/\.list\.gz$//g;
190     return $name;
191 }    
192
193 read_files("en");
194 chdir($dbdir) || log_error(500, "Failed to cd to $dbdir: $!\n");
195 opendir(my $dh, ".") || log_error(500, "Failed to open $dbdir: $!\n");
196 while (defined($_ = readdir($dh))) {
197     m/(.*)\.db$/ and push(@AREAS, "$1");
198 }
199 closedir($dh);
200
201 foreach my $area(@AREAS) {
202     $labels{$area} = "$area (" . read_text("$area.text") . ")";
203 }
204
205 @chosen_areas = $q->param('search_area');
206 $query_term = $q->param('query');
207
208 # Check what we've been given, if anything
209 if ( (!@chosen_areas) && 
210      (!defined($query_term) || length($query_term) == 0)) {
211     blank_form("");
212 }
213
214 if (!(@chosen_areas) && defined($query_term)) {
215     blank_form("No search areas chosen");
216 }
217
218 if (@chosen_areas && 
219     (!defined($query_term) || length($query_term) == 0)) {
220     blank_form("No search terms entered");
221 }
222
223 my $count = 0;
224 my $re_search = glob2re($query_term);
225
226 # If we get here, we have stuff to work with. Yay!
227 foreach my $area (@chosen_areas) {
228     my $db_file_name = "$dbdir/$area.db";
229     $l .= "Looking in area $area, file $db_file_name<br>\n";
230     dbmopen(%fileinfo, "$db_file_name", 0000) ||
231         log_error(500, "Failed to open db file: $!\n");
232
233     if ($query_term =~ /[\*\?]/) {
234         # Will need to search through all the keys to allow for glob
235         foreach my $file (keys %fileinfo) {
236             if ($file =~ $re_search) {
237                 $count++;
238                 push(@results, "$file $fileinfo{$file}");
239                 if ($count >= $max_count) {
240                     last;
241                 }
242             }
243         }
244     } else {
245         # We've been given an exact name - do the exact key lookup \o/
246         if (defined($fileinfo{$query_term})) {
247             push (@results, "$query_term $fileinfo{$query_term}");
248             $count++;
249         }
250     }
251     if ($count >= $max_count) {
252         last;
253     }
254     dbmclose %fileinfo;
255 }
256
257 print_header();
258 print_html_header("$title_base: $count results");
259 print
260     $q->start_html("$title_base: $count results"),
261     $q->h1($title_base), "\n";
262 if ($count >= $max_count) {
263     print $q->p("More than $max_count results for \"$query_term\", showing the first $count only\n");
264 } else {   
265     print $q->p("$count result(s) for \"$query_term\"\n");
266 }
267 if ($count > 0) {
268     print "<ol>\n";
269     foreach my $result (sort (@results)) {
270         my($found, @list) = split(' ', $result);
271         print "<li> $found appears in:\n";
272         print "<ul>";
273         foreach my $image (sort(@list)) {
274             print "<li>" . pretty_name($image);
275             print " (<a href=\"" . list_link($image) . "\">list.gz</a> |";
276             print " <a href=\"" . jigdo_link($image) . "\">jigdo</a> |";
277             print " <a href=\"" . iso_link($image) . "\">iso</a>)";
278         }
279         print "</ul>";
280     }
281     print "</ol>";
282 }
283 print_footer();
284 print $q->end_html;