Decode HTML entities correctly.

[automanga.git] / manga / batoto.py
diff --git a/manga/batoto.py b/manga/batoto.py

index 5d6a47d..baa602f 100644 (file)
--- a/manga/batoto.py
+++ b/manga/batoto.py
@@ -1,6 +1,7 @@
  import urllib, re, BeautifulSoup
  import lib, htcache
  soup = BeautifulSoup.BeautifulSoup
+soupify = lambda cont: soup(cont, convertEntities=soup.HTML_ENTITIES)
  
  def byclass(el, name, cl):
      for ch in el.findAll(name):
@@ -28,7 +29,7 @@ class page(lib.page):
  
      def iurl(self):
          if self.ciurl is None:
-            page = soup(htcache.fetch(self.url))
+            page = soupify(htcache.fetch(self.url))
              img = nextel(page.find("div", id="full_image")).img
              self.ciurl = img["src"].encode("us-ascii")
          return self.ciurl
@@ -60,7 +61,7 @@ class chapter(lib.pagelist):
      pnre = re.compile(r"page (\d+)")
      def pages(self):
          if self.cpag is None:
-            pg = soup(htcache.fetch(self.url))
+            pg = soupify(htcache.fetch(self.url))
              cpag = []
              for opt in pg.find("select", id="page_select").findAll("option"):
                  url = opt["value"].encode("us-ascii")
@@ -94,7 +95,7 @@ class manga(lib.manga):
      cure = re.compile(r"/read/_/(\d+)/[^/]*")
      def ch(self):
          if self.cch is None:
-            page = soup(htcache.fetch(self.url))
+            page = soupify(htcache.fetch(self.url))
              cls = byclass(page, u"table", u"chapters_list")
              if cls.tbody is not None:
                  cls = cls.tbody
@@ -120,7 +121,7 @@ class manga(lib.manga):
  
      def altnames(self):
          if self.cnames is None:
-            page = soup(htcache.fetch(self.url))
+            page = soupify(htcache.fetch(self.url))
              cnames = None
              for tbl in page.findAll("table", attrs={"class": "ipb_table"}):
                  if tbl.tbody is not None: tbl = tbl.tbody
@@ -151,44 +152,20 @@ class library(lib.library):
  
      def byid(self, id):
          url = self.base + "comic/_/comics/" + id
-        page = soup(htcache.fetch(url))
+        page = soupify(htcache.fetch(url))
          title = page.find("h1", attrs={"class": "ipsType_pagetitle"})
          if title is None:
              raise KeyError(id)
          return manga(self, id, title.string.strip(), url)
  
-    mure = re.compile(r"/comic/_/comics/([^/]*)$")
-    def search(self, expr):
-        resp = urllib.urlopen(self.base + "forums/index.php?app=core&module=search&do=search&fromMainBar=1",
-                              urllib.urlencode({"search_term": expr, "search_app": "ccs:database:3"}))
-        try:
-            page = soup(resp.read())
-        finally:
-            resp.close()
-        none = page.find("p", attrs={"class": "no_messages"})
-        if none is not None and u"No results" in none.text:
-            return []
-        ret = []
-        for child in page.find("div", id="search_results").ol.childGenerator():
-            if isinstance(child, BeautifulSoup.Tag) and child.name == u"li":
-                info = child.find("div", attrs={"class": "result_info"})
-                url = info.h3.a["href"].encode("us-ascii")
-                m = self.mure.search(url)
-                if m is None: raise Exception("Got weird manga URL: %r" % url)
-                id = m.group(1)
-                name = info.h3.a.string.strip()
-                ret.append(manga(self, id, name, url))
-        return ret
-
-    rure = re.compile(r"/comic/_/([^/]*)$")
-    def byname(self, prefix):
-        if not isinstance(prefix, unicode):
-            prefix = prefix.decode("utf8")
+    def _search(self, pars):
          p = 1
          while True:
-            resp = urllib.urlopen(self.base + "search?" + urllib.urlencode({"name": prefix.encode("utf8"), "name_cond": "s", "p": str(p)}))
+            _pars = dict(pars)
+            _pars["p"] = str(p)
+            resp = urllib.urlopen(self.base + "search?" + urllib.urlencode(_pars))
              try:
-                page = soup(resp.read())
+                page = soupify(resp.read())
              finally:
                  resp.close()
              rls = page.find("div", id="comic_search_results").table
@@ -197,6 +174,7 @@ class library(lib.library):
              hasmore = False
              for child in rls.findAll("tr"):
                  if child.th is not None: continue
+                if child.get("id", u"")[:11] == u"comic_rowo_": continue
                  if child.get("id") == u"show_more_row":
                      hasmore = True
                      continue
@@ -206,18 +184,29 @@ class library(lib.library):
                  if m is None: raise Exception("Got weird manga URL: %r" % url)
                  id = m.group(1)
                  name = link.text.strip()
-                if name[:len(prefix)].lower() != prefix.lower():
-                    m = manga(self, id, name, url)
-                    for aname in m.altnames():
-                        if aname[:len(prefix)].lower() == prefix.lower():
-                            name = aname
-                            break
-                    else:
-                        if False:
-                            print "eliding " + name
-                            print m.altnames()
-                        continue
                  yield manga(self, id, name, url)
              p += 1
              if not hasmore:
                  break
+
+    rure = re.compile(r"/comic/_/([^/]*)$")
+    def search(self, expr):
+        if not isinstance(expr, unicode):
+            expr = expr.decode("utf8")
+        return self._search({"name": expr.encode("utf8"), "name_cond": "c"})
+
+    def byname(self, prefix):
+        if not isinstance(prefix, unicode):
+            prefix = prefix.decode("utf8")
+        for res in self._search({"name": prefix.encode("utf8"), "name_cond": "s"}):
+            if res.name[:len(prefix)].lower() == prefix.lower():
+                yield res
+            else:
+                for aname in res.altnames():
+                    if aname[:len(prefix)].lower() == prefix.lower():
+                        yield manga(self, res.id, aname, res.url)
+                        break
+                else:
+                    if False:
+                        print "eliding " + res.name
+                        print res.altnames()