views:

205

answers:

3

I need to take an HTML page in Arabic and convert it to a PDF. itextsharp doesn't work. Here is some example HTML with Arabic in it.

<div>
    <table border="1" width="500px">
        <tr>
            <td colspan="2">
                aspdotnetcodebook
                اللغة العربية</td>
        </tr>
        <tr>
            <td>
                cell1
            </td>
            <td>
                cell2
            </td>
        </tr>
        <tr>
            <td colspan="2">
                <asp:Label ID="lblLabel" runat="server" 
                    Text=""></asp:Label>
                <img alt="" src="logo.gif" style="width: 174px; height: 40px" /></td>
        </tr>
        <tr>
            <td colspan="2" dir="rtl">
                <h1>
                    <img alt="" height="168" 
                        src="http://a.cksource.com/c/1/inc/img/demo-little-red.jpg" 
                        style="margin-left: 10px; margin-right: 10px; float: left;" width="120" />تحويل 
                    محتوى الى ملف بي دي اف</h1>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.
                    <a href="http://en.wikipedia.org/wiki/Brothers_Grimm"&gt;
                    الاخوان جريم/a> مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة 
                    التعلم بالبحث والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون 
                    ويريدون أن يتعلموا كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى 
                    عربي معاصر في الفكر والعلم والفنون والأداب بعيدا الكتابة الإبداعية. <a href="http://en.wikipedia.org/wiki/Hood_(headgear%2529" 
                        title="Hood (headgear)">ا</a><a 
                        href="http://en.wikipedia.org/wiki/Hood_(headgear%2529"&gt;لهودد&lt;/a&gt;
                    <a href="http://en.wikipedia.org/wiki/Cape" title="Cape">ك</a><a 
                        href="http://en.wikipedia.org/wiki/Cape"&gt;يب&lt;/a&gt; أو
                    <a href="http://en.wikipedia.org/wiki/Cloak" title="ويكيبيديا">ويكيبيديا</a> 
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية. .</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.
                    <a href="http://en.wikipedia.org/wiki/Hunter"&gt;الصياد&lt;/a&gt;, مجموعة المحتوى 
                    العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث والتعلم بالكتابة. 
                    المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا كيف يكتبون كتابة 
                    علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر والعلم والفنون 
                    والأداب بعيدا الكتابة الإبداعية. المحتوى العربي، تعنى بتطوير مهارة الكتابة 
                    وتتبنى فكرة التعلم بالبحث والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين 
                    يكتبون ويريدون أن يتعلموا كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج 
                    محتوى عربي معاصر في الفكر والعلم والفنون والأداب بعيدا الكتابة الإبداعية.</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.                         <a href="http://en.wikipedia.org/wiki/Enchanted_forest"&gt;الغابة&lt;/a&gt;, مجموعة 
                    المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث والتعلم 
                    بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا كيف 
                    يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية. </p>
            </td>
        </tr>
    </table>
</div>

i use itextsharp to convert this content which is stored in DB to pdf file to be downloaded to the user

A: 

do you have the c# code in hand? there is this online resource discussing how to use itextsharp to create PDF. is it a problem of characterset, font or right to left problem?

http://www.devshed.com/c/a/Java/Creating-Simple-PDF-Files-With-iTextSharp/

http://www.codeproject.com/KB/graphics/ITextSharpHelperClass.aspx

I hope it can help

A.Rashad
The question is not how to create a new PDF but how to convert HTML to PDF.
Darin Dimitrov
these examples are dealing with creating new documents and adding some elements as phrase or table or cell - i mean that i create and concatenate the document - item by item-but my case is differenti have the HTML content stored in DB - i retrieve it and display it on HTML pagealso i have ARABIC in the HTML which convert as an empty pdf
Mariam
A.Rashad
A: 

these examples are dealing with creating new documents and adding some elements as phrase or table or cell - i mean that i create and concatenate the document - item by item- but my case is different

i have the HTML content stored in DB - i retrieve it and display it on HTML page

also i have ARABIC in the HTML which convert as an empty pdf

i use asp.net with C# to convert this ARABIC HTML content to pdf i use itextsharp to achieve this

Mariam
Please use comments, not answers, to interact.
bmargulies
A: 

Apache PDFBox can do this, but perhaps not with the quality of rendering that you need. You might have to use Apache Tika to get the text out of the HTML, thus losing much of the format. In any case, I fear that sending you off down a path of various Java components won't float your boat, but it's the only code I know of for free that deals with RTL PDF files. Which does not mean that it's the only code that exists.

bmargulies